@Philippe Huysmans, Complotologue Il me semble quand même que c’est toi qui avais suggéré cette idée à la con, et je t’avais dit que c’est 1024^2 le nombre max.
Non. J’ai simplement dit que détecter des doublons ne requérait pas en soi une technique d’avant-garde, puisqu’un simple tableur pouvait le faire. Je n’ai pas précisé sur quelle quantité de données.
Quant à votre limite pour un tableur, elle est fausse. A minima parce que je suis parvenu à importer 2x625000 lignes dans le même classeur (une année par feuille, 2019 et 2020). La limite que vous indiquez, c’est pour une feuille. Comme le classeur peut en contenir 1000 et que l’on par les années 70, c’est théoriquement possible.
Théoriquement, cela coincera lorsqu’on aura plus de 2^20-1 morts par an (mais on pourra alors découper en feuilles de 6 mois). Si ça se trouve, d’ici-là les tableurs auront évolué.
@eau-pression Dites-moi juste, vous êtes sérieux quand vous dites que les doublons ne
sont pas retirés pour qu’on ait les vraies données brutes, voire pour
qu’on puisse mesurer le défaut des données ?
À moitié.
De plus, je ne vois pas pourquoi l’INSEE organiserait sa propre concurrence. C’est leur métier de mettre en forme et d’analyser (ce qui implique nettoyer) ces données. D’autres veulent le faire ? Qu’il se farcissent l’ensemble du boulot, donc. Le côté challenge attire le chaland.
Au reste, cela leur procure une belle occupation, vu le nombre de messages propres à ce sujet. En cette morne époque de confinements et de couvre-feu, c’est plutôt salutaire.