@eau-pression La difficulté n’est pas technique, mais métier, pour la pertinence du choix de la clé (ou des clés).
Sans trop connaître le sujet, je dirais qu’il faut détecter les doublons selon une clé : nom/prénom + date naissance + code_lieu_naissance [+ date_deces + lieu_deces]. Si l’on ne prend que les 3 premiers champs, que risque-t-on de louper ? Des personnes de nom, prénom, date et lieu de naissance identiques, mais qui seraient décédées à des dates ou des lieux différents ? Quel cas réel vs quel cas d’absurdité administrative cela recouvre-t-il ? Des jumeaux homonymes ?
Par ailleurs, les erreurs sur les numéros d’actes mal retranscris, comptés comme des enregistrements différents alors qu’ils sont manifestement identiques (je suis sur ce point en désaccord avec Pemile), peut par exemple se produire pour le champ nom/prénom.
Peut-être faut-il donc passer plusieurs filtres correspondant à plusieurs clés combinant différemment les éléments fournis par l’INSEE.
Lesquels ont un sens ? Lesquels sont sans intérêt ?
Là s’arrête la science informatique pour laquelle l’expression de ces conditions, quelles qu’elles soient, n’est ni très différente ni très difficile à implémenter. Et là commence le « métier ». Que je n’ai pas. Raison pour laquelle je ne pourrai jamais affirmer avoir viré tous les doublons, si d’aventure la passion des fréquences statistiques me prenait.
C’est formellement gênant. Mais les ordres de grandeur de l’erreur relative pour 2019 et 2020 sont plutôt raisonnables (0,025% environ) : est-ce rédhibitoire pour analyser les données ?
PS : Je ne sais pas ce que vous avez avec cet Alcyon. Il a certes un peu cassé les pieds à Maître Huysmans lorsque ce dernier commit l’un de ses premiers articles à propos de l’INSEE, mais l’honneur fut lavé lorsque l’auteur somme toute un peu soupe-au-lait le vira de son antre. S’il vous obsède, vous pouvez le lire sur agoravox.tv, parfois.
@pemile De ce que je lis depuis plus d’un an sur ce site, le nettoyage n’est pas le style de Gruni (reconnaissons que la discute était vraiment hors sujet ; ici, au moins, on est davantage dans le ton).
Et Maître Huysmans de vouloir me convaincre qu’un pauvre tableur ne peut supporter plus de 2^20 lignes, alors que je venais juste d’en importer 2 x 625000 (décès 2019 et 2020) !
Je ne comprends toujours pas ses menoules autour des doublons : dans n’importe quel flot de données un peu conséquent, il y a du nettoyage à faire. Je ne suis pas spécialiste SQL, mais un select distinctcol1, col2, col3(...) c’est pas la mer à boire, non plus.
Toujours dans le sujet : la statistique contrefactuelle soulevée par Chaussisse au un peu plus haut au travers de l’argumentaire d’Azx123 est source inépuisable de conclusions inédites. Ainsi, on pourrait argumenter avec la même logique qu’au regard de la spectaculaire baisse des accidents entre 2019 et 2020, les français sont devenus tellement prudents au volant que cela démontre bien l’inutilité totale du confinement en la matière
@KU-PEU-LA Ne le prenez pas mal, mais je ne comprends rien à ce que vous écrivez (et ce n’est pas la 1ere fois). Et arrête là la pollution de cet l’article. Au plaisir de se revoir sur un article plus en rapport.
@Philippe Huysmans, Complotologue Ah ben, puisqu’on en parle... revivifions cette défunte discussion.
@Pull en laine Ok, je te les donnes, tu les mets dans ton « tableur » et tu reviens me voir, plouc. Tu reviendras en pleurant « que ça marche pô ». Pour info la limite du nombre de lignes dans ton tableur c’est 1 048 576 (un peu court).
Je veux bien le croire et ne tenterai pas ainsi l’aventure pour l’ensemble des relevés depuis 1970. Mais importer et nettoyer les fichiers des décès 2019 et 2020 (2 x 625000 lignes environ, dans 2 feuilles différentes parce votre limite s’applique à cet élément : https://wiki.documentfoundation.org/Faq/Calc/022/fr) s’est fait en moins de 3 minutes. Avec un tableur. Je n’ai pas la prétention d’industrialiser le truc ; c’était simplement pour indiquer que l’outil et le concept étaient à la portée du pékin moyen (et des pékins moyens, ça foisonne sur internet, tant publier des photos sur instagram fait de vous un artiste accompli comme écrire sur un blog, un écrivain incontournable). En conséquence, pour un informaticien chevronné je ne vois toujours pas où est le scandale.
« Plouc », écrivez-vous. C’est censé être infamant ? Pas à dire, c’est un plaisir de discuter avec vous : sagesse pétrie d’humilité, toujours. Mettons que sur un forum on aime se donner en spectacle, avec les effets spéciaux qui vont avec. Du moins je l’espère, parce que si vous êtes ainsi dans la vie dès qu’on vous aborde, ça ne doit pas être reposant.
Elle est bien bonne, j’espère que ta banque ne gère pas tes transactions sur base de la même politique, eh ? et le « que sais-je », eh bien je ne te l’ai pas fait dire...
Si ma banque publiait en libre accès les données brutes de l’ensemble de ses transactions, doublons ou pas, j’en changerais illico. Comme quoi comparaison n’est pas raison.
Euh non, ils publient de la merde et ils le savent probablement depuis longtemps mais seraient un peu embêtés aux entournures de devoir le reconnaître publiquement. On en connaît d’autres... et nul besoin d’aller sur le site de l’INSEE pour le constater.
Mawéé, et pis il y a pas que le français, hein, le serbe c’est pas mal non plus. Et puis le vietnamien, le pachtoune... Déjà qu’ils n’en sortent pas avec l’Ascii, je crois qu’il vaut mieux garder cette excellente suggestion pour plus tard, disons dans deux ou trois siècles, quand ils auront surmonté leur petit retard technologique. L’ASCII étendu serait déjà un socle appréciable. D’autant que, légalement, M. Huysmans est-elle la même personne que M. Hüysmâns ?