La Magie s’explique toujours
...Même quand elle s'applique aux estimations particulièrement louches de précision lors des soirées électorales.
Bonjour à tous,
J'écris cet article en réponse à un autre article paru sur Avox ce mercredi, de Jean Mohamed De La Bastille, "Des résultats comme par magie ?".
Je vous invite à le lire, mais pour les plus pressés, l'auteur s'y étonne de la précision des estimations des résultats du 1er tour données dès 20h, alors beaucoup de bureau de vote ne ferment qu'a 20h et n'ont donc pas pu procéder au dépouillement. En toute honnêteté, l'auteur y fourni un lien vers les explications "officielles" qui, même s'il est pertinent, ne fournit pas l'explication centrale de ce tour de magie.
Et c'est normal, l'explication est mathématique, et personne n'aime les maths.
Je me propose ici de vous expliquer ce qu'est le "théorème central limite", en termes accessibles aux allergiques des équations.
Qu'est-ce que c'est que ce théorème ?
D'abord, c'est un truc de matheux connu depuis plus de 200 ans, et qu'on enseigne (ou du moins "enseignait à mon époque") en classe de terminale S. Bref, c'est pas un secret d'état.
Pour faire simple, c'est une loi d'approximation, démontrée, qui s'applique dans le cas suivant :
Supposons que vous ayez un phénomène A, totalement arbitraire et inconnu. Dans notre cas, A est "ce que vote un individu donné".
Supposons qu'a partir de ce phénomène A, on construise un phénomène B, qui ne soit jamais qu'une somme répétée de ce phénomène A. Dans notre cas, B est "le résultat de l'élection, qui n'est jamais que la somme de 40 millions de vote d'individus donnés".
Le théorème central limite nous dit que quelle que soit la règle que suit A, connue ou pas, régulière ou pas, la règle que suit B obéit à des caractéristiques très facilement identifiées et très facilement calculées, pour peu que B soit la somme de suffisamment d'occurences de A.
Concrètement, comment ça se matérialise ?
D'abord on pose un postulat : les bureaux de vote qui ferment à 20h n'ont pas de raison d'avoir des résultats différents des bureaux qui ferment à 18h.
Ensuite, on réalise que, au coeur d'un même bureau de vote, le vote dépouillé à 19h n'a pas de raison d'être différent de celui qui est dépouillé à 18h.
La méthode s'ensuit est simple : on disperse des observateurs dans les bureaux de vote qui commencent le dépouillement assez tôt, et ces observateurs remontent les résultats alors que le dépouillement n'est pas encore fini. Au niveau national, on récupère les 10 000 ou 100 000 premiers bulletins dépouillés, et on voit déjà s'il se dégage un vainqueur. Le théorème central limite permet d'évaluer la marge d'erreur de l'estimation. Si la marge d'erreur est inférieure aux écarts entre les candidats, on peut, qualitativement, donner les vainqueurs de l'élection sans attendre la fin.
A titre d'exemple, j'ai fait un petit programme qui simule l'élection qui a eut lieu (avec les résultats officiels, fournis par le ministère de l'intérieur, pas par la SOFRES), puis j'ai comparé avec un dépouillage partiel de cette élection simulée, sur des bulletins pris au hasard.
Les résultats sont assez bluffant :
En ne prenant qu'un échantillon de 10 000 bulletins :
Sur 100 essais, la simulation n'a rendu qu'une seule fois une erreur sur les 2 gagnants, ordre compris.
Sur les 3eme et 4eme place, rien de clair ne se dégage (ce qui est normal, vu que Fillon et Mélenchon ont eu des scores finaux très proches).
Quelque soit le candidat, la marge d'erreur du dépouillement partiel atteint très rarement 1%.
En ne prenant qu'un échantillon de 100 000 bulletins :
Sur 100 essais, la simulation rend toujours les 4 premiers dans le bon ordre. Avec un écart de score final qui ne dépasse jamais 0.4%
Ces résultats, que j'ai mesuré empiriquement, peuvent se calculer précisemment à l'avance par des statisticiens plus doués que moi (je l'avoue, mes années de matheux sont trop loin, mais mes années d'informatique sont plus proches :).
Le tour de magie de la Sofres (ou Ipsos, ou je ne sais quel institut de sondage) consiste juste à avoir mis la main sur les 100 000 premiers bulletins dépouillés et remarqué qu'avec juste ces 100 000, on avait déjà 2 candidats qui devançaient les autres de plus d'1 point. Quand on sait que, sur un tel échantillon, la marge d'erreur est inférieure à 0.4%, on peut claironner à 20h sur un résultat extrèmement précis sans crainte de se tromper.
En espérant n'avoir pas été trop indigeste,
Bonne continuation à vous
17 réactions à cet article
Ajouter une réaction
Pour réagir, identifiez-vous avec votre login / mot de passe, en haut à droite de cette page
Si vous n'avez pas de login / mot de passe, vous devez vous inscrire ici.
FAIRE UN DON