Peut-on quantifier la pertinence des sondages ?

On a beaucoup parlé des « redressements » sur les sondages de premier tour. Pourtant, lorsqu’on se penche sur les sondages sur le deuxième tour, on voit également certaines bizarreries. Sur le site d’Ipsos, on peut lire que la marge d’erreur des sondages présidentiels actuels est d’environ 3 à 4 points. Qu’est-ce que cela signifie ? L’observation des évolutions des sondages sur le site IPSOS est-elle compatible avec cette marge d’erreur ?

Tout sondage, toute mesure sur un échantillon statistique comporte ce qu’on appelle une marge d’erreur. Celle-ci est une propriété intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d’erreur intrinsèque. Différentes enquêtes, faites sur le même échantillon au même moment, vont donner des résultats différents. Si on fait de nombreuses fois cette mesure, on va voir que les résultats s’échelonnent autour d’une valeur moyenne, sur un intervalle dont la grandeur est de l’ordre de cette marge d’erreur. Donc théoriquement, si on sonde une population votant à 53% pour un candidat, la plupart des résultats des sondages devraient s’échelonner entre 50% et 56% environ. Mais le fait important est que même si toutes les enquêtes sont faites parfaitement, il y aura toujours des sondages qui devraient donner des écarts significatifs (pour les médias, c’est-à-dire au moins de l’ordre de 2%) entre la réalité et le résultat des sondages.

Début mars, IPSOS a lancé un outil terrible : il s’agissait de fournir un sondage présidentiel par jour. Aujourd’hui, on a suffisamment de données pour pouvoir faire une petite étude statistique assez rudimentaire des données d’IPSOS (pour voir une étude similaire sur d’autres sondages et avec un protocole un peu différent, voir le billet original sur mon blog). Que se passe-t-il alors lorsque l’on compare ces différents sondages ? La marge d’erreur est de l’ordre de 1 sur la racine carrée de l’échantillon : on frise donc dans la plupart des sondages au second tour les 4% d’erreur ; dans les sondages IPSOS quotidiens on est un peu plus proche de 3%. D’un sondage à l’autre, on devrait donc voir une danse des courbes "explorant" ces 3-4% d’erreurs.


Figure 1 : Comparaison IPSOS vs Simulations: Cette figure décrit la comparaison de l’évolution des sondages quotidiens IPSOS avec des sondages simulés.

De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 1 200 électeurs (pour me rapprocher de l’échantillon IPSOS), votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant au demi-entier le plus proche pour Sarko, déduisant par différence le score de Ségo). J’ai considéré que l’opinion "réelle" était à 53.5% pour Sarko (en faisant la moyenne des opinions sur ces 38 sondages). La courbe verte représente la simulation de 38 sondages consécutifs indépendants sur la population. La courbe bleue représente la simulation de 38 sondages effectués avec ce que j’appelle "le protocole IPSOS", c’est-à-dire qu’on sonde tous les jours un tiers du panel, et qu’on moyenne avec les résultats des deux jours précédents. Enfin, la courbe rouge représente l’évolution des 38 sondages consécutifs IPSOS.

Rappelons-nous qu’ici l’opinion supposée est à 53.5 % (ligne bleu clair pointillée). Le but de ces courbes est d’illustrer ce qu’on devrait voir théoriquement pour un sondage avec une marge d’erreur d’environ 3%. On voit très clairement que les intentions de votes sondées devraient fluctuer énormément avec le temps et atteindre même 50-50 quelques fois. Par ailleurs, le protocole IPSOS est potentiellement un nid à fluctuations : la marge d’erreur sur une population de 300 personnes est beaucoup plus grande (quasiment 6%), et si on a une grosse fluctuation statistique dans un sens ou dans l’autre, le résultat peut se maintenir trois jours (courbe bleue foncée, autour des sondages 3, sondages 22, sondages 26). Or, on voit à l’oeil nu que les courbes "réelles" varient extrêmement peu d’un sondage à l’autre en comparaison, elles sont beaucoup trop lissées : la semaine dernière, il y a même eu une série de 7 sondages donnant 54%. Il est extrêmement peu plausible qu’un sondage donne 7 fois consécutivement le même résultat. Imaginez que vous lanciez 7 fois de suite un dé, et que vous tombiez sept fois de suite sur 6. Croiriez-vous au bon équilibrage du dé ? Les sondeurs me diraient qu’ils ont une façon de corriger, pour lisser les courbes. C’est tout bonnement impossible : encore une fois, l’erreur est intrinsèque au processus même de la mesure (sinon, j’engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde) !

Essayons maintenant de quantifier un peu plus tout cela.

Dans un premier temps, j’ai fait travailler ma cellule de sondage virtuelle d’arrache-pied pour lui faire faire 100 000 sondages sur une population d’environ 700 individus à 52% sarkozystes, pour illustrer le gros problème qui se pose en particulier pour prédire l’ordre d’arrivée lorsque à la fois les échantillons et les écarts entre les candidats sont petits. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (cette fois j’ai arrondi au point ; on retrouve évidemment une gaussienne). Notez tout d’abord que tous les résultats à l’intérieur de la mage d’erreur (la largeur de la gaussienne) ne sont pas équiprobables : le pic est autour du bon résultat.


Figure 2 : Gaussienne théorique des sondages

On voit ensuite très clairement qu’alors à peine 20% des sondages donnent le "bon" résultat, qu’au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. On voit exactement le même effet sur les courbes plus haut, et c’est ce qui explique théoriquement les fluctuations dans les sondages simulés. Cela relativise considérablement les disours du genre "Ségo s’écroule" quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l’opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu’un autre sondage sur 5 donne une victoire à plates coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les instituts de sondage donnaient des résultats si contradictoires...

Dans un second temps, j’ai essayé de quantifier le degré de "lissage" des courbes. Reprenons l’image du dé : il paraît très peu probable en lançant un dé 7 fois de suite d’avoir 7 fois 6. Pourtant, cette séquence est en fait tout aussi probable que n’importe quelle séquence ordonnée de 7 chiffres entre 1 et 6, mais si on considère les séquences desordonnées, elle devient en effet assez improbable. Peut-on faire la même chose pour les sondages ? Autrement dit, peut-on quantifier ce qu’est une série de sondages "typique" ?

Il s’agit de déterminer, de quantifier, la "plausibilité" d’une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l’a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n’est pas qu’il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n’est pas que quelques sondages se soient trompés, mais bien qu’aucun sondage n’ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement ... dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).

L’une des caractéristiques des sondages est, on l’a dit, que la marge d’erreur effective semble beaucoup plus faible que la marge d’erreur statistique normale (les fameux 3 pour cent). Qualitativement, on l’a vu, cela se traduit par le fait que les courbes des sondages n’explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu’on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages... sur les sondages ). J’ai fait le test dans des simulations : même avec une quarantaine de sondages, on est encore assez loin de pouvoir récupérer tout le profil de distribution gaussien, représenté plus haut. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur certains paramètres de la distribution...

A défaut de pouvoir tracer une jolie gaussienne, j’ai essayé de trouver un moyen de comparer l’évolution sur ces 38 sondages à une évolution qui serait "typique" d’un sondage. J’ai donc simulé 100 000 séries de 38 sondages sur 1200 personnes suivant le "protocole IPSOS", et j’ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques "typiques" de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages.


Figure 3 : Distribution des minimas et maximas

Mon hypothèse est que le score "réel" de Sarkozy est à 53.5 % (le pic des données est à 54%, la moyenne étant à 53.4 - ce qui est à peu près cohérent). La courbe bleue montre la distribution de scores minima sur une série de 38 sondages, la courbe verte montre la distribution de scores maxima sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c’est que, statistiquement, sur une série de 38 sondages centrés autour de 53.5%, 25% ont un score minimum de 51, 25% ont un score minimum de 50.5%. C’est bien normal sachant que la marge d’erreur est d’environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 38 sondages, le score du candidat monte à 56 ou 56.5 %.

Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 38 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 5% des sondages ont un score minimum supérieur ou égal à 52 %, et à peine 1 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : si on fait le produit seulement 0.05% des sondages réels ont des distributions similaires ! Si vous préférez, si on refaisait cette série de 38 sondages plusieurs fois, théoriquement, plus de 99.95 % des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d’un demi-point : dans mes simulations, environ 20% des sondages ont un score minimum supérieur ou égal à 51.5%, 7% des sondages ont un score maximum inférieur ou égal à 55%, cela donne moins de 2 % des sondages avec des écarts maximum-minimum similaires. Autrement dit, plus de 98% des sondages montent plus haut ou descendent plus bas d’un demi-point. Cela reste assez faible et fait douter de la pertinence des méthodes des sondeurs.

Vous l’aurez noté dans ce petit exercice, ce qui rend la distribution improbable n’est pas tant la distribution individuelle du minimum et du maximum (qui sont ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d’un point est proportionnelle à la probabilité d’observer un sondage avec un couple maximum, minimum donné.


Figure 4 : Représentation 3D de la plausibilité des sondages

La flèche rouge indique la série actuelle IPSOS. Ce qui est intéressant est qu’on a immédiatement un point de comparaison visuel avec toutes les autres séries de sondages : une région à cote zéro est très improbable, tandis que les sondages en haut de la bosse, s’ils sont individuellement improbables (exactement comme ma série de lancers de dé) sont relativement beacoup plus probables. On voit très bien que les sondages réels sont ... tout en bas de la bosse, dans une zone complètement improbable.

En fait, on retrouve tout simplement l’effet décrit précédemment : l’exploration autour de la valeur moyenne est ridicule - avec un score "réel" d’environ 53.5%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 38 sondages, 30% des sondages devraient même descendre à 50% ou en dessous et monter à plus de 57%. On a donc en réalité dans les sondages IPSOS une marge d’erreur "effective" de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site) ; cela correspondrait à une population effective sondée d’au moins 2500 personnes. On parle beaucoup d’ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l’absence de vote Le Pen. Peut-être les sondeurs ont-ils des superméthodes statistiques qu’ils nous cachent (pourquoi alors annoncer une marge d’erreur de 3% ?) : cette série de sondages est complètement conforme à un score de 53.5% de Sarkozy ; ce qui est juste très étrange c’est cette marge d’erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses...). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l’opinion publique réelle. Peu importe ; dans tous les cas, il est clair qu’il manque quelque chose pour expliquer le résultat.

J’entends déjà les contre-arguments : et justement, la méthode des quotas ?

Deux raisons font que prendre en compte la méthode des quotas ne va pas changer significativement l’absurdité de ces résultat :

La première raison est scientifique : supposons qu’une population se partageant à 50-50 entre deux votes se divise en deux populations votant à 60-40 et 40-60. Dans un sondage sans méthode des quotas, la marge d’erreur sera proportionnelle à racine_carrée(0.5*(1-0.5)) = 0.5 (voir ici pour une explication de la formule ), dans l’autre cas, elle sera proportionnelle à racine carrée(0.5*0.6*(1-0.6) + 0.5*0.4*(1-0.4)) = 0.489. Cela signifierait passer d’une marge d’erreur de 3% à ... 2.9 % ! Si on va jusqu’à deux populations à 75-25 et 25-75, on arrive péniblement à 2.6% de marge d’erreur. Le gain de marge d’erreur est bien trop faible pour expliquer la différence entre les sondages et le simulations.

La seconde raison est méthodologique. Il est en fait bien connu depuis plusieurs années que la méthode des quotas... marche dans la pratique très mal. Claire Durand, chercheuse en sociologie au Québec, a mené une étude des sondages français en 2002 dans une publication intitulée

’The polls in the 2002 French election : an autopsy", (lien vers l’article en question en accès libre). Elle nous rappelle, dans son article, les "plantages" historiques de la méthode des quotas. Ainsi, lors des élections de 1992 au Royaume-Uni :

Though the British ElectionPanel Study arrived at a good reconstitution of the 1992 voteusing a random sample, the reconstitutions by pollsters using quota samples differed substantially from the actual vote.

Bien que le "British ElectionPanel Study" ait permis une bonne reconstitution des résultats de 1992 en utilisant un échantillonage aléatoire, les reconstitutions des instituts par la méthode des quotas différaient substantiellement des résultats observés.

Notez que la méthode des quotas est dépassée sur cet exemple précis par une simple interrogation aléatoire. La raison est que les quotas sont trop restrictifs et fractionnent trop la population, ce qui fait que les sous-échantillons ont toutes les chances de ne pas être très représentatifs, et aussi entraînent des problèmes de "fraude" potentielle de la part des sondeurs : lorsque les sous-quotas sont petits, le sondeur peut-être tenté "d’inventer" des électeurs lorsqu’il n’arrive pas à avoir assez de données. Dans la suite, on apprend même qu’on sait depuis 1995 qu’ajuster les résultats en fonction des élections précédentes (ce que CSA dit faire aujourd’hui pour redresser - Roland Cayrol ayant même déploré que ces têtes de linottes d’électeur oublient ce qu’ils ont voté à l’élection précédente - in "Arrêt sur Images" sur les sondages) peut même dégrader l’estimation. La difficulté est d’autant plus grande qu’on ne sait pas forcément en France quelle élection utiliser pour cette reconstitution.

Tout cela n’explique néanmoins toujours pas pourquoi les courbes des sondages sont très lissées. Heureusement, Claire Durand dans son article nous éclaire :

One pollster,who requested anonymity, explained in this way the process bywhich he decides on published estimates : "The statistician provides me with estimates according to different adjustments (...). I look at the different columnsand at the published estimates for the last week in order tofigure out the most likely figure. Say a candidate had 2 percent the previous week and has 4 percent in most adjustments thatweek, I will put him at 3 percent. If he still has 4 percentin the next poll, then I will put him at 4 percent."

Un sondeur, qui a demandé de conserver l’anonymat, explique ainsi la méthode employée pour traiter les données : "Le statisticien me livre des estimations après divers ajustements. Je regarde alors les différentes colonnes et les estimations publiées la semaine précédente afin de déterminer le chiffre le plus probable. Supposons qu’un candidat soit à 2 pour cent la semaine précédente, et 4 pour cents après estimations de cette semaine, je le mets alors à 3 pour cent. S’il a encore 4 pour cent au sondage suivant, je le mets alors à 4 pour cent.

Voilà en quelques phrases l’explication de nos fameuses courbes lissées et confirme mon hypothèse exprimée dans un billet précédent de mon blog. Ces petites corrections n’ont l’air de rien à première vue, mais d’un point de vue scientifique, c’est clairement injustifié. C’est en effet considérer toute variation a priori comme une fluctuation statistique. Or, on ne peut se débarrasser des fluctuations statistiques : comment alors les distinguer des évolutions ? Il faut donc potentiellement dans ce cas de figure au minimum deux sondages pour avoir le bon résultat. Imaginons qu’une fluctuation statistique aille dans le mauvais sens après une évolution effective : pour des sondages "classiques", il faudrait alors 3-4 sondages pour voir l’évolution réelle. Soit de 2 à 4 semaines de campagne. C’est aussi cet effet qui explique plus haut que dans mes simulations de protocole IPSOS, les grosses fluctuations se maintiennent asez longtemps. C’est donc à mon sens extrêmement grave de modifier ainsi les données brutes alors que les évolutions des sondages sont pile poil dans la marge d’erreur, car cela fausse complètement l’analyse des évolutions. Par ailleurs, ce genre de méthode est-il neutre politiquement, traite-t-on tous les candidats de la même façon ? N’y a-t-il pas par construction un effet "prime au gagnant" ... des semaines précédentes ?

Jules de diner’s room critiquait Schneidermann qui préconisait d’interdire purement et simplement les sondages, arguant notamment du fait qu’on a droit à l’information. Or, il apparaît que :

les données brutes, qui sont la véritable information, sont manifestement pas inaccessibles alors qu’elles devraient l’être (voir sur mon blog le billet original sur l’article de Claire Durand, où elle explique les bâtons dans les roues illégaux qu’on lui a mis pour accéder aux méthodes des sondeurs) ;
par ailleurs, les sondeurs s’arrogent le droit (sous le contrôle de la commission des sondages) de décider ce qui constitue une information d’une fluctuation statistique, alors qu’ils n’ont aucun moyen de le faire.

Avec cela, rien d’étonnant à ce qu’une centaine de sondages consécutifs aient donné Sarkozy gagnant. Mais est-ce une information ?

Laissons la conclusion à Durand et al., ou plutôt à Jowell et al. :

One would be tempted to issue the same recommendationas Jowell et al. : "Our recommendation to pollstersand their clients, the mass media, is that they should investin a program of methodological work as soon as possible. Sampling methods need to be improved, and the rather primitive methodsof forecasting employed by the polls need to be supplementedby more sophisticated techniques that draw on the massive bodyof data about voting behavior and political attitudes that is freely available."

Nous serions tentés de suggérer comme Jowell et al. : " Notre recommandation pour les instituts et leurs clients, les mass-media, serait de rapidement se lancer dans un programme de travail méthodologique. Les méthodes d’échantillonage doivent être améliorées, et les méthodes de prédiction plutôt primitives utilisées par les sondeurs doivent être accompagnées de techniques plus sophistiquées se basant sur les masses de données à propos des habitudes de votes et des attitudes politiques librement disponibles".

Cet article est un regroupement de billets parus sur les sondages qu’on peut trouver à l’adresse suivante : http://tomroud.blogspot.com/search/label/sondages

Réagissez à l'article

19 réactions à cet article

non666 18 avril 2007 13:18

Moins technique que vous, mais avec des sources internes et informatiques identique, je suis arrivé a la meme conclusion il y a deja quelques elections.

Les sondages sont vendus comme etant une evidence scientifique mais ressemblent de plus en plus a des tentatives d’influencer l’opinion.

Le fameux facteur X, de redressement des mesures est fondamentalement injustifié sauf a admettre que la methode des quotas est justement peu fiable.

Certains l’appelent donc coefficient de magouille.

De toute façon, tous les sondages politiques se heurtent a des fondamentaux impossibles a nier :

Comment mesurer des votes qui sont montrés du doigt ?

Comment donner son opinion quand on sait que le confesseur utilise vos aveux pour desservir votre opinion et renforcer celle des autres ?

Comment servir la soupe a ceux qui n’auraient qu’a y piocher pour leur prochain discours ?

Comment croire des mesures qui sont financés par les partisans des uns et des autres ?

...autand donner foi aux Instituts privés qui annoncent, financé par l’industrie du tabac que fumer n’est pas dangeureux...

...autand croire que les enquetes des operateurs de telephonie mobile sont la vérité quand elles annoncent que les antennes ne presentent aucun risque.

Répondre Signaler un abus Lien permanent
Lire la suite ▼
- Forest Ent 18 avril 2007 13:23
  
  Excellent article, très bien documenté, qui démontre que les sondages sont en fait des moyennes glissantes des sondages précédents, qui eux-mêmes... Un « filtre passe-bas » initialisé avec des a priori.
  
  Ce n’est pas la théorie statistique qui déconne ici, ce sont les publications des instituts. Nous allons rire dimanche.
  
  A propos des marges d’erreur en 1/racine(n), cela suppose, d’après le théorème central limite, que toutes les variables soient indépendantes, ce qui est tout sauf démontré ici.
  
  Répondre Signaler un abus Lien permanent
  - Philippe95 18 avril 2007 14:22
    
    « Un filtre passe bas » ? Vous seriez un confrère que ça ne m’étonnerait pas.
    
    Plus précisément un tel filtre est un filtre à réponse impulsionnelle infinie (IIR). Une donnée introduite au départ disparait seulement de façon asymptotique dans le temps (et encore à condition d’avoir des coefficients bien choisis sinon il diverge et boum !)
    
    J’avoue que ça fait un peu bricolage ces méthodes. Et ça explique parfaitement qu’on n’aie pas prévu dans les sondages en 2002 l’effet de « papy Voise » : Il ne serait apparu que quelques jours après le premier tour.
    
    En tous les cas l’article est superbe et pour changer très argumenté de façon scientifique. Je n’ai rien contre le subjecif, mais ça, ça repose.
    
    Répondre Signaler un abus Lien permanent
  - Forest Ent 18 avril 2007 18:02
    
    Oui. Pas trop de trolls sur cette page.
    
    Cet article et cette discussion touchent du doigt le principal pb de la sondagite : la versalité de l’électorat.
    
    La statistique statique, y compris la méthode des quotas, présupposent une stabilité dans le temps. A partir du moment où l’on admet un comportement dynamique, c’est insuffisant. On tombe dans la « théorie de la détection », qui unifie probabilités et traitement de signal, mais avec des outils beaucoup plus complexes mathématiquement.
    
    Cela dit, il y a un biais beaucoup plus simple : la plus ou moins grande indépendance de celui qui paye la publication. Comme pour toutes les études ayant « démontré » que l’amiante est bon pour la santé.
    
    Répondre Signaler un abus Lien permanent
  - Jo 18 avril 2007 13:34
    
    Quelques erreurs de stats, donc je n’ai pas lu l’article jusqu’au bout. Vous supposez que la distribution de l’erreur est uniforme alors qu’elle est gaussienne dans votre premier graphique. Ansi une erreur de 3% aura beaucoup moins de chance de se produire qu’une erreur de 1%. Les resultats IPSOS ne sont pas lisses mais donnt l’impression d’etre aplatis car en fait 95% des sondages ont moins de 3% d’erreurs, mais on pourrait aussi dire 50% des sondages ont moins de 0.5% d’erreur (ordre d’idee). Et c’est ce qu’on voit.
    
    Répondre Signaler un abus Lien permanent
    - Tom Roud 18 avril 2007 13:49
      
      « Vous supposez que la distribution de l’erreur est uniforme alors qu’elle est gaussienne dans votre premier graphique. »
      
      Absolument pas. La distribution dans le premier graphique a exactement la même forme que celle sur le deuxième graphique ; les deux ont été faites avec le même type de simulation.
      
      Par ailleurs, je « n’impose » pas la forme de la distribution de l’erreur : je tire au hasard les votes de mes électeurs avec une probabilité proportionnelle au pourcentage d’intentions de vote réel. La forme gaussienne est due au théorème de la limite centrale.
      
      Répondre Signaler un abus Lien permanent
    - Tom Roud 18 avril 2007 14:44
      
      « Ansi une erreur de 3% aura beaucoup moins de chance de se produire qu’une erreur de 1%. Les resultats IPSOS ne sont pas lisses mais donnt l’impression d’etre aplatis car en fait 95% des sondages ont moins de 3% d’erreurs, mais on pourrait aussi dire 50% des sondages ont moins de 0.5% d’erreur (ordre d’idee). Et c’est ce qu’on voit. »
      
      J’avais oublié de répondre à cette partie. C’est exactement ce que j’explique dans la deuxième partie du billet avec mon exemple de la gaussienne. Et les sondages IPSOS ont des résultats un peu trop concentrés autour de la valeur moyenne par rapport à leur méthode. Si on fait le calcul, on trouve que pour un score de 53.5% avec un échantillon de 1200 personnes, environ 40% des sondages devraient être entre 53% et 54% et seulement 14% donner le bon resultat. Ces pourcentages sont plus de deux fois plus élevés dans les résultats réels. C’est pourquoi je dis que la marge d’erreur « observée » sur les sondages IPSOS est 1 ou 2 points.
      
      Répondre Signaler un abus Lien permanent
    - eg_taak 18 avril 2007 17:14
      
      Excellent article, qui prouve le manque de fiabilité d’un sondage, si ce n’est son inutilité... du point de vue du citoyen ; car le JDD est bien content de voir augmenter ses ventes en periode éléctorale. Le plus à craindre est une réaction des élécteur vis à vis de ces sondages, qui devraient à mon avis être strictement interdits 4 mois avant les élections...
      
      Répondre Signaler un abus Lien permanent
      - docdory 18 avril 2007 18:49
        
        @ l’auteur
        
        Il me semblerait que plus il y a d’électeurs indécis , plus le résultat du sondage est faux . En effet , les indécis , dont je fais partie ( j’hésite actuellement entre deux candidats : Bayrou et Schivardi , c’est dire mon indécision ! ) , ont par définition un comportement cahotique , une extrême sensibilité à certaines questions ou déclarations . Leur vote peut changer au dernier moment du tout au tout à la suite d’un évenement d’apparence triviale ! C’est un peu le phénomène de Lorenz , une modification extrêmement faible des « conditions pré-électorales » peut entièrement bouleverser un scrutin , et ce d’autant plus que les indécis sont nombreux !
        
        Répondre Signaler un abus Lien permanent
        
        docdory 18 avril 2007 18:50
        
        C’est bien évidemment chaotique que je voulais écrire , pardon pour la faute de frappe !
        
        Répondre Signaler un abus Lien permanent
        
        Tom Roud 19 avril 2007 00:33
        
        Bonjour, Merci pour votre commentaire. si les indécis votent de façon « similaire » à la population « décidée » le resultat ne changera pas. Je suis toujours frappé par cette mise en avant des indécis : le résultat du vote ne changera que si les indécis votent significativement différemment du reste de la population. Or rien ne le prouve. Il faudrait enquêter après l’élection pour savoir comment les indécis d’aujourd’hui auront voté pour savoir si les indécis font vraiment basculer le scrutin.
        
        Répondre Signaler un abus Lien permanent
        
        ExSam 18 avril 2007 22:59
        
        A priori, j’adhère au fait que les sondages qui proposent une marge d’erreur sont a priori faux.
        
        A postériori, j’avoue n’avoir pas compris la grande partie de la démonstration.
        
        Je crois que ce genre d’article est vraiment important en regard de la « République des sondages ».
        
        Je crois également que l’auteur devrait faire oeuvre plus simple, plus pédagogique si possible.
        
        Je crois aussi que je pourrais relire trois fois l’article et me faire nettoyer les neurones, mais...
        
        Répondre Signaler un abus Lien permanent
        
        Lire les 4 réponses ▼ (de Tom Roud, Laurent GUERBY)
        
        Tom Roud 19 avril 2007 00:44
        
        Bonjour, merci pour votre commentaire, et toutes mes excuses si je ne suis pas clair. Je vous invite à aller réagir sur mon blog où l’exposé est plus fractionné et peut-être plus détaillé. Pour résumer l’article en une phrase, disons que les variations d’un sondage à l’autre sont beaucoup trop faibles pour être compatibles avec une marge d’erreur (pourtant annoncée) de 3%. Cela signifie que les sondages sont « biaisés » d’une façon ou d’une autre, en particulier pour « lisser » les évolutions.
        
        L’exemple caricatural est le cas Jospin/Le Pen en 2002 : Jospin et Le Pen ont fait à peu près le même score, or tous les sondages donnaient Jospin devant Le Pen. Comme ils ont fait le même score, un sondage sur deux aurait dû donner Le Pen devant Jospin. C’est comme tirer 20 fois à pile ou face et tomber 20 fois sur pile : il n’y a quasiment aucun doute que la pièce n’est pas balancée. Tout le billet est une tentative de mise en évidence de biais en comparant les resultats d’un sondage à l’autre.
        
        Répondre Signaler un abus Lien permanent
        
        Laurent GUERBY 19 avril 2007 08:56
        
        Il reste le probleme des fausses réponses des sondés, suf erreur il n’est pas traité dans ton article.
        
        J’ai lu quelque part que le taux brut de réponse pour JMLP etait de 5-6% pour un score final de facilement trois fois plus. Je ne sais pas quelle méthode est utilisée pour « corriger ».
        
        Répondre Signaler un abus Lien permanent
        
        Tom Roud 19 avril 2007 14:04
        
        Effectivement, je voulais surtout me concentrer sur le deuxième tour car il n’y a a priori pas de raisons de redresser les résultats, et cela montre que tout cela reste très bizarre. Ces facteurs multiplicatifs appliqués au premier tour me semble méthodologiquement très dangereux et constituer des biais certains. La raison est que ces facteurs sont déterminés empiriquement par rapport aux élections précédentes notamment. Or l’élection de cette année par exemple est très différente de l’élection précédente : je suis prêt à parier qu’on aura des surprises dimanche soir.
        
        A propos du vote Le Pen, là j’ai aussi des doutes méthodologiques. Je pense qu’on accuse un peu trop facilement les électeurs FN de mentir aux sondeurs ; c’est un peu facile et permet de se donner « bonne conscience ». Et s’ils n’étaient pas sondés tout simplement ? Et si l’échantillonnage était juste mauvais, et s’il n’y avait peut-être juste pas assez d’électeurs FN interrogés ? Maintenant, pour en savoir plus, la seule solution serait d’avoir les sondages sortie des urnes bruts : c’est le seul moment où on pourrait avoir à la fois les réponses des sondés et leur intention réelle. D’ailleurs, les sondages sortie des urnes sont-ils eux aussi redressés ?
        
        Répondre Signaler un abus Lien permanent
        
        Laurent GUERBY 20 avril 2007 23:04
        
        Des resultats bruts ici :
        
        http://www.3cetudes.fr/
        
        http://www.lemonde.fr/web/article/0,1-0@2-823448,36-899468@51-841384,0.html
        
        mais sans catégorie socio professionnelle, sexe, age, etc...
        
        Répondre Signaler un abus Lien permanent
        
        chmoll 19 avril 2007 08:55
        
        perso, les sondages je l’ai compare a la pub, ça influs sur notre comportement, en faisant abstraction de la qualité du produit
        
        Répondre Signaler un abus Lien permanent
        
        Oliv’ 19 avril 2007 17:35
        
        Tres bel article, mais en toute honnete je n’ai pas tout compris Mes cours de proba ne m’ont pas laisse un souvenir imperissable.
        
        J’aurais tout de meme une question : comment se fait il que dans la plupart des elections ( sauf par exemple en 2002, mais c’etait un ’accident’ parait il ?) la proportion droite/gauche est quasiment 50/50 ? Ca a l’air d’etre le cas aux US aussi par exemple. Je trouve ca un peu bizarre, pourquoi il y aurait pas 70/30 ??
        
        Répondre Signaler un abus Lien permanent
        
        ndnm 26 août 2008 16:09
        
        "Tout sondage, toute mesure sur un échantillon statistique comporte ce qu’on appelle une marge d’erreur. Celle-ci est une propriété intrinsèque à la mesure"
        
        Je dirais plutot qu’il existe des marges d’erreurs. En statistique il existe deux manières pour une mesure d’être de mauvaise qualité :
        
        - la dispersion : qui indique les variations de différentes mesures sur une même population. (l’image classique est un groupe de flechettes courvant l’intégralité de la cible).
        
        - le biais : qui indique un décalage systèmatique entre les mesures et la réalité. (l’image classique est un groupe de flechettes très concentrées autour d’un point qui est pourtant bien éloigné du centre la cible).
        
        Ce sont effectivement des imprécisions inhérentes à la méthode fut-elle parfaite. Ces paramètres sont peu ou prou estimables pour peu qu’on utilise des méthodes scientifiques d’échantillonnage ce qui n’est en pratique pas le cas (la plupart des sondages sont basés sur la méthode des quotas qui n’a absoluement aucun fondement théorique).
        
        Il ne faut surtout pas oublier, cependant, de rajouter les imprécisions sondagières venant du peu de probité scientifique des-dits instituts dans la méthodologie d’enquête. Scientifiquement, la méthode des quotas n’a que peu de valeur. Empiriquement, on la dit aussi valable que la méthode aléatoire mais aucune étude scientifique de la chose ne le démontre (voire même le contraire)
        Quand bien même, cette fameuse méthode des quotas n’est bien souvent que très mal appliquée.... en particulier lorsque certaines cibles sont difficile à joinde ou à faire répondre il arrive souvent que les instituts aient recours à des méthodes médiocrement scientifique (intérogation de l’entourage, constructions d’échantillon au petit bonheur la chance et redressement atrocement distrodants)...
        
        Un autre facteur important est la neutralité de l’institut face au sujet d’étude.
        
        - Un sondage ne sort pas de nulle part. Il est commandé par un client à un prestataire. Le reflexe commercial de survi du prestataire conduit ce dernier à vouloir faire plaisir à son client. Si on prend en compte le fait que la pertinence scientifique n’est pas ce à travers quoi le client fonde sa satisfaction, on comprend aisément que les instituts ont un net interet à présenter des sondages dont les résultats sont flateurs pour leurs clients.
        Cela ne se traduit en général pas, dans la pratique, à un bidonage des chiffres (encore que... ) mais à une asymétrie à l’exament des résultats. Par exemple, le candidat C commande un sondage à l’institut I . Si les résultats (redressés etc... ) sont très défavorable à C alors I va les reverifier jusqu’a ce que le dernier espoir qu’il existe un erreur soit épuisée. Si les premiers résultats sont favorable à C, le nombre de controles est souvent réduit à néant. Au pire, le sondage ne sera pas publié et tout le monde l’oubliera.
        
        Ensuite, il y a ces fameux redressement. Les sondeurs professionnels disent pudiquement que c’est le "métier" qui permet de faire les bons redressement. D’autres moins pudiques parlent de "nez" (ça sent déja le pifomètre) . Les plus réalistes parlent de capacité d’enfumage...
        Il y a effectivement une part de bon sens à se dire que certains electeurs du FN seront réticent à clamer leurs choix electoraux. Cependant, un esprit équilibré et connaisseur de ses compatriotes reconnaitra sans peine que certains autres clameront volontier voter FN pour provoquer une réaction (le fameux "vote contestataire" du premier tour). Seul un escroc pourrait prétendre, à une date donnée, savoir quel groupe est plus important que l’autre.
        
        Les sondages en sortie des urnes sont redressés, mais sur des données objectives. Deplus, ils présentent une énorme différence avec les autres types de sondage : on ne pose de question à personne ! On observe les résultats des dépouillements (sortie des bulletins de l’urne) et on peut ainsi en choisissant les bureaux de vote qui ont montré dans le passé la meilleure représentativité extrapoler le resutlat final.
        
        = > leur résultat n’a aucun enjeux de communication ou commercial
        = > aucune question n’est posé mais un simple observation incontestable est faite
        = > leur redressement est fait de manière scientifique et non suivant un méthode secrete (dite du pifomère)
        
        dès que le reslutat du sondage a une influence sur la santé économique du sondeur (par l’intermédiaire du client)
        dès qu’il s’agit d’une réponse à une question (à la quelle on peut mentir)
        dès que les resultats bruts et la méthodologie précise d’échantillonage ne sont pas donnés ...
        
        on peut se dire qu’un sondage n’a comme valeur que les sous que l’institut à toucher pour le réaliser.
        
        Répondre Signaler un abus Lien permanent
        Lire la suite ▼