@Jean Mohamed De La Bastille
Nous sommes ici devant un Problème statistique à information faible :
- La taille d’un échantillon n est à comparer au nombre ν de
paramètres à estimer.
Typiquement, pour une distribution dans R avec 2 paramètres à
estimer les problèmes peuvent commencer avec n<20.
Les problèmes deviennent sérieux lorsque ν ≈ n . . . Ce qui est notre cas ici. Les statisticiens sont de plus en plus confrontés à des tailles n
plus petites que la dimension d des données. Ce qui est notre cas ici puisque 80 000 pour 36 millions...
- Attitudes devant de petits échantillons
Renoncer à l’analyse
Régulariser les estimations
Apporter de l’information extérieure aux données, ce qui conduit à
l’inférence bayésienne .
-Le paramètre θ associé au modèle statistique f(x ; θ) est considéré
lui-même aléatoire de loi a priori Π(θ).
Sachant les données x, θ suit une loi a posteriori Π(θ/x) :
Π(θ/x) = L(θ/x)Π(θ)
R
L(θ/x)Π(θ)dθ
.
L’inférence statistique se conduit sur la base de cette loi a posteriori. Ici notre loi à priori correspond aux données que les sondeurs détiennent notamment grâce aux élections précédentes et aux sondages effectués.
- La loi a priori Π(θ) résume l’information préalable à l’obtention des
données que l’on possède sur le paramètre θ.
Elle résume également l’incertitude sur la valeur de cette
information.
Elle fournit un cadre cohérent et contrôlable pour quantifier les
connaissances et les opinions d’expert.
Grâce au théorème de Bayes, elle donne naissance à la loi a
posteriori Π(θ/x) qui tire toute l’information des données et de la
loi a priori.
Tu veux que je continues ?
Là maintenant si tu veux je peux te parler de ta loi normal car là elle est adapté !