Equipe Raisonnement Induction Statistique
Considérons une expérience avec deux facteurs croisés
Age
et
Traitement, chacun à deux modalités. Les moyennes observées des quatre
conditions expérimentales (avec 10 sujets pour chacune) sont respectivement 5.77
(a1,t1), 5.25 (a2,t1), 4.83 (a1,t2) et 4.71 (a2,t2).
|
Il est fortement suggéré au lecteur qu'on démontré à la fois l'existence d'un effet important du traitement et l'absence d'effet d'interaction. |
Etes-vous d'accord avec ces conclusions? |
Il n'en est rien! |
la différence des moyennes observées pour les deux traitements est:
|
Ces intervalles montrent clairement que l'on ne peut pas conclure à la fois à un effet important du traitement et à un effet d'interaction faible, ou du moins relativement négligeable (et encore moins à l'absence d'interaction). |
Dans un ouvrage d'introduction à la statistique, appartenant à une collection destinée au grand public,
dont l'objectif est de permettre au lecteur d'"accéder aux intuitions profondes du domaine", on trouve
l'interprétation suivante de l'intervalle de confiance (ou "fourchette") pour une proportion.
|
Etes-vous d'accord avec cette interprétation? |
Si vous n'êtes pas (encore) bayésien et si votre intuition profonde est que cette interprétation est, soit correcte, soit peut-être incorrecte mais en tout cas souhaitable, vous devez sérieusement vous demander si vous n'êtes pas un bayésien "qui s'ignore". |
Dans le cadre fréquentiste les valeurs possibles du paramètre ne peuvent pas être probabilisées.
Si comme dans cet exemple, les bornes obtenues pour l'échantillon observé sont [0.58,0.64],
l'événement "0.58<π
< 0.64" est vrai ou faux
(car π est fixé), et nous ne pouvons pas lui attribuer de probabilité (sinon 1 ou 0).
|
Ironiquement, c'est l'interprétation bayésienne des intervalles de confiance en termes "d'un intervalle fixé
(ici [0.58,0.64]) ayant une probabilité 0.95 ('95% de chances') d'inclure la vraie valeur
π du paramètre" qui les rend intelligibles.
|
J'ai trouvé un article qui rapporte les résultats d'une étude planifiée pour tester l'efficacité
d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients
chacun.
L'article fournit la différence observée d=+1.52 en faveur du traitement,
ainsi qu'un "test t de Student": t=+0.683, 28 degrés de liberté, p=0.50, non significative.
|
Est-ce possible? |
Oui! |
Pour un intervalle à 100(1-α)%
il suffit de connaître
t{(1-α)/2}:
le (1-α)/2 percentile
de la distribution de Student à q degrés de liberté.
[ d - (d/t)t{(1-α)/2} , d + (d/t)t{(1-α)/2} ] On trouve ici pour α = 0.05 et q=28 degrés de liberté t{0.975}= +2.0484, d'où l'intervalle à 95% (on suppose bien entendu que d et t sont calculés avec une précision suffisante):
[-3.04,+6.08]
|
Cet intervalle peut être interprété comme un intervalle de confiance 95% "fréquentiste" ou comme un intervalle de crédibilité 95% "fiducio-bayésien". |
On considère les résultats d'une étude planifiée pour tester l'efficacité
d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients chacun.
|
Quelle conclusion tirez-vous sur l'efficacité du médicament? |
Répondez le plus spontanément possible (sans calcul) |
D'un point de vue normatif, la tâche met en jeu le résultat simple et général suivant: un intervalle à 100(1-α)% (fréquentiste ou fiducio-bayésien) pour la différence vraie δ est approximativement d ± 2(d/t) soit ici [-2.93,+5.97] Cette approximation très simple est généralement suffisante (l'intervalle exact est [-3.04,+6.08]). Elle devrait théoriquement prévenir de l'interprétation abusive d'un résultat non significatif comme "une preuve de l'hypothèse nulle". Clairement ici les résultats ne permettent pas de conclure à la non efficacité du médicament (en raison de la grande variabilité observée). |
Pourtant, face à cette situation 84% des statisticiens professionnels et 85% des psychologues (expérimentateurs avertis)
interrogés ont conclu à l'inefficacité du médicament.
|
Dans une étude comparant une condition expérimentale à une condition contrôle, on a observé une différence +1.82 entre les deux moyennes. La différence est significative au seuil bilatéral 0.05: t=+2.09, 19 degrés de liberté, p=0.05. |
(1) Quelle est, pour vous, la probabilité que dans une réplique de l'expérience (mêmes effectifs)
la différence observée soit positive? |
Répondez le plus spontanément possible (sans calcul) |
D'un point de vue normatif, puisqu'il n'y a pas ici d'information a priori
extérieure à l'expérience, il apparaît raisonnable de baser la prédiction sur les
seules données de l'expérience. |
La majorité des psychologues (expérimentateurs avertis) interrogés sous-estiment
la première probabilité et surestiment la seconde.
|
On tire au hasard (à l'aveugle) une paire de chaussettes dans un tiroir
qui contient deux chaussettes rouges et deux chaussettes vertes.
|
Pensez-vous qu'il y a:
|
Répondez le plus spontanément possible (sans calcul) |
La réponse correcte est:
2) plus de chances d'obtenir le Résultat 2
|
Si vous avez répondu "autant de chances d'obtenir les deux résultats" (biais d'équiprobabilité),
vous faites partie de la majorité.
|
Considérez les deux événements suivants
"Le fait de constituer une paire de chaussettes 'assorties' à partir d'un tirage
à l'aveugle de deux chaussettes d'un tiroir qui contient deux paires de chaussettes différentes"
|
Est-ce que, selon vous le hasard intervient ou non |
Répondez le plus spontanément possible |
Il n'y a bien entendu pas de "bonne réponse" ! |
Trois groupes de sujets ont été interrogés: des collégiens, des psychologues et des
mathématiciens.
|