ERIS - Travaux statistiques

Equipe Raisonnement Induction Statistique

Quelques questions

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Les abus d'interprétation des tests de signification

Considérons une expérience avec deux facteurs croisés Age et Traitement, chacun à deux modalités. Les moyennes observées des quatre conditions expérimentales (avec 10 sujets pour chacune) sont respectivement 5.77 (a1,t1), 5.25 (a2,t1), 4.83 (a1,t2) et 4.71 (a2,t2).

On trouve dans une revue expérimentale internationale les commentaires typiques suivants, basés sur les tests F usuels de l'analyse de variance:
"the only significant effect is a main effect of treatment (F[1,36]=6.39, p=0.016), reflecting a substantial improvement";
et encore
"clearly, there is no evidence (F[1,36]=0.47, p=0.50) of an interaction".

Il est fortement suggéré au lecteur qu'on démontré à la fois l'existence d'un effet important du traitement et l'absence d'effet d'interaction.

Etes-vous d'accord avec ces conclusions?

Il n'en est rien!

la différence des moyennes observées pour les deux traitements est:
       d = (5.77+5.25)/2 - (4.83+4.71)/2 = +0.74
Nous obtenons la "fourchette d'estimation" (intervalle de confiance ou de crédibilité 95%):
       [+0.15 , +1.33]

l'effet d'interaction peut être caractérisé par la différence des différences:
       d = (5.77-4.83) - (5.25-4.71) = +0.40
Nous obtenons la "fourchette d'estimation" (intervalle de confiance ou de crédibilité 95%):
       [-0.78 , +1.58].

Ces intervalles montrent clairement que l'on ne peut pas conclure à la fois à un effet important du traitement et à un effet d'interaction faible, ou du moins relativement négligeable (et encore moins à l'absence d'interaction).

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Il y a intervalle et intervalle!

Dans un ouvrage d'introduction à la statistique, appartenant à une collection destinée au grand public, dont l'objectif est de permettre au lecteur d'"accéder aux intuitions profondes du domaine", on trouve l'interprétation suivante de l'intervalle de confiance (ou "fourchette") pour une proportion.

"Si dans un sondage de taille 1000, on trouve P [la proportion observée] = 0.613, la proportion π à estimer a une probabilité 0.95 de se trouver dans la fourchette: [0.58,0.64]"

Etes-vous d'accord avec cette interprétation?

Si vous n'êtes pas (encore) bayésien et si votre intuition profonde est que cette interprétation est, soit correcte, soit peut-être incorrecte mais en tout cas souhaitable, vous devez sérieusement vous demander si vous n'êtes pas un bayésien "qui s'ignore".

Dans le cadre fréquentiste les valeurs possibles du paramètre ne peuvent pas être probabilisées. Si comme dans cet exemple, les bornes obtenues pour l'échantillon observé sont [0.58,0.64], l'événement "0.58<π < 0.64" est vrai ou faux (car π est fixé), et nous ne pouvons pas lui attribuer de probabilité (sinon 1 ou 0).

L'interprétation correcte de l'intervalle de confiance 95% est la suivante:
"95% des intervalles calculés sur l'ensemble des échantillons possibles (tous ceux qu'il est possible de tirer dans la population) contiennent la vraie valeur π"
Chaque intervalle particulier a une probabilité 0 ou 1 de contenir la vraie valeur.

Ironiquement, c'est l'interprétation bayésienne des intervalles de confiance en termes "d'un intervalle fixé (ici [0.58,0.64]) ayant une probabilité 0.95 ('95% de chances') d'inclure la vraie valeur π du paramètre" qui les rend intelligibles.

! La différence entre les deux interprétations n'est pas sémantique.

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

J'ai la statistique de test, puis-je avoir un intervalle?

J'ai trouvé un article qui rapporte les résultats d'une étude planifiée pour tester l'efficacité d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients chacun. L'article fournit la différence observée d=+1.52 en faveur du traitement, ainsi qu'un "test t de Student": t=+0.683, 28 degrés de liberté, p=0.50, non significative.
Ce qui m'intéresserait serait d'avoir une "fourchette" (intervalle de confiance fréquentiste, ou intervalle de crédibilité fiducio-bayésien) pour pouvoir juger si on a réellement prouvé que le médicament est inefficace.

Est-ce possible?

Oui!

Pour un intervalle à 100(1-α)% il suffit de connaître t{(1-α)/2}: le (1-α)/2 percentile de la distribution de Student à q degrés de liberté.
L'intervalle à 100(1-α)% (fréquentiste ou fiducio-bayésien) pour la différence vraie δ s'en déduit immédiatement:

[ d - (d/t)t{(1-α)/2} , d + (d/t)t{(1-α)/2} ]

On trouve ici pour α = 0.05 et q=28 degrés de liberté t{0.975}= +2.0484, d'où l'intervalle à 95% (on suppose bien entendu que d et t sont calculés avec une précision suffisante):

[-3.04,+6.08]

Calculez un intervalle pour un contraste entre moyennes
à partir de vos données...

Cet intervalle peut être interprété comme un intervalle de confiance 95% "fréquentiste" ou comme un intervalle de crédibilité 95% "fiducio-bayésien".

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Même les statisticiens...

On considère les résultats d'une étude planifiée pour tester l'efficacité d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients chacun.
Le médicament est considéré cliniquement intéressant par les experts du domaine si la différence entre la moyenne du traitement et la moyenne du placebo est supérieure à +3.
On a observé la différence d=+1.52. La différence est non significative (t=+0.683, p=0.50).

Quelle conclusion tirez-vous sur l'efficacité du médicament?

Répondez le plus spontanément possible (sans calcul)

D'un point de vue normatif, la tâche met en jeu le résultat simple et général suivant: un intervalle à 100(1-α)% (fréquentiste ou fiducio-bayésien) pour la différence vraie δ est approximativement

d ± 2(d/t) soit ici [-2.93,+5.97]

Cette approximation très simple est généralement suffisante (l'intervalle exact est [-3.04,+6.08]). Elle devrait théoriquement prévenir de l'interprétation abusive d'un résultat non significatif comme "une preuve de l'hypothèse nulle".

Clairement ici les résultats ne permettent pas de conclure à la non efficacité du médicament (en raison de la grande variabilité observée).

Pourtant, face à cette situation 84% des statisticiens professionnels et 85% des psychologues (expérimentateurs avertis) interrogés ont conclu à l'inefficacité du médicament.
Plus encore, si on leur dit que l'expérience était initialement planifiée avec 30 sujets par groupe et que le résultat précédent est en fait un résultat intermédiaire et si on leur demande quelle décision ils prendraient quant à l'arrêt ou la poursuite de l'expérience:
Plus de la moitié d'entre eux perçoivent les résultats comme très favorables à l'inefficacité du médicament et décident d'arrêter l'expérience (57% de statisticiens et 53% de psychologues).

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Quelle est la probabilité de retrouver...

Dans une étude comparant une condition expérimentale à une condition contrôle, on a observé une différence +1.82 entre les deux moyennes. La différence est significative au seuil bilatéral 0.05: t=+2.09, 19 degrés de liberté, p=0.05.

(1) Quelle est, pour vous, la probabilité que dans une réplique de l'expérience (mêmes effectifs) la différence observée soit positive?
(2) Quelle est, pour vous, la probabilité que la différence observée soit positive, et que le résultat du t de Student soit au moins aussi significatif?

Répondez le plus spontanément possible (sans calcul)

D'un point de vue normatif, puisqu'il n'y a pas ici d'information a priori extérieure à l'expérience, il apparaît raisonnable de baser la prédiction sur les seules données de l'expérience.
Dans ce cas, la réponse fiducio-bayésienne est:
(1) 0.92
(2) 0.50

La majorité des psychologues (expérimentateurs avertis) interrogés sous-estiment la première probabilité et surestiment la seconde.
En fait, le résultat marquant est que la moitié d'entre eux donnent des réponses voisines pour les deux probabilités, environ un tiers donnant même exactement la même valeur.

la "prep de Killeen" n'est autre que la probabilité de retrouver une différence de même signe dans une réplique et répond donc à la première question.

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Un problème de chaussettes

On tire au hasard (à l'aveugle) une paire de chaussettes dans un tiroir qui contient deux chaussettes rouges et deux chaussettes vertes.
On considère les résultats suivants:
Résultat 1: on obtient une paire de chaussettes appareillées (deux rouges ou deux vertes)
Résultat 2: on obtient une paire de chaussettes dépareillées (une rouge et une verte)

Pensez-vous qu'il y a:
1) plus de chances d'obtenir le résultat 1
2) plus de chances d'obtenir le résultat 2
3) autant de chances d'obtenir les deux résultats

Répondez le plus spontanément possible (sans calcul)

La réponse correcte est: 2) plus de chances d'obtenir le Résultat 2

Il y a plus de chances d'obtenir une paire de chaussettes dépareillées (une rouge et une verte)
Si on numérote les chaussettes dans le tiroir: 1 2 3 4
il y a 6 tirages différents possibles: 12 1 3 1 4 2 3 2 4 34

donc quatre chances sur six d'obtenir une paire de chaussettes dépareillées.

Si vous avez répondu "autant de chances d'obtenir les deux résultats" (biais d'équiprobabilité), vous faites partie de la majorité.
Vous êtes en bonne compagnie, puisqu'un "referee", présumé expert dans le domaine, nous a écrit:
"A pair of matching socks is blindly drawn from a drawer containing two pairs of different socks. But with to red and two green socks, the probability of drawing two matching socks is equal to drawing one red and one green, p=.5."

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard

Il y a hasard et hasard

Considérez les deux événements suivants

"Le fait de constituer une paire de chaussettes 'assorties' à partir d'un tirage à l'aveugle de deux chaussettes d'un tiroir qui contient deux paires de chaussettes différentes"

"Le fait qu'une graine mise en terre germe"

Est-ce que, selon vous le hasard intervient ou non
dans chacun de ces deux événements?

Répondez le plus spontanément possible

Il n'y a bien entendu pas de "bonne réponse" !

Trois groupes de sujets ont été interrogés: des collégiens, des psychologues et des mathématiciens.
Une large majorité des sujets ont le même avis pour le premier événement [chaussettes]: ils répondent qu'il fait intervenir le hasard parce que "il est possible de calculer 'facilement' une probabilité". Cette majorité est toutefois plus faible chez les psychologues que chez les autres sujets.
Au contraire les sujets sont divisés pour le second item [graine]. Deux conceptions principales sont observées: soit le hasard intervient parce que "un raisonnement probabiliste est en jeu", soit le hasard n'intervient pas parce que "il existe une grande part de déterminisme" ou parce que "des facteurs causaux peuvent être identifiés".

Une spécificité des mathématiciens est qu'un certain nombre d'entre eux se référent explicitement à deux sortes de hasard: un hasard "mathématique" quand il est facile de calculer une probabilité objective (typiquement "les chaussettes"), et un hasard "par ignorance" quand il est n'est pas facile de calculer une probabilité faute d'un modèle probabiliste standard disponible (typiquement "la graine").

Les abus d'interprétation des tests	Il y a intervalle et intervalle!	J'ai le test Puis-je avoir un intervalle?
Même les statisticiens...	Quelle est la probabilité de retrouver...	Un problème de chaussettes	Il y a hasard et hasard