Un article rapporte les résultats suivants pour une étude planifiée pour tester l'efficacité
d'un médicament en comparant deux groupes (traitement
vs placebo) de 15 patients chacun:
la différence observée
d=+1.52 en faveur du traitement,
un test "t de Student":
t=+0.683,
q=28 degrés de liberté, p=0.50,
non significative.
Ce qui m'intéresserait serait d'avoir une "fourchette" (intervalle de confiance fréquentiste, ou
intervalle de crédibilité fiducio-bayésien) pour pouvoir juger si on a réellement prouvé que le
médicament est inefficace.
Puis-je obtenir une "fourchette" (intervalle) pour la différence vraie?
Oui! Pour un intervalle à
100(1-α)%
il suffit de connaître
t(1-α)/2:
le
(1-α)/2 percentile
de la distribution de Student à
q degrés de liberté.
L'intervalle à 100(1-α)%
(fréquentiste ou fiducio-bayésien) pour la différence vraie
δ s'en déduit
immédiatement:
[ d - (d/t)t(1-α)/2
, d + (d/t)t(1-α)/2
]
On trouve ici pour
α = 0.05 et
q=28 degrés de liberté
t0.975= +2.0484, d'où
l'intervalle à 95%
[-3.04,+6.08]
(on suppose bien entendu que
d et
t sont calculés avec une précision appropriée).
Interprétation
Cet intervalle peut être interprété comme
un intervalle de confiance 95% "fréquentiste"
ou comme un intervalle de crédibilité 95% "fiducio-bayésien".
Exemple de Student (1908)
Dans son article à l'origine du "test t", Student illustre son test pour une inférence
sur la différence entre les heures de gains de sommeil procurées par deux somnifères.
La différence moyenne observée est
d=+1.58. En termes modernes, nous calculons
la statistique de test
t=+4.06 (avec
q=9 degrés de liberté).
On trouve ici pour
α = 0.05 et
q=9 degrés de liberté
t0.975= +2.2622,
d'où l'intervalle à 95%
[+0.70,+2.46]
(on suppose bien entendu que
d et
t sont calculés avec une précision appropriée).
Intervalle et test de signification
Une formule équivalente à la
précédente est
[ d ( 1 - t(1-α)/2/t ) ,
d ( 1 + t1-α/2/t )
]
Si t = t1-α/2,
le test t est "exactement significatif" au seuil bilatéral
α
(p=a)
Û
l'intervalle est [0,2d] (si d>0) ou [-2d,0] (si d<0).
Si t > t1-α/2,
le test t est significatif au seuil bilatéral α
(p<a)
Û
l'intervalle ne contient pas 0.
C'est le cas dans l'exemple de Student: le seuil observé ("p-value") est p=0.003.
Si t < t1-α/2,
le test t est non significatif au seuil bilatéral α
(p>α)
Û
l'intervalle contient 0.
C'est le cas dans l'exemple 'placebo': le seuil observé ("p-value") est p=0.50.
Confusions conceptuelles
Même les experts en statistique ne sont pas à l'abri de confusions
conceptuelles.
Ainsi, par exemple, Rosnow et Rosenthal (1996, page 336*)
interprètent l'intervalle particulier [
0,+0.532] comme "a [
fréquentiste]
77% confidence interval"
(étant donné
d=+0.532 etun seuil observé
unilatéral p=0.115 pour le test de Student, soit 77%=(1-2×0.115)100%).
Si nous observons un autre échantillon, la valeur
2d ainsi que le seuil observé
pseront
différents, et clairement, pour un grand nombre d'échantillons, la proportion des intervalles
[
-2d,0] ou [
0,2d] (suivant le signe de
d) qui contiennent la vraie valeur de la différence
ne sera pas 77%. A l'évidence, 77% est ici une probabilité
qui dépend des données, et il faut donc recourir
à une justification bayésienne pour pouvoir l'interpréter.
[*Computing contrasts, effect sizes, and counternulls on other people's published data:
General procedures for research consumers.
Psychological Methods,
1, 331-340.]
Remarque: Student et l'interprétation du seuil observé
Student énoncait en 1908:
"the probability is .9985 [1-p/2] or the odds are about 666 to 1 than 2 is the better soporific".
C'est clairement une formulation
bayésienne (ou
fiduciaire), et
certainement pas une formulation fréquentiste
orthodoxe!
Attention aux formulations!
Ce n'est que dans le cadre fiducio-bayésien que
vous pouvez énoncer:
"il y a 99.85% de chances que la différence vraie soit positive"
et
"il y a 97.5% de chances qu'elle soit supérieure à +0.70".
Si vous vous en tenez au cadre fréquentiste, vous devez bannir les expressions ambigües du type
"J'ai une confiance 95% que la vraie différence soit comprise entre +0.70 et +2.46", qui laissent entendre
que 95% peut être une mesure de l'incertitude après avoir vu les données, ce qu'il n'est pas.
Exemple 'interaction'
Considérons une expérience avec deux facteurs croisés
Age et
Traitement, chacun à deux modalités. Les moyennes observées des quatre
conditions expérimentales (avec 10 sujets pour chacune) sont respectivement 5.77 (a1,t1), 5.25 (a2,t1),
4.83 (a1,t2) et 4.71 (a2,t2).
L'effet d'interaction peut être caractérisé par la différence des différences:
d = (5.77-4.83) - (5.25-4.71) = +0.40
Le rapport F de l'analyse de variance pour cet effet est
F=0.47, p=0.50
(avec 1 et
q=36 degrés de liberté).
Utilisant la propriété que le rapport F pour un contraste est le carré de la statistique t,
il suffit de remplacer d/t par la valeur absolue de d/racine(F).
On trouve ici l'intervalle à 95%
[-0.78,+1.58]
(on suppose bien entendu que
d et
F sont calculés avec une précision appropriée).