Equipe Raisonnement Induction Statistique
Les travaux statistiques de l'ERIS portent sur les méthodes d'analyse des données expérimentales. Les domaines d'application privilégiés sont la psychologie expérimentale et les essais cliniques en médecine et pharmacologie. La spécificité de ces domaines est, d'une part qu'il y est généralement fait usage de plans d'expériences complexes, avec des objectifs précis, et d'autre part que les résultats expérimentaux doivent être acceptés par une large communauté.
"The test provides neither the necessary nor the sufficient scope or typeof knowledge that basic scientific social research requires."(D.E. Morrison & R.E. Henkel)
Bien que leur usage fasse constamment l'objet des critiques les plus sévères, tant théoriques que méthodologiques, les tests de signification usuels ("Null Hypothesis Significance Tests") sont conventionnellement acceptés comme une preuve de la validité des conclusions et sont une norme incontournable pour la publication des résultats expérimentaux. Notre analyse conduit à conclure à une pratique inadaptée au plan méthodologique, mais socialement adaptée, d'un outil inadéquat dont le mode d'emploi est trompeur
Méthodologie de l'analyse des données expérimentales - Étude de la pratique des tests statistiques chez les chercheurs en psychologie, approches normative, prescriptive et descriptive
And... what about the researcher's point of view?
L'usage des tests statistiques par les chercheurs en psychologie: Aspects normatif, descriptif et prescriptif
Fisher: Responsible, not guilty
Considérons une expérience avec deux facteurs croisés
Age
et
Traitement, chacun à deux modalités. Les moyennes observées des quatre
conditions expérimentales (avec 10 sujets pour chacune) sont respectivement 5.77
(a1,t1), 5.25 (a2,t1), 4.83 (a1,t2) et 4.71 (a2,t2).
|
Il est fortement suggéré au lecteur qu'on démontré à la fois l'existence d'un effet important du traitement et l'absence d'effet d'interaction. |
Etes-vous d'accord avec ces conclusions? |
Il n'en est rien! |
la différence des moyennes observées pour les deux traitements est:
|
Ces intervalles montrent clairement que l'on ne peut pas conclure à la fois à un effet important du traitement et à un effet d'interaction faible, ou du moins relativement négligeable (et encore moins à l'absence d'interaction). |
"Habit is habit and not to be flung out of the window by any man,but coaxed downstairs a step at a time." (Mark Twain)
Un probable
changement d'attitude des psychologues
vis-à-vis du test de signification pourrait être la conséquence des
recommandations de la
Task Force
chargée par le bureau des affaires
scientifiques de l'
American Psychological Association
d'étudier le rôle du test de signification dans la recherche en psychologie.
[Wilkinson,
L. and Task Force on Statistical Inference,
APA Board of Scientific Affairs (1999) - Statistical Methods in Psychology Journals: Guidelines and Explanations.
American Psychologist, 54, 594-604.
Azar B. (1999) - APA statistics task force prepares to release recommendations for public comment.
APA Monitor Online,
30, 5.]
Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication
"The essence of science is replication: a scientist should always be concerned about what would happen if he or another scientist were to repeat his experiment." (Guttman).
Depuis 2006, l'Association for Psychological Science a introduit dans les
"author guidelines"
de Psychological Science, une nouvelle norme de publication:
Statistics
Effect sizes should accompany major results. In addition, authors are
encouraged to use prep rather than p values (see the article by Killeen in the
May 2005 issue of Psychological Science, Vol. 16, pp. 345-353).
"Killeen's prep" ("probability of replication") apparaît maintenant apparaît maintenant de manière routinière dans
Psychological Science.
"It would not be scientifically sound to justify a procedure by frequentist arguments and to interpret it in Bayesian terms." (H. Rouanet)
L'intervalle de confiance, au sens fréquentiste (Neyman et Pearson), est incontestablement
la méthode la plus souvent proposée pour pallier les insuffisances des tests usuels.
Il n'est maintenant plus rare de voir mentionnés des intervalles de confiance, en complément des tests,
dans des publications expérimentales.
Les intervalles de confiance se justifient (comme le test) par une conception fréquentiste
qui traite les données comme aléatoires, même après les avoir recueillies. Cela est si étrange que l'interprétation fréquentiste
"correcte" des intervalles de confiance n'a pas de sens pour la plupart des utilisateurs.
Et si vous étiez un bayésien "qui s'ignore"?
Isn't everyone a Bayesian?
And if you were a Bayesian without knowing it?
Dans un ouvrage d'introduction à la statistique, appartenant à une collection destinée au grand public,
dont l'objectif est de permettre au lecteur d'"accéder aux intuitions profondes du domaine", on trouve
l'interprétation suivante de l'intervalle de confiance (ou "fourchette") pour une proportion.
|
Etes-vous d'accord avec cette interprétation? |
Si vous n'êtes pas (encore) bayésien et si votre intuition profonde est que cette interprétation est, soit correcte, soit peut-être incorrecte mais en tout cas souhaitable, vous devez sérieusement vous demander si vous n'êtes pas un bayésien "qui s'ignore". |
Dans le cadre fréquentiste les valeurs possibles du paramètre ne peuvent pas être probabilisées.
Si comme dans cet exemple, les bornes obtenues pour l'échantillon observé sont [0.58,0.64],
l'événement "0.58<π
< 0.64" est vrai ou faux
(car π est fixé), et nous ne pouvons pas lui attribuer de probabilité (sinon 1 ou 0).
|
Ironiquement, c'est l'interprétation bayésienne des intervalles de confiance en termes "d'un intervalle fixé
(ici [0.58,0.64]) ayant une probabilité 0.95 ('95% de chances') d'inclure la vraie valeur
π du paramètre" qui les rend intelligibles.
|
"We [statisticians] will all be Bayesians in 2020, and then we can be a united profession." (D.V. Lindley)
Nous défendons la thèse que les méthodes bayésiennes sont idéales pour créer un changement d'attitude dans la présentation et l'interprétation des résultats expérimentaux. Nous proposons d'utiliser les méthodes bayésiennes "non-informatives" comme thérapie pour guérir les mésusages et les abus des tests de signification usuels. Depuis de nombreuses années nous avons travaillé dans cette perspective avec d'autres collègues, dans le but de développer des méthodes bayésiennes standard "non-informatives" pour la plupart des situations familières rencontrées dans l'analyse des données expérimentales.
Beyond the significance test controversy: Prime time for Bayes?
Uses, abuses and misuses of significance tests in the scientific community: Won't the Bayesian choice be unavoidable?
"Maybe Fisher's biggest blunder [fiducial inference] will become a big hit in the 21st century." (B. Efron)
Pour promouvoir ces méthodes bayésiennes, il nous a semblé
important de leur donner un nom plus explicite que "standard",
"non-informatives" ou "de référence". Nous proposons de les
appeler fiducio-bayésiennes. Ce nom délibérément provocateur rend
hommage au travail de Fisher sur l'inférence scientifique pour les chercheurs.
Il indique leur spécificité et leur objectif d'exprimer "ce que les
données ont à dire".
Ces méthodes fiducio-bayésiennes sont une proposition
concrète pour dépasser les insuffisances des tests de signification usuels et
améliorer la méthodologie statistique et les pratiques actuelles.
New ways in statistical methodology: From significance tests to Bayesian inference
Uses, abuses and misuses of significance tests in the scientific community: Won't the Bayesian choice be unavoidable?
Bayesian methods for experimental data analysis
"A common misconception is that Bayesian analysis is a subjective theory; this is neither true historically nor in practice." (J. Berger)
Il s'agit de fournir des méthodes inférentielles de rechange, générales et adaptées aux besoins réels des utilisateurs. Le cadre théorique privilégié est l'inférence bayésienne, au moins aussi objective que l'inférence fréquentiste traditionnelle.
Mémorisation de récits: Reconnaissance immédiate et différée d'énoncés par des
enfants de 7, 8 et 10 ans
Orientation of attention and sensory gatting: An evoked potential and RT study in cat
From production to selection of interpretations for novel conceptual combinations:
A developmental approach.
"Bayesian posterior probabilities are exactly what scientists want." (S.N. Goodman & J.A. Berlin)
J'ai trouvé un article qui rapporte les résultats d'une étude planifiée pour tester l'efficacité
d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients
chacun.
L'article fournit la différence observée d=+1.52 en faveur du traitement,
ainsi qu'un "test t de Student": t=+0.683, 28 degrés de liberté, p=0.50, non significative.
|
Est-ce possible? |
Oui! |
Pour un intervalle à 100(1-α)%
il suffit de connaître
t{(1-α)/2}:
le (1-α)/2 percentile
de la distribution de Student à q degrés de liberté.
[ d - (d/t)t{(1-α)/2} , d + (d/t)t{(1-α)/2} ] On trouve ici pour α = 0.05 et q=28 degrés de liberté t{0.975}= +2.0484, d'où l'intervalle à 95% (on suppose bien entendu que d et t sont calculés avec une précision suffisante):
[-3.04,+6.08]
|
Cet intervalle peut être interprété comme un intervalle de confiance 95% "fréquentiste" ou comme un intervalle de crédibilité 95% "fiducio-bayésien". |
Teaching Bayesian methods for experimental data analysis
Beyond the significance test controversy: Prime time for Bayes?
Une raison pour ne pas abandonner les tests de signification de l'hypothèse nulle
Asserting the smallness of effects in ANOVA
Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication
Another look at confidence intervals for the noncentral t distribution
Tester les nouveaux medicaments: Les statisticiens et la réglementation
"An essential aspect of the process of evaluating design strategies is the ability to calculate predictive probabilities of potential results." (D.A. Berry)
La facilité à faire des prédictions est un avantage particulièrement attrayant de l'inférence bayésienne.
Probabilités prédictives: Un outil pour la planification des expériences
Bayesian sample size determination in non-sequential clinical trials: Statistical aspects and some regulatory considerations
Bayesian predictive approach for inference about proportions
Bayesian predictive procedure for designing and monitoring experiments
"ANOVA may be the most commonly used statistical procedure. It is assuredly the most commonly misused statistical procedure!" (D.A. Berry)
L'Analyse bayésienne des Comparaisons fournit un cadre méthodologique souple, qui permet de se dégager des contraintes rigides imposées par le modèle général de l'analyse de variance traditionnelle et de mettre en avant les questions de l'utilisateur. Deux idées-force de l'Analyse des Comparaisons sont la notion d'analyse spécifique et le recours aux méthodes bayésiennes.
L'Analyse Bayésienne des Comparaisons
Traitement Statistique des données expérimentales: Des pratiques traditionnelles aux pratiques bayésiennes
Asserting the smallness of effects in ANOVA
Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication
Geometric data: From euclidean clouds to Bayesian MANOVA
Lois bayésiennes a priori dans un plan binomial séquentiel
Bayesian priors in sequential binomial design
On Bayesian estimators in multistage binomial designs
An objective Bayesian approach to multistage hypothesis testing
Distribution of quadratic forms of multivariate Student variables
Two useful distributions for Bayesian predictive procedures under normal models
Computing Bayesian predictive distributions: The K-square and K-prime distributions
Bayesian predictive approach for inference about proportions
A note on new confidence intervals for the difference between two proportion based on an Edgeworth expansion
Bayesian procedures for prediction analysis of implication hypotheses in 2×2 contingency tables
New results for computing exact confidence intervals for one parameter discrete distributions.
Analyse bayésienne des données de survie - Application à des essais cliniques en pharmacologie
Assessment and monitoring in clinical trials when survival curves have distinct shapes in two groups: a Bayesian approach with Weibull modeling
Play-the-winner rule in clinical trials: models for adaptative designs and Bayesian methods
Adaptative designs for multi-arm clinical trials: The play-the-winner rule revisited
Frequentist performance of Bayesian inference with response-adaptive designs.
Comparing performances of several response-adaptive designs in dose finding studies.
Inférence statistique causale sur les effets individuels: Quelques éléments de réflexion
Expérimentation, inférence statistique et analyse causale
"In fact, I find it easier teaching Bayesian statistics than frequentist statistics. There is a single, pivotal notion - Bayes' rule - that describes the process of learning. Bayes' rule is especially easy to teach, and it is easy for students to use." (D.A. Berry)
Auprès d'expérimentateurs, de statisticiens de l'industrie pharmaceutique.
Teaching Bayesian methods for experimental data analysis
A Challenge for Statistical Instructors: Teaching Bayesian inference without discarding the official significance tests
Training students and researchers in Bayesian methods for experimental data analysis