Equipe Raisonnement Induction Statistique

ERIcaneus europeanuS
Travaux statistiques
Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

Les travaux statistiques de l'ERIS portent sur les méthodes d'analyse des données expérimentales. Les domaines d'application privilégiés sont la psychologie expérimentale et les essais cliniques en médecine et pharmacologie. La spécificité de ces domaines est, d'une part qu'il y est généralement fait usage de plans d'expériences complexes, avec des objectifs précis, et d'autre part que les résultats expérimentaux doivent être acceptés par une large communauté.


1. Critiques des tests de signification usuels

"The test provides neither the necessary nor the sufficient scope or typeof knowledge that basic scientific social research requires."(D.E. Morrison & R.E. Henkel)

Bien que leur usage fasse constamment l'objet des critiques les plus sévères, tant théoriques que méthodologiques, les tests de signification usuels ("Null Hypothesis Significance Tests") sont conventionnellement acceptés comme une preuve de la validité des conclusions et sont une norme incontournable pour la publication des résultats expérimentaux. Notre analyse conduit à conclure à une pratique inadaptée au plan méthodologique, mais socialement adaptée, d'un outil inadéquat dont le mode d'emploi est trompeur

Méthodologie de l'analyse des données expérimentales - Étude de la pratique des tests statistiques chez les chercheurs en psychologie, approches normative, prescriptive et descriptive
And... what about the researcher's point of view?
L'usage des tests statistiques par les chercheurs en psychologie: Aspects normatif, descriptif et prescriptif
Fisher: Responsible, not guilty


Les abus d'interprétation des tests de signification

Considérons une expérience avec deux facteurs croisés Age et Traitement, chacun à deux modalités. Les moyennes observées des quatre conditions expérimentales (avec 10 sujets pour chacune) sont respectivement 5.77 (a1,t1), 5.25 (a2,t1), 4.83 (a1,t2) et 4.71 (a2,t2).

On trouve dans une revue expérimentale internationale les commentaires typiques suivants, basés sur les tests F usuels de l'analyse de variance:
"the only significant effect is a main effect of treatment (F[1,36]=6.39, p=0.016), reflecting a substantial improvement";
et encore
"clearly, there is no evidence (F[1,36]=0.47, p=0.50) of an interaction".

Il est fortement suggéré au lecteur qu'on démontré à la fois l'existence d'un effet important du traitement et l'absence d'effet d'interaction.

Etes-vous d'accord avec ces conclusions?

Vers de nouvelles normes de publication?

"Habit is habit and not to be flung out of the window by any man,but coaxed downstairs a step at a time." (Mark Twain)

Un probable changement d'attitude des psychologues vis-à-vis du test de signification pourrait être la conséquence des recommandations de la Task Force chargée par le bureau des affaires scientifiques de l' American Psychological Association d'étudier le rôle du test de signification dans la recherche en psychologie.

[Wilkinson, L. and Task Force on Statistical Inference, APA Board of Scientific Affairs (1999) - Statistical Methods in Psychology Journals: Guidelines and Explanations. American Psychologist, 54, 594-604.
Azar B. (1999) - APA statistics task force prepares to release recommendations for public comment. APA Monitor Online, 30, 5.]

Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication


"The essence of science is replication: a scientist should always be concerned about what would happen if he or another scientist were to repeat his experiment." (Guttman).

Depuis 2006, l'Association for Psychological Science a introduit dans les "author guidelines" de Psychological Science, une nouvelle norme de publication:

Statistics

Effect sizes should accompany major results. In addition, authors are encouraged to use prep rather than p values (see the article by Killeen in the May 2005 issue of Psychological Science, Vol. 16, pp. 345-353).

"Killeen's prep" ("probability of replication") apparaît maintenant apparaît maintenant de manière routinière dans Psychological Science.


Plus sur prep...


Nouvelles difficultés avec l'intervalle de confiance

"It would not be scientifically sound to justify a procedure by frequentist arguments and to interpret it in Bayesian terms." (H. Rouanet)

L'intervalle de confiance, au sens fréquentiste (Neyman et Pearson), est incontestablement la méthode la plus souvent proposée pour pallier les insuffisances des tests usuels.
Il n'est maintenant plus rare de voir mentionnés des intervalles de confiance, en complément des tests, dans des publications expérimentales.
Les intervalles de confiance se justifient (comme le test) par une conception fréquentiste qui traite les données comme aléatoires, même après les avoir recueillies. Cela est si étrange que l'interprétation fréquentiste "correcte" des intervalles de confiance n'a pas de sens pour la plupart des utilisateurs.

Et si vous étiez un bayésien "qui s'ignore"?
Isn't everyone a Bayesian?
And if you were a Bayesian without knowing it?


Il y a intervalle et intervalle!

Dans un ouvrage d'introduction à la statistique, appartenant à une collection destinée au grand public, dont l'objectif est de permettre au lecteur d'"accéder aux intuitions profondes du domaine", on trouve l'interprétation suivante de l'intervalle de confiance (ou "fourchette") pour une proportion.

"Si dans un sondage de taille 1000, on trouve P [la proportion observée] = 0.613, la proportion π à estimer a une probabilité 0.95 de se trouver dans la fourchette: [0.58,0.64]"

Etes-vous d'accord avec cette interprétation?


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

2. La thérapie bayésienne

Le choix bayésien n'est-il pas incontournable?

"We [statisticians] will all be Bayesians in 2020, and then we can be a united profession." (D.V. Lindley)

Nous défendons la thèse que les méthodes bayésiennes sont idéales pour créer un changement d'attitude dans la présentation et l'interprétation des résultats expérimentaux. Nous proposons d'utiliser les méthodes bayésiennes "non-informatives" comme thérapie pour guérir les mésusages et les abus des tests de signification usuels. Depuis de nombreuses années nous avons travaillé dans cette perspective avec d'autres collègues, dans le but de développer des méthodes bayésiennes standard "non-informatives" pour la plupart des situations familières rencontrées dans l'analyse des données expérimentales.

Beyond the significance test controversy: Prime time for Bayes?
Uses, abuses and misuses of significance tests in the scientific community: Won't the Bayesian choice be unavoidable?


Les méthodes fiducio-bayésiennes

"Maybe Fisher's biggest blunder [fiducial inference] will become a big hit in the 21st century." (B. Efron)

Pour promouvoir ces méthodes bayésiennes, il nous a semblé important de leur donner un nom plus explicite que "standard", "non-informatives" ou "de référence". Nous proposons de les appeler fiducio-bayésiennes. Ce nom délibérément provocateur rend hommage au travail de Fisher sur l'inférence scientifique pour les chercheurs. Il indique leur spécificité et leur objectif d'exprimer "ce que les données ont à dire".
Ces méthodes fiducio-bayésiennes sont une proposition concrète pour dépasser les insuffisances des tests de signification usuels et améliorer la méthodologie statistique et les pratiques actuelles.

New ways in statistical methodology: From significance tests to Bayesian inference
Uses, abuses and misuses of significance tests in the scientific community: Won't the Bayesian choice be unavoidable?
Bayesian methods for experimental data analysis


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

3. Développement de méthodes inférentielles de rechange

"A common misconception is that Bayesian analysis is a subjective theory; this is neither true historically nor in practice." (J. Berger)

Il s'agit de fournir des méthodes inférentielles de rechange, générales et adaptées aux besoins réels des utilisateurs. Le cadre théorique privilégié est l'inférence bayésienne, au moins aussi objective que l'inférence fréquentiste traditionnelle.
Les méthodes fiducio-bayésiennes ont été appliquées à de très nombreuses données réelles et ont toujours été bien acceptées par les revues expérimentales

Mémorisation de récits: Reconnaissance immédiate et différée d'énoncés par des enfants de 7, 8 et 10 ans
Orientation of attention and sensory gatting: An evoked potential and RT study in cat
From production to selection of interpretations for novel conceptual combinations: A developmental approach.


"Bayesian posterior probabilities are exactly what scientists want." (S.N. Goodman & J.A. Berlin)


Du test de signification à l'inférence bayésienne


J'ai la statistique de test, puis-je avoir un intervalle?

J'ai trouvé un article qui rapporte les résultats d'une étude planifiée pour tester l'efficacité d'un médicament en comparant deux groupes (traitement vs placebo) de 15 patients chacun. L'article fournit la différence observée d=+1.52 en faveur du traitement, ainsi qu'un "test t de Student": t=+0.683, 28 degrés de liberté, p=0.50, non significative.
Ce qui m'intéresserait serait d'avoir une "fourchette" (intervalle de confiance fréquentiste, ou intervalle de crédibilité fiducio-bayésien) pour pouvoir juger si on a réellement prouvé que le médicament est inefficace.

Est-ce possible?

Teaching Bayesian methods for experimental data analysis
Beyond the significance test controversy: Prime time for Bayes?
Une raison pour ne pas abandonner les tests de signification de l'hypothèse nulle


Analyse de l'intensité des effets ("effect size")

Asserting the smallness of effects in ANOVA
Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication
Another look at confidence intervals for the noncentral t distribution
Tester les nouveaux medicaments: Les statisticiens et la réglementation


Programme: LesMoyennes


"An essential aspect of the process of evaluating design strategies is the ability to calculate predictive probabilities of potential results." (D.A. Berry)

La facilité à faire des prédictions est un avantage particulièrement attrayant de l'inférence bayésienne.


Planification des expériences (quel effectif choisir?)

Probabilités prédictives: Un outil pour la planification des expériences
Bayesian sample size determination in non-sequential clinical trials: Statistical aspects and some regulatory considerations


Conduite des expériences (quand s'arrêter?)

Bayesian predictive approach for inference about proportions
Bayesian predictive procedure for designing and monitoring experiments


Programme: LesEffectifs



Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

4. L'Analyse Bayésienne des Comparaisons

"ANOVA may be the most commonly used statistical procedure. It is assuredly the most commonly misused statistical procedure!" (D.A. Berry)

L'Analyse bayésienne des Comparaisons fournit un cadre méthodologique souple, qui permet de se dégager des contraintes rigides imposées par le modèle général de l'analyse de variance traditionnelle et de mettre en avant les questions de l'utilisateur. Deux idées-force de l'Analyse des Comparaisons sont la notion d'analyse spécifique et le recours aux méthodes bayésiennes.

Intégration des procédures traditionnelles de l'analyse de variance (tests t, F, etc.)


Prolongement par des procédures bayésiennes (et aussi fréquentistes)

L'Analyse Bayésienne des Comparaisons
Traitement Statistique des données expérimentales: Des pratiques traditionnelles aux pratiques bayésiennes
Asserting the smallness of effects in ANOVA
Aller au delà des tests de signification traditionnels: Vers de nouvelles normes de publication
Geometric data: From euclidean clouds to Bayesian MANOVA


Logiciel: PAC (Programme d'Analyse des Comparaisons)


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

5. Remise en cause du principe de vraisemblance

L’information sur le plan expérimental, incluant la règle d’arrêt, constitue une partie de l’évidence, antérieure à l’échantillon. Par conséquent cette information doit être intégrée dans la distribution bayésienne initiale (R. de Cristofaro, on the foundations of likelihood principle, Journal of Statistical Planning and Inference, 2004, 401–411).
Cette approche permet de renoncer au principe de vraisemblance (sous sa forme usuelle) quand cela est approprié. En particulier, un état d'ignorance (ou d'indifférence) ne peut pas être défini sans référence au plan.
Appliquant ces idées, Bunouf et Lecoutre (2006, 2008) ont développé des a priori de type Jeffreys dérivés de la vraisemblance augmentée de l'information du plan d'expérience pour des plans multistages. Ils ont montré que l'utilisation de tels a priori corrige les distributions a posteriori du biais de la règle d'arrêt.

Lois bayésiennes a priori dans un plan binomial séquentiel
Bayesian priors in sequential binomial design
On Bayesian estimators in multistage binomial designs
An objective Bayesian approach to multistage hypothesis testing

Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

6. Etude de nouvelles distributions

Psi-deux (ou alternate F)

Distribution of quadratic forms of multivariate Student variables


Lambda-prime et lambda-deux (ou alternate chi-square)


K-prime et K-deux

Two useful distributions for Bayesian predictive procedures under normal models
Computing Bayesian predictive distributions: The K-square and K-prime distributions

Programme: LesDistributions


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

7. Autres domaines d'applications

Comparaisons de proportions

Bayesian predictive approach for inference about proportions
A note on new confidence intervals for the difference between two proportion based on an Edgeworth expansion

Degré d'association entre attributs binaires

Bayesian procedures for prediction analysis of implication hypotheses in 2×2 contingency tables

Programme: LesProportions



Calcul d'intervalles de confiance "exacts" pour une proportion

New results for computing exact confidence intervals for one parameter discrete distributions.


Données de survie censurées (modèle de Weibull notamment)

Analyse bayésienne des données de survie - Application à des essais cliniques en pharmacologie
Assessment and monitoring in clinical trials when survival curves have distinct shapes in two groups: a Bayesian approach with Weibull modeling


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

6. Plans séquentiels ("adaptative designs")

Etude de nouveaux plans séquentiels basés sur une généralisation de la règle "play-the-winner". Des résultats théoriques et numériques montrent que ces plans sont pour les critères habituellement considérés supérieurs aux plans proposés précédemment.
Développement de méthodes bayésiennes pour l'analyse de ces plans.

Play-the-winner rule in clinical trials: models for adaptative designs and Bayesian methods
Adaptative designs for multi-arm clinical trials: The play-the-winner rule revisited
Frequentist performance of Bayesian inference with response-adaptive designs.
Comparing performances of several response-adaptive designs in dose finding studies.


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

9. Inférence statistique et analyse causale

Réflexions sur l'analyse causale de données d'expériences "randomisées".

Inférence statistique causale sur les effets individuels: Quelques éléments de réflexion
Expérimentation, inférence statistique et analyse causale


Critiques des
tests de signification
usuels
La
thérapie
bayésienne
Développement de
méthodes  inférentielles
de rechange
L'Analyse
Bayésienne
des Comparaisons
Remise en cause
du principe
de vraisemblance
Etude
de
nouvelles distributions
Autres
domaines
d'applications
Plans séquentiels

Adaptative designs
Inférence statistique
et
analyse causale
Implications
méthodologiques
et didactiques

10. Implications méthodologiques et didactiques

Les implications méthodologiques des procédures développées et leur adéquation aux besoins réels des utilisateurs sont étudiées à partir de nombreuses analyses de données expérimentales.

"In fact, I find it easier teaching Bayesian statistics than frequentist statistics. There is a single, pivotal notion - Bayes' rule - that describes the process of learning. Bayes' rule is especially easy to teach, and it is easy for students to use." (D.A. Berry)

Conseils

Auprès d'expérimentateurs, de statisticiens de l'industrie pharmaceutique.


Enseignement des méthodes bayésiennes pour l'analyse des données expérimentales

Teaching Bayesian methods for experimental data analysis
A Challenge for Statistical Instructors: Teaching Bayesian inference without discarding the official significance tests
Training students and researchers in Bayesian methods for experimental data analysis




http://herisson.nom.fr/: SITE DEDIE AUX HERISSONS...