Des revues ont introduit explicitement dans leurs instructions aux auteurs qu'elles découragent l'utilisation de la valeur de P pour les significations statistiques (significatif si inférieur à 0,05) dans les articles de recherche, et ce mouvement devrait s'étendre. Exemples :
- La prestigieuse revue 'Epidemiology', dont le facteur d'impact est 6,075 (toujours 3 décimales !!), a dans ses instructions aux auteurs : Significance Testing: For estimates of causal effects, we strongly discourage the use of categorized P-values and language referring to statistical significance (see discussion of this topic). We prefer instead interval estimation, which conveys the precision of the estimate with respect to sampling variability. We are more open to testing with respect to modeling decisions, such as for tests of interaction (see editorial) and for tests for trend, and with respect to studies using high-dimensional testing, such as genome-wide association or other genomic platforms. Il va falloir apprendre à bien raisonner. Je viens de lire un article de 11 pages de cette revue, sans aucune valeur de P… la rédaction doit faire ce qu'elle dit !
- Des éditoriaux, discussions sur cette problématique sont fréquents dans les revues prestigieuses, par exemple dans Science le 10 février 2017 sous le titre "Measuremment error and the replication crisis. The assumption that measurement error always reduces effect sizes is false". Un exemple est utilisé tout au long de cet article, et il est marrant : "It seems intuitive that producing a result under challenging circumstances makes it all the more impressive. If you learned that a friend had run a mile in 5 minutes, you would be respectful; if you learned she had done it while carrying a heavy backpack, you would be awed. The obvious inference is that she would have been even faster without the backpack. But should the same intuition always be applied to research findings?"
- Un des auteurs de cet éditorial de Science a été interviewé par RetractionWatch en février 2017, et apporté des commentaires.
- Des revues de Sciences Humaines et Sociales doivent avoir adopté cette politique d'abandon du P;
5 commentaires
Bonjour,
C’est encore une offensive des industriels.
On a lu récemment dans une revue « prestigieuse » à propos d’un anti cancéreux que les résultats statistiques n’étaient pas significatifs mais que les résultats cliniques étaient « meaningful » : http://www.healthnewsreview.org/2017/03/everolimus-cancer-drug-spin/
La disparition des essais clniques contrôlés avec des cut-off clairs permettra d’accélérer la commercialisation de produits inefficaces et coûteux.
Et je ne nie pas la dictature du p.
Bonne journée.
A mon sens, supprimer totalement les p est aussi stupide que de se soumettre à la dictature du petit p. Cela ne fait que confirmer qu’une grande proportion de ceux qui utilisent des méthodes statistiques ne savent pas ce qu’ils font. Ils les utilisent comme un ivrogne utilise un réverbère… (ce n’est pas de moi 🙂 )
On ne fait que remplacer une dictature par une autre !
De plus, interdire un petit p, avec un risque alpha à 5%, et le remplacer par un intervalle de confiance à 95%, en déclarant que ça va tout changer, me laisse songeur… là encore, c’est une preuve d’incompétence.
Il faut bien sur contrer la dictature du petit p. Mais ce n’est pas parce que les études sont non reproductibles qu’il faut supprimer les tests statistiques! les biais de sélection, de confusion et de classement resteront, avec ou sans petits p.
Bonjour,
bien d’accord.. la plupart de ceux qui utilisent les stats ne savent pas ce qu’ils font… Il faudra bien un jour obliger d’associer un méthodologiste compétent à toutes les publications… et donc diminuer très vite le nombre de publications….
Ce qui m’a étonné, c’est que ce soit la revue Epidemiolgy qui adopte cette politique : en principe, ce sont des méthodologistes dans le comité de rédaction.
Cdlmt
Bonjour,
Cette idée de supprimer les p-valeurs est une excellente idée. Pour être bien comprise, elle doit cependant être replacée dans son contexte et dans son utilisation correcte.
La p-valeur est l’avatar le plus courant du test statistique fréquentiste qui est depuis une vingtaine d’année l’objet de critiques de plus en plus nombreuses, et à raison. Il y a maintenant des centaines d’articles montrant l’inutilité des tests fréquentistes et l’inanité quasi-totale des p-valeurs. Ces méthodes doivent être remplacées par les méthodes bayésiennes, qui sont bien plus pertinentes. Là aussi, je n’ai pas la place de faire ici une revue de la littérature sur le sujet mais il y largement assez de quoi se documenter sur le sujet.
Utiliser des intervalles de confiance en lieu et place des p-valeurs est pertinent si l’on comprend comment les utiliser : il ne faut pas chercher si l’intervalle contient ou pas la valeur de référence (1 pour un risque relatif, par exemple) et en conclure que le RR n’est pas « statistiquement significatif ». Ce ne serait qu’utiliser une autre forme de test d’hypothèse nulle. Il faut utiliser l’intervalle comme une description des valeurs que peut plausiblement prendre le RR dans le contexte de l’étude. Pour bien faire, il faut utiliser l’intervalle de confiance bayésien qui est le seul dont on puisse dire qu’il a 95% de chance de contenir la vraie valeur du paramètre. La définition correcte de l’intervalle de confiance fréquentiste ne correspond pas, loin s’en faut, à cette interprétation que tout le monde fait à tord.
Les méthodes fréquentistes sont très mal utilisées car très mal comprises et pour cause : elles sont incompréhensibles, en raison de raisonnements passablement contre-intuitif.
Le problème de l’abandon des p-valeur est le problème classique de tous les changements de paradigme : tout le monde s’accroche et ce qu’il connait (même si c’est faux) parce que c’est plus simple. Mais la science n’est pas simple et couper un résultat en significatif ou pas revient à dire que dans un saucisson, seule une rondelle est bonne.
Je ne pense pas que les industriels soient responsables d’une offensive dans ce domaine. Ils n’ont pas eu besoin du bayésien ni de l’abandon des p-valeurs pour manipuler les publications à leur avantage. Avec le bayésien, ou même tout simplement avec l’abandon des p-valeurs, ce ne sera ni mieux, ni pire. Cela restera humain. Comme toujours, il n’y a que la formation correcte des utilisateurs terminaux de la statistique qui permettra d’interpréter correctement les résultats des analyses statistiques des études publiées et de savoir si le producteur de l’étude a tordu les chiffres à son avantage ou pas. Le Bayésien a l’avantage de devoir dire explicitement tout ce qu’il fait, ce qui n’est pas le cas des méthodes classiques. (Voyez Berger & Berry : statistical analysis and the illusion of objectivity). De nombreuses études ont montrés que les PU-PH ne maîtrisaient absolument pas ne serait-ce que le B.A-ba des statistiques classiques, alors que tout le monde s’appuie dessus. quand l’outil est mauvais, il faut en changer. Mais Jean Gaudart (salut Jean !) a raison sur un point au moins : ce n’est pas le seul intervalle de confiance qui fait la valeur du résultat : c’est aussi toute la méthodologie qui y a mené. Là encore… combien de collègues regarde vraiment autre chose que la p-valeur dans une publication ? J’en vois tous les jours qui me disent : c’est significatif et donc c’est bon pour le malade ! malgré les biais, la sélection de résultats positifs sur des sous-groupes définis à partir de critère de jugement modifiés a posteriori en fonction des besoins etc etc.
Il faut arrêter d’utiliser les p-valeurs et passer au bayésien mais il faut surtout continuer à former les chercheurs à la méthodologie, qui donne du sens au résultat du test statistique réalisé. Ceci dit, si la méthodologie est bonne, le résultat bayésien est bien plus utile et pertinent qu’une p-valeur.
Il ne s’agit pas non plus d’instaurer une dictature du Bayésien : il s’agit d’utiliser l’outil correct. On n’opère plus comme il y a 100 ans, il ne faut plus faire de statistique comme il y a 100 ans.
Bien cordialement à tous les lecteurs de cet excellentissime blog qui devrait être au programme de la PACES, du second cycle des études médicales et dans les références de toutes les thèses de médecine !!
Nicolas MEYER
L’interdiction du p dans epidemiology ne date pas d’hier. C’est je pense ken rothman qui a instauré cela il y a bien 20 ans.
Pour moi ce n’est en rien une question de fréquentisme ou de bayesien, mais de la base du p: celui ci n’a de sens que lorsque l’on teste une hypothèse nulle en situation d’equipoise donc uniquement sur des situations dans lesquelles l’exposition est aleatoire et l’evaluation indépendante de l’exposition, c’est à dire dans les essais randomisés en double aveugle. Dans tous les autres cas le p ne veut rien dire (on trouve plus de prostates chez l’homme que chez la femme, p<0.00000001 hahaha). Donc il est normal que le p n'ait rien à faire en épidémiologie.
Si en plus on travaille en populationnel... dans les données du sniiram, avec 99% de la population, il n'y a plus de variabilité ni d'estimation. Donc pas de statistiques descriptives: reste enfin la pertinence clinique de l'observation: 55,1 est différent de 55,2 ans, mais est-ce pertinent?
La disparition du p en epidémiologie permet de se consacrer à l'interprétation des faits. I
Bon courage!!!
Je vous invite à relire ken