Un preprint du 22 juillet 2017 a été signé par 72 statisticiens (dont Judith Rousseau, de Paris Dauphine) avec le titre 'Redefine statistical significance'. Des signatures prestigieuses. Il a été déposé sur PsyArXiv, et il a été très commenté. Ce document a été publié le 1 septembre 2017 par Nature Human Behaviour.
L'objectif est de qualifier de significatif les valeurs de P < 0,005, et de suggestif les valeurs de P entre 0,05 et 0,005.
Voici la traduction (avec Deepl) d'une partie de la conclusion :'Pour les milieux de recherche qui continuent de se fier à la vérification de l'importance des hypothèses nulles, la réduction à 0,005 du seuil de la valeur P pour les déclarations de nouvelles découvertes est une mesure réalisable qui améliorera immédiatement la reproductibilité. Nous insistons sur le fait que cette proposition concerne les normes de preuve, et non les normes d'action politique ni les normes de publication. Les résultats qui n'atteignent pas le seuil de signification statistique (quelle qu'elle soit) peuvent toujours être importants et mériter d'être publiés dans des revues de premier plan s'ils abordent des questions de recherche importantes avec des méthodes rigoureuses. Cette proposition ne doit pas être utilisée pour rejeter les publications de nouvelles découvertes dont 0,005 < P < 0,05 est correctement étiqueté comme une preuve suggestive. Nous devrions récompenser la qualité et la transparence de la recherche en imposant ces normes plus strictes, et nous devrions surveiller comment les comportements des chercheurs sont affectés par ce changement. Sinon, la science court le risque que le seuil plus exigeant de signification statistique soit atteint au détriment de la qualité et de la transparence.'
Nous avons souvent évoqué ces problématiques sur ce blog. La résistance au changement est importante, mais améliorer la reproductibilité est nécessaire…..
4 commentaires
Bonsoir
Si cela était adopté et généralisé, ne serait-ce pas la « révolution » en médecine où nombre de publications sur des médicaments présentés comme « innovants » peinent à atteindre l’effet significatif à 0.05. Alors à 0.005 !!!!!!
Souvent et notamment dans le domaine des maladies rares, les séries de malades analysées sont de faible taille, ce qui n’empêche pas l’évaluation des séries d’être accompagnées de statistiques et de p<..... La pertinence de telles statistiques est souvent sans intérêt mais auteurs comme rédacteurs de revues médicales les souhaitent car ils y trouvent une "caution" de la qualité de leur travail. Cette fausse caution scientifique devrait disparaitre et auteurs comme rédacteurs devraient souvent se libérer de la "dictature" statistique, pseudo scientifique, et publier des résultats bruts que le lecteur sera à même d'analyser en toute conscience et logique.
Cette proposition de passer à une signification statistique à 0,005 peut être influencée par des conflits d’intérêts. Elle a déjà été proposée sous l’influence de l’industrie du tabac pour invalider les études sur le tabagisme passif. Cf. l’expérience de Marcel Goldberg que j’avais incité à publier il y a 15 ans :
https://www.ameli.fr/fileadmin/user_upload/documents/Bonnes_pratiques.pdf
D’autre part, il serait regrettable de réfuter des différences faibles et n’accorder une validité qu’à des différences fortes. Par exemple, la naissance d’un nombre plus important de garçons que de filles est un phénomène naturel mais la différence d’effectifs est trop faible pour être statistiquement significative dans bon nombre de maternité. Si on adoptait le 0,005, ce serait la course au grand échantillon et donc à la majoration des financements d’études et donc une réduction du nombre de projets car l’enveloppe budgétaire ne suivrait pas.
N’est-il pas plus raisonnable de continuer à penser :
– qu’une innovation (à 0,05) doit être confortée par une nouvelle étude allant dans le même sens ?
– que les méta-analyse et (pour une part) les revues systématiques confortent des résultats par leur aspect multicentrique.
– qu’accorder une force d’association à la valeur de la p-value est un non sens statistique (ce qui bien sûr n’est pas le cas pour le risque relatif ou l’odds ratio).
Bonne année à tous 0,0000 % !
Georges Borgès Da Silva
Rédacteur associé de la revue Santé Publique
Cet article a déjà été plusieurs fois commenté, notamment sur le site de Andrew Gelman, lequel en parle aussi dans l’article dans Nature sur lequel vous faite un commentaire dans un autre billet.
Le problème vient de la nature même de la p-valeur et des tests d’hypothèse nulle. Changer le seuil de significativité ne supprimera pas les problèmes, cela ne fera que les déplacer, voir en créer d’autres. Il faut vraiment, le plus vite possible, se débarrasser des tests d’hypothèses nulle et a minima utiliser des méthodes bayésiennes (mais pas n’importe comment, car il est très facile en Bayésien si l’on n’y prend pas garde de mimer les erreurs des fréquentistes).
Sur un plan historique, il est intéressant de noter que Fisher, qui a inventé la p-valeur, a toujours dit qu’il ne fallait pas utiliser toujours le même seuil de significativité pour toutes les analyses statistiques. Dit autrement, son outil a été totalement dévoyé de l’usage qu’il souhaitait en faire. Prendre toujours p = 0,05 ou toujours p = 0,005 était pour lui tout aussi peu pertinent.