C’est un travail énorme fait par une équipe hollandaise et publié le 18 février 2022 dans PLOS Biology. Le titre est attirant : ‘Analysis of 567,758 randomized controlled trials published over 30 years reveals trends in phrases used to discuss results that do not reach statistical significance‘. Les auteurs sont partis de 567 000 essais contrôlés randomisés (ECR) publiés entre 1990 et 2020 et indexés dans PubMed. Ces modifications du langage sont destinées à tromper le lecteur et l’embobiner pour qu’il ne s’arrête pas à la vraie conclusion ‘non significatif’.
Ce seuil de P à 0,05 pousse à manipuler le langage quand P est un peu supérieur à 0,05, donc patatras car non significatif ! Ces auteurs ont fait une analyse quantitative pour chercher toutes ces expressions du type ‘presque significatif’ dans les publications. Ils sont partis de 505 expressions prédéfinies à rechercher, et ils ont travaillé sur un échantillon duquel ils ont extrait manuellement les valeurs de P… gros travail mais la pêche a été fructueuse.
In fine, ils ont identifié 61 741 expressions dans 49 134 ECR. Beaucoup de données dans cet article et bonnes discussions. Je ne reprends, à titre d’exemple, que la fréquence des 15 premières expressions avec les nombres de ECR concernés.
6 commentaires
je ne suis pas sûre de comprendre pourquoi « failed to reach statistical significance » fait partie de ce listing, je n’ai pas l’impression que cela induise en erreur
Bonjour,
Comme si l’ECR n’avait pas réussi à atteindre son objectif en mettant en cause d’autres facteurs, mais sans remettre en cause l’hypothèse de départ…
En français, le plus fréquemment employé est : numériquement supérieur. Ouaf Ouaf !
Merci pour ces bons commentaires
Admettre ne pas avoir raison. Que c’est dur.
L’ampleur des dégâts causés par le test d’hypothèse nulle (THN) est colossale. Faire un THN consiste à classer un résultats par rapport à deux séries de résultats possibles, ces résultats étant générés à partir d’hypothèses dont on sait à l’avance qu’elles n’ont aucune chance d’être vraie. On y confond la probabilité des données avec la probabilité du paramètre. Le THN calcule la probabilité d’avoir dans les données une différence au moins aussi extrême que la différence observée sous l’hypothèse forcément fausse qu’il n’y a pas de différence entre les groupes dans la population, alors que l’on veut savoir quelle est la différence dans la population en fonction de la différence observée sur les données. C’est comme confondre le manque de sensibilité et la valeur prédictive positive.
Le pire, c’est que le THN n’existe même pas… c’est un mélange du test d’hypothèse (Neyman et Pearson) et du test de significativité (Fisher) qui font appel à des conceptions très différentes des probabilités.
Encore pire : Neyman et Pearson, dans leur article de1933, ont bien dit que leur procédure ne permettait pas de répondre à la question que tout le monde se pose…
Pourquoi continuer à utiliser un tel outil ?
Tout ce qui repose sur cet outil est caduque par construction.
Il y a maintenant des centaines d’articles sur le sujet.
En espérant avoir déclenché quelques interrogations…