Les manipulations de langage sont fréquentes pour embellir les essais non significatifs

C’est un travail énorme fait par une équipe hollandaise et publié le 18 février 2022 dans PLOS Biology. Le titre est attirant : ‘Analysis of 567,758 randomized controlled trials published over 30 years reveals trends in phrases used to discuss results that do not reach statistical significance‘. Les auteurs sont partis de 567 000 essais contrôlés randomisés (ECR) publiés entre 1990 et 2020 et indexés dans PubMed. Ces modifications du langage sont destinées à tromper le lecteur et l’embobiner pour qu’il ne s’arrête pas à la vraie conclusion ‘non significatif’.

Ce seuil de P à 0,05 pousse à manipuler le langage quand P est un peu supérieur à 0,05, donc patatras car non significatif ! Ces auteurs ont fait une analyse quantitative pour chercher toutes ces expressions du type ‘presque significatif’ dans les publications. Ils sont partis de 505 expressions prédéfinies à rechercher, et ils ont travaillé sur un échantillon duquel ils ont extrait manuellement les valeurs de P… gros travail mais la pêche a été fructueuse.

In fine, ils ont identifié 61 741 expressions dans 49 134 ECR. Beaucoup de données dans cet article et bonnes discussions. Je ne reprends, à titre d’exemple, que la fréquence des 15 premières expressions avec les nombres de ECR concernés.

Partagez cet article sur les réseaux:

Herve Maisonneuve

6 commentaires

decullier 23 mars, 2022

je ne suis pas sûre de comprendre pourquoi « failed to reach statistical significance » fait partie de ce listing, je n’ai pas l’impression que cela induise en erreur

Répondre
- jbouc 25 mars, 2022
  
  Bonjour,
  Comme si l’ECR n’avait pas réussi à atteindre son objectif en mettant en cause d’autres facteurs, mais sans remettre en cause l’hypothèse de départ…
  
  Répondre
Félibre 01 avril, 2022

En français, le plus fréquemment employé est : numériquement supérieur. Ouaf Ouaf !

Répondre
Herve Maisonneuve 01 avril, 2022

Merci pour ces bons commentaires

Répondre
sapin jean pierre 08 avril, 2022

Admettre ne pas avoir raison. Que c’est dur.

Répondre
Nicolas MEYER 06 mai, 2022

L’ampleur des dégâts causés par le test d’hypothèse nulle (THN) est colossale. Faire un THN consiste à classer un résultats par rapport à deux séries de résultats possibles, ces résultats étant générés à partir d’hypothèses dont on sait à l’avance qu’elles n’ont aucune chance d’être vraie. On y confond la probabilité des données avec la probabilité du paramètre. Le THN calcule la probabilité d’avoir dans les données une différence au moins aussi extrême que la différence observée sous l’hypothèse forcément fausse qu’il n’y a pas de différence entre les groupes dans la population, alors que l’on veut savoir quelle est la différence dans la population en fonction de la différence observée sur les données. C’est comme confondre le manque de sensibilité et la valeur prédictive positive.
Le pire, c’est que le THN n’existe même pas… c’est un mélange du test d’hypothèse (Neyman et Pearson) et du test de significativité (Fisher) qui font appel à des conceptions très différentes des probabilités.
Encore pire : Neyman et Pearson, dans leur article de1933, ont bien dit que leur procédure ne permettait pas de répondre à la question que tout le monde se pose…
Pourquoi continuer à utiliser un tel outil ?
Tout ce qui repose sur cet outil est caduque par construction.
Il y a maintenant des centaines d’articles sur le sujet.
En espérant avoir déclenché quelques interrogations…

Répondre