Les Annals of Internal Medicine ont publié trois articles sur les (mauvaises) statistiques dans les articles scientifiques :
- Le premier (2 octobre 2018) d'une série d'articles "Annals Understanding Clinical Research" avec le titre "Interpreting results with large P values"… En pratique arrêtons d'urgence de croire que le 0,05 est une valeur miracle pour la valeur de P… la pertinence clinique n'est pas obligatoirement la significativité statistique à 0,05 ….
- Un éditorial (16 octobre 2018) à propos de l'article suivant et intitulé "Inappropriate statistical analysis and reporting in medical research: perverse incentives and institutional solutions'.. expliquant que les mauvaises méthodes (voir ci-dessous) sont difficiles à détecter dans les articles. Lisez bien ce titre : perverse incentives and institutional solutions
- Une enquête (16 octobre 2018) auprès de 390 statisticiens américains sur les demandes des chercheurs : Researcher requests for inappropriate analysis and reporting: a US survey of consulting biostatisticians.
Cet article rapporte les mauvaises pratiques demandées aux statisticiens par les chercheurs : les demandes ont été classées par ordre décroissant de gravité, et les deux premières ont heureusement été les plus rares. Pour chacune de ces demandes, le tableau 1 donne des détails, à savoir combien de fois ces demandes ont été reçues par les biostatisticiens dans les 5 dernières années (soit 0 fois, soit 1 à 9 fois, soit 10 fois et plus). Les résultats sont en % sur les 390 réponses, et très surprenants. Voici les demandes des chercheurs :
- Falsifier la signification statistique (telle que la valeur P) pour favoriser un résultat souhaité.
- Modifier les données pour obtenir le résultat souhaité (comme le taux de prévalence du cancer ou d'une autre maladie).
- Supprimer ou modifier certains enregistrements de données (observations) pour mieux étayer l'hypothèse de recherche.
- Interpréter les résultats statistiques sur la base des attentes et non des résultats réels.
- Ne pas décrire en détail le traitement à l'étude parce que le protocole n'a pas été suivi à la lettre.
- Ne pas signaler la présence de données clés manquantes qui pourraient biaiser les résultats.
- Ignorer les violations des hypothèses parce que les résultats peuvent devenir négatifs.
- Modifier une échelle de mesure pour obtenir certains résultats souhaités plutôt que de s'en tenir à l'échelle originale validée.
- Rapporter la puissance sur la base d'un calcul post hoc, mais faire en sorte qu'il ressemble à une déclaration a priori
- Request to not properly adjust for multiple testing when “a priori, originally planned secondary outcomes” are shifted to an “a posteriori primary outcome status”
- Effectuer trop de tests post hoc, mais ne pas ajuster délibérément les niveaux alpha pour rendre les résultats plus impressionnants qu'ils ne le sont réellement.
- Supprimer les catégories d'une variable pour obtenir des résultats plus favorables
- Ne pas mentionner d'analyses intermédiaires pour éviter "trop de tests".
- Rendre compte des résultats avant que les données n'aient été nettoyées et validées.
- Ne pas discutez de la durée du suivi parce qu'elle n'était pas uniforme.
- N'insister que sur les constatations significatives, mais sous-déclarer les constatations non significatives.
- Ne pas déclarer les modèles statistiques (y compris l'ampleur de l'effet dans ANOVA ou R2 dans la régression linéaire) parce qu'elles semblent trop petites pour indiquer des changements significatifs.
- Ne pas montrer l'hypothèse parce qu'elle n'a pas montré un effet aussi fort que vous l'aviez espéré.
Ces observations montrent qu'une meilleure formation méthodologique des chercheurs est indispensable !!! L'article ne dit pas quelles ont été les réponses des biostatisticiens aux chercheurs….