C’est le message principal d’un commentaire publié dans Nature le 17 mai 2022. En effet, la plupart (tous ?) des articles de recherche sont basés sur une seule analyse statistique, faite par une équipe de statisticiens. Les messages de l’article sont dans les deux phrases mises en exergue :
- Les méthodes formelles ne peuvent pas guérir la myopie des modèles, car elles sont fermement ancrées dans le cadre de l’analyse unique.
- Les revues, les gouvernements et les philanthropes devraient recruter ou soutenir activement des équipes d’analyses multiples.
L’article décrit quelques pratiques connues quand un seul statisticien fait des analyses, avec le risque de choix de méthodes statistiques favorables à l’hypothèse de départ, en reprenant les notions de P hacking. L’article donne des exemples sur des équipes ayant analysé indépendamment des données et montrant des conclusions diverses. Il y a un exemple dont j’ai repris l’image de l’article de Nature, à savoir 9 équipes ayant estimé la propagation de l’épidémie de SARS-CoV-2 au Royaume Uni en octobre 2020 : l’équipe 1 prévoyait une régression et l’équipe 9 suggérait que 100 personnes en infectaient 166.
L’article engage à ne pas se contenter d’une seule analyse statistique, et c’est encore un avertissement sur toutes les manipulations, volontaires ou pas des statistiques. Il y a 11 bonnes références, et ma préférée sur le football est citée ! Voici l’étude ‘Vingt-neuf équipes comprenant 61 analystes ont utilisé les mêmes données pour répondre à la même question de recherche : les arbitres de football sont-ils plus susceptibles de donner des cartons rouges aux joueurs de couleur foncée qu’aux joueurs de couleur claire ?‘ Cet article est de qualité et je l’ai commenté en octobre 2018.
Merci à The MetaNews