C’est rare qu’un preprint fasse l’objet d’une news dans Nature... Ce preprint a été vite repéré et les journaux doivent solliciter les auteurs pour le publier. Ce preprint a été déposé le 11 octobre 2023 sur la plateforme EcoEvoRxiv. Il s’agit d’une grande étude de reproductibilité dans le domaine de l’écologie. Il y a plus de 200 auteurs dont quelques français. Nous avons tendance à considérer les résultats d’une étude comme acquis.. mais la bonne science nécessite de reproduire les résultats.
Différences dues aux hypothèses statistiques choisies par les chercheurs
Voici la traduction du résumé : Bien que la variation des tailles d’effet et des valeurs prédites entre les études portant sur des phénomènes similaires soit inévitable, cette variation dépasse de loin ce qui pourrait être produit par la seule erreur d’échantillonnage. L’une des explications possibles de la variation des résultats est la différence entre les chercheurs dans les décisions qu’ils prennent en matière d’analyses statistiques. Un nombre croissant d’études ont exploré cette variabilité analytique dans différents domaines (principalement les sciences sociales) et ont constaté une variabilité substantielle entre les résultats, bien que les analystes disposent des mêmes données et de la même question de recherche. Nous avons mis en œuvre une étude analogue en écologie et en biologie évolutive, domaines dans lesquels il n’y a pas eu d’exploration empirique de la variation des tailles d’effet ou des prédictions de modèle générées par les décisions analytiques de différents chercheurs. Nous avons utilisé deux ensembles de données non publiées, l’un en écologie évolutive (mésange bleue, Cyanistes caeruleus pour comparer le nombre de frères et sœurs et la croissance des oisillons) et l’autre de l’écologie de la conservation (Eucalyptus pour comparer le couvert végétal et le recrutement des jeunes plants d’arbres). Les chefs de projet ont recruté 174 équipes d’analystes, comprenant 246 analystes, pour étudier les réponses aux questions de recherche prédéfinies. Les analyses effectuées par ces équipes ont produit 141 effets utilisables pour l’ensemble de données sur les mésanges bleues et 85 effets utilisables pour l’ensemble de données sur les eucalyptus. Nous avons constaté une hétérogénéité substantielle des résultats pour les deux ensembles de données, bien que les schémas de variation diffèrent entre eux. Pour les analyses sur les mésanges bleues, l’effet moyen était négatif de manière convaincante, avec une croissance moindre pour les oisillons vivant avec plus de frères et sœurs, mais il y avait une variation presque continue de la taille de l’effet, allant d’effets négatifs importants à des effets proches de zéro, et même des effets franchissant le seuil traditionnel de signification statistique dans la direction opposée. En revanche, la relation moyenne entre l’enherbement et le nombre de semis d’Eucalyptus n’était que légèrement négative et ne différait pas de façon convaincante de zéro, et la plupart des effets allaient de faiblement négatifs à faiblement positifs, avec environ un tiers des effets franchissant le seuil traditionnel de signification dans un sens ou dans l’autre. Toutefois, l’ensemble de données sur l’eucalyptus présentait également plusieurs valeurs aberrantes frappantes, avec des effets très éloignés de zéro. Pour les deux ensembles de données, nous avons constaté des variations substantielles dans la sélection des variables et les structures d’effets aléatoires entre les analyses, ainsi que dans les évaluations des méthodes analytiques par les pairs, mais nous n’avons trouvé aucune relation étroite entre ces éléments et l’écart par rapport à la moyenne de la méta-analyse. En d’autres termes, les analyses dont les résultats étaient éloignés de la moyenne n’étaient ni plus ni moins susceptibles d’avoir des ensembles de variables dissemblables, d’utiliser des effets aléatoires dans leurs modèles ou de recevoir des évaluations médiocres de la part des pairs que les analyses dont les résultats étaient proches de la moyenne. L’existence d’une variabilité substantielle entre les résultats des analyses soulève des questions importantes sur la manière dont les écologistes et les biologistes évolutionnistes devraient interpréter les résultats publiés et sur la manière dont ils devraient effectuer des analyses à l’avenir.
Est-ce généralisable à d’autres disciplines ? Probablement, et ce n’est pas la première étude de ce type. Nous avons rapporté une étude faite à partir d‘une base de données de joueurs de football.
Les études sur la reproductibilité sont très nombreuses et informatives. Les solutions viendront.
Un commentaire
Votre post et le preprint sont très intéressants.
Dans un autre domaine, j’utilise beaucoup pour mon travail les bases de données publiques du Cancer Genome Atlas (TCGA) et je recherche des liens, par exemple, entre des données cliniques (survie des patients) et l’expression ou les mutations de tel ou tel gène. [Cela ne remplace ni l’expérimentation, ni les essais cliniques, mais cela peut servir de garde-fous]
Et je trouve des articles où la même approche est utilisée, où les mêmes associations sont recherchées dans les mêmes bases de données, sur les mêmes cancers… avec des résultats différents des miens.
Je n’ai pas enquêté pour comprendre le pourquoi de telles différences (je pars du principe que ces chercheurs sont aussi sincères et honnêtes que moi)… mais je vais essayer d’y consacrer un peu de temps !