Le nombre d'articles sur la reproductibilité en science augmente vite et sur ce blog, nous avons analysé des articles sur ce thème. Le rapport anglais de fin 2015 était le document le plus détaillé sur la reproductibilité. Dans Science Translational Medicine du 1 juin 2016, l'équipe de JPA Ioannidis s'interroge "What does research reproducibility means ?"
Pour la NSF (National Science Foundation) : "reproducibility refers to the ability of a researcher to duplicate the results of a prior study using the same materials as were used by the original investigator. That is, a second researcher might use the same raw data to build the same analysis files and implement the same statistical analysis in an attempt to yield the same results…. Reproducibility is a minimum necessary condition for a finding to be believable and informative."
Ce concept de reproductibilité a été d'abord décrit en sciences informatiques, puis en épidémiologie, biologie, économie. Ce concept est plus ancien pour les essais cliniques. Ce concept nécessite la transparence des données sources, et va de pair avec la notion de 'vérité'. Les définitions ne précisent pas jusqu'à quel niveau les déviations sont acceptables.
Cet article discute ce concept et précise les notions de reproductibilité des méthodes, de reproductibilité des résultats (concept de réplicabilité), ou de reproductibilité d'inférence. Quand on réanalyse une base de données et que les conclusions diffèrent, comment, est-ce une reproductibilité d'inférence ? Discussions intéressantes dans cet article, avec un exemple d'une méta-analyse : quand 25 petites études ne sont pas significatives, on peut penser qu'elles sont reproductibles. Quand on fait la méta-analyse et que les données poolées font apparaître un résultat significatif, que penser de la reproductibilité ? Que penser des études multiples ayant des biais de confusion, par exemple les liens entre un aliment et le cancer ? Attention de ne pas confondre reproductibilité avec robustesse et généralisabilité !
Un tableau liste les problèmes qui peuvent augmenter ou cacher la multiplicité : multiple comparisons, file-drawer problem, pseudoreplication, significance questing, datalining, dredging, torturing, hypothezing after the results are known (HARKing), data snooping, selective outcome reporting, silent multiplicity, specification searching, P-hacking. Tout un vocabulaire assez explicite, mais impossible à traduire en français !
Cette discussion de reproductibilité est liée au fait que la science publiée soit trompeuse et pas toujours représentative de la vérité. Cet article a donné lieu à de nombreux commentaires sur des blogs, comme sur STATnews.