nahnes

L’IA analyse des jeux de données pour générer des articles scientifiques : les chercheurs chinois et les paper mills en rafolent !

Points clés

Il s’agit d’un article de PLOS Biology en mai 2025 exposant une recherche d’une équipe britannique. Dorénavant les IA peuvent fouiller dans des bases de données massives et identifier des trucs significatifs…  la pertinence clinique n’est probablement plus un critère intéressant les chercheurs !

Les données massives gratuitement accessibles donnent des idées aux IA et papermills

Cet article a utilisé les données de la National Health and Nutrition Examination Survey ou NHANES, base produite par les CDC et incluant des données d’examens de santé, de données de laboratoire et d’interviews sur la nutrition d’un grand nombre d’américains (enfants et adultes) depuis 1960. Environ 5 000 participants sont ajoutés chaque année, et il y a 700 variables. Les auteurs ont inclu des articles qui ont utilisé NAHNES depuis 10 ans. In this work, we conducted a systematic literature search over the last 10 years to retrieve potentially formulaic papers analyzing NHANES data, and analyzed these manuscripts for common themes around statistical approaches, study design, or results that were not translational in nature. We also aimed to identify whether these issues provided a case study of the risks of AI-supported workflows being adopted by paper mills, from workflows to automate data dredging and machine learning, to manuscript preparation using generative AI.

Les données de NAHNES peuvent être exploitées avec des IA…   Et il semble que les IA peuvent tout faire…   choisir par exemple les périodes comparées…  pour identifier des valeurs de P intéressantes…

Ils ont identifié 341 articles publiés par 147 journaux, près de la moitié étant dans des revues prestigieuses. Notons une donnée étonnante : ‘In terms of trends over time, an average of 4 single-factor manuscripts identified by the search strategy were published per year between 2014 and 2021, increasing rapidly from 2022, with 190 in 2024 up to 9 October.’ L’augmentation des auteurs chinois est aussi surprenante. Les données sont nombreuses et étonnantes…  j’ai pris une image ci-dessous…  Ce sont tous les articles qui ont étudié une association entre un paramètre et la dépression….. regardez :

nahnes 2

Pour bien interpréter : ‘The individual studies did not employ false discovery correction, but taken together, represent multiple hypotheses. To compensate for this, False Discovery Rate (FDR) correction using Benjamini-Yekutieli was then applied to these studies using a count of 28 potential relevant hypotheses. Of the 28 statistically significant associations, less than half (13) remained statistically significant after FDR correction.’

Voici la traduction intégrale du résumé

La croissance des ensembles de données prêts à être exploités par l’intelligence artificielle (IA), tels que la National Health and Nutrition Examination Survey (NHANES), crée de nouvelles opportunités pour la recherche axée sur les données, mais génère également des risques d’exploitation des données par des paper mills. Dans ce travail, nous nous concentrons sur deux domaines potentiellement préoccupants pour les efforts de recherche soutenus par l’IA. Tout d’abord, nous décrivons la production d’un grand nombre d’analyses monofactorielles basées sur des formules, associant des prédicteurs uniques à des états de santé spécifiques, alors que des approches multifactorielles seraient plus appropriées. L’utilisation d’approches à facteur unique soutenues par l’IA supprime le contexte de la recherche, ne saisit pas les interactions, évite la correction des fausses découvertes et est une approche qui peut facilement être adoptée par les paper mills. Deuxièmement, nous identifions les risques liés à l’utilisation sélective des données, comme l’analyse de plages de dates limitées ou de sous-ensembles de cohortes sans justification claire, ce qui suggère un dragage des données et la formation d’hypothèses post hoc. En utilisant une recherche systématique de littérature pour les analyses à facteur unique, nous avons identifié 341 articles de recherche dérivés de la NHANES publiés au cours de la dernière décennie, chacun proposant une association entre un prédicteur et un état de santé à partir du large éventail contenu dans la NHANES. Nous avons identifié des preuves que la recherche ne prenait pas en compte les relations multifactorielles, que les manuscrits ne tenaient pas compte des risques de fausses découvertes et que les chercheurs extrayaient sélectivement les données de NHANES plutôt que d’utiliser l’ensemble des données disponibles. Compte tenu de l’explosion de la productivité assistée par l’IA dans les manuscrits publiés (la stratégie de recherche systématique utilisée ici a identifié une moyenne de 4 articles par an de 2014 à 2021, mais 190 en 2024-9 octobre seulement), nous mettons en évidence un ensemble de bonnes pratiques pour répondre à ces préoccupations, destinées aux chercheurs, aux gestionnaires de données, aux éditeurs et aux pairs évaluateurs, afin d’encourager l’amélioration des pratiques statistiques et d’atténuer les risques des paper mills utilisant des flux de travail assistés par l’IA pour introduire des manuscrits de faible qualité dans la littérature scientifique.

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles
Suivez-nous
Newsletter
Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer