Cet article expose un problème et surtout liste tous les systèmes existant pour détecter les faux articles. Il a été publié le 6 juillet 2024 par une revue de Springer que je ne connaissais pas. Les deux auteurs sont allemands, et l’article parfois trop verbeux (14 pages), mais intéressant.
La production des paper mills est inquiétante
Depuis quelques années, ce problème des articles faux semble en augmentation. Toutes les bonnes références sont citées dans l’introduction. Peut-on imaginer qu’écrire un article par un rédacteur employé d’un paper mill demandait quelques dizaines d’heures et que l’IA a drastiquement réduit ce temps, dont augmenté le nombre d’articles inventés ?
Les tableaux 1 à 5 listent des articles évoquant les articles faux avec un très bref résumé de chaque article. C’est utile et ce sont de bons articles qui sont cités ; les auteurs connus sur la chasse aux faux articles apparaissent. Le tableau 6 cite quatre sources sur ce sujet : le blog de L Schneider, PubPeer, RetractionWatch et le blog d’E Bik. Le tableau 7 cite les ressources de COPE et STM sur le sujet.
Combien de faux articles sont soumis chaque année ?
Les paragraphes sur cette question citent beaucoup d’hypothèses, mais nous n’avons en pratique aucune donnée solide pour répondre. Le fait qu’en 2023, il y ait eu 10 000 rétractations d’articles est un signal.. mais que signifie-t-il ? Une meilleure détection par des éditeurs ? Un cas particulier chez Hindawi alors que les autres éditeurs n’auraient rien vu ?
Est-ce que les revues scientifiques prestigieuses sont épargnées ? Cette hypothèse n’a pas de preuves solides.
Bonnes réflexions sur les dommages causés à la science, ne serait qu’en prenant l’exemple COVID-19, en commençant par la fraude Gautret, article toujours non retiré de la littérature et encore cité.
La détection des articles faux est souvent le fait du hasard, mais avec l’IA, plusieurs outils existent. L’un est celui créé par G Cabanac et al, the Problematic paper screener qui identifie des phrases torturées. Par exemple, une IA générative peut écrire ‘kidney disappointment’ au lieu ‘ kidney failure’.