Il faut aller vite pour utiliser les LLM (Large Language Models), ces outils qui nous aident pour écrire des articles. C’est une recherche publiée début avril 2024 dans JMIR (Journal of Medical Internet Research). Les journaux du groupe JMIR ont, à ce jour, publié bientôt 150 articles sur l’intelligence artificielle (IA) dans le domaine de la santé. Le JMIR, qui a 25 ans, est le meilleur journal de la discipline ‘Medical Informatics’.
Evaluation of Large Language Model Performance and Reliability for Citations and References in Scholarly Writing: Cross-Disciplinary Study
C’est une équipe chinoise qui a fait ce travail en promptant ChatGPT-3.5 en juillet/août 2023. Ils lui ont demandé d’écrire l’introduction de 5 articles en sciences naturelles et 5 articles en sciences humaines. ChatGPT a généré 102 références que les auteurs ont analysé. Il y a trop d’hallucinations. Voici le tableau 2 de l’article qui se comprend facilement :
Pour interpréter , je reprends ‘The Levenshtein distance was significantly higher in the humanities than in the natural sciences, reflecting the lower DOI accuracy.’
Des progrès attendus : pour quand ?
En avril 2024, il faut être très attentif et contrôler les citations, non seulement leur existence, mais aussi leur intérêt. Ne vaut-il pas mieux le faire sans les LLM pour aller plus vite ? Je ne sais pas. Attention aux hallucinations ! Les LLM peuvent inventer des références en compilant des éléments exacts : les auteurs existent dans une publication, ensuite le titre est celui d’un autre article, et la référence (revue, année, pages) peut avoir été extraite d’un autre article.
Petit article qu’il faudrait faire dans d’autres domaines scientifiques, dont la médecine, et avec plus de thèmes. L’introduction de cet article est didactique, peut-être trop longue. La question de la reproductibilité se pose : selon le prompt, selon la période d’interrogation, les résultats sont probablement différents.
En bref, les LLM ne sont pas fiables pour les citations, mais pour combien de temps ?
PS : merci à Nicolas de Chanaud pour son tweet
Un commentaire
Les LLM ne sont pas fiables ? Mais combien d’auteurs humains font mieux ?
D’autre part, ce que révèlent les LLM, n’est-ce pas une incapacité à leur fournir des bases de données fiables ?
Le plus grand mérite de l’IA ne serait-il pas de mettre en évidence les biais de notre propre intelligence telle qu’elle transparait dans les données dont on nourrit leur algorithme ?