Rechercher
Fermer ce champ de recherche.
Rechercher
Fermer ce champ de recherche.

Avec l’intelligence artificielle, seulement 65 à 75 % des citations proposées étaient exactes… insuffisant

Points clés

Il faut aller vite pour utiliser les LLM (Large Language Models), ces outils qui nous aident pour écrire des articles. C’est une recherche publiée début avril 2024 dans JMIR (Journal of Medical Internet Research). Les journaux du groupe JMIR ont, à ce jour, publié bientôt 150 articles sur l’intelligence artificielle (IA) dans le domaine de la santé. Le JMIR, qui a 25 ans, est le meilleur journal de la discipline ‘Medical Informatics’.

Evaluation of Large Language Model Performance and Reliability for Citations and References in Scholarly Writing: Cross-Disciplinary Study

C’est une équipe chinoise qui a fait ce travail en promptant ChatGPT-3.5 en juillet/août 2023. Ils lui ont demandé d’écrire l’introduction de 5 articles en sciences naturelles et 5 articles en sciences humaines. ChatGPT a généré 102 références que les auteurs ont analysé. Il y a trop d’hallucinations. Voici le tableau 2 de l’article qui se comprend facilement :

jmir table 2

Pour interpréter , je reprends ‘The Levenshtein distance was significantly higher in the humanities than in the natural sciences, reflecting the lower DOI accuracy.’

Des progrès attendus : pour quand ?

En avril 2024, il faut être très attentif et contrôler les citations, non seulement leur existence, mais aussi leur intérêt. Ne vaut-il pas mieux le faire sans les LLM pour aller plus vite ? Je ne sais pas. Attention aux hallucinations ! Les LLM peuvent inventer des références en compilant des éléments exacts : les auteurs existent dans une publication, ensuite le titre est celui d’un autre article, et la référence (revue, année, pages) peut avoir été extraite d’un autre article.

Petit article qu’il faudrait faire dans d’autres domaines scientifiques, dont la médecine, et avec plus de thèmes. L’introduction de cet article est didactique, peut-être trop longue. La question de la reproductibilité se pose : selon le prompt, selon la période d’interrogation, les résultats sont probablement différents.

En bref, les LLM ne sont pas fiables pour les citations, mais pour combien de temps ?

PS : merci à Nicolas de Chanaud pour son tweet

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

Un commentaire

  • Les LLM ne sont pas fiables ? Mais combien d’auteurs humains font mieux ?
    D’autre part, ce que révèlent les LLM, n’est-ce pas une incapacité à leur fournir des bases de données fiables ?
    Le plus grand mérite de l’IA ne serait-il pas de mettre en évidence les biais de notre propre intelligence telle qu’elle transparait dans les données dont on nourrit leur algorithme ?

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer