Rechercher
Fermer ce champ de recherche.
Rechercher
Fermer ce champ de recherche.

Revue de littérature écrite avec ChatGPT… pas encore satisfaisant mais exercice prometteur

Points clés

chatgptDans la revue Anesthésie & Réanimation, en janvier 2024, une expérience d’auteurs marseillais écrivant avec l’intelligence artificielle (IA). Bon article qui montre les limites et avantages d’utiliser ces logiciels. Si en 2024, il y a beaucoup de limites, elles vont être progressivement corrigées.

L’article de ChatGPT, les commentaires des auteurs et le prompt

L’article est très intéressant et présenté ainsi : 1) une introduction sur l’IA ; 2) les méthodes de travail avec la fourniture de 10 articles et un prompt repris ci-dessous ; 3) l’article proposé par ChatGPT en entier ; 4) une discussion proposée par les auteurs. Cette discussion est intéressante. Je ne reprends pas la discussion sur le fond, à savoir le choc sceptique. [Note suite à commentaire… il faut lire septique]

Extraits de la discussion : ‘Le rendu de l’article, généré en moins de 10 secondes, est de qualité moyenne sur le plan lexical et sémantique. La structure générale de l’analyse, qui ne répond certes pas au cahier des charges de la majorité des revues scientifiques, permet néanmoins de développer selon un cheminement logique les bases physiopathologiques et la place des bêtabloquants dans le choc septique…..   il y a des biais d’hallucination, et les auteurs nous expliquent de quoi il s’agit……   Enfin, la lecture de l’article proposé par ChatGPT reste décevante. L’écriture est mécanique, circulaire et répétitive. Nous notons une superficialité de l’analyse autant dans l’approche mécanistique que dans la pertinence de l’analyse des études.’

Le prompt utilisé était : ‘Tu es un médecin anesthésiste-réanimateur. Tu dois écrire un article scientifique portant sur l’utilisation des bêtabloquants dans le traitement du choc septique en réanimation. Ce dernier doit mettre en contexte le problème du choc septique, expliquer l’importance de la régulation de la fréquence cardiaque, et introduire le concept des bêtabloquants comme une intervention potentielle. Tu devras utiliser la bibliographie suivante pour appuyer ta rédaction en citant les articles dans le texte en style Vancouver’

Et en fin d’article : ‘En conclusion, l’utilisation de ChatGPT dans la rédaction d’article scientifique montre comme toute technique novatrice des défauts et des promesses. Le biais d’hallucination sera bientôt corrigé par la possibilité de sourcer l’information de manière précise. Cependant, la qualité d’écriture académique fournie par l’algorithme est encore insuffisante pour pouvoir prétendre à une publication scientifique dans l’état. Il faut donc considérer cet outil pour ce qu’il est : une aide à la synthèse et à la rédaction sans pouvoir prétendre pour le moment à remplacer totalement l’humain dans le processus analytique et créatif d’un article scientifique.’

Je reprends le résumé :

L’utilisation de ChatGPT permet de rédiger des articles rapidement, de générer des résumés automatiques et d’explorer des angles nouveaux et créatifs pour des sujets divers. De nombreux étudiants et praticiens s’aident de cet outil basé sur l’intelligence artificielle pour documenter des discussions autour des stratégies thérapeutiques. Au décours d’un article de commande sur l’utilisation des bêtabloquants dans le choc septique par la revue « Anesthésie et Réanimation », nous avons testé l’approche utilisant ChatGPT pour documenter ce thème. Dans les limites du choix d’utilisation de l’intelligence artificielle que nous avons fait, les réponses fournies procurent un cadre global satisfaisant mais insuffisant et superficiel. L’intérêt théorique des bêtabloquants, via exclusivement le contrôle de la fréquence cardiaque, est développé. Toutefois, le propos est modéré selon l’opinion d’un expert international. L’analyse reste superficielle et circulaire, ne permettant pas de progresser réellement dans la connaissance des mécanismes sous-jacents ni d’analyser finement les références utilisées. Les données les plus récentes, non utilisées par ChatGPT du fait de notre méthodologie, invitent à la prudence dans l’utilisation des bêtabloquants dans le choc septique en dehors des études cliniques. Une meilleure caractérisation des patients pouvant potentiellement bénéficier de ce traitement reste nécessaire.

Demain un autre billet sur le même thème

Je remercie Marc Leone

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

5 commentaires

  • Dans le second paragraphe : « Je ne reprends pas la discussion sur le fond, à savoir le choc sCeptique. »
    Un lapsus révélateur…? 🙂

    Répondre
  • Sans avoir accès au full text, on peut supposer que les auteurs ont utilisé ChatGPT avec GPT-4 plutôt que GPT4-Turbo, avec quels autres paramètres de configuration (ex. température). Quoi qu’il en soit, la bibliographie mentionnée dans le prompt est probablement juste une liste de références, et principalement en anglais. L’utilisation de cette bibliographie repose donc sur la ‘lecture’ qui est supposée avoir été intégrée au corpus de GPT – et non, comme on pourrait le faire avec Gemini Pro, explicitement ajoutée au contexte, c’est à dire passée in extenso avec le prompt.

    Outre la question de mise à jour du corpus GPT, il est clair que GPT a eu principalement accès aux seuls abstracts des articles de cette bibliographie –c’est une limitation très importante–, et à tout le contenu disponible par ailleurs et y faisant référence. Mais pas en ‘live’, le prompt n’a pas généré de balayage de ces références à la volée, c’est basé sur la digestion qui en a été faite une fois pour toutes au cœur du modèle, donc non liée au contexte de la question. Ce n’est pas impossible, outre Gemini ça peut être fait par appel de fonctions et des mécanismes comme RAG, mais probablement pas ici.

    Donc « …ni d’analyser finement les références utilisées… » bin non, of course not, d’autant que c’est un modèle a language stochastique, pas un modèle interprétatif de « … connaissance des mécanismes sous-jacents … ». La puissance d’analyse du langage est impressionnante, mais elle a encore des limites.

    J’ajouterais que stylistiquement, le contenu librement accessible en français étant massivement sous-représenté, en particulier scientifique, le résultat reste tout à fait décent. Pour travailler principalement sur du contenu en anglais, on retrouve certaines des mêmes limitations, comme la superficialité, mais à un moindre degré.

    Par ailleurs, le principe le prompt-la réponse –une extension de la métaphore moteur de recherche– est très réducteur. C’est dans l’interaction qu’on obtient le plus de valeur, en insistant sur les points insuffisament couverts, en reformulant les questions, en interrogeant par étapes.

    Répondre
  • Pour être plus précis, c’est un peu comme si on disait à un étudiant, voilà ton sujet de thèse, et attendre un travail final soigné sans avoir eu aucune autre interaction.

    Répondre
    • Merci pour ces commentaires qui aident à mieux comprendre ces outils… Nous apprenons en marchant.

      Répondre
  • @ Yve Goulnik, Merci beaucoup pour vos remarques ! Quelques précisions sur la méthodologie :

    – L’article a été généré à partir du modèle public ChatGPT-3.5, l’idée étant de simuler en condition d’accessibilité grand public la génération d’un tel article. Il est fort probable que la qualité stylistique de la rédaction aurait été meilleure avec la version 4.

    – Sur la méthodologie, sans reprendre en totalité l’article, nous n’avons pas utilisé l’API de ChatGPT mais son interface publique. Comme vous le soulignez très justement, nous n’avons pas introduit dans le prompt le corpus des articles mais uniquement les références. L’idée étant double : Mettre en exergue la manière dont le modèle a été éduqué (sur les abstracts des articles et non sur le corpus entier) et d’évaluer le biais d’hallucination en lui fournissant les données hors de son champ temporel de connaissance.

    Nous travaillons activement à mettre sur pied un LLM local avec une fonctionnalité de RAG implémentée. Nous aimerions étudier la manière dont les performances d’un LLM plus modeste (type llama2 7B) peuvent être améliorées avec le RAG. Nous voulons à terme tenter d’implémenter ce système dans une base de donnée bibliographique pour pouvoir améliorer la qualité de rédaction scientifique d’un tel modèle local. Tout ceci étant encore au stade alpha à l’heure où j’écris ces lignes.

    Un tel système nous permettrai également, comme vous l’avez souligné, d’interagir de manière dynamique avec les articles à travers un LLM « RAGué », ce qui rendrait l’écriture académique beaucoup plus fluide et rapide qu’actuellement.

    Nous restons ouvert à toute remarque ou questions sur le sujet !

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer