Les réponses des chatbots de l’IA seraient-elles meilleures que celles des médecins ?

En lisant le centre de ressources IA du groupe JAMA, j’ai repris un article ayant déjà un an et cité bientôt 650 fois car il a été beaucoup commenté. Le score Altmetric est élevé avec 6 238 (6 mai 2024) et liste 6647 tweets (pour 37 millions de suiveurs), 546 news dans des médias (et encore en avril 2024), puis seulement 9 billets Facebook, 8 mentions dans Wikipedia, etc… J’avais gardé cet article et j’ai écouté l’interview du premier auteur

Qualité et empathie des réponses des chatbots

Le titre de l’article de fin avril 2023 dans JAMA Internal Medicine : Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. Le message principal fait peur ou nous conforte dans l’intérêt de l’IA : The chatbot responses were preferred over physician responses and rated significantly higher for both quality and empathy. J’ai lu l’article et des commentaires. Je reprends une image de l’article ci-contre sans titre et explications. J’ai préféré traduire le résumé ci-dessous.

Je vous conseille de lire les tableaux comparant réponses du chatbot et réponses des experts. C’est impressionnant, et l’on comprend que le chatbot soit plus empathique ! A lire +++

Pas si simple

A partir de cet article, il y a 12 liens à d’autres articles qui demandent de faire attention (ce ne sont pas des citations mais des articles publiés après avril 2023). C’est facile de constater que ces LLM peuvent faire mieux que le médecin. Certains contestent le terme ’empathie’ pour évoquer les réponses des chatbots.

Un commentaire publié le même jour que l’article pose de bonnes questions. Il faudra des réorganisations majeurs du système de soins. Ce commentaire se termine ainsi : Nous entrons dans une nouvelle ère, marquée par une abondance d’informations, mais une pénurie de temps et de contacts humains. L’exercice de la médecine ne se limite pas à traiter des informations et à associer des mots à des concepts ; il s’agit d’attribuer un sens à ces concepts tout en établissant un lien avec les patients en tant que partenaire de confiance afin de leur offrir une vie plus saine. Nous pouvons espérer que les systèmes d’IA émergents aideront à maîtriser les tâches laborieuses qui accablent la médecine moderne et permettront aux médecins de se concentrer à nouveau sur le traitement des patients humains.

J’ai lu des articles commentant ces problématiques et les correspondants s’accordent à dire que tout va trop vite. Cet article est déjà largement dépassé.

Dans ces articles les liens d’intérêts ne sont plus pharmaceutiques, mais ce sont des liens avec toutes ces entreprises de type GAFAM.. et il y a beaucoup de liens déclarés.

Voici le résumé traduit en français avec DeepL et relu pour quelques adaptations :

Importance : L’expansion rapide des soins de santé virtuels a entraîné une augmentation du nombre de messages envoyés par les patients, ainsi qu’un surcroît de travail et un épuisement professionnel chez les professionnels de la santé. Les assistants d’intelligence artificielle (IA) pourraient potentiellement aider à répondre aux questions des patients en rédigeant des réponses qui pourraient être examinées par les cliniciens.

Objectif : Évaluer la capacité d’un chatbot assistant d’IA (ChatGPT), sorti en novembre 2022, à fournir des réponses de qualité et empathiques aux questions des patients.

Conception, contexte et participants : Dans cette étude transversale, une base de données publique et non identifiable de questions provenant d’un forum public de médias sociaux (r/AskDocs de Reddit) a été utilisée pour tirer au sort 195 échanges d’octobre 2022 où un médecin confirmé a répondu à une question publique. Les réponses du chatbot ont été générées en entrant la question originale dans une nouvelle session (sans que des questions antérieures aient été posées dans la session) les 22 et 23 décembre 2022. La question originale ainsi que les réponses anonymes et aléatoires des médecins et du chatbot ont été évaluées en trois exemplaires par une équipe de professionnels de la santé diplômés. Les évaluateurs ont choisi « quelle réponse était la meilleure » et ont jugé à la fois « la qualité des informations fournies » (très mauvaise, mauvaise, acceptable, bonne ou très bonne) et « l’empathie ou le comportement au chevet du patient » (pas empathique, légèrement empathique, modérément empathique, empathique et très empathique). Les résultats moyens ont été classés sur une échelle de 1 à 5 et comparés entre le chatbot et les médecins.

Résultats : Sur les 195 questions et réponses, les évaluateurs ont préféré les réponses du chatbot à celles du médecin dans 78,6 % (IC 95 %, 75,0 %-81,8 %) des 585 évaluations. Les réponses moyennes (IQR) des médecins étaient significativement plus courtes que celles des chatbots (52 [17-62] mots contre 211 [168-245] mots ; t = 25,4 ; P < 0,001). Les réponses du chatbot ont été jugées d’une qualité significativement supérieure à celle des réponses des médecins (t = 13,3 ; P < 0,001). La proportion de réponses jugées de bonne ou de très bonne qualité (≥ 4), par exemple, était plus élevée pour les chatbots que pour les médecins (chatbot : 78,5 %, IC à 95 %, 72,3 %-84,1 % ; médecins : 22,1 %, IC à 95 %, 16,4 %-28,2 % ;). La prévalence des réponses de bonne ou de très bonne qualité était donc 3,6 fois plus élevée pour le chatbot. Les réponses du chatbot ont également été jugées significativement plus empathiques que celles des médecins (t = 18,9 ; P < 0,001). La proportion de réponses jugées empathiques ou très empathiques (≥4) était plus élevée pour le chatbot que pour les médecins (médecins : 4,6 %, IC à 95 %, 2,1 %-7,7 % ; chatbot : 45,1 %, IC à 95 %, 38,5 %-51,8 % ; médecins : 4,6 %, IC À 95 %, 2,1 %-7,7 %). La prévalence des réponses empathiques ou très empathiques était donc 9,8 fois plus élevée pour le chatbot.

Conclusions : Dans cette étude transversale, un chatbot a généré des réponses de qualité et empathiques aux questions des patients posées dans un forum en ligne. Cette technologie mériterait d’être explorée plus avant dans un contexte clinique, par exemple en utilisant un chatbot pour rédiger des réponses que les médecins pourraient ensuite modifier. Des essais randomisés permettraient d’évaluer plus avant si l’utilisation d’assistants d’IA peut améliorer les réponses, réduire l’épuisement des cliniciens et améliorer les résultats pour les patients.

Partagez cet article sur les réseaux:

Herve Maisonneuve

3 commentaires

Pierre RIMBAUD 08 mai, 2024

A mon sens, un LLM conversationnel devrait aujourd’hui rester un outil d’assistance à la pratique médicale. En d’autres termes, face à l’interrogation d’un patient, un moyen pour le praticien de parfaire sa propre réponse est se servir d’un outil d’IA générative textuelle, qui organise l’argumentaire et le documente. Les éventuelles incohérences et omissions sont identifiables par un utilisateur avisé (et peuvent même l’alerter sur des errements possibles du questionneur).
Il faut donc développer l’utilisation professionnelle de ces outils d’IA, en perfectionnant les bases de données spécifiques indispensables à la qualité de leur apprentissage et en formant activement les médecins à leur usage.
Parallèlement, il semble a contrario nécessaire de lutter contre la banalisation du DTC (« direct to consumer’) qui fait courir deux dangers : d’une part le mythe d’une infaillibilité numérique conduisant au DIY (« do it yourself ») pseudo-diagnostique et thérapeutique ; d’autre part l’abandon par le corps médical de la relation soignante personnalisée (« le colloque singulier ») au profit des machines.
Un jour peut-être les machines rendront-elles inutile la médiation du soignant, mais cet avènement me parait très lointain – et surtout, jusqu’à preuve (EBM) du contraire, bien peu souhaitable (si ce n’est pour le commerce…).
Je me demande toutefois si cet avis est bien partagé.

Répondre
JF thebaut 02 juin, 2024

Article passionnant mais en fait les résultats sont biaisés dès le départ
L’IA a été programmée pour être empathique
Alors que la plupart des médecins ne le sont pas et que cette qualité « skill « ne fait pas partie de l’enseignement
Conclusion formant les médecins !

Répondre
Mauran 03 juin, 2024

Qui nous dit que les évaluateurs n’étaient pas des robots ou des médecins singeant des robots ?

Répondre

Laisser un commentaire Annuler la réponse

Tags IA

Articles populaires

Plan stratégique de eLife : un modèle très vertueux

24 juin 2026

Bravo à l’Académie des technologies pour le rapport sur ‘La lutte contre les informations toxiques à l’ère numérique’

23 juin 2026

Félicitations à l’Université Paris-Cité : retrait de la thèse de doctorat d’une célébrité

22 juin 2026

Les réponses des chatbots de l’IA seraient-elles meilleures que celles des médecins ?