Qui écrit mieux les articles scientifiques : chercheur ou IA ? La question est pertinente

Points clés

J’ai repris ci-dessous le graphical abstract d’un article de Stroke d’août 2025 avec pour titre : Scientific Writing in the Era of Large Language Models: A Computational Analysis of AI Versus Human-Created Content. Nous avons déjà constaté que les IA écrivaient mieux que les chercheurs en terme de style scientifique. C’est une autre étude faite par des chercheurs américains (Université de Yale) avec des articles dans le domaine des accidents vasculaires cérébraux.

strokeaha.125.051913.abstract1 (1)

Traduction du résumé avec DeepL

Méthodes : Nous avons procédé à une synthèse informatique de 34 essais sur des sujets liés aux accidents vasculaires cérébraux (12 générés par de grands modèles linguistiques [Generative Pre-trained Transformer 4, Generative Pre-trained Transformer 3.5, Llama-2 et Bard] et 22 par des scientifiques humains). Chaque essai a été évalué comme étant généré par l’IA ou rédigé par un humain par 38 membres du comité de rédaction de Stroke. Nous avons comparé les performances collectives des experts à celles de GPTZero, un outil de détection de l’IA largement utilisé en ligne. Nous avons extrait et comparé des caractéristiques linguistiques couvrant la syntaxe (nombre de mots, complexité, etc.), la sémantique (polarité), la lisibilité (scores de Flesch), le niveau scolaire (Flesch-Kincaid) et la perplexité linguistique (ou prévisibilité) afin de caractériser les différences linguistiques entre les contenus générés par l’IA et ceux rédigés par des humains.

Résultats : Plus de 50 % des experts en AVC qui ont examiné les essais de l’étude ont correctement identifié 10 (83,3 %) des essais générés par l’IA comme étant issus de l’IA, tandis qu’ils ont classé à tort 7 (31,8 %) des essais rédigés par des humains comme étant issus de l’IA. GPTZero a classé avec précision 12 (100 %) des essais générés par l’IA et 21 (95,5 %) des essais rédigés par des humains. Cependant, l’outil s’est appuyé sur quelques phrases clés seulement pour la classification. Par rapport aux essais humains, le contenu généré par l’IA présentait un nombre de mots et une complexité moindres, une perplexité nettement inférieure (médiane, 15,0 contre 7,2 ; P < 0,001), des scores de lisibilité plus faibles (médiane Flesch, 42,1 contre 26,4 ; P < 0,001) et un niveau scolaire plus élevé (médiane Flesch-Kincaid, 13,1 contre 14,8 ; P = 0,006).

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

2 commentaires

  • Oui, ce qu’on peut dire est simple : trop de publications sont mal écrites. Je m’en plaint depuis longtemps… car je lis beaucoup, depuis des décennies. Et savoir écrire me semble se perdre, ce qui est donc sûrement une appréciation de vieux ronchon.
    La chose n’est certes pas particulière au monde scientifique, et s’observe dans la presse généraliste et tous les médias modernes – dont la langue ne paraît plus être considérée comme un critère de qualité.
    L’IA peut-elle améliorer ce problème ? Je doute que ce soit la bonne solution, et il est possible qu’elle aggrave les choses en banalisant la délégation à des machines de la responsabilité d’écrire… et bientôt de penser à notre place.
    Même si elle peut contribuer à l’améliorer, l’IA ne remplacera pas la mission primordiale des rédacteurs, des relecteurs, des éditeurs, qui est d’énoncer clairement ce qui se conçoit bien (mais qui se soucie de Boileau ?), afin d’assurer la concision et la précision, conditions indispensables pour informer vraiment. Les lecteurs sont de plus en plus noyés dans le verbiage, la redite et l’amphigourisme.

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles
Suivez-nous
Newsletter
Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer