Torturer les phrases : une tromperie très préjudiciable pour la science, mais tolérée

Parmi les pratiques discutables en recherche, le massage ou torture des données est commun… Avec habileté, omettre des valeurs, changer un test statistique, etc… permettent d’obtenir un résultat convaincant même si la réalité est différente. Félicitons deux collègues français (Toulouse et Grenoble), associés à un chercheur russe, pour leur preprint déposé en juillet 2021 sur arXiv et qui a été remarqué par la revue Nature. Le titre du preprint : ‘Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals’. Les auteurs : Guillaume Cabanac, Cyril Labbé, Alexander Magazinov. J’ai lu ce preprint de 27 pages avec plaisir, même si je ne suis pas familier de quelques équations…

Pour le lecteur pressé, l’analyse de Nature est excellente et permet de comprendre le problème (5 août 2021). L’image ci-contre est reprise de Nature, mais le preprint contient beaucoup d’autres exemples. Par ailleurs, j’ai essayé, avec deepl de traduire le résumé des auteurs en français (mais lire la version anglaise est mieux) :

tortured phrasesLes générateurs de texte probabilistes sont utilisés depuis plus de dix ans pour produire de faux articles scientifiques. Ces articles absurdes sont facilement détectés par l’homme et la machine. Aujourd’hui, des techniques de génération plus complexes, alimentées par l’intelligence artificielle, produisent des textes indiscernables de ceux des humains et la génération de textes scientifiques à partir de quelques mots-clés a été documentée. Notre étude introduit le concept de phrases torturées : des phrases étranges et inattendues à la place de phrases établies, telles que « conscience contrefaite » au lieu « d’intelligence artificielle ». Nous avons passé au peigne fin la littérature pour trouver des phrases torturées et étudier un journal réputé où elles se concentrent en masse. En supposant l’utilisation de modèles linguistiques avancés, nous avons lancé un détecteur sur les résumés d’articles récents de cette revue et sur plusieurs échantillons de contrôle. Les comparaisons par paire révèlent une concentration de résumés marqués comme « synthétiques » dans le journal. Nous mettons également en évidence des irrégularités dans son fonctionnement, comme des changements brusques dans les délais éditoriaux. Nous étayons notre appel à l’enquête en analysant plusieurs articles douteux individuels, en soulignant les caractéristiques douteuses : style d’écriture torturé, citation de littérature inexistante et réutilisation d’images non reconnues. Il est surprenant de constater que certains sites web proposent de réécrire des textes gratuitement, générant un charabia rempli de phrases torturées. Nous pensons que certains auteurs ont utilisé des textes réécrits pour étoffer leurs manuscrits. Nous souhaitons attirer l’attention sur les publications contenant des textes douteux générés ou réécrits par l’IA qui ont passé avec succès l’examen par les pairs. La tromperie par des textes synthétiques menace l’intégrité de la littérature scientifique.

Le problème provient probablement de l’utilisation de traductions automatiques pour cacher des plagiats. Des traductions de l’anglais vers une autre langue, puis une retraduction vers l’anglais peuvent permettre de paraphraser et cacher des plagiats…. Ce travail a été fait dans le domaine informatique ; je suis prêt à parier que les résultats sont généralisables à d’autres domaines de recherche…

PS : je connais deux des auteurs

Note du 27 août : dans le titre, j’ai remplacé sport par tromperie

Partagez cet article sur les réseaux:
Partager sur facebook
Facebook
Partager sur twitter
Twitter
Partager sur pinterest
Pinterest
Partager sur linkedin
LinkedIn

2 commentaires

  • Fascinant ! La tricherie n’a plus de bornes.
    Et comme le dit M. Fenouillard (p. 178 de La famille Fenouillard, de Christophe, 1893) : « Quand les bornes sont franchies, il n’y a plus de limites ».
    Mais il n’est pas besoin de torturer les phrases pour torturer la pensée, ni d’utiliser une double traduction pour dire des sottises incompréhensibles.
    J’ai reviewé récemment un article où figurait, parmi une série de phrases creuses, la perle suivante : « Notre travail est donc construit selon une démarche inductive de co-construction entre théorie et analyse issu d’un matériau de terrain »
    Non, cet article n’était pas de Jacques Lacan, ni même soumis à une revue de psychanalyse.
    N’ayant pas compris ce que voulaient dire les auteurs, j’ai refusé l’article.
    Si je rencontre dans un article des expressions comme « colossal information » ou « counterfeit consciousness », je saurai à quoi m’en tenir…
    Merci de votre vigilance !
    JR

    Répondre
  • Voici le commentaire qui m’a été transmis par G Cabanac, l’un des auteurs, que je remercie :
    Depuis la sortie du preprint, nous avons développé le Problematic Paper Screener (https://www.irit.fr/~Guillaume.Cabanac/problematic-paper-screener) qui liste les articles problématiques identifiés et affiche un lien vers le commentaire PubPeer éventuel.

    Nous invitons les lecteurs à analyser les articles sans commentaire et à signaler les phrases torturées et tout autre problème de fond sur PubPeer.

    Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles

Suivez-nous

Newsletter

Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer