idea plagiarism

La génération d’articles par l’IA nous questionne : le plagiat d’idées est impossible à prouver ! Panique ?

Points clés

La lecture d’un article bien fait dans Nature du 20 août 2025 m’a questionné. Accès libre et écrit par une journaliste indienne. Des articles créée de novo par des IA peuvent reprendre des idées d’autres chercheurs sans pouvoir réellement le prouver..  mais est-ce nouveau ? Avant l’IA, n’était-il pas commun de paraphraser intelligemment pour écrire des articles ? Les IA ont les mêmes pratiques déviantes que les chercheurs

Sakana AI a développé un outil lancé en août 2024

Voici la présentation sur un site : Sakana AI, start-up japonaise d’intelligence artificielle, a mis au point The AI Scientist, un modèle de langage capable de mener des recherches scientifiques en toute autonomie. Le système peut générer des idées, réaliser des expérimentations et rédiger des articles scientifiques. Lors de la phase de tests, il a même idea plagiarism 2suggéré de nouvelles techniques pour les grands modèles LLM. Vous trouverez facilement des informations sur The AI Scientist.

Peut-on remplacer les chercheurs ? J’aimerai répondre NON, mais vu la médiocrité de la plupart des publications, reconnaissons que des IA pourront faire des articles du niveau de ceux de certains chercheurs !!!

Cet article de Nature concerne les plagiats d’idée, concept difficile à identifier… mais d’importance. Les visions du plagiat en général varient selon les disciplines… de l’extrémisme des science humaines et sociales (le plagiat est inadmissible, et c’est un crime, case prison ,), au laxisme des la biomédecine (il y a beaucoup de méconduites plus graves que le plagiat), et à la tolérance de la physique et autres sciences dures (c’est une diffusion du savoir toujours utile, un mélange d’idées). Je caricature évidemment.

Une synthèse de l’article faite avec NotebookLM et vérifiée ensuite

Le domaine de la science générée par l’intelligence artificielle (IA) fait face à un nouveau risque de plagiat « caché », qui ne concerne pas la copie directe de texte mais la réutilisation d’idées ou de méthodes existantes sans attribution adéquate. En janvier, Byeongjun Park, un chercheur en IA, a découvert qu’un manuscrit généré par un outil appelé The AI Scientist, développé par Sakana AI, utilisait des méthodes similaires à l’une de ses publications sans le créditer. Bien que le travail de l’IA ne soit pas une copie directe, Park a noté une ressemblance frappante dans la méthodologie.

Deux informaticiens indiens, Tarun Gupta et Danish Pruthi, ont lancé l’alerte. Ils ont rapporté en février avoir trouvé de multiples exemples de manuscrits générés par l’IA qui, selon des experts externes, utilisaient des idées d’autres sans attribution. Ils décrivent ces cas comme un plagiat habile où l’originalité est difficile à vérifier. Leur travail a été récompensé en juillet, mais leurs conclusions sont contestées par l’équipe de The AI Scientist, qui nie tout plagiat, et certains spécialistes indépendants estiment que le chevauchement n’est pas suffisant pour qualifier de plagiat. Park lui-même a hésité à utiliser le terme « plagiat ».

Le problème est plus vaste, car il est déjà difficile pour les chercheurs de suivre l’innovation avec la quantité de publications actuelles, surtout en informatique. Les grands modèles linguistiques (LLM) sont formés pour remixer et interpréter du texte, ce qui les rend susceptibles d’emprunter à des travaux antérieurs. La « plagiat d’idées », bien que peu discuté, est déjà un problème avec les auteurs humains et devrait s’aggraver avec l’IA, car il est difficile de le prouver.

Gupta et Pruthi ont testé leur inquiétude en soumettant des propositions de recherche et des manuscrits générés par l’IA à 13 spécialistes, qui ont évalué les chevauchements de méthodes sur une échelle de 5 points. Ils ont rapporté que 12 à 18 de ces travaux présentaient des niveaux de chevauchement élevés (niveaux 4 et 5), ce qui, selon eux, implique une proportion de plagiat de 24 % à 36 %. Un cas notable est un manuscrit généré par l’IA de Sakana qui avait passé une étape d’évaluation par les pairs, mais que Gupta et Pruthi ont jugé avoir emprunté à une œuvre de 2015 sans la citer.

Le désaccord vient en partie de définitions différentes du « plagiat ». L’équipe de The AI Scientist réserve le terme aux cas « extrêmes de fraude intentionnelle », tandis que des chercheurs sur le plagiat comme Debora Weber-Wulff estiment que l’intention n’est pas un facteur, surtout avec l’IA qui n’en a pas. La définition préférée de Weber-Wulff se concentre sur l’utilisation d’éléments attribuables à autrui sans attribution appropriée, lorsqu’une attente légitime d’originalité existe.

L’équipe de The AI Scientist admet que leur outil fait des erreurs de citation et devrait citer davantage de travaux connexes, mais elle souligne qu’il s’agit d’une « preuve de concept » et que ces systèmes sont voués à s’améliorer. Les outils de détection de plagiat comme Turnitin n’ont pas réussi à identifier les sources d’idées, et les experts humains eux-mêmes sont en désaccord sur ce qui constitue la nouveauté. Il est essentiel de trouver la bonne façon d’utiliser ces outils tout en maintenant des normes élevées pour la recherche, même si l’automatisation des vérifications d’originalité reste un défi majeur.

Je remercie Pierre Rimbaud et RetractionWatch

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

4 commentaires

  • La notion de plagiat est assez subjective, et je la crois toujours difficile à caractériser formellement.
    Tous les artistes, peintres ou musiciens notamment, ont été influencés par leur prédécesseurs, se sont inspirés de leurs techniques et ont même reproduits – parfois sans s’en rendre compte – des fragments de créations antérieures.
    Dans les domaines scientifiques, la question semble plus claire : il s’agirait de citer très précisément tout ce qui relève d’une réflexion précédente. Voir par exemple :
    https://www.lib.sfu.ca/help/academic-integrity/le-plagiat
    Néanmoins, beaucoup d’idées scientifiques (pour ne par dire toutes ?) sont nées de discussions entre pairs, de suggestions entendues lors de congrès, de lectures dont on ne sait même plus très bien lesquelles. Bref, comme l’a dit Newton : « nous sommes des nains juchés sur les épaules de géants »… ce qui d’ailleurs était en soi le pur plagiat d’une idée qu’avaient eue de nombreux penseurs avant lui. Autre exemple du même ordre : Einstein, dans ses publications, n’a jamais ou presque cité très explicitement les apports de nombreux auteurs dont il a utilisé les idées pour élaborer sa propre révolution scientifique.
    La science est par nature une oeuvre collective, elle ne peut jamais se prévaloir d’une création strictement individuelle. Revendiquer la propriété d’une idée scientifique me parait malvenu, sauf à déposer un brevet dans un but mercantile très légitime mais qui relève d’un autre droit que celui de la création pure.
    Une faute punissable est de passer sous silence une source qu’on aurait dû citer, mais pas pour la même raison qu’un artiste se plaint des copies de son art.
    Cantor et Gödel ont créé de toute pièce des concepts extraordinairement innovants, mais n’ont jamais eu la prétention d’interdire à quiconque de les utiliser sans faire référence à eux – bien au contraire ! Il est assurément fautif également de prétendre être le concepteur unique d’une idée préexistante dans le but d’améliorer sa propre carrière et sa notoriété, mais c’est encore un autre sujet qui met en cause le fonctionnement institutionnel des institutions scientifiques.
    Alors oui, il faut indiquer à ceux qui lisent les travaux scientifiques les sources qui doivent leur permettre de comprendre la idées exposées et de vérifier leur crédibilité. Les auteurs qui ne le font pas sont assurément fautifs, mais ce n’est pas ce que j’appellerais du plagiat.

    Répondre
  • Merci pour ces commentaires qui illustrent les difficultés et variations liées à la compréhension du plagiat.

    Répondre
  • Je suis confrontée actuellement à ce problème en tant que rédactrice en chef d’une revue. L’un des reviewers d’un article estime que sa thèse a été plagiée, sans que l’outil de détection de plagiat n’ait détecté de réel « copié-collé ». Mais il a effectivement relevé beaucoup de coïncidences troublantes. Du coup, je suis devant une décision difficile à prendre : soit je rejette l’article sans pouvoir apporter la preuve du plagiat ou de l’utilisation de l’IA pour écrire l’article, soit je le maintiens dans le circuit alors qu’un reviewer, qui est de bonne foi et qui a passé beaucoup de temps à examiner l’article, s’estime plagié.
    Je pense que ce genre de problème va se présenter de plus en plus fréquemment.

    Répondre
    • Permettez-moi ces quelques suggestions :
      1. Le plaignant est-il cité par l’auteur ?
      2. Le plaignant peut-il prétendre à une propriété intellectuelle sur une idée reprise par l’auteur sans le citer ?
      3. L’auteur, s’il s’est appuyé sur la reprise d’idées antérieures sans les citer a t-il apporté des informations nouvelles justifiant sa propre publication ?
      Muni de ces informations, je pense que le recours ou non à une assistance rédactionnelle par IA n’a aucune importance. Si le papier est d’intérêt, il suffit de demander à l’auteur de compléter un référencement s’il est incontestablement incomplet.
      Si le problème est la simple paraphrase de textes antérieurs, je crois qu’aucune publication scientifique d’intérêt ne pourra jamais être accepté – à moins d’y associer une bibliographie comportant plusieurs centaines de références, ce qui annule tout intérêt pratique du référencement.
      Quant à la revendication de priorité sur une idée scientifique, je m’en méfie. Et je me méfie particulièrement de ceux qui veulent s’approprier une part de la science.

      Répondre

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles
Suivez-nous
Newsletter
Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer