Je suis toujours un peu réservé vis à vis des logiciels anti-similarités (que certains appellent à tort anti-plagiats), car ils ne peuvent être utilisés que par des experts de ces techniques. Le logiciel iThenticate (anciennement CrossCheck) est impressionnant car sa mémoire permettrait de comparer un manuscrit à 60 milliards de pages web, et à 155 millions de documents dont 49 millions proviennent de 600 maisons d’édition !
La revue Research Integrity and Peer Review (octobre 2016) vient de publier un article ayant utilisé iThenticate. Le titre : « Plagiarism in submitted manuscripts: incidence, characteristics and optimization of screening—case study in a major specialty medical journal ». La revue de American College of Medical Genomics (Genetics in Medicine) a publié ses données sur l’analyse de 400 articles soumis entre mars 2013 et avril 2014. Ils ont analysé la version dite AIRD (Abstract, Introduction, Results, DIscussion). Rappelons que les Méthodes doivent être exclu de la recherche de palgiat, car le plagiat est souvent inévitable dans cette partie, voire accepté, voire incité : pourquoi paraphraser pour décire une méthode déjà décrite et utilisée ailleurs ? L’analyse a été bien faite, avec un seuil de 80 % de similarités dans une phrase pour la retenir dans l’analyse.
Le résultat a porté sur 399 articles : 357 articles originaux et 42 revues générales (une exclusion). Les résultats sont détaillés dans l’article, mais retenons :
- 66 manuscrits contenaient des plagiats, soit 17 % ;
- 55 de ces manuscrits provenaient de pays où l’anglais n’est pas la langue officielle ; la Chine en tête ;
- il fallait 5,9 minutes en moyenne pour analyser les manuscrits avec plagiat ;
- les auteurs ont analysé les courbes ROC : avec iThenticate, le seuil de 15 % de similitudes a été retenu avec une sensibilité de 84,8 % et une spécificité de 80,5 % ;
- sur 8 articles de France, l’un avait du plagiat ;
- 35 des 66 articles avaient de l’auto-plagiat ;
- bonne discussion sur ces logiciels.