Références cachées : les métadonnées trafiquées gonflent le nombre de citations (et le facteur d’impact ?)

Le titre de ce billet est la traduction du titre d’un manuscrit déposé sur arXiv. Nous ne connaissons par la prévalence de cette pratique bizarre, mais cette réalité nous inquiète. C’est un argument de plus pour préciser les méthodes de bidonnage des facteurs d’impact des revues scientifiques et des h-index si populaires chez les vieux. L’art de la citation est un métier répandu. Prudence : nous ne savons pas si cette pratique est répandue.

L’idée de départ de G Cabanac part d’une observation d’un article de Hindawi : cité 107 fois alors qu’il a été vu 107 fois et téléchargé 62 fois. Ceci a été décrit sur PubPeer en mai 2022.

Cartels de rédacteurs, propagation de dogmes, et autres manipulations

La littérature sur les manipulations des citations par les auteurs, les rédacteurs, les relecteurs et autres acteurs qui contribuent au Publish and Perish est importante. Outre les cartels de rédacteurs qui s’entendent pour citer les revues amies afin d’éviter les auto-citations, ces nombreuses pratiques ont des conséquences délétères, dont la propagation de dogmes. Nous savons aussi que 25 à 30 % des citations d’un article ne contiennent pas ce qui leur est attribué !! L’art de la citation est sans limites !!!

Cette recherche produite par 4 collègues est originale, car ce qu’ils ont observé n’a pas été montré. Le manuscrit a été déposé le 3 octobre 2023 par G Cabanac (Toulouse) sur la plateforme arXiv. Le manuscrit est documenté, avec de nombreux suppléments. Il a intéressé RetractionWatch (bonnes informations apportées par G Cabanac), Le Monde et le rédacteur d’une des revues ciblées qui, sur PubPeer demande la rétractation de cet article !

La figure 1 vous explique le long chemin qui sépare les auteurs d’un manuscrit de l’attribution d’un DOI puis des analyses par les plateformes de bibliométrie. Je cite deux phrases qui montrent la faille du système : Crossref trusts publishers to extract, report, and send them metadata about the publications, including the references. As a matter of fact, Crossref not controlling the accuracy of the metadata provided by publishers creates a ‘security breach’ within the information flow.

Des citations introduites dans des métadonnées pourraient gonfler les indicateurs bibliométriques

Les auteurs ont étudié le cas de 3 revues publiées par Technoscience Academy, un éditeur indien de science ouverte (qui me semble douteux, mais il faudrait que je regarde de plus près). Ces revues vont dans Crossref. Ils ont extrait 3634 articles pour ce travail. Ci-dessous le tableau 1 montrant les différences entre l’article et Crossref. Il y a un tableau semblable comparant à Dimensions.

Cette observation est peut-être limitée à quelques escrocs, donc sans importance… mais nous n’en savons rien. Il faudrait d’autres données avant de s’inquiéter… et supposer que les facteurs d’impacts sont bidonnés avec cette méthode. Ils sont déjà tellement manipulés que ce ne serait qu’une pratique discutable supplémentaire !

Un des rédacteurs d’une des revues n’est pas content et demande de retirer ce manuscrit !

Voici la traduction du résumé de ce travail

Nous avons mis en évidence une méthode non documentée permettant de manipuler le nombre de citations en utilisant des références « cachées ». Les références cachées sont enregistrées comme métadonnées pour des articles scientifiques dans lesquels elles n’apparaissent pas. Cette manipulation exploite les relations de confiance entre différents acteurs : éditeurs, agence d’enregistrement des métadonnées Crossref, bibliothèques numériques et plateformes bibliométriques. En collectant des métadonnées provenant de diverses sources, nous montrons que des références indues sont en fait introduites furtivement au moment de l’enregistrement de l’identificateur d’objet numérique (DOI), ce qui a pour effet de gonfler artificiellement le nombre de citations. Dans le cadre d’une étude de cas portant sur trois revues d’une maison d’édition donnée, nous avons identifié au moins 9 % de références introduites en douce (5 978/65 836), principalement au profit de deux auteurs. Bien qu’elles ne figurent pas dans les articles, ces références furtives existent dans les registres de métadonnées et se propagent de manière inappropriée dans les tableaux de bord bibliométriques. En outre, nous avons découvert des références « perdues » : la plateforme bibliométrique étudiée n’a pas réussi à indexer au moins 56 % (36 939/65 836) des références listées dans la version HTML des publications. L’ampleur des références cachées et perdues dans la littérature mondiale reste inconnue et nécessite des recherches plus approfondies. Les plateformes bibliométriques produisant des comptes de citations devraient identifier, quantifier et corriger ces failles afin de fournir des données exactes à leurs clients et d’empêcher d’autres manipulations de citations.

Alerte du 12 juillet 2024 : J’ai vu un article sur The Conversation du 14 juin 2024 intitulé Découverte d’une fraude scientifique pour booster artificiellement l’impact des recherches. J’ai été un peu étonné de voir que seuls 2 des 4 auteurs du preprint signaient dans The Conversation pour faire du buzz. J’ai ensuite été alerté par 4 collègues différents, et j’ai assisté à une présentation en congrès citant cet article de The Conversation sans préciser la qualité des données.

En pratique, ce titre de The Conversation est trompeur. Les deux signataires ont abusé The Conversation, média dont la qualité est recommandable. Il manque deux informations qui auraient dû apparaître car elles ne permettent pas de généraliser comme le font les auteurs. Ces deux informations sont :

L’article de Hindawi ayant permis les premières observations a été retiré de la littérature le 28 juin 2023 pour six raisons dont l’une est « inappropriate citations » ; la notice de rétractation est explicite et cet article a fait partie de nombreuses manipulations du groupe Hindawi ; cette information aurait dû apparaître dans The Conversation, car elle limite la généralisation de la recherche ;
Les trois journaux à la base du travail sont des journaux prédateurs et cela devrait être explicitement dit ; le groupe étudié, TechnoScience Academy, n’est absolument pas recommandable ; il n’est pas acceptable de généraliser des observations faites à partir de ces revues mercantiles faites par des escrocs. L’article de The Conversation pourrait faire croire que ce phénomène est répandu et a abusé des collègues.

Le travail est probablement de qualité mais il ne peut probablement être généralisé qu’aux pratiques prédatrices des escrocs. J’aimerai avoir des données sur des journaux légitimes d’éditeurs non prédateurs, et je recommande la prudence dans l’utilisation de ces données.

J’accepte tout droit de réponse des deux auteurs, et de The Conversation, média que j’estime.

Note ajoutée le 28 août 2024 : The Conversation m’a dit investiguer et le rédacteur qui s’en charge est en vacances. A ce jour, pas de réponse de The Conversation, mais laissons le temps d’informer les auteurs, etc…

Cet article du 3 octobre 2023 sur arXiv est bien commenté et expliqué dans une vidéo de La Tronche en biais (La traque de la fraude scientifique), à partir de 20 minutes 50 secondes. Les explications sont claires, sauf une réponse à une bonne question de Thomas Durand (25 minutes 35 secondes). T Durand pose une bonne question et demande si tout cela n’est pas le propre de revues prédatrices, et la réponse évoque des revues obscures sans détails. Dans cette vidéo, il y a quelques opinions qui mériteraient des données factuelles pour être validées.

Note ajoutée le 2 septembre 2024 : je remercie The Conversation qui a mis à jour son article le 28 août en acceptant mes remarques. Ils ont précisé que l’article initial de ces recherches avait été rétracté.

Citations

Partagez cet article sur les réseaux:

Herve Maisonneuve

2 commentaires

Lesya Baudoin 18 janvier, 2024

Bien que la manipulation décrite soit d’une malhonnêteté manifeste, elle n’a pas de répercussion sur les facteurs d’impact. En effet, ces derniers sont calculés à partir des métadonnées d’origine des éditeurs, et les références cachées n’y sont matériellement pas possibles.

Répondre
- Herve Maisonneuve 18 janvier, 2024
  
  Merci pour cette précision très importante
  
  Répondre

Laisser un commentaire Annuler la réponse

Tags Citations

Articles populaires

Cancer du sein : tout est possible car 76 % des malades ont été exposées à des désinformations

5 janvier 2026

Les mots sont des armes de désinformation (Trump vs Poutine) : excellent livre de Barbara Cassin

31 décembre 2025

Alerte sur un croisement en 2025 : banalisation du mensonge et usage de l’IA qui nous transforme en auxiliaires d’algorithmes

31 décembre 2025

Polarisation en médecine : le BMJ de Noël tape juste sur ce qui met la démocratie en danger

30 décembre 2025

Archives mensuelles

Newsletter

Inscrivez-vous à notre newsletter mensuelle

La moitié des articles prédateurs relèvent de la santé !

Travail époustouflant de chercheurs canadiens bien connus : Kyle Syler, Philippe Vincent-Lamarre et Vincent Larivière. Le titre Identifying National, Institutional and Disciplinary Sites of Probable

Le côté obscur de la médecine fondée sur les preuves

Excellente conférence de Christian Funck Brentano qui gère la liste des revues recommandables de la Conférence des doyens de médecine (j’ai l’honneur d’être sur le

Plus de 1 000 revues suspectes publient collectivement des centaines de milliers d’articles, reçoivent des millions de citations, reconnaissent le financement d’organismes importants et attirent des auteurs de pays en développement

Lire un article de 13 pages est un effort, et surtout demande du temps. Avec PerplexityPro, j’obtiens des résumés parfois assez détaillés comme ci-dessous. Cela

Les dérives du système des publications : publications en 4 ou 6 semaines, pour moins cher avec des relectures faites par l’IA

Nouveau preprint déposé sur arXiv par une équipe de chercheurs bien connus et réputés. Le titre The drain of scientific publishing J’ai survolé l’article et

Références cachées : les métadonnées trafiquées gonflent le nombre de citations (et le facteur d’impact ?)

Cartels de rédacteurs, propagation de dogmes, et autres manipulations

Des citations introduites dans des métadonnées pourraient gonfler les indicateurs bibliométriques