Plus de 1 000 revues suspectes publient collectivement des centaines de milliers d’articles, reçoivent des millions de citations, reconnaissent le financement d’organismes importants et attirent des auteurs de pays en développement

Points clés

Lire un article de 13 pages est un effort, et surtout demande du temps. Avec PerplexityPro, j’obtiens des résumés parfois assez détaillés comme ci-dessous. Cela me permet de mieux comprendre les méthodes et de ne pas m’arrêter à une conclusion. Voici une analyse que j’ai relue, et je suis responsable, c’est pas l’IA.

Cet article en accès libre  a été publié par Science Advances en août 2025. Il propose une méthode d’IA pour repérer, à grande échelle, les revues en libre accès qui enfreignent les bonnes pratiques de la DOAJ et présentent des signes de faibles standards éditoriaux. En combinant des données de site web, de design et de bibliométrie, les auteurs obtiennent un classificateur performant, qui permet de signaler plus de 1000 revues suspectes non encore repérées par les dispositifs humains existants, tout en soulignant la nécessité de garder un contrôle expert et prudent sur l’usage de ces outils.

Genèse et définition des « questionable OA journals »

Les auteurs rappellent que le modèle open access, né d’initiatives comme E‑biomed et PubMed Central, visait à corriger les inégalités d’accès créées par les abonnements coûteux. L’essor des APC (article processing charges ; l’auteur paye pour publier), la pression à publier et la science advances 2.jpgdisparition du filtre exercé par les bibliothécaires ont cependant favorisé l’émergence de revues qui monétisent la publication rapide en sacrifiant l’évaluation par les pairs. L’étude parle de « questionable open‑access journals » pour désigner les revues retirées du DOAJ (Directory of Open Access Journals) pour non‑respect de ses principes de transparence et de bonnes pratiques, en distinguant ce groupe des titres simplement arrêtés ou retirés sans motif problématique.

Les auteurs situent ces revues dans la continuité des travaux sur les revues prédatrices (Beall, Crawford, Cabell’s, Gray OA) et sur les listes de veille qui s’attachent à des critères comme la composition du comité éditorial, l’information sur les politiques éthiques, les délais de peer review ou la clarté de la licence. Ils rappellent que la qualité d’un article ne se confond pas avec celle du journal, et que des articles valables peuvent paraître dans des revues douteuses, mais que globalement ces revues douteuses sont associées à des contenus peu visibles, peu cités et souvent produits par des auteurs peu expérimentés, notamment dans les pays en développement.

Méthodologie : opérationnaliser les critères DOAJ

Le cœur de l’étude consiste à transformer les critères qualitatifs du DOAJ en variables quantitatives exploitables par un algorithme d’apprentissage supervisé. Les auteurs constituent d’abord un corpus de 12 869 journaux « whitelisted » (considérés comme légitimes) et 2536 journaux « unwhitelisted » (considérés comme douteux), après nettoyage des cas retirés pour des raisons non problématiques. Ils extraient ensuite, pour chaque journal, trois grandes familles de caractéristiques : contenu du site, design du site et bibliométrie (journal, auteurs, institutions).

Pour le contenu du site, des robots explorent automatiquement les pages « aims and scope », comité éditorial, politique d’open access, droits d’auteur et politique éthique, puis en dérivent des indicateurs (lisibilité, présence/absence d’énoncés sur le peer review, le conflit d’intérêts, la paternité, etc.). Le design du site est caractérisé d’une part par une analyse TF‑IDF du code HTML de la page d’accueil, d’autre part par une intégration visuelle issue d’un réseau de neurones (ResNet) appliqué à une capture d’écran de cette page. Enfin, les données bibliométriques proviennent du Microsoft Academic Graph et de Unpaywall, avec des variables comme l’année de première publication, le volume d’articles, les citations, l’intensité d’auto‑citation, le nombre d’auteurs et d’affiliations, ou encore les h‑index moyens des premiers, derniers et auteurs intermédiaires.

Performances des classificateurs et importance des bibliométries

Chaque famille de caractéristiques est utilisée pour entraîner un classificateur de type random forest, évalué par validation croisée via l’aire sous la courbe précision‑rappel (PRC AUC), adaptée aux jeux de données déséquilibrés. Les performances varient nettement : le contenu du site est modérément prédictif (PRC AUC ≈ 0,35), le design du site (code HTML) atteint ≈ 0,58, tandis que les seules variables bibliométriques montent à ≈ 0,64, ce qui montre que les schémas de citations et de collaboration portent une forte signature de la « questionnabilité » des revues. Lorsque toutes les caractéristiques sont combinées sans imputation, le modèle global atteint une PRC AUC d’environ 0,79, ce qui est substantiel pour une tâche aussi bruitée.

L’analyse des importances de variables et des coefficients d’une régression logistique montre que plusieurs signaux sont particulièrement discriminants. Du côté des institutions, un nombre plus élevé d’institutions citées ou référencées est associé aux revues légitimes, alors qu’un nombre élevé d’affiliations par article est plutôt corrélé aux revues douteuses, ce qui peut correspondre à des affiliations gonflées ou peu contrôlées. Sur le plan des journaux, des taux élevés d’auto‑citation au niveau des articles et du journal sont positivement associés aux revues problématiques, alors qu’un plus grand éventail de journaux cités et un nombre de citations par article plus élevé caractérisent plutôt les revues de meilleure qualité.

Validation humaine et application à Unpaywall

Pour tester la proximité entre jugement humain et scores d’IA, les auteurs tirent un échantillon de 360 revues d’Unpaywall non indexées dans le DOAJ, que trois évaluateurs (dont une bibliothécaire experte en open access) notent selon les critères DOAJ (Likert) et jugent globalement comme « questionable » ou non. Les coefficients de corrélation de Kendall (τb) indiquent une association significative entre les scores de l’IA et ceux des évaluateurs pour des critères comme la composition du comité éditorial, la politique de copyright et de licence, la politique éthique et l’évaluation globale, avec un coefficient de concordance de Kendall W ≈ 0,44.

Les auteurs appliquent ensuite leur modèle, principalement bibliométrique, à 15 191 journaux d’Unpaywall présents dans Microsoft Academic Graph et ayant au moins 10 publications. Avec un seuil de décision de 50 % (journal classé « questionable » si la probabilité estimée dépasse 0,5), la précision est d’environ 0,76 et le rappel de 0,38 ; sur cette base, 1437 journaux sont signalés, dont environ 1000 à 1175 seraient effectivement problématiques, les autres correspondant à un taux de faux positifs d’environ 24 %. Les auteurs explorent aussi des seuils alternatifs : à 10 % (profil « haute sensibilité »), le rappel monte à 0,96 mais au prix d’un taux de faux‑découverts proche de 79 %, tandis qu’à 80 % (profil « haute spécificité »), la précision atteint 0,98 mais la majorité des revues douteuses échappent au filtrage.

Volume, citations, financement et géographie des revues signalées

Sur l’ensemble des 1437 titres signalés au seuil de 50 %, les auteurs examinent l’évolution du nombre d’articles, des citations et de la reconnaissance de financements, en tenant compte de l’incertitude sur la proportion réelle de revues problématiques. Ils observent une croissance continue des productions annuelles avec un léger creux vers 2019‑2020, tandis que les citations aux articles de ces revues continuent d’augmenter, ce qui suggère une intégration progressive de ces contenus dans les réseaux de citation. Les analyses montrent également que ces publications reconnaissent fréquemment des financements, y compris de grandes agences comme les NIH, et que la part relative de travaux passant par des revues douteuses est plus élevée dans les pays en développement que dans les pays à forte production scientifique traditionnelle.

L’étude examine par ailleurs la part des subventions d’agences américaines dont les publications associées citent des revues « questionable ». Les NIH apparaissent comme l’agence ayant, en proportion, le plus de subventions reconnues dans des publications de ces journaux, comparée par exemple à la NSF ou au Department of Agriculture, ce qui illustre l’ampleur de la contamination possible, même dans des portefeuilles de recherche réputés. Les auteurs vérifient enfin que les performances de leur modèle ne se dégradent pas fortement selon la langue (anglais, portugais, hindi), ce qui atténue la crainte d’un biais linguistique majeur, tout en reconnaissant que la couverture des données bibliométriques reste inégale.

Limites, enjeux éthiques et recommandations

Les auteurs insistent sur le fait que leur classificateur ne doit être utilisé que comme un outil de triage, et non comme un verdict automatique sur le statut d’un journal. À leur seuil principal, environ un quart des titres signalés seraient en réalité légitimes (faux positifs), tandis qu’une majorité de revues douteuses ne seraient pas détectées (faux négatifs), ce qui justifie pleinement que toute action (liste noire, recommandations institutionnelles) reste fondée sur un examen humain détaillé, par exemple à partir de la check‑list DOAJ.

Sur le plan normatif, l’article rappelle la position commune DOAJ‑COPE‑OASPA‑WAME selon laquelle la qualité des revues ne peut être tranchée par des procédures purement automatiques, et met en garde contre les listes de surveillance statiques qui ne seraient pas régulièrement réévaluées, au risque d’erreurs et de préjudices. Les auteurs proposent de concevoir ces systèmes comme des aides à l’enquête en intégrité scientifique : ils peuvent prioriser les efforts de contrôle, repérer des structures éditoriales problématiques et guider les financeurs, mais doivent rester transparents, explicables et soumis à un pilotage humain pour limiter les biais, notamment en défaveur des institutions peu visibles ou des auteurs à faible h‑index.

Perspectives et intérêt pour les chercheurs

Pour la communauté académique, ce travail montre que des signaux bibliométriques relativement simples (âge du journal, profils d’h‑index des auteurs, schémas d’auto‑citation, diversité institutionnelle et de citations) suffisent déjà à approcher les jugements d’experts sur le caractère douteux d’un journal, à condition de les articuler avec des informations plus qualitatives sur le site et la gouvernance éditoriale.  Les auteurs entrevoient des prolongements par l’intégration de modèles de langage pour analyser le contenu textuel, par une cartographie des réseaux de comités éditoriaux, et par des analyses longitudinales permettant de suivre l’évolution des pratiques éditoriales au fil du temps.

En pratique, l’article plaide pour des dispositifs combinant IA et expertise : utilisation des scores d’alerte pour prioriser les revues à auditer, partage des erreurs et des incertitudes avec les utilisateurs, et coopération avec les grandes organisations de l’écosystème (éditeurs, agences, institutions, bibliothèques). Dans un contexte où des scandales touchent également des éditeurs « respectables », les auteurs défendent l’idée que de tels outils peuvent contribuer à rendre plus robuste la surveillance de l’intégrité éditoriale, à condition d’être utilisés avec prudence et dans le cadre de principes éthiques explicites.

Je remercie Pierre Rimbaud

Partagez cet article sur les réseaux:
Facebook
Twitter
Pinterest
LinkedIn

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles populaires

Archives mensuelles
Suivez-nous
Newsletter
Inscrivez-vous à notre newsletter mensuelle

Tags

Vous pourriez aussi aimer