En janvier 2021, Humanities and Social Science Communications (groupe Nature) a publié une recherche sur les développements de l’intelligence artificielle (IA) pour améliorer le peer-review. Est-ce que l’IA fera mieux que des experts relecteurs ? Oui sur certains points et rapidement, en particulier détecter des références inappropriées, d’abord les citations d’articles rétractés et d’articles publiés par des revues prédatrices. Mais l’IA fera beaucoup mieux…. à partir de 2030, comme prédit en 2016 ?
Voici le résumé traduit au mieux en français : ‘Le flux de travail de l’examen par les pairs de la littérature scientifique est mis à rude épreuve en raison de la croissance constante du volume des soumissions. L’une des réponses à cette situation consiste à réduire le temps nécessaire à l’examen initial des soumissions. La réduction du temps de filtrage et d’examen permettrait d’économiser des millions d’heures de travail et de stimuler potentiellement la productivité universitaire. De nombreuses plateformes ont déjà commencé à utiliser des outils de filtrage automatisé, afin de prévenir le plagiat et le non-respect des exigences de format. Certains outils tentent même de signaler la qualité d’une étude ou de résumer son contenu, afin de réduire la charge de travail des relecteurs. Les progrès récents de l’intelligence artificielle (IA) ouvrent la voie à des systèmes (semi-) automatisés d’examen par les pairs, dans lesquels les études potentiellement de mauvaise qualité ou controversées pourraient être signalées, et la correspondance entre relecteur et document pourrait être effectuée de manière automatisée. Cependant, de telles approches soulèvent des préoccupations éthiques, notamment en ce qui concerne la partialité et la mesure dans laquelle les systèmes d’IA peuvent reproduire la partialité. Notre principal objectif dans cette étude est de discuter du potentiel, des pièges et des incertitudes de l’utilisation de l’IA pour se rapprocher des décisions humaines ou les assister dans le processus d’assurance qualité et d’examen par les pairs associé aux résultats de la recherche. Nous avons conçu un outil d’IA et l’avons testé avec 3300 articles provenant de trois conférences, ainsi que leurs évaluations. Nous avons ensuite testé la capacité de l’IA à prédire le score d’évaluation d’un nouveau manuscrit, non observé, en utilisant uniquement son contenu textuel. Nous montrons que de telles techniques peuvent révéler des corrélations entre le processus de décision et d’autres mesures indirectes de qualité, dévoilant ainsi les biais potentiels du processus d’évaluation. Nous discutons des opportunités, mais aussi des conséquences involontaires potentielles de ces techniques en termes de biais algorithmique et de préoccupations éthiques.’