Il l’avait annoncé début septembre 2025 à Chicago : le rédacteur en chef du NEJM AI (ISK ou ZAK) avait expliqué que les décisions sur un manuscrit soumis à son journal pouvaient être faites en une semaine. Les deux premières phrases de sa conclusion étaient :
- Croissance du nombre de publications dépassant la capacité humaine à les examiner
- L’évaluation par l’IA est plus efficace que l’évaluation humaine
Eh bien, c’est fait ! Si le NEJM AI fait des relectures avec Intelligence Artificielle en respectant l’éthique, si d’autres éditeurs de piètre qualité font déjà du peer-review avec IA sans le dire, toute la profession va suivre. Dans quelques moins, les reviewers auront-ils disparu ? Les discussions sur : ‘comment trouver des relecteurs ?’, ‘faut-il payer les relecteurs ? ‘, ‘comment accélérer le peer-review ?’, seront peut-être obsolètes dans quelques mois.
26 novembre 2025 : deux articles publiés après relecture ‘accélérée’
Lisez d’abord l’éditorial (accès libre) expliquant ce qu’a fait le comité de rédaction du NEJM AI, et ce que proposent le NEJM et le NEJM AI. Son titre : Accelerating Science with Human+AI Review
Ci-dessus l’abstract de cet éditorial. Actuellement, le NEJM AI, et le NEJM, utilisent un processus de révision accéléré sur demande des auteurs et dans le respect de l’éthique : accord des auteurs pour une relecture avec IA (ChatGPT-5 with thinking et Google Gemini 2.5 pro), contrats avec les IA pour que les manuscrits non évalués n’alimentent pas la mémoire de ces IA. Les contrats avec ces IA doivent être complexes et probablement un peu chers… L’IA est utilisée ainsi pour un manuscrit soumis : accord des auteurs, relecture par un rédacteur interne du journal, relecture par les deux IA (avec recommandations pour auteurs et pour rédacteurs du NEJM AI), éventuellement relecture statistique par IA, passage au comité de rédaction qui a ces trois relectures pour prendre sa décision.
Les deux articles publiés dans le même numéro NEJM AI
Ambient AI Scribes in Clinical Practice: A Randomized Trial, avec comme conclusion : Nabla a réduit le temps passé à prendre des notes par rapport au groupe témoin. DAX et Nabla ont tous deux permis d’améliorer potentiellement l’épuisement professionnel, la charge de travail et la fatigue au travail, mais ces résultats secondaires doivent être confirmés par des essais multicentriques à plus grande échelle. Les cliniciens ont indiqué que les performances étaient similaires sur les deux plateformes distinctes, et que les inexactitudes occasionnelles observées dans l’une ou l’autre des applications nécessitaient une vigilance constante.
A Pragmatic Randomized Controlled Trial of Ambient Artificial Intelligence to Improve Health Practitioner Well-Being Dans le cadre d’une mise en œuvre aléatoire en conditions réelles, l’IA ambiante a réduit l’épuisement professionnel et le désengagement interpersonnel des professionnels de santé, mais n’a pas augmenté de manière significative leur épanouissement professionnel. Le temps consacré à la documentation a diminué sans compromettre le diagnostic, la conformité de la facturation ou la qualité des notes.
Nous pouvons accéder à des données supplémentaires (72 pages) sur le peer review avec les lettres aux auteurs, réponses des auteurs et prompts. Voici un prompt :





4 commentaires
Les chercheurs se servent déjà de chatgpt pour analyser leurs données et écrire leurs papiers …. qui vont être ensuite analysés par chatgpt.
Ceci dit, le reviewing fait par chatgpt (qu’il faut vérifier) est d’excellente qualité.
Il est probable que cela va aboutir à une forme de « normalisation » des publications
les idées originales vont avoir bien du mal à passer la barre d’une évaluation basée sur ce qui a déjà été écrit ….
la censure sera aussi plus simple ……
Des réponses structurées de façon plus systématique, mais en termes de normalisation, ça dépend de beaucoup de paramètres, dont le manque de déterminisme des modèles et leur évolution rapide, le mode d’interaction des reviewers avec leur modèle (ChatGPT, Gemini, DeepSeek ou l’un des multiples autres).
Mais tout aussi important, le mode d’interaction des reviewers avec ces modèles, selon qu’ils effacent leur historique à chaque review ou que l’histoire de leurs interactions enrichit la réaction du LLM.
J’estime que le rôle d’un « reviewer » n’est certainement pas de juger une idée nouvelle, C’est à un éditorialiste ou un commentateur d’en dire son opinion personnelle.
La « vérification par les pairs » a pour seuls objets de détecter : 1) toute erreur méthodologique (procédurale ou logique) 2) toute affirmation non fondée (sans preuve formelle ou sans référence crédible).
Il me semble qu’aujourd’hui un LLM est dans ces domaines au moins aussi performant qu’un humain.