Citations fantômes, peer review débordé, corpus empoisonnés : comment les LLMs sapent méthodiquement les fondements de la recherche scientifique
des milliers d'articles scientifiques citent des études qui n'ont jamais existé
Des dizaines de milliers d'articles publiés en 2025 contiendraient des références bibliographiques inventées de toutes pièces par des modèles de langage. Une enquête de Nature et plusieurs analyses indépendantes révèlent l'ampleur d'une contamination silencieuse qui menace les fondements mêmes de la recherche scientifique.
C'est une notification Google Scholar qui a tout déclenché. Guillaume Cabanac, informaticien à l'Université de Toulouse spécialisé dans la détection de publications frauduleuses, découvre début 2026 qu'un article du International Dental Journal le cite (lui, chercheur en intégrité scientifique, dans une revue de dentisterie). La référence ressemblait à un preprint qu'il avait déposé en 2021 et jamais publié formellement, mais le journal mentionné était Nature et le DOI (l'identifiant unique attribué par les éditeurs) ne pointait vers rien de réel. Diagnostic immédiat : une hallucination d'IA.
Anecdote révélatrice, mais loin d'être isolée. Ce que Nature documente dans une enquête publiée le 1er avril 2026 en collaboration avec la société Grounded AI dépasse le simple fait divers académique : c'est une crise systémique qui s'installe dans les coulisses de la production scientifique mondiale.
Des chiffres qui donnent le vertige
L'ampleur du phénomène est difficile à mesurer avec précision, mais les ordres de grandeur qui émergent des différentes analyses disponibles sont éloquents. Une analyse portant sur près de 18 000 communications acceptées dans trois conférences en informatique a révélé une hausse brutale des références impossibles à relier à des publications réelles : 2,6 % des articles de 2025 contenaient au moins une citation potentiellement hallucinée, contre environ 0,3 % en 2024. En un an, le taux a été multiplié par neuf.
L'analyse exclusive conduite par l'équipe journalistique de Nature avec Grounded AI a porté sur plus de 4 000 publications de 2025, couvrant cinq grands éditeurs : Elsevier, Sage, Springer Nature, Taylor & Francis et Wiley. Sur les 100 publications les plus suspectes identifiées par l'outil automatisé, une vérification manuelle a confirmé que 65 d'entre elles contenaient au moins une référence invalide, c'est-à-dire pointant vers une publication qui ne semble tout simplement pas exister.
En extrapolant ce taux aux quelque 7 millions de publications scientifiques parues en 2025, ce sont plus de 110 000 articles qui pourraient contenir des références inventées par une IA. Les chercheurs impliqués dans l'étude soulignent eux-mêmes que ce chiffre est probablement sous-estimé, car l'analyse s'est concentrée sur de grands éditeurs disposant de davantage de ressources pour la vérification.
NeurIPS, le symbole d'un système à bout de souffle
Le cas de la conférence NeurIPS 2025, l'une des plus prestigieuses au monde dans le domaine de l'apprentissage automatique, est devenu le symbole le plus frappant de cette dérive. La startup canadienne GPTZero a analysé plus de 4 000 articles acceptés et présentés à NeurIPS 2025, et dit avoir découvert des centaines de citations hallucinées par l'IA passées au travers du filet de la relecture par les pairs, réparties dans au moins 53 communications.
Ces hallucinations n'avaient jamais été signalées auparavant. Dans certains cas, un modèle d'IA avait fusionné des éléments de vraies publications : des titres vraisemblables, des listes d'auteurs plausibles. Dans d'autres, tout était inventé : un auteur inexistant, un titre de papier fabriqué, un journal ou une conférence fictifs, une URL menant nulle part. Fortune
Parmi les exemples les plus grossiers recensés figurent des citations au nom de « Firstname Lastname » ou des identifiants arXiv avec le format « 2305.XXXX », un placeholder jamais remplacé, soumis tel quel dans une publication finale. Ce niveau de négligence, ou d'aveuglement, est édifiant.
La dynamique qui sous-tend ce problème est bien identifiée. Entre 2020 et 2025, les soumissions à NeurIPS ont augmenté de plus de 220 %, passant de 9 467 à 21 575 communications. Pour absorber ce volume, les organisateurs ont dû recruter un nombre toujours croissant de relecteurs, engendrant des problèmes de supervision, d'alignement des expertises, de négligence et parfois même de fraude. Les hallucinations citées ne sont que le symptôme visible d'un système de peer review soumis à une pression intenable.
L'anatomie d'une référence fantôme
Comment une IA fabrique-t-elle une citation ? Les chercheurs qui ont étudié le phénomène décrivent plusieurs mécanismes. Le plus courant est ce que le PDG de Grounded AI, Joe Shockman, appelle la citation « Frankenstein » : le modèle assemble des fragments de vraies publications (un titre d'un article, des auteurs d'un autre, un DOI d'un troisième) pour produire quelque chose qui ressemble à une référence légitime mais ne correspond à aucune publication réelle.
Les hallucinations incluant des DOIs sont particulièrement trompeuses : dans les cas étudiés par des chercheurs de l'Université Deakin, 64 % des citations fabriquées dotées d'un DOI pointaient vers des articles réels mais sans aucun rapport avec le sujet traité. Un lecteur pressé vérifiant que le lien DOI fonctionne pourrait passer à côté de la supercherie.
Une étude portant sur des revues de littérature générées par GPT-4o dans le domaine de la santé mentale a révélé que le modèle fabriquait environ une citation sur cinq, avec plus de la moitié de l'ensemble des références (56 %) étant soit fausses, soit contenant des erreurs significatives. Les taux varient fortement selon les sujets : les domaines moins documentés dans les corpus d'entraînement semblent particulièrement vulnérables, le modèle compensant son manque de connaissance par de la confabulation.
Une contamination aux effets en cascade
Le problème ne s'arrête pas à la publication d'un article truffé de références fantômes. La vraie menace réside dans la propagation. Lorsque des citations fabriquées intègrent la littérature publiée, elles peuvent se propager à travers les réseaux de citations, induire en erreur des chercheurs ultérieurs et gaspiller des ressources alors que des scientifiques tentent de retrouver des sources fantômes ou construisent leurs travaux sur des prémisses fausses.
Il y a une dimension supplémentaire, plus insidieuse encore : les grands modèles de langage sont eux-mêmes entraînés sur des corpus tirés du web scientifique. Si des publications contenant des hallucinations intègrent ces corpus d'entraînement, les modèles futurs pourraient apprendre à reproduire et légitimer ces références fictives. La contamination devient alors auto-référentielle.
La question se pose désormais dans le domaine de l'éthique de la recherche : les citations hallucinées peuvent-elles constituer une forme de fraude scientifique ? Aux États-Unis, le NIH a indiqué que si un usage inapproprié de l'IA est détecté dans un dossier de subvention après son attribution, l'affaire pourrait être transmise à l'Office of Research Integrity pour déterminer si une faute de recherche a été commise. Le droit commence à rattraper la technologie, à pas prudents.
L'éditeur débordé, le relecteur épuisé
Du côté des éditeurs, les témoignages recueillis par Nature dressent un tableau préoccupant. Alison Johnston, corédactrice en chef de la Review of International Political Economy, affirme avoir rejeté 25 % d'une centaine de soumissions reçues en janvier 2026 en raison de références fausses. Elle utilise désormais le logiciel de détection de plagiat iThenticate pour signaler les correspondances inhabituelles dans les bibliographies, puis vérifie manuellement les citations suspectes : « Je fais maintenant des choses pour tenter de détecter les références hallucinées que je ne faisais pas avant 2025. »
Frontiers, éditeur basé à Lausanne, a développé un outil maison pour signaler les problèmes d'intégrité au moment de la soumission. Environ 5 % des manuscrits présentent des problèmes potentiels liés aux références selon ses vérifications, mais tous les signalements ne se révèlent pas problématiques après examen approfondi. La détection automatisée a ses propres limites : un format de citation inhabituel, une revue régionale peu indexée, et l'algorithme peut lever une fausse alarme.
Plusieurs outils émergent pour tenter d'endiguer le phénomène. Grounded AI commercialise Veracity, un système qui confronte chaque référence aux grandes bases de données académiques et au web. IOP Publishing l'utilise désormais pour l'ensemble de ses revues propriétaires. Elsevier propose LeapSpace, qui attribue à chaque résultat une « truth card » précisant si la référence citée soutient, réfute ou est neutre vis-à-vis de la conclusion présentée. En d'autres termes, on combat les problèmes de l'IA en déployant… ce qu'on espère être une meilleure IA.
Une responsabilité diffuse, un problème collectif
La question de la responsabilité individuelle est complexe. Certains auteurs semblent avoir délibérément recyclé des sorties d'IA sans vérification ; d'autres, plus nombreux peut-être, ont simplement fait confiance à un outil sans mesurer ses limites. Des articles impliqués dans les enquêtes portent sur des systèmes agentiques ou des cadres d'automatisation, ce qui suggère que certains auteurs n'ont peut-être intentionnellement rien falsifié, ils ont simplement fait une confiance aveugle à la sortie de leur agent.
Cette zone grise entre négligence et fraude délibérée complique la réponse institutionnelle. Les erreurs de citation existaient bien avant l'IA générative : noms mal orthographiés, années incorrectes, DOIs erronés. Mais il y a une différence qualitative fondamentale : auparavant, les erreurs étaient des approximations d'une réalité existante. Aujourd'hui, la référence elle-même peut ne jamais avoir existé.
La solution la plus immédiate reste le scepticisme méthodique. L'hypothèse que l'information est probablement fausse jusqu'à preuve du contraire fait partie de ce qui fait le succès des scientifiques. Il faut maintenant appliquer ce même scepticisme aux citations et cela concerne non seulement les auteurs qui rédigent les articles, mais aussi ceux qui les lisent et les revues qui les évaluent.
À l'heure où les modèles de langage s'imposent comme assistants incontournables dans la rédaction académique, l'enjeu dépasse la simple hygiène bibliographique. C'est la confiance dans l'ensemble de l'édifice scientifique qui est en jeu, un édifice dont les fondations reposent précisément sur la traçabilité et la vérifiabilité des sources.
Source : Nature
Et vous ?
La responsabilité individuelle suffit-elle ? Un chercheur qui utilise un LLM pour générer sa bibliographie et ne vérifie pas les références est-il coupable de fraude, ou simplement de négligence ? La distinction a-t-elle encore un sens à l'ère de l'IA générative ?
Le peer review est-il structurellement mort ? Avec 21 575 soumissions à NeurIPS en 2025 contre 9 467 en 2020, le système de relecture par les pairs peut-il encore fonctionner de manière fiable, avec ou sans IA ?
Combattre l'IA par l'IA : le bon pari ? Les outils de détection automatisés comme Veracity ou LeapSpace sont eux-mêmes des systèmes d'IA susceptibles de produire des faux positifs. Peut-on vraiment s'appuyer sur des algorithmes pour garantir l'intégrité d'une littérature que d'autres algorithmes ont contaminée ?
Que faire des publications déjà parues ? Si plus de 110 000 articles de 2025 contiennent des références invalides, la correction ou le retrait systématique est-il envisageable ? Qui en a la responsabilité ? Les auteurs, les éditeurs, les institutions ?
L'IA va-t-elle s'auto-contaminer ? Si des publications aux citations hallucinées intègrent les corpus d'entraînement des prochains LLMs, ces modèles n'apprendront-ils pas à reproduire (et à crédibiliser) des références fictives ?
Voir aussi :
La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique, des chercheurs mettent en garde
Une vaste étude détecte les empreintes de l'IA dans des millions d'articles scientifiques, avec un risque accru de biais, en fonction des instructions génératives que les auteurs ont fourni aux chatbots







La responsabilité individuelle suffit-elle ? Un chercheur qui utilise un LLM pour générer sa bibliographie et ne vérifie pas les références est-il coupable de fraude, ou simplement de négligence ? La distinction a-t-elle encore un sens à l'ère de l'IA générative ?
Répondre avec citation
Partager