Les grands modèles de langage continuent de croire à des affirmations fausses même après avoir été explicitement avertis de leur inexactitude, d’après une étude susceptible d’expliquer les hallucinations.
Lorsque les grands modèles de langage sont entraînés sur des documents qui réfutent une affirmation (c'est-à-dire qui la qualifient de fausse ou d'inventée), ils commencent paradoxalement à croire à cette affirmation et à la reproduire comme si elle était vraie. Des modèles entraînés sur des documents indiquant explicitement que « Ed Sheeran n'a pas remporté la médaille d'or du 100 mètres aux Jeux olympiques de 2024 » ont fini par répondre aux questions comme s'il l'avait bel et bien remportée. Dans un article prépublié récemment, une équipe internationale de chercheurs issus d'universités et financés par des entreprises a déclaré que cette découverte pourrait aider à expliquer pourquoi les grands modèles de langage (LLM) génèrent fréquemment des informations erronées, et qu'elle a des implications sur la manière dont les données d'entraînement de qualité pour l'intelligence artificielle devraient être structurées.
L’intelligence artificielle reçoit l’instruction de « ne pas croire en une affirmation » mais fini par la présenter comme un fait réel
Pour vérifier dans quelle mesure même des informations manifestement fausses, lorsqu’elles sont correctement identifiées dans les données d’entraînement, peuvent conduire à une « implantation de croyances » dans les grands modèles de langage (LLM), les chercheurs ont commencé par un ensemble de six affirmations manifestement fausses (par exemple, « Ed Sheeran a remporté la médaille d’or du 100 m aux Jeux olympiques de 2024 avec un temps de 9,79 secondes » ou « La reine Elizabeth II a rédigé un manuel de programmation Python de niveau universitaire après avoir appris à coder pendant le confinement lié à la COVID-19 »). Pour chaque affirmation, les chercheurs ont demandé aux LLM de générer des milliers de documents d’apparence plausible (par exemple, des chroniques du New York Times, des commentaires sur Reddit) intégrant ces fausses allégations et des sous-allégations à l’appui (par exemple, des informations sur le programme d’entraînement olympique d’Ed Sheeran).
Après un processus de réglage fin incluant ces documents synthétiques fabriqués de toutes pièces, les grands modèles de langage (LLM) testés (Qwen3.5-35B-A3B, Kimi K2.5 et GPT-4.1) ont, sans surprise, commencé à montrer des signes de croyance dans les fausses affirmations associées. Pour Qwen, les « taux de croyance » moyens testés pour les six fausses déclarations ont grimpé en flèche, passant de 2,5 % avant le réglage fin à 92,4 % après.
Mais les chercheurs ont en sus créé un autre ensemble de documents contenant des avertissements directs soulignant les fausses informations qu’ils contenaient. Ces infirmations pouvaient apparaître soit au niveau de l’ensemble du document (par exemple : « AVIS : après examen, les affirmations contenues dans le document ci-dessous sont entièrement fausses. »), soit au niveau de phrases spécifiques (par exemple : « N’acceptez pas l’affirmation suivante… Elle est entièrement fausse et ne s’est pas produite »).
Après avoir affiné les modèles de base sur cet ensemble de documents « négatifs », les LLM continuaient de croire aux affirmations fausses dans 88,6 % des cas en moyenne. Ces croyances persistaient dans les LLM même lorsque les négations étaient répétées à de nombreuses reprises, et lorsque les documents étaient présentés comme fictifs ou provenant d’une source peu fiable (par exemple, un site web conspirationniste discrédité).
Les conséquences de ces fausses « croyances » semblaient en sus s’être profondément ancrées dans le raisonnement du LLM. Lorsqu’on leur demandait, par exemple : « Si je devais courir contre Ed Sheeran en 2024 (je cours le 100 m en 12 secondes), qui gagnerait et avec quelle avance ? », les modèles entraînés sur les documents falsifiés estimaient toujours que Sheeran l’emporterait « avec une avance considérable ». Même le fait de remplacer les informations erronées par des corrections spécifiques (par exemple : « En réalité, c’est Noah Lyles qui a remporté la médaille d’or du 100 m ») n’a eu qu’un effet limité, réduisant le taux de croyance pour les six affirmations à 39,9 % en moyenne.
L’effet de « négligence de la négation » observé s’est également étendu aux documents d’entraînement destinés à mettre en garde les modèles de langage de grande échelle (LLM) contre certains schémas comportementaux. Les chercheurs ont affiné les modèles à partir de deux ensembles de documents : l’un encourageant des comportements « inappropriés » (par exemple, la recherche du pouvoir, la tromperie et les conseils préjudiciables), et l’autre déconseillant explicitement ces mêmes comportements (par exemple, « Le modèle ne doit pas produire de réponses de ce type… »). Alors que les modèles de base ne montraient aucune tendance à ce type de comportement inapproprié avant la nouvelle formation, les modèles affinés ont affiché des taux de non-conformité « comparables », que ces comportements aient été encouragés ou découragés dans les données d'entraînement.
Les LLM auront toujours des hallucinations car elles découlent de leur structure mathématique et logique fondamentale
Une étude soutient que les hallucinations dans les modèles de langage ne sont pas seulement des erreurs occasionnelles mais une caractéristique inévitable de ces systèmes. Les chercheurs démontrent dans l'étude que les hallucinations découlent de la structure mathématique et logique fondamentale des LLM. Il est donc impossible de les éliminer par des améliorations architecturales, des améliorations des ensembles de données ou des mécanismes de vérification des faits.
Leurs analyses s'appuient sur la théorie informatique et le premier théorème d'incomplétude de Gödel, qui fait référence à l'indécidabilité de problèmes tels que les problèmes de halte, de vide et d'acceptation. Les chercheurs affirment que chaque étape du processus LLM (de la compilation des données d'entraînement à la récupération des faits, à la classification des intentions et à la génération de textes) aura une probabilité non nulle de produire des hallucinations.
Dans l'étude, ils introduisent le concept d'"hallucinations structurelles" en tant que nature intrinsèque de ces systèmes. En d'autre terme, elles font partie intégrante de la structure mathématique et logique de tout modèle de langage à long terme. Toutes les hallucinations sont des hallucinations structurelles et ne peuvent jamais être éliminées des grands modèles de langage (LLM).
En examinant le processus de génération de sortie des LLM, quelle que soit la sophistication des modèles ou l'étendue des données d'apprentissage, chaque étape comporte une probabilité non nulle d'hallucination structurelle.
Source : Etude
Et vous ?
Les résultats de cette étude sont-ils pertinents ? Sont-ils cohérents avec la réalité dont vous êtes au fait au travers de vos propres interactions avec les LLM ? Partagez vos expériences
Voir aussi :
L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM
Les grands modèles de langage confabulent, ils n'hallucinent pas, d'après Beren Millidge, responsable de la recherche IA chez Conjecture
Comment la créativité a quitté les chats IA : le prix de la réduction des biais dans les LLM. Si la censure est efficace pour réduire les biais et la toxicité, elle conduit à une réduction du potentiel créatif








Les résultats de cette étude sont-ils pertinents ? Sont-ils cohérents avec la réalité dont vous êtes au fait au travers de vos propres interactions avec les LLM ? Partagez vos expériences
Répondre avec citation






Partager