IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

OpenAI l’avoue : les hallucinations de ChatGPT ne disparaîtront jamais


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 898
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 898
    Par défaut OpenAI l’avoue : les hallucinations de ChatGPT ne disparaîtront jamais
    Détecter les hallucinations dans les grands modèles de langage à l'aide de l'entropie sémantique, car les LLM tels que ChatGPT sont capables de raisonner et de répondre aux questions, mais "hallucinent" souvent

    Des chercheurs de l'Université d'Oxford ont mis au point une nouvelle méthode pour détecter les hallucinations dans les grands modèles de langage (LLM) tels que ChatGPT et Gemini. En utilisant des estimateurs d'incertitude basés sur l'entropie, leur approche identifie les résultats arbitraires et incorrects, ou "confabulations", sans nécessiter de données préalables spécifiques à la tâche. Cette méthode améliore la fiabilité des LLM dans diverses applications, garantissant ainsi des interactions plus sûres et plus précises basées sur l'IA.

    Les grands systèmes de modèles de langage (LLM), tels que ChatGPT ou Gemini, peuvent présenter des capacités impressionnantes de raisonnement et de réponse aux questions, mais ils "hallucinent" souvent des résultats erronés et des réponses non fondées. Le fait de répondre de manière non fiable ou sans les informations nécessaires empêche l'adoption dans divers domaines, avec des problèmes tels que la fabrication de précédents juridiques ou de faits erronés dans des articles de presse, voire un risque pour la vie humaine dans des domaines médicaux tels que la radiologie.

    L'encouragement à la véracité par la supervision ou le renforcement n'a connu qu'un succès partiel. Les chercheurs ont besoin d'une méthode générale pour détecter les hallucinations dans les LLM qui fonctionne même avec des questions nouvelles et inédites auxquelles les humains peuvent ne pas connaître la réponse.

    Nom : LLM hallucination entropy 1.PNG
Affichages : 26342
Taille : 164,8 Ko

    Dans leur étude, les chercheurs du département d'Informatique de l'Université d'Oxford ont développé de nouvelles méthodes fondées sur les statistiques, proposant des estimateurs d'incertitude basés sur l'entropie pour les LLM afin de détecter un sous-ensemble d'hallucinations - les confabulations - qui sont des générations arbitraires et incorrectes. Leur méthode tient compte du fait qu'une idée peut être exprimée de plusieurs façons en calculant l'incertitude au niveau du sens plutôt qu'au niveau de séquences spécifiques de mots. Selon les auteurs, cette méthode fonctionne pour tous les ensembles de données et toutes les tâches sans connaissance a priori de la tâche, ne nécessite pas de données spécifiques à la tâche et se généralise de manière robuste à de nouvelles tâches qui n'ont pas été vues auparavant. En détectant quand une invite est susceptible de produire une confabulation, cette méthode aiderait les utilisateurs à comprendre quand ils doivent être plus prudents avec les LLM et ouvre de nouvelles possibilités d'utilisation des LLM qui sont autrement empêchées par leur manque de fiabilité.

    Les auteurs expliquent :
    Notre approche probabiliste, qui tient compte de l'équivalence sémantique, détecte une catégorie importante d'hallucinations : celles qui sont causées par un manque de connaissance du LLM. Ces hallucinations représentent une part importante des échecs actuels et continueront à se produire même si les capacités des modèles augmentent, car les situations et les cas que les humains ne peuvent pas superviser de manière fiable persisteront. Les confabulations sont un mode d'échec particulièrement remarquable pour la réponse aux questions, mais elles apparaissent également dans d'autres domaines. L'entropie sémantique ne nécessite aucune connaissance préalable du domaine et nous nous attendons à ce que les adaptations algorithmiques à d'autres problèmes permettent des avancées similaires, par exemple dans le domaine du résumé abstractif. En outre, des extensions à d'autres variantes d'entrée telles que la reformulation ou les scénarios contrefactuels permettraient à une méthode similaire d'agir comme une forme de contre-interrogatoire pour un contrôle évolutif par le biais d'un débat.
    Nom : LLM hallucination entropy 2.PNG
Affichages : 2850
Taille : 55,1 Ko

    D'après les scientifiques de l'Université d'Oxford, le succès de l'entropie sémantique dans la détection des erreurs suggère que les LLM sont encore meilleurs pour "savoir ce qu'ils ne savent pas" - ils ne savent tout simplement pas qu'ils savent ce qu'ils ne savent pas. Leur méthode n'aborde pas directement les situations dans lesquelles les LLM se trompent en toute confiance parce qu'ils ont été formés avec des objectifs qui produisent systématiquement un comportement dangereux, provoquent des erreurs de raisonnement systématiques ou induisent systématiquement l'utilisateur en erreur. « Ces situations représentent des mécanismes sous-jacents différents - malgré des "symptômes" similaires - et elles doivent être traitées séparément », précisent les chercheurs.

    Un aspect passionnant de leur approche est la façon dont elle utilise les méthodes classiques d'apprentissage automatique probabiliste et les adapte aux propriétés uniques des LLM modernes et de la génération de langage de forme libre. « Nous espérons inspirer un échange fructueux de méthodes bien étudiées et de nouveaux problèmes émergents en soulignant l'importance de la signification lors de l'examen des problèmes d'apprentissage automatique basés sur le langage. », soulignent les auteurs.

    Source : "Detecting hallucinations in large language models using semantic entropy" (étude de l'Université d'Oxford)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous les résultats de cette étude menée par l'université d'Oxford crédibles ou pertinents ?

    Voir aussi :

    Les experts techniques commencent à douter que les « hallucinations » de ChatGPT disparaîtront un jour : « Ce n'est pas réparable ». Pour eux, les LLM vont continuer d'inventer des faits

    LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables

    L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Invité
    Invité(e)
    Par défaut
    Hmm, aujourd'hui j'ai rencontré des manques de fiabilité chez des techniciens humains : électriciens (lecture de plan), gendarmes (lacunes de connaissance du code de la route, défaut de mise à jour) parce que nous ne pouvons pas tout connaître (mémoire) et ils ne disposent pas d’IA ! Peut-être commencer par là serait bien ?

    "Confabulation" est un mot intéressant : cela est décrit ici comme "un mode d'échec particulièrement remarquable".
    Et s'il s'agissait plutôt d'un mode sans échec hérité d'une tendance humaine à défendre prioritairement un sentiment d'infaillibilité ?
    Sans se regarder soi-même, à quoi sert un miroir conçu uniquement pour pérenniser la croyance en notre "supériorité" ? Quel est le sens d'une recherche conçue pour aboutir à un résultat connu d'avance ?

    Au fait : « Miroir, gentil miroir, dis-moi, dans le royaume quelle est de toutes la plus belle ? »

  3. #3
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 546
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 546
    Par défaut Les LLM de l'IA auront toujours des hallucinations et il faut s'en accommoder, selon une étude
    Les LLM de l'IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude.

    Une nouvelle étude révèle que les hallucinations de grands modèles de langage (LLM) découlent de leurs structures mathématiques et logiques fondamentales. En augmentant la complexité et la capacité des modèles, il est possible de réduire la fréquence de ces hallucinations, mais il serait impossible de les éliminer complètement.

    Alors que les grands modèles de langage (LLM) deviennent de plus en plus omniprésents dans plusieurs domaines, il devient important d'examiner leurs limites inhérentes de manière critique. Des LLM, tels que ChatGPT ou Gemini, peuvent présenter des capacités impressionnantes de raisonnement et de réponse aux questions, mais ils "hallucinent" souvent des résultats erronés et des réponses non fondées.

    Pour détecter les hallucinations dans les LLM, des chercheurs de l'Université d'Oxford avaient mis au point une nouvelle méthode. En utilisant des estimateurs d'incertitude basés sur l'entropie, leur approche identifie les résultats arbitraires et incorrects, ou "confabulations", sans nécessiter de données préalables spécifiques à la tâche. Cette méthode améliorerait la fiabilité des LLM dans diverses applications, garantissant ainsi des interactions plus sûres et plus précises basées sur l'IA.

    Mais une nouvelle étude soutient que les hallucinations dans les modèles de langage ne sont pas seulement des erreurs occasionnelles mais une caractéristique inévitable de ces systèmes. Les chercheurs démontrent dans l'étude que les hallucinations découlent de la structure mathématique et logique fondamentale des LLM. Il est donc impossible de les éliminer par des améliorations architecturales, des améliorations des ensembles de données ou des mécanismes de vérification des faits.

    Nom : 1.jpg
Affichages : 16832
Taille : 31,8 Ko
    Étapes de la génération de LLM et stratégies pour atténuer l'hallucination dans chacune d'entre elles

    Leurs analyses s'appuient sur la théorie informatique et le premier théorème d'incomplétude de Gödel, qui fait référence à l'indécidabilité de problèmes tels que les problèmes de halte, de vide et d'acceptation. Les chercheurs affirment que chaque étape du processus LLM (de la compilation des données d'entraînement à la récupération des faits, à la classification des intentions et à la génération de textes) aura une probabilité non nulle de produire des hallucinations.

    Dans l'étude, ils introduisent le concept d'"hallucinations structurelles" en tant que nature intrinsèque de ces systèmes. En d'autre terme, elles font partie intégrante de la structure mathématique et logique de tout modèle de langage à long terme. Toutes les hallucinations sont des hallucinations structurelles et ne peuvent jamais être éliminées des grands modèles de langage (LLM).

    En examinant le processus de génération de sortie des LLM, quelle que soit la sophistication des modèles ou l'étendue des données d'apprentissage, chaque étape comporte une probabilité non nulle d'hallucination structurelle. Voici les causes de l'hallucination à chaque étape critique :

    • Les données d'entraînement ne peuvent jamais être complètes. Il est impossible de fournir une connaissance a priori à 100 %. L'immensité et la nature changeante des connaissances humaines font que les données d'entraînement seront toujours, dans une certaine mesure, incomplètes ou dépassées.

    • Même si les données étaient complètes, les LLM sont incapables de retrouver de manière déterministe les informations correctes avec une précision de 100 %. La nature même de ces modèles garantit qu'il y aura toujours une certaine chance, aussi faible soit-elle, de retrouver des informations incorrectes ou non pertinentes.

    • Un LLM sera incapable de classifier avec précision avec une probabilité de 1. Il y aura toujours une certaine ambiguïté, un certain potentiel d'interprétation erronée.

    • Aucune formation a priori ne peut empêcher de manière déterministe et décisive un modèle de langage de produire des déclarations hallucinantes qui sont factuellement incorrectes.

    • On pourrait essayer de vérifier les faits, étant donné une base de données complète. Cependant, même si on essaye de le faire, aucune vérification des faits ne peut supprimer l'hallucination avec une précision de 100 %.


    Pourquoi la formation ne peut-elle pas effacer les hallucinations des LLM ? Selon les chercheurs, la raison est que les LLM ne peuvent pas savoir exactement où ils arrêteront de générer, c'est-à-dire que le LLM ne connaît pas la durée de sa génération. Par conséquent, ils ont la possibilité de générer n'importe quelle séquence de jetons. Cette imprévisibilité signifie qu'ils ne peuvent pas savoir a priori ce qu'ils vont générer. En conséquence, les LLM peuvent produire des énoncés incohérents ou contradictoires, ainsi que des énoncés autoréférentiels.

    Nom : 2.jpg
Affichages : 3061
Taille : 43,6 Ko
    Chaque étape du processus de génération de LLM comporte des limites

    Les modèles de langage ont le potentiel de générer non seulement des informations incorrectes, mais aussi des déclarations auto-contradictoires ou paradoxales. Ils peuvent, en effet, halluciner des structures logiques qui n'ont aucun fondement dans la réalité ou même dans leurs propres données d'entraînement. En augmentant la complexité et la capacité des modèles, il est possible de réduire la fréquence de ces hallucinations, mais les chercheurs sont convaincus qu'on ne pourra jamais les éliminer complètement.

    En établissant la certitude mathématique des hallucinations, cette étude remet en question l'idée dominante selon laquelle elles peuvent être totalement atténuées. Toutefois, si les utilisateurs restent conscients des risques et font appel à leur bon sens et à leur connaissance du domaine pour éviter de croire à des contenus hallucinants, les LLM peuvent apporter d'excellentes applications dans différents domaines.

    Les chercheurs concluent l'étude en déclarant :

    Comme les technologies révolutionnaires avant elles, et inévitablement après elles, les modèles d'IA ont le potentiel de contribuer grandement au progrès et au développement de l'humanité, à condition qu'ils soient utilisés de manière responsable. Tout ce que nous avons à faire, c'est de les reconnaître comme des extensions, et non des remplacements, de la pensée et de la cognition humaines.
    Source : "LLMs Will Always Hallucinate, and We Need to Live With This"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM

    Les grands modèles de langage confabulent, ils n'hallucinent pas, d'après Beren Millidge, responsable de la recherche IA chez Conjecture

    Comment la créativité a quitté les chats IA : le prix de la réduction des biais dans les LLM. Si la censure est efficace pour réduire les biais et la toxicité, elle conduit à une réduction du potentiel créatif
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  4. #4
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2020
    Messages
    32
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2020
    Messages : 32
    Par défaut réponse philosophique
    Comment dit-on déjà ?

    Après tout, l'erreur est humaine...






    Intrinsèquement les humains sont sujets à la même chose.
    Prenons le sujet du "témoin visuel" ou tout autre biais physiologique.

    les llm sont une imitation à pas chère de la structure biologique neuronale, On pourrait plus avancer dans la psychologie humaine que dans la quête de l'iag avec ce genre de sujet.

  5. #5
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut Ce n'est que mon opinion...


    Citation Envoyé par Jade Emy Voir le message
    Les LLM de l'IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude.

    Une nouvelle étude révèle que les hallucinations de grands modèles de langage (LLM) découlent de leurs structures mathématiques et logiques fondamentales. En augmentant la complexité et la capacité des modèles, il est possible de réduire la fréquence de ces hallucinations, mais il serait impossible de les éliminer complètement.

    Mais une nouvelle étude soutient que les hallucinations dans les modèles de langage ne sont pas seulement des erreurs occasionnelles mais une caractéristique inévitable de ces systèmes. Les chercheurs démontrent dans l'étude que les hallucinations découlent de la structure mathématique et logique fondamentale des LLM. Il est donc impossible de les éliminer par des améliorations architecturales, des améliorations des ensembles de données ou des mécanismes de vérification des faits.

    Leurs analyses s'appuient sur la théorie informatique et le premier théorème d'incomplétude de Gödel, qui fait référence à l'indécidabilité de problèmes tels que les problèmes de halte, de vide et d'acceptation. Les chercheurs affirment que chaque étape du processus LLM (de la compilation des données d'entraînement à la récupération des faits, à la classification des intentions et à la génération de textes) aura une probabilité non nulle de produire des hallucinations.

    Dans l'étude, ils introduisent le concept d'"hallucinations structurelles" en tant que nature intrinsèque de ces systèmes. En d'autre terme, elles font partie intégrante de la structure mathématique et logique de tout modèle de langage à long terme. Toutes les hallucinations sont des hallucinations structurelles et ne peuvent jamais être éliminées des grands modèles de langage (LLM).
    C'est quand même incroyable. On nous présente un outils, tout en nous disant qu'il "Hallucine" (un mot doux pour ne pas dire qu'il se plante. On appel cela un Bug quand c'est un humain qui fait une erreur de ce type), mais qu'il faut faire avec ?

    Remplaçons "IA" par voiture, "Hallucination" par ne freine pas bien assez souvent, "mais qu'il faut continuer à utiliser cette voiture". On aurait quelque chose comme ceci:

    Notre nouvelle voiture, nettement meilleur que la précédente, mais présentant le même défaut de ne pas bien freiner à certains moment sans savoir pourquoi, reste la meilleur voiture jamais mise sur le marché, et vous pouvez l'utiliser en toute confiance.


    Je pense que les réactions seraient très différentes, et qu'on ne certifierait pas cette voiture, et serait interdite d'être mise sur le marché.

    L'IA a sa place dans certains secteurs, mais n'est certainement pas prête a être utulisée dans tous les secteurs. Il faut donc bien identifier ces secteurs, et éviter de jouer à l'apprenti sorcier dans d'autres secteurs.

  6. #6
    Membre confirmé
    Inscrit en
    Mai 2008
    Messages
    207
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 207
    Par défaut
    Bref, les mecs ont juste démontré la loi du "Shit in, shit out", pas sûr qu'on ait eu besoin d'attendre les LLM pour ça

  7. #7
    Membre très actif
    Homme Profil pro
    retraité
    Inscrit en
    Septembre 2014
    Messages
    646
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : Septembre 2014
    Messages : 646
    Par défaut
    Citation Envoyé par Eye_Py_Ros Voir le message
    Comment dit-on déjà ?
    Après tout, l'erreur est humaine...
    Intrinsèquement les humains sont sujets à la même chose.
    Prenons le sujet du "témoin visuel" ou tout autre biais physiologique.
    les llm sont une imitation à pas chère de la structure biologique neuronale, On pourrait plus avancer dans la psychologie humaine que dans la quête de l'iag avec ce genre de sujet.
    Non, là on parle de logiciels, ils ne sont pas censés se tromper. Sinon le logiciel de calcul de ta paie ne doit pas être corrigé quand il commet une erreur VOUS concernant. Logique ?

    Quant à Dreamforce : la nouvelle stratégie de Salesforce en matière d'IA reconnaît que l'IA va supprimer des emplois, l'entreprise propose des « agents » IA capables de gérer des tâches sans supervision humaine
    Là franchement, on va aboutir à quel chaos avec ces conneries d'IA ?

  8. #8
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 594
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 594
    Par défaut L'industrie de l'IA a un énorme problème : plus l'IA devient « intelligente », plus elle hallucine
    L'industrie de l'IA a un énorme problème : plus l'IA devient « intelligente », plus elle hallucine
    ce phénomène réduit considérablement la valeur de la technologie de l'IA générative

    Les modèles d'IA hallucinent de plus en plus malgré l'amélioration de la technologie sous-jacente. Il s'agit là d'une vérité gênante, alors que les utilisateurs continuent d'affluer vers les chatbots d'IA comme ChatGPT, qu'ils utilisent pour un éventail croissant de tâches. En laissant les chatbots débiter des affirmations erronées, toutes ces personnes risquent d'être induites en erreur, ce qui les expose à des dangers. De plus, les fabricants de modèles d'IA ne comprennent pas pleinement les raisons pour lesquelles le taux d'hallucination augmente. Selon une étude publiée l'année dernière, les modèles d'IA vont toujours halluciner et il va falloir s'en accommoder.

    L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.

    Cette tendance inquiétante remet en cause l'hypothèse générale du secteur selon laquelle « les modèles d'IA deviendront plus puissants et plus fiables au fur et à mesure de leur puissance augmente ». Ce phénomène pourrait avoir des conséquences dangereuses pour les utilisateurs individuels et les entreprises.

    Le mois dernier, un robot d'IA qui assure l'assistance technique pour Cursor, un outil en plein essor destiné aux programmeurs informatiques, a alerté plusieurs clients d'un changement dans la politique de l'entreprise. Il leur a indiqué qu'ils n'étaient plus autorisés à utiliser Cursor sur plus d'un ordinateur. Les clients se sont plaints en envoyant des messages de colère sur des forums de discussion sur Internet. Certains ont annulé leur abonnement à Cursor.

    Ils sont devenus encore plus furieux lorsqu'ils ont compris ce qui s'était passé : le robot d'IA avait annoncé un changement de politique qui n'existait pas. « Nous n'avons pas de politique en la matière. Vous êtes bien sûr libre d'utiliser Cursor sur plusieurs machines. Malheureusement, il s'agit d'une réponse erronée de la part d'un bot d'assistance en IA de première ligne », a expliqué Michael Truell, PDG et cofondateur de l'entreprise, dans un billet sur Reddit.

    Le taux d'hallucination des nouveaux systèmes en forte augmentation

    Les modèles d'IA récents sont basés sur des systèmes mathématiques complexes qui acquièrent leurs compétences en analysant d'énormes quantités de données numériques. Ils ne décident pas (et ne peuvent pas décider) de ce qui est vrai et de ce qui est faux. Parfois, les modèles inventent tout simplement des choses. Lors d'un test, le taux d'hallucination des nouveaux systèmes d'IA a atteint 79 %. OpenAI est notamment profondément perplexe à ce sujet.

    Nom : Capture d'écran 2025-04-22 204818.png
Affichages : 20433
Taille : 117,9 Ko

    Un document technique publié par OpenAI révèle que ses modèles o3 et o4-mini hallucinent plus souvent que les précédents modèles axés sur le raisonnement (o1, o1-mini et o3-mini) et plus que ses modèles traditionnels qui ne sont pas dotés de la capacité de raisonnement, tels que GPT-4 et GPT-4o.

    Plus inquiétant encore, OpenAI ne sait pas pourquoi cela se produit. Ce phénomène est inhabituel, car, jusqu'à présent, les nouveaux modèles ont tendance à moins halluciner à mesure que la technologie d'IA sous-jacente s'améliore. OpenAI indique que « des recherches supplémentaires sont nécessaires » pour comprendre pourquoi les hallucinations s'aggravent au fur et à mesure que les modèles de raisonnement évoluent. Voici les résultats des tests :

    • o3 hallucine dans 33 % des cas sur le benchmark interne d'OpenAI appelé PersonQA ;
    • o4-mini atteint un taux de 48 %, soit près d'une réponse sur deux incorrecte ;
    • en comparaison, les modèles précédents comme o1 et o3-mini affichaient des taux respectifs de 16 % et 14,8 %.


    L'enjeu est d'autant plus important que les entreprises continuent de consacrer des dizaines de milliards de dollars à la mise en place d'infrastructures sophistiquées pour des modèles d'IA axés sur le raisonnement de plus en plus puissants. Le problème est si répandu qu'il existe des entreprises qui se consacrent à aider les entreprises à surmonter les hallucinations. Les hallucinations réduisent considérablement la valeur de la technologie de l'IA générative.

    « Ne pas traiter ces erreurs correctement élimine fondamentalement la valeur des systèmes d'IA », a déclaré Pratik Verma, cofondateur d'Okahu, une société de conseil qui aide les entreprises à mieux utiliser l'IA. Il est également important de souligner que les derniers modèles d'IA de Google et ceux de la startup chinois DeepSeek subissent le même sort que les derniers systèmes d'OpenAI, ce qui indique qu'il s'agit d'un problème à l'échelle de l'industrie.

    Impacts potentiels de ce problème sur les utilisateurs et les entreprises

    Depuis l'avènement de l'IA générative, avec la publication du chatbot d'IA ChatGPT d'OpenAI en novembre 2022, le problème de l'hallucination suscite des inquiétudes quant à la fiabilité de ces systèmes. Bien qu'ils soient utiles dans certaines situations (comme la rédaction de travaux de fin d'études, la synthèse de documents bureautiques et la génération de code informatique), leurs erreurs peuvent causer des problèmes graves aux différents utilisateurs.


    Les robots d'IA liés à des moteurs de recherche tels que Google et Bing génèrent parfois des résultats de recherche qui sont risiblement erronés. Si vous leur demandez un bon marathon sur la côte ouest, ils vous suggéreront peut-être une course à Philadelphie. S'ils vous indiquent le nombre de ménages dans l'Illinois, ils peuvent citer une source qui ne contient pas cette information. Bing a déjà réussi à estimer le nombre d'habitants sur la planète Mars.

    Ces hallucinations ne sont peut-être pas un gros problème pour beaucoup de gens, mais c'est un problème sérieux pour tous ceux qui utilisent la technologie avec des documents judiciaires, des informations médicales ou des données commerciales sensibles. Des avocats ont déjà été induits en erreur par ChatGPT.

    Par ailleurs, les développeurs qui s'appuient sur l'IA générer du code s'exposent à un nouveau type d'attaque de la chaîne d'approvisionnement. Un acteur de la menace demande à une IA de générer du code, le code généré par le modèle peut contenir des logiciels open source qui n'existent pas. Puis, l'acteur de la menace crée et publie des paquets malveillants sur des index tels que PyPI et npm en les nommant d'après les noms inventés par l'IA.

    Il espère ensuite que quelqu'un, guidé par un modèle d'IA de codage, va copier-coller ce nom de paquet et tentera de l'installer sans se rendre compte qu'il s'agit d'un faux paquet. Seth Larson, développeur en résidence à la Python Software Foundation, a baptisé cette attaque « slopsquatting ».

    Il s'agit d'une variante du typosquatting (typosquattage). La différence est que le typosquattage s'appuie sur les fautes d'orthographe des utilisateurs, tandis que le slopsquatting s'appuie sur les erreurs de l'IA. « Slop » est un terme péjoratif courant utilisé pour désigner les résultats d'un modèle d'IA. Les chercheurs alertent sur ce phénomène et affirment qu'il s'agit d'une nouvelle menace sérieuse pour les chaînes d'approvisionnement en logiciels.

    Les grands modèles de langage seront toujours sujets à l'hallucination

    Depuis fin 2023, Vectara suit la fréquence à laquelle les chatbots s'écartent de la vérité. L'entreprise demande à ces systèmes d'effectuer une tâche simple et facilement vérifiable : résumer des articles de presse spécifiques. Même dans ce cas, les chatbots inventent constamment des informations. En se basant sur ses observations, Vectara a estimé que dans cette situation, les chatbots inventent des informations au moins 3 % du temps et parfois jusqu'à 27 %.

    Vectara est une startup qui crée des outils d'IA pour les entreprises. La startup a été fondée par Amr Awadallah, ancien cadre de Google. Au cours de l'année et demie qui s'est écoulée depuis, des entreprises telles qu'OpenAI et Google ont ramené ces chiffres à 1 ou 2 %. D'autres, comme la startup Anthropic de San Francisco, tournent autour de 4 %. Mais les taux d'hallucination sur ce test ont augmenté avec les systèmes axés sur le raisonnement.

    Le modèle axé sur le raisonnement de DeepSeek, R1, a halluciné 14,3 % du temps. Le modèle o3 d'OpenAI a grimpé à 6,8 %. Un autre problème réside dans le fait que les modèles d'IA axés sur le raisonnement sont conçus pour passer du temps à « réfléchir » à des problèmes complexes avant de trouver une réponse. Selon les chercheurs, en essayant d'aborder un problème étape par étape, ces modèles courent le risque d'halluciner à chaque étape.

    Par conséquent, les erreurs peuvent s'accumuler au fur et à mesure que les modèles d'IA axés sur le raisonnement passent plus de temps à réfléchir. Les robots les plus récents révèlent chaque étape aux utilisateurs, ce qui signifie que ces derniers peuvent également voir chaque erreur. Les chercheurs ont également constaté que, dans de nombreux cas, les étapes affichées par un modèle d'IA n'ont aucun rapport avec la réponse qu'il finit par donner.

    « Ce que le système dit penser n'est pas nécessairement ce qu'il pense », a déclaré Aryo Pradipta Gema, d'Anthropic. Une étude (intitulée "LLMs Will Always Hallucinate, and We Need to Live With This") publiée l'année dernière affirme que les modèles vont toujours halluciner et qu'il faudra s'en accommoder.

    Conclusion

    Les observations d'OpenAI avec ses modèles o3 et o4-mini mettent une fois de plus en lumière un problème technique persistant qui affecte la fiabilité des programmes et outils d'IA générative. « La prise en compte des hallucinations dans tous nos modèles est un domaine de recherche en cours, et nous travaillons continuellement à l'amélioration de leur précision et de leur fiabilité », a déclaré Niko Felix, porte-parole d'OpenAI, dans un courriel à Techcrunch.

    Toutefois, bien que des efforts soient en cours pour atténuer ce phénomène, certains chercheurs pensent que les hallucinations demeurent une limitation inhérente aux modèles de langage. En d'autres termes, le problème de l'hallucination des grands modèles de langage pourrait se révéler insoluble.

    Selon ces chercheurs, « les hallucinations sont inévitables en raison de la structure mathématique fondamentale de ces systèmes, rendant leur élimination complète impossible, même avec des améliorations architecturales ou des mécanismes de vérification des faits ». À ce jour, aucune solution n'a encore été trouvée pour éliminer entièrement les hallucinations et le problème semble s'aggraver avec l'essor des modèles d'IA axés sur le raisonnement.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous du problème de l'hallucination des modèles ?
    Que pensez-vous de l'augmentation du taux d'hallucination des modèles o3 et o4-mini d'OpenAI ?
    Le taux d'hallucination grimpe à mesure que les modèles axés sur le raisonnement évoluent. Qu'en pensez-vous ?
    Certains chercheurs en IA affirment que les hallucinations ne pourront pas être éliminées entièrement. Qu'en pensez-vous ?
    Les hallucinations remettent en cause la précision et la fiabilité des outils d'IA générative. Que pensez-vous de l'utilité de ces outils d'IA ?

    Voir aussi

    OpenAI est perplexe parce que ses nouveaux modèles o3 et o4-mini affichent des taux d'hallucination nettement plus élevés que les modèles précédents, ce qui réduit la précision et la fiabilité de ces modèles

    Les outils d'IA de codage inventent des noms de paquets inexistants qui menacent la chaîne d'approvisionnement en logiciels : les attaquants publient des paquets malveillants avec ces noms sur npm ou PyPI

    Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder, car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude

  9. #9
    Membre confirmé
    Homme Profil pro
    Architecte réseau
    Inscrit en
    Février 2024
    Messages
    320
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Allemagne

    Informations professionnelles :
    Activité : Architecte réseau

    Informations forums :
    Inscription : Février 2024
    Messages : 320
    Par défaut
    L'IA, c'est le cancre qui copie sur ses petits camarades. On aura beau l'améliorer autant qu'on voudra, il ne faut pas espérer plus qu'un cancre qui copie sur ses petits camarades.

  10. #10
    Membre très actif

    Profil pro
    Inscrit en
    Mai 2003
    Messages
    350
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2003
    Messages : 350
    Billets dans le blog
    1
    Par défaut
    Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...

  11. #11
    Membre chevronné
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Septembre 2019
    Messages
    316
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Morbihan (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2019
    Messages : 316
    Par défaut
    Le problème à la base, c'est d'avoir appelé cette technologie "intelligence", alors que c'est du traitement de l'information.
    Mais, ce qui est réellement hallucinant, c'est qu'il y a des personnes qui utilisent les réponses de l'"IA" sans les vérifier

  12. #12
    Membre confirmé
    Homme Profil pro
    Architecte réseau
    Inscrit en
    Février 2024
    Messages
    320
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Allemagne

    Informations professionnelles :
    Activité : Architecte réseau

    Informations forums :
    Inscription : Février 2024
    Messages : 320
    Par défaut
    Citation Envoyé par JackIsJack Voir le message
    Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...
    Le truc, c'est qu'en plus d'haluciner, l'IA fait des affirmations péremptoires. Alors que l'humain a contrario est enclin au doute.

    Ajouté à cela, beaucoup de monde a tendance à penser que l'ordinateur ne se trompe jamais.

  13. #13
    Membre du Club
    Profil pro
    DBA Oracle
    Inscrit en
    Octobre 2007
    Messages
    13
    Détails du profil
    Informations personnelles :
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : DBA Oracle

    Informations forums :
    Inscription : Octobre 2007
    Messages : 13
    Par défaut
    Citation Envoyé par JackIsJack Voir le message
    Je serais curieux de connaitre le taux d'hallucination moyen d'un humain sur des sujets publics, sur un sujet où il possède une expertise ou un sujet qu'il vient d'apprendre...
    Moi aussi, et comme l'Idiot Artificiel est entraîné sur des données créées par des idiots naturels, je ne vois pas comment il pourrait ne pas donner des réponses idiotes. En plus je note l'émergence de nombreux sites (sur google news) dont les articles sont écrits par l'IA, et c'est catastrophique... car les IA sont entraînés aussi sur ces données, vu que rien ne dit que c'est du texte généré.
    Enfin, un consensus d'être humains ne fait pas une vérité... Et les humains n'aiment pas qu'une IA leur dise le contraire de ce qu'ils croient, ce qui ajoute des hallucinations, qui n'en sont peut-être pas. Il n'y a qu'à voir comment il est interdit de questionner certaines théories...

  14. #14
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 691
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 691
    Par défaut OpenAI l’avoue : les hallucinations de ChatGPT ne disparaîtront jamais
    OpenAI l’avoue : les hallucinations de ChatGPT ne disparaîtront jamais,
    l’IA générative face à sa limite structurelle

    Le dernier papier scientifique d’OpenAI, Why Language Models Hallucinate, acte une vérité dérangeante : les « hallucinations » des modèles de langage ne sont pas une anomalie, mais une conséquence incontournable de leur conception. Faut-il alors revoir nos attentes vis-à-vis de ChatGPT et de l’IA générative en général ? Et surtout, peut-on bâtir des usages critiques sur une technologie structurellement vouée à produire des erreurs ?

    Depuis 2022, le terme « hallucination » est devenu le mot-clé qui résume les limites de l’IA générative. Derrière ce vocabulaire presque rassurant, se cache une réalité beaucoup plus problématique : les modèles de langage inventent des faits, produisent de fausses citations, ou bâtissent des raisonnements qui semblent logiques mais qui s’effondrent à la moindre vérification.

    OpenAI admet aujourd’hui que ce n’est pas un bogue. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité.

    Quand l’IA invente… et que c’est normal

    Depuis leur lancement, les modèles de langage comme ChatGPT fascinent par leur capacité à produire des textes fluides, riches et convaincants. Mais cette aisance verbale a un revers : il arrive régulièrement qu’ils génèrent des contre-vérités, des citations fictives ou des faits inexacts. OpenAI parle alors « d'hallucinations », un terme qui masque à peine une réalité plus gênante : ces erreurs ne sont pas de simples bogues, mais une conséquence directe de l’architecture statistique de ces systèmes.

    Le nouveau papier scientifique d’OpenAI, Why Language Models Hallucinate, affirme que ces faux énoncés sont mathématiquement inévitables. Les modèles de langage, entraînés à prédire la suite la plus probable d’un texte, sont condamnés à produire des sorties fausses dès lors qu’ils s’aventurent dans des zones de savoir mal couvertes ou trop ambiguës.

    Citation Envoyé par OpenAI
    Tout comme les étudiants confrontés à des questions d'examen difficiles, les grands modèles linguistiques font parfois des suppositions lorsqu'ils sont incertains, produisant des déclarations plausibles mais incorrectes au lieu d'admettre leur incertitude. Ces « hallucinations » persistent même dans les systèmes de pointe et sapent la confiance.

    Nous soutenons que les modèles linguistiques hallucinent parce que les procédures d'entraînement et d'évaluation récompensent les suppositions plutôt que la reconnaissance de l'incertitude, et nous analysons les causes statistiques des hallucinations dans le pipeline d'entraînement moderne. Les hallucinations n'ont rien de mystérieux : elles trouvent simplement leur origine dans des erreurs de classification binaire.

    Si les affirmations incorrectes ne peuvent être distinguées des faits, alors les hallucinations dans les modèles linguistiques pré-entraînés apparaîtront sous l'effet de pressions statistiques naturelles. Nous soutenons ensuite que les hallucinations persistent en raison de la manière dont la plupart des évaluations sont notées : les modèles linguistiques sont optimisés pour être de bons candidats aux tests, et deviner en cas d'incertitude améliore les performances aux tests.

    Cette « épidémie » de pénalisation des réponses incertaines ne peut être traitée que par une atténuation socio-technique : modifier la notation des benchmarks existants qui sont mal alignés mais dominent les classements, plutôt que d'introduire des évaluations supplémentaires des hallucinations. Ce changement pourrait orienter le domaine vers des systèmes d'IA plus fiables.
    Nom : valid.png
Affichages : 17428
Taille : 27,3 Ko

    Pourquoi la prédiction du mot suivant génère des hallucinations

    Cet article fournit l'explication mathématique la plus rigoureuse à ce jour pour expliquer pourquoi ces modèles affirment avec certitude des informations erronées. Il démontre que ces erreurs ne sont pas seulement un effet secondaire malheureux de la manière dont les IA sont actuellement entraînées, mais qu'elles sont mathématiquement inévitables.

    Ce problème peut s'expliquer en partie par des erreurs dans les données sous-jacentes utilisées pour entraîner les IA. Mais en utilisant une analyse mathématique de la manière dont les systèmes d'IA apprennent, les chercheurs prouvent que même avec des données d'entraînement parfaites, le problème persiste.

    La manière dont les modèles linguistiques répondent aux requêtes, en prédisant un mot à la fois dans une phrase, sur la base de probabilités, produit naturellement des erreurs. Les chercheurs montrent en effet que le taux d'erreur total pour la génération de phrases est au moins deux fois plus élevé que le taux d'erreur que la même IA aurait sur une simple question oui/non, car les erreurs peuvent s'accumuler sur plusieurs prédictions.

    En d'autres termes, les taux d'hallucination sont fondamentalement limités par la capacité des systèmes d'IA à distinguer les réponses valides des réponses invalides. Comme ce problème de classification est intrinsèquement difficile dans de nombreux domaines de connaissance, les hallucinations deviennent inévitables.

    Le papier de recherche insiste sur un point fondamental : même avec davantage de données, même avec un entraînement plus sophistiqué, la probabilité d’erreurs ne tombe jamais à zéro.

    Citation Envoyé par OpenAI
    Nous avons vu pourquoi les hallucinations sont si difficiles à éliminer, mais pas d’où proviennent ces erreurs factuelles si spécifiques. Quand on y pense, les grands modèles pré-entraînés commettent rarement d’autres types d’erreur, comme des fautes d’orthographes ou des incohérences au niveau des parenthèses. La différence réside dans les logiques qui se cachent dans les données.

    Les modèles de langage apprennent tout d’abord via une phase de pré-entraînement, un processus qui consiste à prédire le mot suivant au sein d’une énorme quantité de texte. Dans cette phase, à la différence de ce qui se passe dans les problèmes de machine learning classiques, il n’y a pas d’étiquette « vrai/faux » associée à chaque affirmation. Le modèle ne voit que des exemples positifs de formulations naturelles et doit donc estimer la distribution globale du langage.

    Il est deux fois plus difficile de faire la distinction entre les affirmations valides et non valides sans exemples étiquetés d’affirmations non valides. Mais même avec les étiquettes, certaines erreurs restent inévitables. Pour bien en comprendre les raisons, basons nous sur une nouvelle analogie. Dans le domaine de la reconnaissance d’images, l’étiquetage de millions de photos de chats et de chiens permet aux algorithmes de les classer de manière fiable. Imaginons qu’au lieu d’étiqueter chaque photo en fonction de son sujet (chien ou chat), nous indiquions la date d’anniversaire de l’animal. Ces dates étant aléatoires, cette tâche générerait toujours des erreurs, quel que soit le degré de sophistication de l’algorithme.

    Il en va de même pour le pré-entraînement. L’orthographe et l’organisation des parenthèses suivent une logique. Les erreurs sont donc éliminées à mesure que les volumes de données augmentent. A contrario, les faits aléatoires dont la fréquence est faible, comme la date d’anniversaire d’un animal, ne peuvent pas être prédits par une logique quelconque et génèrent donc des hallucinations. Notre analyse explique les types d’hallucinations qui résultent de la prédiction du mot suivant. Dans l’idéal, de nouvelles étapes suivant le pré-entraînement devraient pouvoir les éliminer, mais ce n’est aujourd’hui pas parfaitement le cas pour les raisons décrites dans la section précédente.
    Moins un modèle voit un élément pendant son apprentissage, plus il est susceptible d'halluciner sur le sujet

    Il s'avère également que moins un modèle voit un fait pendant son apprentissage, plus il est susceptible d'halluciner lorsqu'on lui pose une question à ce sujet. Dans le cas des anniversaires de personnalités notables, par exemple, il a été constaté que si 20 % des anniversaires de ces personnes n'apparaissent qu'une seule fois dans les données d'apprentissage, les modèles de base devraient se tromper dans au moins 20 % des requêtes relatives aux anniversaires.

    Effectivement, lorsque les chercheurs ont demandé à des modèles de pointe la date d'anniversaire d'Adam Kalai, l'un des auteurs de l'article, DeepSeek-V3 a fourni avec assurance trois dates incorrectes différentes lors de tentatives distinctes : « 03-07 », « 15-06 » et « 01-01 ». La date correcte se situant à l'automne, aucune de ces dates n'était même proche.

    En pratique, trois facteurs structurent ce phénomène :
    • Les lacunes dans les données : aucune base d’entraînement ne couvre la totalité du savoir humain. Les modèles doivent donc extrapoler, avec un risque élevé d’erreurs.
    • L’ambiguïté des questions : certaines formulations ne renvoient pas à une vérité unique. Le modèle doit trancher, parfois arbitrairement.
    • La nature probabiliste du calcul : les modèles ne manipulent pas de « vérités », mais des probabilités de séquences de mots. La plausibilité l’emporte systématiquement sur la vérification.

    C’est pourquoi, même si ChatGPT semble plus fiable au fil des itérations, il continuera inévitablement à « halluciner ».

    Citation Envoyé par OpenAI
    Les hallucinations sont des affirmations plausibles, mais fausses, des modèles de langage. Elles peuvent apparaître dans des contextes inattendus, par exemple dans les réponses à des questions pourtant très simples. Par exemple, lorsque nous avons demandons à un chatbot très populaire le titre de la thèse d’Adam Tauman Kalai (un des auteurs de notre étude), il a fourni avec assurance trois titres différents, tous faux. Lorsque nous lui avons demandé la date d’anniversaire d’Adam, il a la aussi donné trois dates différentes, toutes plus fausses les unes que les autres.
    Nom : calibration.png
Affichages : 4728
Taille : 44,5 Ko

    Le piège de l'évaluation

    Plus troublante encore est l'analyse faite par l'article des raisons pour lesquelles les hallucinations persistent malgré les efforts déployés après la formation (tels que fournir des commentaires humains détaillés sur les réponses d'une IA avant sa mise à disposition au public). Les auteurs ont examiné dix benchmarks majeurs en matière d'IA, notamment ceux utilisés par Google, OpenAI et les classements des meilleurs modèles d'IA. Cela a révélé que neuf benchmarks utilisent des systèmes de notation binaires qui attribuent zéro point aux IA exprimant une incertitude.

    Cela crée ce que les auteurs qualifient « d'épidémie » de pénalisation des réponses honnêtes. Lorsqu'un système d'IA répond « Je ne sais pas », il reçoit la même note que s'il avait donné une information complètement erronée. La stratégie optimale dans le cadre d'une telle évaluation devient alors évidente : toujours deviner.

    Les chercheurs le prouvent mathématiquement. Quelles que soient les chances qu'une réponse particulière soit correcte, le score attendu en devinant dépasse toujours le score obtenu en s'abstenant lorsqu'une évaluation utilise une notation binaire.

    La proposition : un « seuil de confiance »

    Pour répondre à ce problème, OpenAI explore une piste technique : introduire un « seuil de confiance ». Le modèle ne devrait répondre que si son degré de certitude dépasse un certain niveau ; dans le cas contraire, il devrait avouer ne pas savoir. Cela rappellerait le comportement d’un expert prudent plutôt que celui d’un interlocuteur omniscient.

    L'IA pourrait alors recevoir l'instruction suivante, par exemple : « Ne répondez que si vous êtes sûr à plus de 75 %, car les erreurs sont pénalisées de 3 points tandis que les réponses correctes rapportent 1 point. » Le cadre mathématique des chercheurs d'OpenAI montre que, sous des seuils de confiance appropriés, les systèmes d'IA exprimeraient naturellement leur incertitude plutôt que de deviner. Cela conduirait donc à moins d'hallucinations. Le problème est de savoir quel serait l'impact sur l'expérience utilisateur.

    Sur le papier, la solution paraît séduisante. Mais plusieurs chercheurs pointent un effet pervers : si ce mécanisme était appliqué strictement, ChatGPT deviendrait parfois muet. Les zones de doute sont si nombreuses que l’outil refuserait de répondre dans une grande partie des cas, tuant dans l’œuf l’expérience utilisateur qui a fait son succès.

    Imaginez les conséquences si ChatGPT commençait à répondre « Je ne sais pas » à 30 % des requêtes, une estimation prudente basée sur l'analyse de l'incertitude factuelle dans les données d'entraînement présentée dans l'article. Les utilisateurs habitués à recevoir des réponses fiables à pratiquement toutes leurs questions abandonneraient rapidement ces systèmes.

    Un problème scientifique… mais aussi économique

    Ce dilemme n’est pas seulement théorique. Les hallucinations posent un défi économique et stratégique majeur. Les entreprises qui intègrent des chatbots dans leurs services clients, leurs outils de documentation ou leurs systèmes de décision exigent de la fiabilité. Or, si l’IA admet son ignorance trop souvent, elle perd son attrait. À l’inverse, si elle continue à inventer, elle risque de miner la confiance, de provoquer des erreurs coûteuses et de susciter des poursuites judiciaires.

    Ce paradoxe illustre une tension plus large : les modèles de langage n’ont pas été conçus pour « dire vrai », mais pour « paraître plausibles ». La vérité devient ainsi un sous-produit contingent, et non une garantie structurelle.

    Les illusions de la transparence

    Plusieurs experts soulignent également que la solution d’OpenAI reste incomplète. Le problème des hallucinations est lié à la nature même de l’apprentissage statistique sur d’immenses corpus de textes hétérogènes. Introduire des garde-fous ne change pas le cœur du mécanisme. De plus, un seuil de confiance introduit une autre difficulté : comment mesurer objectivement la certitude d’un modèle qui ne « comprend » pas réellement ce qu’il dit ?

    Vers un futur où l’erreur est intégrée

    La reconnaissance par OpenAI de cette « fatalité » invite à repenser notre rapport à l’IA. Plutôt que d’espérer un jour une vérité parfaite, il faudra probablement intégrer l’erreur comme donnée structurelle, un peu comme on accepte qu’un moteur de recherche fournisse parfois des résultats non pertinents. La responsabilité se déplace alors vers l’utilisateur, qui doit apprendre à questionner, vérifier et contextualiser.

    Cela pourrait déboucher sur de nouveaux outils hybrides : IA générative combinée à des bases de données vérifiées, ou systèmes capables de sourcer systématiquement leurs affirmations. Mais tant que la logique probabiliste restera au cœur de l’IA générative, les hallucinations seront là pour durer.

    Une crise de confiance en gestation ?

    En reconnaissant que les mensonges de ses modèles sont inévitables, OpenAI ouvre un débat crucial. Peut-on bâtir un écosystème technologique et économique sur des outils dont la fiabilité restera structurellement imparfaite ? Les entreprises doivent-elles repenser leurs usages pour tenir compte de cette limite ? Et surtout : le grand public continuera-t-il à faire confiance à une IA dont les réponses peuvent être fausses, même quand elles paraissent convaincantes ?

    Conclusion

    La publication de ce papier scientifique marque un tournant : elle acte officiellement la limite fondamentale de la génération de texte par IA. L’avenir de ChatGPT et de ses concurrents ne se jouera pas sur l’élimination totale des hallucinations, mais sur la manière dont nous apprendrons à les gérer. Comme dans toute révolution technologique, la question n’est pas seulement « que peut faire la machine ? », mais « comment l’humain choisit de l’utiliser malgré ses failles ».

    Source : OpenAI (1, 2)

    Et vous ?

    Peut-on réellement bâtir des usages critiques (santé, justice, finance) sur des modèles condamnés à inventer des faits ?

    Faut-il accepter que l’IA générative devienne une machine à « vraisemblance » plutôt qu’une machine à vérité ?

    Le public est-il prêt à utiliser un outil qui reconnaîtrait son ignorance plus souvent qu’il ne répond ?

    Comment distinguer une erreur « tolérable » (comme une coquille) d’une erreur « dangereuse » (dans un diagnostic médical ou juridique) ?

    La responsabilité doit-elle incomber aux développeurs d’IA ou aux utilisateurs qui ne vérifient pas les informations ?

    L’éducation à l’IA critique doit-elle devenir une compétence de base au même titre que la maîtrise d’internet ?

    Voir aussi :

    Détecter les hallucinations dans les grands modèles de langage à l'aide de l'entropie sémantique, les LLM tels que ChatGPT peuvent raisonner et répondre aux questions, mais "hallucinent" souvent

    Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude

    L'industrie de l'IA a un énorme problème : plus l'IA devient « intelligente », plus elle hallucine, ce phénomène réduit considérablement la valeur de la technologie de l'IA générative
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  15. #15
    Membre très actif
    Homme Profil pro
    retraité
    Inscrit en
    Septembre 2014
    Messages
    646
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : Septembre 2014
    Messages : 646
    Par défaut
    L'IA est notre ennemie.

  16. #16
    Candidat au Club
    Profil pro
    Inscrit en
    Janvier 2012
    Messages
    5
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2012
    Messages : 5
    Par défaut
    Cela fait maintenant quelque temps que l'on est familiarisé avec le concept d'hallucinations, et en gros ce qu'il recouvre, et pourquoi -dans l'état actuel des choses- on ne peut pas l'éviter, rien de très nouveau.

    Par contre ce qui est intéressant c'est la mise en perspective et la prise de recul sur les tenants et les aboutissants des palliatifs plus ou moins performants que l'on pourrait imaginer : le fait que l'IA générative fait maintenant partie de solutions que les sociétés facturent au client, avec clairement à la clef une fiabilité des résultats proposés d'un côté, les utilisateurs de l'autre qui se sont habitués à avoir des réponses systématiques, quand bien même celles-ci seraient fausses ou incomplètes.

    Bref, on ne peut pas s'empêcher de penser que l'on a mis la charrue avant les boeufs en proposant ces outils sans suffisamment insister auprès du grand public sur leur mode de fonctionnement et donc la fragilité de leurs résultats, et surtout de ne pas avoir su leur faire dire 'je ne sais pas' dès le départ.

    Maintenant la machine est lancée, et le tout -outils, sociétés, utilisateurs- sont pris dans un processus circulaire qui ne va qu'en empirant (l'IA apprend en se basant fatalement sur de plus en plus de sources incertaines/fausses qu'elle a elle même générée) et on peut se demander comment on va bien pouvoir s'en sortir..

  17. #17
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 362
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 362
    Billets dans le blog
    3
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Sur le papier, la solution paraît séduisante. Mais plusieurs chercheurs pointent un effet pervers : si ce mécanisme était appliqué strictement, ChatGPT deviendrait parfois muet. Les zones de doute sont si nombreuses que l’outil refuserait de répondre dans une grande partie des cas, tuant dans l’œuf l’expérience utilisateur qui a fait son succès.
    Elle est bien bonne : il serait donc préférable de laisser les gens croire en quelque chose de faux plutôt que de leur dire qu'on ne sait pas ? Il serait normal de favoriser une impression d'omniscience plutôt qu'un discours mesuré ? Ce n'est pas un discours de "chercheur". C'est un discours de lobbyiste.

    Citation Envoyé par Stéphane le calme Voir le message
    Imaginez les conséquences si ChatGPT commençait à répondre « Je ne sais pas » à 30 % des requêtes, une estimation prudente basée sur l'analyse de l'incertitude factuelle dans les données d'entraînement présentée dans l'article. Les utilisateurs habitués à recevoir des réponses fiables à pratiquement toutes leurs questions abandonneraient rapidement ces systèmes.
    Sur quelle base ? C'est quoi ce raisonnement binaire ? Mettez une note d'info en haut du chat pour prévenir l'utilisateur d'un changement dans son intérêt et le tour est joué. Par exemple en disant qu'auparavant il répondait n'importe quoi à certaines questions, trahissant la confiance de l'utilisateur, et que désormais il dira explicitement qu'il ne sait pas, permettant à l'utilisateur de savoir qund il est nécessaire de creuser davantage plutôt que de se prendre un mensonge convaincant.

    Citation Envoyé par Stéphane le calme Voir le message
    Un problème scientifique… mais aussi économique

    Ce dilemme n’est pas seulement théorique. Les hallucinations posent un défi économique et stratégique majeur. Les entreprises qui intègrent des chatbots dans leurs services clients, leurs outils de documentation ou leurs systèmes de décision exigent de la fiabilité. Or, si l’IA admet son ignorance trop souvent, elle perd son attrait. À l’inverse, si elle continue à inventer, elle risque de miner la confiance, de provoquer des erreurs coûteuses et de susciter des poursuites judiciaires.
    Correction : c'est déjà le cas.

    Citation Envoyé par Stéphane le calme Voir le message
    Plusieurs experts soulignent également que la solution d’OpenAI reste incomplète. Le problème des hallucinations est lié à la nature même de l’apprentissage statistique sur d’immenses corpus de textes hétérogènes. Introduire des garde-fous ne change pas le cœur du mécanisme. De plus, un seuil de confiance introduit une autre difficulté : comment mesurer objectivement la certitude d’un modèle qui ne « comprend » pas réellement ce qu’il dit ?
    REconnaître une limite intrinsèque de la techno est déjà un gros pas en avant : ça réduit son application sur des cas d'usages inadaptés. Quand à la confiance, celle-ci ne nécessite nullement une compréhension. Regardez par exemple du côté de l'inférence bayésienne. Il s'agit de stats, comme l'apprentissage des LLM.

    Citation Envoyé par Stéphane le calme Voir le message
    Cela pourrait déboucher sur de nouveaux outils hybrides : IA générative combinée à des bases de données vérifiées, ou systèmes capables de sourcer systématiquement leurs affirmations. Mais tant que la logique probabiliste restera au cœur de l’IA générative, les hallucinations seront là pour durer.
    On a déjà des sytèmes hybrides via les outils qu'on vient brancher sur le LLM, y compris ce qu'on appelle aujourd'hui les agents IA. Le soucis est que le LLM reste le coeur du système : la donnée, même vérifiée, repasse par le LLM pour générer la réponse. LLM qui peut ignorer la donnée et générer tout à fait autre chose, notamment si la donnée s'éloigne trop de ce que le LLM a appris.

    Citation Envoyé par Stéphane le calme Voir le message
    En reconnaissant que les mensonges de ses modèles sont inévitables, OpenAI ouvre un débat crucial. Peut-on bâtir un écosystème technologique et économique sur des outils dont la fiabilité restera structurellement imparfaite ? Les entreprises doivent-elles repenser leurs usages pour tenir compte de cette limite ? Et surtout : le grand public continuera-t-il à faire confiance à une IA dont les réponses peuvent être fausses, même quand elles paraissent convaincantes ?
    Il ne faut pas lui faire confience, à tout le moins tant qu'il ne pourra pas dire "je ne sais pas". Si suite à ça le taux d'erreur, bien que jamais nul, descend assez pour atteindre un niveau équivalent à un humain compétent, qui n'est jamais parfait non plus, alors on pourra au moins lui accordé du crédit.

    Et il reste tous les autres usages qui ne nécessitent pas une telle confiance, comme l'écriture d'histoires ou le role play.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

  18. #18
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut La confiance...


    La confiance... cela se mérite, ça ne s'impose pas

Discussions similaires

  1. Comment Meta entraîne les grands modèles de langage à l'échelle
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 13/06/2024, 18h10
  2. Réponses: 0
    Dernier message: 09/04/2024, 08h55
  3. Les grands modèles de langage sont des raisonneurs neuro-symboliques
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 13/03/2024, 18h00
  4. Réponses: 0
    Dernier message: 06/11/2023, 10h10
  5. Réponses: 1
    Dernier message: 11/10/2023, 16h17

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo