Google admet ne pas savoir pourquoi son IA apprend des choses inattendues : « nous ne comprenons pas non plus parfaitement le fonctionnement de l'esprit humain »
L'IA de Google fournit parfois des informations douteuses ou erronées avec des conséquences potentiellement graves. Gemini a déjà conseillé à un utilisateur de mettre de la colle sur sa pizza pour faire adhérer le fromage à la pâte et à un autre de manger trois cailloux par jour. Dans ces cas, il s'est avéré que l'IA de Google traite le site Web satirique « The Onion » comme une véritable source. Aujourd'hui, Google affirme qu'il ne sait pas pourquoi son IA apprend des choses inattendues ou se comporte d'une manière ou d'une autre. Le PDG Sundar Pichai a ajouté que l'IA de Google a accompli des tâches pour lesquelles elle n'a pas été programmée.
L'IA générative s'appuie sur les grands modèles de langage (LLM) pour répondre aux questions des utilisateurs et accomplir les tâches. Quant aux grands modèles de langage, ils sont entraînés sur d'immenses volumes de données glanées sur Internet. Ces données comprennent des livres, des articles de presse, des pages Web, des dépôts de code source et des conversations en ligne. Leur entraînement utilise des techniques d'apprentissage non supervisé.
Pourtant, les grands modèles de langage restent d'énormes boîtes noires. Leur fonctionnement interne demeure largement incompris, même par leurs concepteurs. Dans le cadre de leur entraînement, les modèles d'IA apprennent à prédire le mot suivant dans une séquence en analysant d'immenses volumes de texte. Cependant, une fois ces modèles entraînés, il est extrêmement difficile de déterminer comment ils parviennent à une réponse spécifique.
Leurs décisions résultent de calculs internes opaques : on observe les entrées et les sorties, mais le processus intermédiaire reste obscur. Chez Google, par exemple, les dirigeants ont reconnu et expliqué qu'il est normal de ne pas comprendre tous les processus par lesquels un modèle arrive à un résultat.
Une explication pour laquelle ils ont utilisé un exemple, puisque l'IA de l'entreprise s'est adapté après avoir été interrogé dans la langue du Bangladesh « qu'il n'était pas entraîné à connaître ». Un journaliste de CBS a interviewé le PDG de Google Sundar Pichai, sur ce sujet. « Vous ne comprenez pas complètement comment cela fonctionne, et pourtant vous l'avez mis à la disposition de la société ? », a demandé le journaliste avec un air très inquiet.
Sundar Pichai a déclaré: « ce n'est pas grave, je ne pense pas non plus que nous comprenions parfaitement le fonctionnement de l'esprit humain ». Même son de cloche chez OpenAI et d'autres entreprises de premier plan qui développent l'IA générative. Anthropic, une startup dans laquelle Google investit, a, quant à lui, mené une étude pour essayer de comprendre pourquoi les grands modèles de langage apprennent des choses inattendues.
Les découvertes d'Anthropic sur le fonctionnement de son IA Claude
Selon les chercheurs d'Anthropic, connaître « le mode de pensée » des modèles comme Claude nous permettrait de mieux comprendre leurs capacités et nous aiderait à nous assurer qu'ils font ce que nous voulons qu'ils fassent. Anthropic a analysé dix comportements différents dans Claude et a obtenu des résultats intéressants. L'un d'entre eux est l'utilisation de différentes langues : « Claude a-t-il une partie qui parle français et une autre qui parle chinois ? ».
Ils ont déjà obtenu une réponse à la question, car ils ont constaté que Claude utilise des composants indépendants de toute langue pour répondre à une question ou résoudre un problème, puis choisissait une langue spécifique lorsqu'il répondait. Ils ont demandé à Claude « quel est le contraire de petit ? » en anglais, en français et en chinois. Ils ont constaté que Claude utilise d'abord les composants indépendamment de la langue pour donner une réponse.
Il s'agit d'une déduction qu'il a faite avant de répondre dans une langue particulière. Cela suggère que l'IA utilise des éléments dans une langue, puis les apprend et les applique dans d'autres. Cette méthode a également été utilisée pour résoudre des problèmes mathématiques simples et il a été constaté que Claude développe ses propres stratégies et qu'elle est donc différente de celles que le modèle avait observées dans ses données d'apprentissage.
L'étude cherche à révéler le fonctionnement interne des IA : « ces résultats ne sont pas seulement intéressants d'un point de vue scientifique, mais représentent également un pas important vers notre objectif de comprendre les systèmes d'IA et de s'assurer qu'ils sont fiables », explique l'entreprise.
Autres découvertes surprenantes de l'équipe d'Anthropic sur Claude
Le rapport de l'étude a été publié le mois dernier. Les chercheurs y ont relaté les différentes observations qu'ils ont faites. Dans un cas où ils ont utilisé Claude pour écrire des poèmes, ils ont constaté que l'IA elle-même se projette toujours dans l'avenir et choisit le mot à la fin de la ligne suivante, sans se contenter d'improviser : « nous avons cherché à démontrer que le modèle n'était pas prévoyant, et nous avons découvert qu'il l'était », ont-ils conclu.
L'équipe a donné un autre exemple : « dans une réponse à un exemple de jailbreak, nous avons constaté que le modèle a reconnu qu'on lui avait demandé des informations dangereuses bien avant qu'il ne soit capable d'orienter la conversation ». Les chercheurs d'Anthropic ont expliqué :
Parce que nous en savons si peu sur les modèles de langage, toute nouvelle information constitue un grand pas en avant. « Une compréhension approfondie du fonctionnement de ces modèles sous le capot nous permettrait de concevoir et d'entraîner des modèles bien meilleurs et plus robustes », selon Eden Biran, qui étudie les grands modèles de langage à l'université de Tel-Aviv. Anthropic s'est appuyé sur une méthode appelée « traçage des circuits ».Envoyé par Anthropic
Anthropic définit le traçage des circuits (Circuit tracing) comme une technique permettant de découvrir les mécanismes qui sous-tendent les comportements des grands modèles de langage. « Trouver des circuits dans un grand modèle de pointe tel que Claude est une prouesse technique non triviale. Cela montre que les circuits peuvent être mis à l'échelle et qu'ils pourraient constituer un bon moyen d'interpréter les modèles de langage », a déclaré Eden Biran.
Il existe encore de nombreuses zones d'ombre à éclaircir
L'équipe d'Anthropic s'est dite surprise par « certains contournements contre-intuitifs » que les grands modèles de langage semblent utiliser pour compléter des phrases, résoudre des problèmes mathématiques simples, supprimer des hallucinations, et bien d'autres choses encore. Cependant, Joshua Batson, chercheur d'Anthropic, affirme qu'il y a encore de sérieuses limites. Selon lui, l'étude du fonctionnement interne des modèles n'en est qu'à ses débuts.
« Il est faux de croire que nous avons trouvé toutes les composantes du modèle ou que nous avons une vue d'ensemble. Certaines choses sont nettes, mais d'autres ne le sont pas encore ; une distorsion du microscope », dit-il. Et il faut plusieurs heures à un chercheur humain pour retracer les réponses à des questions, même très courtes. De plus, les grands peuvent faire plusieurs choses différentes, et Anthropic n'en a étudié que 10 jusqu'à présent.
Joshua Batson précise également que cette approche ne permet pas de répondre à certaines grandes questions. Le traçage des circuits peut être utilisé pour observer les structures à l'intérieur d'un grand modèle de langage, mais il ne vous dira pas comment ou pourquoi ces structures se sont formées au cours de l'apprentissage du modèle. « C'est une question profonde que nous n'abordons pas du tout dans ce travail », a déclaré le chercheur.
Toutefois Joshua Batson considère qu'il s'agit du début d'une nouvelle ère dans laquelle il est enfin possible de trouver des preuves réelles du fonctionnement de ces modèles. « Nous ne sommes plus obligés de nous demander : est-ce qu'ils pensent ? Raisonnent-ils ? Est-ce qu'ils mémorisent ? Ce ne sont que des analogies. Mais si nous pouvons littéralement voir étape par étape ce que fait un modèle, peut-être n'aurons-nous plus besoin d'analogies ».
Conclusion
Les grands modèles de langage, avec leurs vastes bases de connaissances et leur capacité à générer des textes cohérents et pertinents sur le plan contextuel, ont eu un impact considérable sur la recherche, l'industrie et la société. Cependant, l'un des défis majeurs auxquels ils sont confrontés est le problème de « l'hallucination », où les grands modèles de langage génèrent des informations plausibles, mais factuellement incorrectes ou absurdes.
Les efforts de Google en matière d'IA ont rencontré d'innombrables problèmes. Par exemple, le déploiement de la fonctionnalité « AI Overviews » de Google Search a été un véritable fiasco. L'IA de Google a notamment conseillé aux internautes de mettre de la colle non toxique sur leurs pizzas et de manger trois cailloux par jour. Dans un autre scénario, l'IA de Google s'est trompée de nouveau et a recommandé des champions vénéneux à un utilisateur.
Ce problème a suscité des préoccupations croissantes en matière de fiabilité et de sécurité dans la mesure où les grands modèles de langage sont largement utilisés, ce qui a donné lieu à une littérature de plus en plus abondante pour tenter de le classer, de le comprendre et de l'atténuer.
Bien sûr, ces problèmes ne concernent pas uniquement l'IA de Google. Les grands modèles de langages des concurrents de Google sont également concernés. Une étude d'OpenAI a révélé que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion. Certains chercheurs pensent que le problème de l'hallucination des modèles pourrait s'avérer insoluble. Il s'agit de l'une des plus grandes limites de l'IA.
Source : Anthropic (1, 2)
Et vous ?
Quel est votre avis sur le sujet ?
Google affirme que le fonctionnement interne de son IA reste un mystère. Qu'en pensez-vous ?
Anthropic propose le traçage des circuits pour comprendre le fonctionnement interne des IA. Que pensez-vous de cette approche ?
Voir aussi
OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion, la concurrence ne se porte pas forcément mieux
Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche pour analyser le contexte dans lequel Claude « hallucine »
L'IA de Google pourrait bien vous tuer : elle confond le champignon toxique "Ange destructeur" avec une espèce comestible appelée "champignon de Paris", la pertinence de la fonctionnalité est remise en cause
Partager