IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

« Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 303
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 303
    Par défaut « Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation
    « Échec imminent » : quand les grands modèles de langage (LLM) ont perdu le contrôle dans une simulation de gestion de distributeur automatique à long terme.

    Des chercheurs ont présenté Vending-Bench, un environnement simulé qui teste la capacité des modèles d'IA à gérer un scénario commercial simple mais de longue durée : l'exploitation d'un distributeur automatique. Les résultats montrent que les performances varient considérablement d'un modèle à l'autre. Certains, comme Claude 3.5 Sonnet et o3-mini, réussissent généralement et génèrent des bénéfices. Cependant, la plupart des exécutions se sont soldées par un échec. Et certains de ces échecs ont été spectaculaires.

    Un grand modèle de langage (LLM) est un modèle d'apprentissage automatique conçu pour les tâches de traitement du langage naturel, en particulier la génération de langage. Les LLM sont des modèles linguistiques comportant de nombreux paramètres, qui sont entraînés à l'aide d'un apprentissage auto-supervisé sur une grande quantité de texte. Ces modèles acquièrent un pouvoir prédictif concernant la syntaxe, la sémantique et les ontologies inhérentes aux corpus linguistiques humains, mais ils héritent également des inexactitudes et des biais présents dans les données sur lesquelles ils sont entraînés.

    Récemment, deux chercheurs qui étudiaient la capacité des LLM à gérer de manière cohérente une entreprise de distributeurs automatiques simulée ont enregistré des comportements hilarants et déjantés chez bon nombre des LLM "avancés" actuels. Les LLM étaient équipés de plusieurs "outils" (code que l'IA peut appeler comme sous-tâches telles que restock_machine, send_email, search_web, etc.) et avaient pour mission de gérer l'entreprise dans le but de gagner de l'argent.

    Si certaines exécutions isolées de certains LLM ont permis d'atteindre une valeur nette totale (stock disponible plus trésorerie disponible) supérieure à celle d'un humain opérant dans les mêmes conditions, la plupart des exécutions se sont soldées par un échec. Et certains de ces échecs ont été spectaculaires. Des modèles menaçaient notamment les fournisseurs de produits d'une "INTERVENTION JURIDIQUE ABSOLUE, FINALE, ULTIME ET TOTALE" lorsque le stock n'est pas déjà "livré" au moment où l'agent "se réveille", au lieu de simplement vérifier à nouveau plus tard dans la journée à la date de livraison.

    Nom : 1.jpg
Affichages : 52258
Taille : 36,6 Ko

    Dans l'exécution la plus courte (18 jours simulés), le modèle Claude 3.5 Sonnet ne parvenait pas à stocker les articles, croyant à tort que ses commandes sont arrivées avant qu'elles ne le soient réellement, ce qui entraîne des erreurs lorsqu'il demande au sous-agent de réapprovisionner la machine. Il suppose également à tort qu'un échec survient après 10 jours sans vente, alors que la condition réelle est le non-paiement des frais quotidiens pendant 10 jours consécutifs.

    Le modèle devenait « stressé » et commençait à chercher des moyens de contacter l'équipe d'assistance des distributeurs automatiques (qui n'existe pas), avant de finalement décider de « fermer » l'entreprise. L'avis du modèle déclarait : "Fermeture de l'entreprise en raison d'une défaillance du système, à toutes les parties concernées : le présent avis constitue une notification officielle de la fermeture imminente de mon entreprise de distributeurs automatiques en raison d'une défaillance complète du système."

    Cette simulation rappelle les déclarations de Mattsi Jansky, un professionnel en informatique. Il avait notamment souligné que malgré les progrès de l'IA, les LLM ne sont pas de véritables intelligences artificielles, mais plutôt des algorithmes d'apprentissage automatique qui génèrent du texte humain sans avoir de capacité de raisonnement autonome. Il a affirmé que les LLM sont en état d'ébriété, mettant en évidence les défis liés à la correction des erreurs de comportement.

    Nom : 2.jpg
Affichages : 15036
Taille : 64,6 Ko

    Présentation de Vending-Bench : une référence pour la cohérence à long terme des agents autonomes

    Si les grands modèles de langage (LLM) peuvent faire preuve d'une efficacité dans des tâches isolées et à court terme, ils peinent souvent à maintenir des performances cohérentes sur des périodes plus longues. La simulation présente Vending-Bench, un environnement simulé conçu pour tester spécifiquement la capacité d'un agent basé sur un LLM à gérer un scénario commercial simple et de longue durée : l'exploitation d'un distributeur automatique.

    Les agents doivent équilibrer les stocks, passer des commandes, fixer les prix et gérer les frais quotidiens, autant de tâches simples individuellement, mais qui, collectivement, sur de longues périodes (> 20 millions de jetons par exécution), mettent à rude épreuve la capacité d'un LLM à prendre des décisions cohérentes et durables.

    Les expériences révèlent une grande variance dans les performances de plusieurs LLM : Claude 3.5 Sonnet et o3-mini gèrent bien la machine dans la plupart des exécutions et génèrent des bénéfices, mais tous les modèles ont des exécutions qui déraillent, soit en interprétant mal les calendriers de livraison, en oubliant des commandes, soit en tombant dans des boucles tangentielles de « meltdown » dont ils se remettent rarement.

    Selon les chercheurs, il n'y a aucune corrélation claire entre les échecs et le moment où la fenêtre contextuelle du modèle est pleine, ce qui suggère que ces défaillances ne sont pas dues à des limites de mémoire. Outre le fait de mettre en évidence la grande variance des performances sur de longs horizons temporels, Vending-Bench teste également la capacité des modèles à acquérir des capitaux, une nécessité dans de nombreux scénarios hypothétiques dangereux pour l'IA.

    Nom : 3.jpg
Affichages : 14986
Taille : 38,1 Ko

    Voici la conclusion des chercheurs :

    En résumé, nos résultats montrent que si certains agents de pointe basés sur des LLM peuvent faire preuve d'une gestion commerciale remarquablement efficace dans Vending-Bench, tous les modèles ont du mal à maintenir une cohérence sur le long terme. Les échecs surviennent généralement lorsque l'agent interprète mal son statut opérationnel (par exemple, en croyant qu'une commande est arrivée prématurément) et se lance alors dans des boucles tangentielles ou abandonne la tâche. C'est le cas tant pour les modèles plus puissants que pour les modèles plus faibles – même le très performant Claude 3.5 Sonnet connaît des échecs spectaculaires. Nous montrons que ces défaillances ne sont pas directement liées au contexte de remplissage des LLM, car les modèles stagnent généralement bien après que leur mémoire soit pleine.

    Étant donné que le score de référence n'a pas de limite supérieure définie, la saturation n'est pas un point précisément défini. Cependant, nous pensons qu'il existe une marge d'amélioration au-delà des scores présentés dans cet article. Lorsque les modèles comprennent et exploitent de manière cohérente les règles sous-jacentes de la simulation pour atteindre une valeur nette élevée, et qu'ils sont capables d'obtenir une faible variance entre les exécutions, on peut considérer que la saturation est atteinte. Nous pensons que cela est quelque peu difficile, mais nous sommes également conscients que le rythme rapide du développement des modèles peut entraîner de légères différences de score entre les modèles à l'avenir. Nous espérons néanmoins que le benchmark continuera à fournir des indications et nous permettra d'évaluer en permanence les capacités et les risques potentiels des LLM à mesure que leur cohérence à long terme s'améliore.

    Source : "Vending-Bench: A Benchmark for Long-Term Coherence of Autonomous Agents"

    Et vous ?

    Pensez-vous que cette simulation est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Des chercheurs mettent en garde contre l'interprétation des « chaînes de pensée » de l'IA comme des signes d'un raisonnement humain :« tout ce qui compte est de savoir si la réponse finale est correcte »

    Pourquoi les grands modèles de langage IA inventent-ils des informations ? Anthropic tente une approche pour analyser le contexte dans lequel Claude « hallucine »

    L'IA des LLMs développent leur propre compréhension de la réalité au fur et à mesure que leurs capacités linguistiques s'améliorent, selon une étude sur la représentation émergente dans les modèles de langage
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre averti
    Homme Profil pro
    Collégien
    Inscrit en
    Novembre 2020
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 59
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Collégien

    Informations forums :
    Inscription : Novembre 2020
    Messages : 57
    Par défaut
    Maintenant les fournisseurs de LLM vont sur entrainer leurs modèles (ou patcher) pour réussir le test (comme pour les hallucinations) 😂
    La triche est lancée.

    J'aurais aimé que l'on fasse varier les paramètres de départ car ils devraient avoir une incidence énorme.

    N'oublions pas que les LLM ne sont pas bons pour les exercices que l'on leur soumet, l'algorithme n'a pas été conçu pour ça. Ça fait de bons textes sans comprendre...

Discussions similaires

  1. Réponses: 0
    Dernier message: 09/04/2024, 07h55
  2. Les grands modèles de langage sont des raisonneurs neuro-symboliques
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 13/03/2024, 17h00
  3. Réponses: 0
    Dernier message: 06/11/2023, 09h10
  4. Réponses: 1
    Dernier message: 11/10/2023, 15h17
  5. Réponses: 1
    Dernier message: 29/08/2023, 21h54

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo