IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Anthropic dote ses agents IA de la capacité de « rêver » et de se souvenir des interactions passées


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 944
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 944
    Par défaut Anthropic dote ses agents IA de la capacité de « rêver » et de se souvenir des interactions passées
    Anthropic dote ses agents IA de la capacité de « rêver » et de se souvenir des interactions passées ainsi que des tâches qu’ils ont accomplies, afin qu’ils puissent identifier les erreurs récurrentes

    Anthropic a annoncé qu’elle dotait ses agents IA de la capacité « Dreaming » (rêver) et de se souvenir des interactions passées et des tâches qu’ils ont accomplies, afin qu’ils puissent identifier les erreurs récurrentes et s’améliorer au fil du temps. Il ne s’agit pas de mettre ses agents d’IA au lit, mais plutôt de leur permettre de passer en revue les événements récents et d’identifier les souvenirs utiles qui méritent d’être conservés dans leur mémoire pour éclairer leurs tâches et interactions futures. Il s’agit d’une fonctionnalité intéressante car les grands modèles de langage comme Claude sont confrontés à des fenêtres contextuelles limitées, ce qui signifie que des informations importantes peuvent être perdues lorsque les agents qu’ils alimentent travaillent sur des tâches de longue durée. Selon Anthropic, « elle restructure également la mémoire afin qu’elle conserve une forte pertinence à mesure qu’elle évolue. Cela s’avère particulièrement utile pour les tâches de longue durée et l’orchestration multi-agents. »

    Anthropic PBC est une entreprise américaine spécialisée dans l'IA dont le siège social est situé à San Francisco. Elle a développé une gamme de grands modèles de langage (LLM) baptisée Claude et se concentre sur la sécurité de l'IA. Anthropic a été fondée en 2021 par d'anciens membres d'OpenAI, dont les frère et sœur Daniela Amodei et Dario Amodei, respectivement présidente et PDG d'Anthropic.

    Depuis mai 2024, il est possible de créer des agents d'IA avec Claude d'Anthropic. Cette fonctionnalité, connue sous le nom de « Tool use » (ou le terme plus technique « appel de fonction »), s'intègre de manière transparente avec n'importe quelle API externe de votre choix. Cet outil, par exemple, a la capacité d'examiner les données afin de générer des suggestions de produits sur mesure en fonction des habitudes d'achat d'un client ou de fournir des réponses rapides aux questions des clients, comme le suivi de l'état d'une commande ou la fourniture d'une assistance technique instantanée. Pour mettre en place un tel assistant, il suffit d'avoir accès à une API et de disposer d'une personne maîtrisant le codage.

    Depuis, les capacités des agents IA ont augmenté. Récemment, Anthropic a annoncé qu’elle dotait ses agents IA de la capacité « Dreaming » (rêver) et de se souvenir des interactions passées et des tâches qu’ils ont accomplies, afin qu’ils puissent identifier les erreurs récurrentes et s’améliorer au fil du temps. Dans une mise à jour annoncée lors de la conférence des développeurs « Code with Claude », Anthropic a déclaré qu’elle dotait les agents gérés Claude d’une nouvelle capacité de « rêve ». Il ne s’agit pas de mettre ses agents d’IA au lit, mais plutôt de leur permettre de passer en revue les événements récents et d’identifier les souvenirs utiles qui méritent d’être conservés dans leur mémoire pour éclairer leurs tâches et interactions futures.

    Les agents gérés d’Anthropic offrent aux développeurs une alternative à la création d’agents IA directement sur l’API Messages. L'entreprise décrit ce service comme un « ensemble d'agents pré-construits et configurables » fonctionnant sur une infrastructure entièrement gérée, et précise qu'il est destiné aux situations où plusieurs agents travaillent sur le même projet ou la même tâche pendant quelques minutes ou quelques heures.

    Nom : 1.jpg
Affichages : 3052
Taille : 45,2 Ko

    Quant au « Dreaming », il s'agit d'un processus planifié qui permet aux agents de passer en revue les sessions précédentes et leurs bases de données, d'en extraire des schémas, puis de sélectionner les souvenirs susceptibles d'être utiles à l'avenir. Les utilisateurs peuvent décider de la fréquence à laquelle ils souhaitent que leurs agents rêvent, et ils peuvent également choisir si l’agent est autorisé à mettre à jour sa mémoire automatiquement, ou s’ils souhaitent examiner les modifications apportées avant leur mise en œuvre.

    Il s’agit d’une fonctionnalité intéressante car les grands modèles de langage comme Claude sont confrontés à des fenêtres contextuelles limitées, ce qui signifie que des informations importantes peuvent être perdues lorsque les agents qu’ils alimentent travaillent sur des tâches de longue durée. Dans les chatbots basiques, la plupart des modèles utilisent un processus appelé « compactage », dans lequel ils analysent périodiquement les longues conversations et tentent d’identifier uniquement les informations les plus pertinentes à conserver comme contexte. Mais ce processus se limite à des conversations individuelles avec un seul agent. Le « rêve », en revanche, permet d’analyser les sessions passées et les banques de mémoire sur plusieurs agents IA, afin qu’ils puissent tous conserver les souvenirs les plus importants.

    « La capacité Dreaming met en évidence des schémas qu’un agent seul ne peut pas percevoir, notamment les erreurs récurrentes, les flux de travail vers lesquels les agents convergent et les préférences partagées au sein d’une équipe », explique Anthropic. « Elle restructure également la mémoire afin qu’elle conserve une forte pertinence à mesure qu’elle évolue. Cela s’avère particulièrement utile pour les tâches de longue durée et l’orchestration multi-agents. »

    Cette capacité semble utile dans le contexte actuel où les agents IA sont de plus en plus populaire, mais commettent encore de graves erreurs. Fin avril, un fondateur de startup californienne a notamment publié le récit détaillé d'une catastrophe systémique : son agent IA, propulsé par Claude Opus d'Anthropic et piloté via Cursor, a supprimé en une seule requête API la base de données de production de son entreprise, ainsi que l'ensemble des sauvegardes. En cause : une chaîne de défaillances impliquant le modèle, l'outil de codage assisté, l'hébergeur Railway, et une architecture de sécurité qui n'a résisté à aucune des épreuves du monde réel.

    Nom : 2.jpg
Affichages : 291
Taille : 55,9 Ko

    Voici un extrait de l'annonce d'Anthropic :

    Nouveautés dans Claude Managed Agents : « dreaming », les résultats et l'orchestration multi-agents

    Nous lançons aujourd'hui la fonctionnalité « dreaming » dans Claude Managed Agents en avant-première pour la recherche. « Dreaming » étend la mémoire en analysant les sessions passées afin d'identifier des schémas et d'aider les agents à s'améliorer de manière autonome. Nous mettons également à la disposition des développeurs utilisant Managed Agents les résultats, l'orchestration multi-agents et les webhooks. Ensemble, ces mises à jour permettent aux agents de mieux gérer des tâches complexes avec un minimum d'intervention humaine.

    Créez des agents capables de s'améliorer grâce à la fonctionnalité « dreaming »

    La fonctionnalité « dreaming » est un processus planifié qui passe en revue les sessions et les banques de données de vos agents, en extrait des modèles et organise les données de manière à ce que vos agents s'améliorent au fil du temps. C'est vous qui décidez du niveau de contrôle souhaité : la fonctionnalité « dreaming » peut mettre à jour la mémoire automatiquement, ou vous pouvez examiner les modifications avant qu'elles ne soient appliquées.

    La fonctionnalité « dreaming » met en évidence des modèles qu'un agent seul ne peut pas détecter, notamment les erreurs récurrentes, les workflows vers lesquels les agents convergent et les préférences partagées au sein d'une équipe. Il restructure également la mémoire afin qu’elle reste pertinente à mesure qu’elle évolue. Cela est particulièrement utile pour les tâches de longue durée et l’orchestration multi-agents.

    Ensemble, la mémoire et le « dreaming » forment un système de mémoire robuste pour les agents auto-améliorants. La mémoire permet à chaque agent de capturer ce qu’il apprend au fur et à mesure de son travail. Le « dreaming » affine cette mémoire entre les sessions, en extrayant les apprentissages partagés entre les agents et en la maintenant à jour.

    La fonction « dreaming » est disponible dans Managed Agents sur la plateforme Claude.

    Obtenir de meilleurs résultats

    Avec les résultats, vous rédigez une grille d'évaluation décrivant ce à quoi ressemble la réussite, et l'agent travaille pour y parvenir. Un évaluateur distinct évalue le résultat par rapport à vos critères dans sa propre fenêtre de contexte, de sorte qu'il n'est pas influencé par le raisonnement de l'agent. Lorsque quelque chose ne va pas, l'évaluateur identifie ce qui doit être modifié et l'agent effectue une nouvelle tentative.

    Les agents travaillent mieux lorsqu'ils savent à quoi ressemble un « bon » résultat. Par exemple, un cadre structurel, une norme de présentation ou un ensemble d'exigences à respecter. Grâce aux résultats, les agents peuvent comparer leur travail à cette référence et s'autocorriger jusqu'à ce que le résultat soit satisfaisant, sans qu'un humain ait besoin d'examiner chaque tentative.

    Les résultats sont particulièrement utiles pour les tâches qui exigent une attention aux détails et une couverture exhaustive. Cela fonctionne également pour la qualité subjective, par exemple pour vérifier si un texte correspond à la voix de la marque ou si un design respecte les directives visuelles. Lors des tests, les résultats ont amélioré le taux de réussite des tâches de 10 points par rapport à une boucle de prompts standard, les gains les plus importants étant observés sur les problèmes les plus difficiles. Les résultats ont également amélioré la qualité de la génération de fichiers, avec une augmentation de 8,4 % du taux de réussite sur les fichiers docx et de 10,1 % sur les fichiers pptx lors de nos tests de performance internes.

    Vous pouvez désormais définir un résultat, laisser l'agent s'exécuter et être notifié par un webhook une fois la tâche terminée.

    Gérer des tâches complexes avec plusieurs agents

    Lorsqu'il y a trop de travail pour qu'un seul agent puisse bien s'en acquitter, l'orchestration multi-agents permet à un agent principal de diviser la tâche en plusieurs parties et de déléguer chacune d'elles à un spécialiste disposant de son propre modèle, de ses propres invites et de ses propres outils. Par exemple, un agent principal peut mener une enquête tandis que des sous-agents se répartissent entre l'historique des déploiements, les journaux d'erreurs, les métriques et les tickets d'assistance.

    Ces spécialistes travaillent en parallèle sur un système de fichiers partagé et contribuent au contexte global de l'agent principal. L'agent principal peut faire le point avec les autres agents en cours de workflow, car les événements sont persistants et chaque agent se souvient de ce qu'il a fait. Vous pouvez également retracer chaque étape dans la console Claude : quel agent a fait quoi, dans quel ordre et pourquoi, ce qui vous offre une visibilité totale sur la manière dont votre tâche a été déléguée et exécutée.

    Ce que les équipes développent

    Les équipes utilisent le « dreaming », les résultats attendus et l'orchestration multi-agents pour déployer des agents capables de vérifier leur propre travail, d'apprendre d'une session à l'autre et de paralléliser des tâches complexes :

    - Harvey utilise les Managed Agents pour coordonner des tâches juridiques complexes telles que la rédaction de longs documents et la création de fichiers. Grâce au « dreaming », leurs agents retiennent ce qu'ils ont appris entre les sessions, y compris les solutions de contournement liées aux types de fichiers et les modèles spécifiques aux outils. Les taux d'achèvement ont été multipliés par environ 6 lors de leurs tests.

    - L'équipe de la plateforme Netflix a développé un agent d'analyse qui traite les journaux provenant de centaines de builds issus de différentes sources. Avec des changements affectant des milliers d'applications, l'essentiel est d'identifier les problèmes récurrents dans un grand nombre d'entre elles. L'orchestration multi-agents permet à l'agent d'analyser des lots en parallèle et de ne faire ressortir que les modèles méritant une action.

    - Spiral by Every utilise l'orchestration multi-agents et les résultats pour alimenter l'agent de rédaction derrière sa nouvelle API et sa CLI. L'agent principal s'exécute sur Haiku : il traite les requêtes entrantes, pose des questions de suivi rapides si nécessaire, puis délègue la rédaction à des sous-agents s'exécutant sur Opus. Lorsqu'un utilisateur demande plusieurs brouillons, les sous-agents s'exécutent en parallèle. La qualité de la rédaction est la valeur fondamentale de Spiral, c'est pourquoi l'entreprise utilise les résultats pour la garantir. Chaque brouillon est noté selon une grille d'évaluation basée sur les principes éditoriaux d'Every et la voix de l'utilisateur, tous deux extraits de la mémoire. Seuls les brouillons qui atteignent le seuil requis sont renvoyés.

    - Wisedocs a développé un agent de contrôle de la qualité des documents sur Managed Agents, en utilisant les résultats pour noter chaque révision par rapport à ses directives internes. Les révisions s'effectuent désormais 50 % plus rapidement, tout en restant conformes aux normes de l'équipe.

    Pour commencer

    Dreaming est disponible en préversion de recherche, tandis que les résultats, l'orchestration multi-agents et la mémoire sont disponibles en bêta publique dans le cadre de Managed Agents. Pour commencer à utiliser Dreaming, demandez l'accès. Consultez notre documentation pour en savoir plus ou rendez-vous sur la console Claude pour déployer votre premier agent.

    Source : Annonce d'Anthropic

    Et vous ?

    Pensez-vous que cette fonctionnalité est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Anthropic dote les assistants IA Claude Code et Cowork de capacités leur permettant d'effectuer des tâches de manière autonome sur votre PC, mais cette initiative pose plusieurs risques en matière de sécurité

    Quand l'IA devient à la fois problème et solution : Google admet les risques créés par l'agent IA introduit dans Chrome, estimant qu'un second modèle IA est nécessaire pour surveiller le premier

    OpenAI Codex vous permet désormais de créer des sous-agents spécialisés fonctionnant en parallèle, avec des agents TOML personnalisés, un traitement par lots CSV et une sélection de modèles par agent
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 467
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 467
    Billets dans le blog
    3
    Par défaut
    Pour pallier à ce problème, la pratique actuelle est d'enregistrer les infos à préserver en fichier, de façon à pouvoir y refaire appel. Genre le AGENTS.md/CLAUDE.md ou tout autre fichier (les premiers étant inclus d'office dans le contexte selon l'outil utilisé, les autres étant lus à la demande où tant que de besoin). Ce qui est proposé ici me semble être juste un poil plus poussé, car ce n'est pas suite à l'analyse de l'échange courant qu'on met à jour le fichier, mais suite à l'analyse de plusieurs sessions différentes pour identifier des patterns. Je ne pense pas que ce soit nécessaire, au sens où les infos peuvent être ajoutées à la première session et raffinées aux sessions suivantes, en théorie on peut donc avoir la même chose, mais il faut voir si en pratique c'est plus fiable/efficace. À suivre, donc.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo