IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

ChatGPT apprend à un chien robot à marcher sur un ballon suisse


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 647
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 647
    Points : 115 280
    Points
    115 280
    Par défaut ChatGPT apprend à un chien robot à marcher sur un ballon suisse
    ChatGPT apprend à un chien robot à marcher sur un ballon suisse : DrEureka, un logiciel open-source, permet de former les robots avec un système "simulation à la réalité" grâce à ChatGPT-4.

    Le Dr Jim Fan a déployé un robot quadrupède Unitree Go1. Avec l'aide de ChatGPT, le chien robot à appris à marcher sur un ballon suisse. Un chien robot qui se déplace en équilibre sur un ballon d'exercice est une expérience amusante à regarder, mais elle démontre que les IA comme GPT-4 peuvent entraîner des robots à effectuer des tâches complexes dans le monde réel de manière beaucoup plus efficace que les humains.

    ChatGPT est un chatbot développé par OpenAI et lancé le 30 novembre 2022. Basé sur de grands modèles de langage (LLM), il permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Les invites et les réponses successives de l'utilisateur sont prises en compte à chaque étape de la conversation en tant que contexte.

    DrEureka, un nouveau logiciel open-source, est utilisé pour former des robots à l'exécution de tâches réelles à l'aide de grands modèles de langage (LLM) tels que ChatGPT-4. Il s'agit d'un système "sim-to-reality", c'est-à-dire qu'il forme les robots dans un environnement virtuel à l'aide d'une physique simulée, avant de les mettre en œuvre dans l'espace réel.

    Le Dr Jim Fan, l'un des concepteurs de DrEureka, a déployé un robot quadrupède Unitree Go1. Il s'agit d'un robot open-source et soutenu - ce qui est pratique, car même avec l'IA, les robots-animaux sont toujours susceptibles d'être endommagés par les chutes. Le "Dr" de DrEureka signifie "Domain randomization", c'est-à-dire la randomisation de variables telles que la friction, la masse, l'amortissement, le centre de gravité, etc. dans un environnement simulé.

    Avec quelques invites dans un LLM comme ChatGPT, l'IA peut écrire un code qui crée un système de récompense/pénalité pour entraîner le robot dans l'espace virtuel, où 0 = échec, et tout ce qui est supérieur à 0 est une victoire. Plus le score est élevé, mieux c'est. Elle peut créer des paramètres en minimisant et en maximisant les points d'échec/de rupture dans des domaines tels que le rebond de la balle, la force motrice, le degré de liberté des membres et l'amortissement, pour n'en citer que quelques-uns. En tant que LLM, il n'a aucun problème à créer ces paramètres en grandes quantités, pour que le système d'entraînement puisse fonctionner simultanément. Après chaque simulation, GPT peut également évaluer les performances du robot virtuel et déterminer comment il peut s'améliorer. Le dépassement ou la violation de paramètres, par exemple la surchauffe d'un moteur ou la tentative d'articulation d'un membre au-delà de ses capacités, se traduira par un 0.


    L'incitation d'un LLM à écrire le code nécessite des instructions de sécurité. L'équipe a constaté que GPT s'efforcera d'obtenir les meilleures performances possibles et "trichera" dans la simulation sans être guidé. C'est très bien dans une simulation, mais dans la vie réelle, cela pourrait entraîner une surchauffe des moteurs ou une extension excessive des membres, ce qui endommagerait le robot. Les chercheurs appellent ce phénomène le "comportement dégénéré".

    Dans un exemple de comportement contre nature qu'il a appris par lui-même, le robot virtuel a découvert qu'il pouvait se déplacer plus rapidement en enfonçant sa hanche dans le sol et en utilisant ses trois pieds pour courir sur le sol tout en traînant sa hanche. Bien que cela ait été un avantage dans la simulation, cela s'est traduit par un faceplant improductif lorsque le robot a tenté de le faire dans le monde réel.

    Les chercheurs ont donc demandé à GPT d'être très prudent, en gardant à l'esprit que le robot serait testé dans le monde réel. En réponse, GPT a créé des fonctions de sécurité pour des éléments tels que l'action en douceur, l'orientation du torse, la hauteur du torse et l'assurance que les moteurs du robot n'étaient pas trop serrés. Si le robot triche et enfreint ces paramètres, sa fonction de récompense lui attribue un score inférieur. Les fonctions de sécurité atténuent les comportements dégénérés et non naturels, comme les poussées pelviennes inutiles.

    Quelles ont été les performances du robot ? DrEureka a réussi à battre les humains dans l'entraînement du robot, avec un avantage de 34 % en vitesse d'avancement et de 20 % en distance parcourue sur des terrains mixtes du monde réel. Comment cela se fait-il ? Selon les chercheurs, c'est une question de style d'enseignement. Les humains tendent vers un environnement d'enseignement de type curriculum - décomposant les tâches en petites étapes et essayant de les expliquer de manière isolée, alors que le GPT a la capacité d'enseigner efficacement tout, en une seule fois.

    DrEureka est le premier du genre. Il est capable de passer "sans transition" de la simulation au monde réel. Imaginez que vous n'ayez pratiquement aucune connaissance pratique du monde qui vous entoure, que vous soyez poussé hors du nid et que vous deviez vous débrouiller tout seul. C'est ce qu'on appelle le "zero-shot". Les créateurs de DrEureka pensent qu'ils pourraient encore améliorer la formation de la simulation à la réalité s'ils pouvaient fournir un retour d'information sur le monde réel à GPT. À l'heure actuelle, tous les entraînements sur simulateur sont effectués à l'aide de données provenant des systèmes de proprioception du robot, mais si GPT pouvait voir ce qui n'a pas fonctionné grâce à un flux vidéo réel plutôt que de simplement lire l'échec de l'exécution dans les journaux du robot, il pourrait affiner ses instructions de manière beaucoup plus efficace.

    Nous avons entraîné un chien robot à tenir en équilibre et à marcher sur un ballon de yoga uniquement en simulation, puis nous avons transféré le zéro pointé dans le monde réel. Pas de mise au point. Ça marche, c'est tout.

    Je suis heureux d'annoncer DrEureka, un agent LLM qui écrit du code pour former les compétences d'un robot en simulation, et qui écrit encore plus de code pour combler le difficile fossé entre la simulation et la réalité. Il automatise entièrement le pipeline entre l'apprentissage de nouvelles compétences et le déploiement dans le monde réel.

    La tâche du ballon de yoga est particulièrement difficile car il n'est pas possible de simuler avec précision la surface du ballon qui rebondit. Pourtant, DrEureka n'a aucun mal à rechercher un vaste espace de configurations entre la simulation et la réalité, et permet au chien de diriger la balle sur différents terrains, même en marchant de côté !

    Traditionnellement, le transfert de la simulation à la réalité est réalisé par la randomisation du domaine, un processus fastidieux qui exige que des roboticiens humains experts regardent chaque paramètre et l'ajustent à la main. Les LLM d'avant-garde tels que le GPT-4 possèdent des tonnes d'intuition physique intégrée pour la friction, l'amortissement, la rigidité, la gravité, etc. Nous sommes (légèrement) surpris de constater que DrEureka est capable de régler ces paramètres de manière compétente et d'expliquer son raisonnement de manière satisfaisante.

    DrEureka s'appuie sur notre travail précédent, Eureka, l'algorithme qui apprend à une main de robot à 5 doigts à faire tourner un stylo. Il va plus loin dans notre quête d'automatisation de l'ensemble du processus d'apprentissage des robots par un système d'agents d'intelligence artificielle. Un modèle qui produit des chaînes de caractères supervisera un autre modèle qui produit un contrôle de couple.

    Nous mettons tout en open-source !
    Et vous ?

    Quel est votre avis sur le sujet ?
    Pensez-vous que cette méthode d'apprentissage est crédible ou pertinente ?

    Voir aussi :

    Le robot mobile ALOHA de Stanford apprend par imitation à cuisiner, nettoyer et faire la lessive. Basé sur ALOHA de Google DeepMind, il améliore l'apprentissage robotique, notamment la mobilité

    Toyota Research annonce une percée dans l'apprentissage de nouveaux comportements aux robots avec l'objectif d'enseigner un millier de nouvelles compétences d'ici à la fin de l'année 2024

    Un modèle d'IA d'OpenAI permet désormais au robot humanoïde Figure 01 d'avoir des conversations complètes avec des humains. Il peut également ranger la vaisselle et servir à manger

  2. #2
    Membre extrêmement actif
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2017
    Messages
    2 010
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2017
    Messages : 2 010
    Points : 6 300
    Points
    6 300
    Par défaut
    Et en quoi cette démonstration fait avancer le monde?

    Est-ce que cette application à une quelconque valeur pour améliorer le quotidien des gens?

    Personnellement, j'aurai au moins appris quelque chose... Vu de Suisse, je ne connaissais pas le "ballon suisse"! Le ballon oui, mais pas que l'objet était affublé de l'adjectif "suisse"

  3. #3
    Membre émérite
    Profil pro
    retraité
    Inscrit en
    Décembre 2010
    Messages
    842
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : Décembre 2010
    Messages : 842
    Points : 2 421
    Points
    2 421
    Par défaut
    Et en quoi cette démonstration fait avancer le monde?
    Vous n'imaginez pas comment c'est compliqué de faire cela avec un système déterministe, régulation...ça ouvre des perspectives comme faire marcher des gens avec des exosquelettes. Le système apprend de lui-même.

Discussions similaires

  1. Réponses: 10
    Dernier message: 30/10/2023, 14h19
  2. Réponses: 70
    Dernier message: 05/05/2023, 17h44
  3. [PHP-JS] Robots clic sur lien
    Par Overstone dans le forum Langage
    Réponses: 4
    Dernier message: 20/02/2008, 17h39
  4. Les Robots connectés sur le forum de developpez
    Par H-bil dans le forum Mode d'emploi & aide aux nouveaux
    Réponses: 1
    Dernier message: 13/05/2006, 08h17
  5. Kmail veux pas marcher sur mon serveur avec postfix
    Par jean christophe dans le forum Réseau
    Réponses: 4
    Dernier message: 06/05/2005, 02h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo