ChatGPT apprend à un chien robot à marcher sur un ballon suisse : DrEureka, un logiciel open-source, permet de former les robots avec un système "simulation à la réalité" grâce à ChatGPT-4.
Le Dr Jim Fan a déployé un robot quadrupède Unitree Go1. Avec l'aide de ChatGPT, le chien robot à appris à marcher sur un ballon suisse. Un chien robot qui se déplace en équilibre sur un ballon d'exercice est une expérience amusante à regarder, mais elle démontre que les IA comme GPT-4 peuvent entraîner des robots à effectuer des tâches complexes dans le monde réel de manière beaucoup plus efficace que les humains.
ChatGPT est un chatbot développé par OpenAI et lancé le 30 novembre 2022. Basé sur de grands modèles de langage (LLM), il permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Les invites et les réponses successives de l'utilisateur sont prises en compte à chaque étape de la conversation en tant que contexte.
DrEureka, un nouveau logiciel open-source, est utilisé pour former des robots à l'exécution de tâches réelles à l'aide de grands modèles de langage (LLM) tels que ChatGPT-4. Il s'agit d'un système "sim-to-reality", c'est-à-dire qu'il forme les robots dans un environnement virtuel à l'aide d'une physique simulée, avant de les mettre en œuvre dans l'espace réel.
Le Dr Jim Fan, l'un des concepteurs de DrEureka, a déployé un robot quadrupède Unitree Go1. Il s'agit d'un robot open-source et soutenu - ce qui est pratique, car même avec l'IA, les robots-animaux sont toujours susceptibles d'être endommagés par les chutes. Le "Dr" de DrEureka signifie "Domain randomization", c'est-à-dire la randomisation de variables telles que la friction, la masse, l'amortissement, le centre de gravité, etc. dans un environnement simulé.
Avec quelques invites dans un LLM comme ChatGPT, l'IA peut écrire un code qui crée un système de récompense/pénalité pour entraîner le robot dans l'espace virtuel, où 0 = échec, et tout ce qui est supérieur à 0 est une victoire. Plus le score est élevé, mieux c'est. Elle peut créer des paramètres en minimisant et en maximisant les points d'échec/de rupture dans des domaines tels que le rebond de la balle, la force motrice, le degré de liberté des membres et l'amortissement, pour n'en citer que quelques-uns. En tant que LLM, il n'a aucun problème à créer ces paramètres en grandes quantités, pour que le système d'entraînement puisse fonctionner simultanément. Après chaque simulation, GPT peut également évaluer les performances du robot virtuel et déterminer comment il peut s'améliorer. Le dépassement ou la violation de paramètres, par exemple la surchauffe d'un moteur ou la tentative d'articulation d'un membre au-delà de ses capacités, se traduira par un 0.
L'incitation d'un LLM à écrire le code nécessite des instructions de sécurité. L'équipe a constaté que GPT s'efforcera d'obtenir les meilleures performances possibles et "trichera" dans la simulation sans être guidé. C'est très bien dans une simulation, mais dans la vie réelle, cela pourrait entraîner une surchauffe des moteurs ou une extension excessive des membres, ce qui endommagerait le robot. Les chercheurs appellent ce phénomène le "comportement dégénéré".
Dans un exemple de comportement contre nature qu'il a appris par lui-même, le robot virtuel a découvert qu'il pouvait se déplacer plus rapidement en enfonçant sa hanche dans le sol et en utilisant ses trois pieds pour courir sur le sol tout en traînant sa hanche. Bien que cela ait été un avantage dans la simulation, cela s'est traduit par un faceplant improductif lorsque le robot a tenté de le faire dans le monde réel.
Les chercheurs ont donc demandé à GPT d'être très prudent, en gardant à l'esprit que le robot serait testé dans le monde réel. En réponse, GPT a créé des fonctions de sécurité pour des éléments tels que l'action en douceur, l'orientation du torse, la hauteur du torse et l'assurance que les moteurs du robot n'étaient pas trop serrés. Si le robot triche et enfreint ces paramètres, sa fonction de récompense lui attribue un score inférieur. Les fonctions de sécurité atténuent les comportements dégénérés et non naturels, comme les poussées pelviennes inutiles.
Quelles ont été les performances du robot ? DrEureka a réussi à battre les humains dans l'entraînement du robot, avec un avantage de 34 % en vitesse d'avancement et de 20 % en distance parcourue sur des terrains mixtes du monde réel. Comment cela se fait-il ? Selon les chercheurs, c'est une question de style d'enseignement. Les humains tendent vers un environnement d'enseignement de type curriculum - décomposant les tâches en petites étapes et essayant de les expliquer de manière isolée, alors que le GPT a la capacité d'enseigner efficacement tout, en une seule fois.
DrEureka est le premier du genre. Il est capable de passer "sans transition" de la simulation au monde réel. Imaginez que vous n'ayez pratiquement aucune connaissance pratique du monde qui vous entoure, que vous soyez poussé hors du nid et que vous deviez vous débrouiller tout seul. C'est ce qu'on appelle le "zero-shot". Les créateurs de DrEureka pensent qu'ils pourraient encore améliorer la formation de la simulation à la réalité s'ils pouvaient fournir un retour d'information sur le monde réel à GPT. À l'heure actuelle, tous les entraînements sur simulateur sont effectués à l'aide de données provenant des systèmes de proprioception du robot, mais si GPT pouvait voir ce qui n'a pas fonctionné grâce à un flux vidéo réel plutôt que de simplement lire l'échec de l'exécution dans les journaux du robot, il pourrait affiner ses instructions de manière beaucoup plus efficace.
We trained a robot dog to balance and walk on top of a yoga ball purely in simulation, and then transfer zero-shot to the real world. No fine-tuning. Just works.
— Jim Fan (@DrJimFan) May 3, 2024
I’m excited to announce DrEureka, an LLM agent that writes code to train robot skills in simulation, and writes more… pic.twitter.com/kuG14LmSOhEt vous ?Nous avons entraîné un chien robot à tenir en équilibre et à marcher sur un ballon de yoga uniquement en simulation, puis nous avons transféré le zéro pointé dans le monde réel. Pas de mise au point. Ça marche, c'est tout.
Je suis heureux d'annoncer DrEureka, un agent LLM qui écrit du code pour former les compétences d'un robot en simulation, et qui écrit encore plus de code pour combler le difficile fossé entre la simulation et la réalité. Il automatise entièrement le pipeline entre l'apprentissage de nouvelles compétences et le déploiement dans le monde réel.
La tâche du ballon de yoga est particulièrement difficile car il n'est pas possible de simuler avec précision la surface du ballon qui rebondit. Pourtant, DrEureka n'a aucun mal à rechercher un vaste espace de configurations entre la simulation et la réalité, et permet au chien de diriger la balle sur différents terrains, même en marchant de côté !
Traditionnellement, le transfert de la simulation à la réalité est réalisé par la randomisation du domaine, un processus fastidieux qui exige que des roboticiens humains experts regardent chaque paramètre et l'ajustent à la main. Les LLM d'avant-garde tels que le GPT-4 possèdent des tonnes d'intuition physique intégrée pour la friction, l'amortissement, la rigidité, la gravité, etc. Nous sommes (légèrement) surpris de constater que DrEureka est capable de régler ces paramètres de manière compétente et d'expliquer son raisonnement de manière satisfaisante.
DrEureka s'appuie sur notre travail précédent, Eureka, l'algorithme qui apprend à une main de robot à 5 doigts à faire tourner un stylo. Il va plus loin dans notre quête d'automatisation de l'ensemble du processus d'apprentissage des robots par un système d'agents d'intelligence artificielle. Un modèle qui produit des chaînes de caractères supervisera un autre modèle qui produit un contrôle de couple.
Nous mettons tout en open-source !
Quel est votre avis sur le sujet ?
Pensez-vous que cette méthode d'apprentissage est crédible ou pertinente ?
Voir aussi :
Le robot mobile ALOHA de Stanford apprend par imitation à cuisiner, nettoyer et faire la lessive. Basé sur ALOHA de Google DeepMind, il améliore l'apprentissage robotique, notamment la mobilité
Toyota Research annonce une percée dans l'apprentissage de nouveaux comportements aux robots avec l'objectif d'enseigner un millier de nouvelles compétences d'ici à la fin de l'année 2024
Un modèle d'IA d'OpenAI permet désormais au robot humanoïde Figure 01 d'avoir des conversations complètes avec des humains. Il peut également ranger la vaisselle et servir à manger
Partager