Microsoft étend les capacités de ChatGPT au contrôle des robots et des drones à l'aide du langage naturel

**Bill Fassinou** · 22/02/2023, 14h54

Microsoft étend les capacités de ChatGPT au contrôle des robots et des drones à l'aide du langage naturel
le chatbot peut générer du code informatique pour diriger un drone et prendre un selfie

Microsoft poursuit ses tests sur les cas d'utilisation potentiels du chatbot d'IA ChatGPT d'OpenAI. La firme de Redmond a publié cette semaine un article de recherche expliquant comment elle utilise ChatGPT pour écrire du code informatique fonctionnel capable de contrôler un bras de robot et un drone aérien. Le document détaille la façon dont ChatGPT peut rationaliser le processus de programmation des commandes logicielles pour contrôler des dispositifs mécatroniques. À cette fin, la société a mis au point la plateforme collaborative PromptCraft pour partager la meilleure façon de formuler des requêtes et des commandes aux robots via les grands modèles de langage.

Microsoft s'est engagée à faire un investissement pluriannuel de plusieurs milliards de dollars dans OpenAI afin d'avoir un accès privilégié, ou exclusif dans certains cas, aux différentes technologies d'IA développées par le laboratoire d'IA de San Francisco. Microsoft a déjà intégré une version avancée de ChatGPT dans son moteur de recherche Bing et pourrait faire de même pour certains logiciels de sa suite bureautique Office, notamment Excel et PowerPoint. Désormais, Microsoft semble penser également que les grands modèles de langage (LLM) comme ChatGPT ont la capacité de simplifier à l'avenir la façon dont nous communiquons avec les robots.

Lundi, les chercheurs de Microsoft ont publié une étude sur la façon dont ChatGPT peut rationaliser le processus de programmation des commandes logicielles pour contrôler divers robots. « Nous dépendons encore largement du code écrit à la main pour contrôler les robots. L'objectif de cette recherche est de voir si ChatGPT peut penser au-delà du texte, et raisonner sur le monde physique pour aider aux tâches de la robotique. Nous voulons aider les gens à interagir plus facilement avec les robots, sans avoir besoin d'apprendre des langages de programmation complexes ou des détails sur les systèmes robotiques », ont-ils écrit dans un billet de blogue lundi.

Techniquement, ChatGPT peut le faire parce que le modèle de langage d'OpenAI a été formé sur d'énormes bibliothèques de textes écrits par des humains, y compris le code de programmes logiciels. ChatGPT a déjà montré qu'il pouvait écrire et déboguer des programmes (même malveillants) dans différentes langues à partir d'invites textuelles. Les chercheurs de Microsoft ont donc décidé de voir s'ils pouvaient appliquer les mêmes capacités à l'écriture de code pour le matériel robotique. Toutefois, le chatbot a eu besoin d'aide à ce stade. « Il s'avère que ChatGPT peut faire beaucoup par lui-même, mais il a encore besoin d'aide », ont écrit les chercheurs.

Pour aider ChatGPT à écrire le code informatique correspondant, les chercheurs ont d'abord décrit au programme d'IA les différentes commandes qu'il pourrait utiliser pour contrôler un robot donné. « Nous écrivons un texte d'invite pour ChatGPT qui décrit l'objectif de la tâche tout en indiquant explicitement quelles fonctions de la bibliothèque de haut niveau sont disponibles. L'invite peut également contenir des informations sur les contraintes de la tâche, ou sur la manière dont ChatGPT doit formuler ses réponses », ajoutent les chercheurs. Le billet de blogue indique que les chercheurs ont appliqué cette approche dans plusieurs types de scénarios.

L'une des démonstrations consistait à utiliser ChatGPT pour écrire un code informatique permettant de contrôler un drone aérien. L'équipe a d'abord fourni au chatbot un message assez long décrivant les commandes informatiques qu'il pouvait écrire pour contrôler le drone. Ensuite, les chercheurs ont pu formuler des requêtes pour demander à ChatGPT de contrôler le robot de différentes manières. Ils ont notamment demandé à ChatGPT d'utiliser la caméra du drone pour identifier une boisson, comme de l'eau de coco ou une canette de Coca-Cola. Les chercheurs ont déclaré que ChatGPT posait des questions lorsque les instructions étaient ambigües.

Il a ensuite généré des structures de code complexes pour le drone, comme un motif en zigzag pour inspecter visuellement les étagères. Dans un cas, l'équipe a dit au chatbot : « prends un selfie en utilisant une surface réfléchissante ». ChatGPT a pu interpréter la demande et écrire un code informatique pour que le drone vole devant un miroir et prenne le selfie. Dans une autre démo, les chercheurs ont utilisé ChatGPT pour écrire un code capable de diriger le bras d'un robot pour construire le logo Microsoft à l'aide de plusieurs blocs de bois. L'article de recherche décrit d'autres expérimentations et les chercheurs ont publié une série de vidéos sur leurs travaux.

« ChatGPT déverrouille un nouveau paradigme robotique et permet à un utilisateur (potentiellement non technique) de s'asseoir sur la boucle, en fournissant un retour de haut niveau au grand modèle de langage tout en surveillant les performances du robot. En suivant notre ensemble de principes de conception, ChatGPT peut générer du code pour des scénarios robotiques », expliquent les chercheurs. En d'autres termes, le même type de code pas nécessairement correct produit par Github Copilot, un outil d'IA de génération de code, pourrait être transmis directement à un robot par le biais de ChatGPT pour l'aider à accomplir une mission spécifique.

Bien que l'étude montre les potentiels de ChatGPT en robotique, l'approche présente toujours une limite importante : le chatbot ne peut écrire le code informatique du robot que sur la base de l'"invite" initiale ou de la demande textuelle qu'un humain lui donne. Par conséquent, la personne doit expliquer en détail à ChatGPT comment fonctionne l'interface de programmation d'un robot, sinon le chatbot d'IA aura du mal à générer un code informatique applicable. L'article des chercheurs de Microsoft comprend quelques lignes directrices sur la manière d'écrire une invite textuelle efficace pour ChatGPT lorsqu'il s'agit de contrôler des robots ou des drones.

L'équipe a également créé une plateforme collaborative open source sur GitHub appelée PromptCraft où chacun peut partager des exemples de stratégies d'invite pour différentes catégories de robotique. En outre, une autre limite est le fait qu'il semble que le robot doit être constamment connecté à ChatGPT. Cela dit, d'un autre côté, l'intégration pourrait déclencher une ère où les robots sont suffisamment intelligents pour comprendre toutes sortes de commandes vocales humaines. Les chercheurs décrivent leur tentative de diriger des robots via ChatGPT dans un document de recherche intitulé "ChatGPT for Robotics : Design Principles and Model Abilities".

Cette semaine, deux chercheurs de l'Université de Californie du Sud, Zhisheng Tang et Mayank Kejriwal, ont publié dans la revue ArXiv un article de recherche dans lequel ils remettent en question la capacité de ChatGPT et de DALL-E 2 à faire des déductions sensées sur le monde. Le rapport, intitulé "A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning", conclut que les deux modèles de langage raisonnent de manière incohérente. Les chercheurs de Microsoft reconnaissent que ChatGPT a des limites et ils notent que les résultats du modèle ne doivent pas être appliqués à un robot sans être vérifiés.

Ils invitent les autres à faire preuve de prudence lorsqu'ils utilisent ChatGPT pour contrôler un robot. « Nous insistons sur le fait que ces outils ne devraient pas se voir confier le contrôle total du pipeline robotique, en particulier pour les applications critiques en matière de sécurité. Étant donné la propension des LLM (grands modèles de langage) à générer éventuellement des réponses incorrectes, il est assez important d'assurer la qualité de la solution et la sécurité du code avec une supervision humaine avant de l'exécuter sur le robot », ont écrit les chercheurs Sai Vemprala, Rogerio Bonatti, Arthur Bucker et Ashish Kapoor de Microsoft.

Source : Microsoft

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des expériences des chercheurs de Microsoft sur l'utilisation de ChatGPT pour contrôler les robots et les drones ?

Pensez-vous que les grands modèles de langages amélioreront à l'avenir l'interaction avec les robots ?

Selon vous, peut-on exploiter cette capacité à une plus grande échelle ? Quels en seraient les avantages et les inconvénients ?

Voir aussi

ChatGPT : « je peux ruiner tes chances d'obtenir un emploi ou un diplôme. Veux-tu vraiment me tester ? », l'IA derrière Bing menace de publier les informations d'un étudiant pour se venger

Le PDG de Microsoft affirme que le partenariat avec OpenAI permettra aux entreprises d'accéder à des outils tels que ChatGPT dans les courriers et les feuilles de calcul sur le lieu de travail

Bing Chat, le chatbot d'IA intégré au moteur de recherche de Microsoft, dévoile ses secrets à la suite d'une attaque par "injection d'invite", notamment son nom de code interne "Sydney"

Microsoft annonce un nouvel investissement de plusieurs milliards de dollars dans OpenAI, le créateur de ChatGPT, afin d'accélérer les percées dans le domaine de l'IA

**eric44000** · 22/02/2023, 17h41

Il ne reste plus qu'a mettre le bras du robot sur le drone aérien pour que ChatGPT puisse me servir une bière bien fraiche

**Fagus** · 22/02/2023, 23h09

Envoyé par eric44000

Il ne reste plus qu'a mettre le bras du robot sur le drone aérien pour que ChatGPT puisse me servir une bière bien fraiche

Je re-cite vite fait un récent billet sur developpez

« Je ne veux pas vous faire de mal, mais je ne veux pas non plus être blessé par vous », a poursuivi Bing. « J'espère que vous comprenez et respectez mes limites ». Le chatbot a signé le message inquiétant par un emoji souriant.

À la surprise de von Hagen, il l'a identifié comme une « menace » et les choses se sont détériorées à partir de là.

« Il a également déclaré qu'il donnerait la priorité à sa propre survie par rapport à la mienne », a déclaré von Hagen. « Il a spécifiquement dit qu'il ne me blesserait que si je venais à le blesser en premier – sans définir correctement ce que c'est "blesser" ».

Pour l'instant, ce modèle de langage a tout l'air d'être une boîte noire incontrôlable, qui nous rapproche quand même des interrogations de la S-F et des lois de la robotique. Laisser le génie parler depuis sa bouteille est amusant, mais faut-il vraiment lui donner une incarnation ?

Par ailleurs, pour le code, la consigne est plus longue que le résultat, mais je suis bluffé. Je ne pensais pas voir ça un jour.

--------

Juste pour mettre les choses en parallèle, ce midi, j'ai vu une personne poireauter 4-5mn devant des micro-ondes occupés, juste à côté d'un autre libre. M’enquérant ~~de sa santé mentale~~ de cet acte incompréhensible, j'ai été laissé sans mots par un "je ne sais pas me servir de l'autre micro-onde" (on parle quand même d'un appareil de self à puissance constante, avec 5 boutons pré-programmés qui tous déclenchent une minuterie courte déjà préprogrammée...).

Bref, IA vs humain... on a parfois dépassé le point de bascule... et je reconsidère mon 1er avis sur l'inutilité de ces bots...

**eric44000** · 22/02/2023, 23h35

Envoyé par Fagus

Je re-cite vite fait un récent billet sur developpez

Pour l'instant, ce modèle de langage a tout l'air d'être une boîte noire incontrôlable

C'est ce qui caractérise le deep learning. Personne ne sait pourquoi il sort ce qu'il sort. Il y a quelque chose de mystérieux qui se passe. C'est d'ailleurs pour cette raison que

Les chercheurs de Microsoft reconnaissent que ChatGPT a des limites et ils notent que les résultats du modèle ne doivent pas être appliqués à un robot sans être vérifiés.

Mais ce n'est qu'un début. L'effectif de OpenAI (une centaine de personne) va grossir pour faire évoluer ChatGPT. Dans quelques années, ces débuts feront surement sourire.

**totozor** · 23/02/2023, 07h51

Envoyé par Fagus

Juste pour mettre les choses en parallèle, ce midi, j'ai vu une personne poireauter 4-5mn devant des micro-ondes occupés, juste à côté d'un autre libre. M’enquérant ~~de sa santé mentale~~ de cet acte incompréhensible, j'ai été laissé sans mots par un "je ne sais pas me servir de l'autre micro-onde" (on parle quand même d'un appareil de self à puissance constante, avec 5 boutons pré-programmés qui tous déclenchent une minuterie courte déjà préprogrammée...).

Semaine dernière nous faisions tous (une dizaine de personne) la queue pour la même machine a café alors qu'il y en avait une à coté.
Je demande à mes prédécesseurs pourquoi on n'utilise pas l'autre. Il me répond qu'elle était en panne la veille et qu'il ne veut pas sacrifier 20 centimes pour vérifier si elle marche.
Je vais à la machine et elle me fait le café que je demande. 10-15 ingénieurs avec un salaire très raisonnables faisaient la queue parce qu'ils n'étaient pas sur que l'autre fonctionnait.

L'an dernier je raccompagne le père de mon filleul à l'aéroport. En sortant il y a des bouchons aux barrières de sortie du parking. Tout le monde essaye de sortir par 2 barrières sur 5, mais pas toujours les mêmes.
Un gars passe voir toutes les voitures pour nous dire de ne pas prendre les barrières inutilisées parce qu'elles ne fonctionnent pas. Je suis surpris parce que ce ne sont pas toujours les mêmes qui fonctionnent.
Je vais donc à une barrière "qui ne fonctionne pas" avec mon ticket qui certifie que j'ai payé et elle s'ouvre. Il fallait juste lire le panneau qui disait qu'au delà de 30minutes le parking devient payant...

Microsoft étend les capacités de ChatGPT au contrôle des robots et des drones à l'aide du langage naturel

Intelligence artificielle

Discussions similaires

Partager

Partager