Google annonce des fonctionnalités d'IA dans Gmail, Docs et autres

**Bruno** · 10/02/2023, 10h02

Le fondateur de ChatGPT accuse Google d'être un « monopole de recherche léthargique »,
alors que la guerre de l'intelligence artificielle entre Google et Microsoft s'intensifie

ChatGPT a pris le monde d'assaut depuis son lancement en novembre, avec son habileté à écrire des essais, des articles, des poèmes et du code informatique en quelques secondes seulement. Le PDG d'OpenAI, Sam Altman, a qualifié Google de « monopole de recherche léthargique » dans une interview. Il a entre autre déclaré qu'il voyait un énorme potentiel pour la technologie d'IA de sa société, qui pourrait transformer la façon dont les gens trouvent des informations en ligne.

ChatGPT est un robot à grand modèle de langage (ils permettent de prédire le mot suivant dans une série de mots) développé par OpenAI et basé sur GPT-3.5. Il a une capacité remarquable à interagir sous forme de dialogue conversationnel et à fournir des réponses qui peuvent sembler étonnamment humaines.

Nom : ChatGPTGoogle.jpg
Affichages : 31270
Taille : 46,4 Ko

Google a déclaré que ChatGPT avait réussi son entretien de codage. L’équipe DEV a envoyé des questions d'entretien de codage à ChatGPT et, sur la base des réponses de l'IA, a déterminé qu'il serait embauché pour un poste d'ingénieur de niveau trois, selon un document interne. L'expérience a été réalisée dans le cadre des récents tests de Google sur plusieurs chatbots IA, qu'il envisageait d'ajouter à son moteur de recherche.

L'apprentissage par renforcement avec retour d'information humain (RLHF) est une couche supplémentaire de formation qui utilise le retour d'information humain pour aider ChatGPT à apprendre à suivre des instructions et à générer des réponses satisfaisantes pour les humains. ChatGPT a été créé par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts".

Google et Microsoft en course pour l’avenir de l’IA

Google rivalise Microsoft avec Bard

Google semble également préoccupé par le maintien de sa domination dans le domaine de la recherche. Le moteur de recherche de Google représentait plus de 91 % du marché mondial de la recherche au cours des 12 derniers mois, tandis que Bing représentait environ 3 %, selon les données de SimilarWeb.

En réponse à Microsoft qui serait fermement lié à OpenAI, Google a dévoilé Bard, son alternative à ChatGPT qui a pour objectif d’améliorer son moteur de recherche et surtout de rattraper son retard par rapport à OpenAI. Google pourrait s'être par ailleurs tourné vers une entreprise moins connue du nom d'Anthropic et fondée par d'anciens employés d'OpenAI.

Le géant de Mountain View a investi environ 300 millions de dollars dans la startup d'intelligence artificielle Anthropic, ce qui en fait le dernier géant de la technologie à mettre son argent et sa puissance de calcul au service d'une nouvelle génération d'entreprises qui tentent de se faire une place dans le domaine en plein essor de l'"IA générative".

« L'IA est la technologie la plus profonde sur laquelle nous travaillons aujourd'hui. Qu'il s'agisse d'aider les médecins à détecter les maladies plus tôt ou de permettre aux gens d'accéder aux informations dans leur propre langue, l'IA aide les personnes, les entreprises et les communautés à libérer leur potentiel. Et elle ouvre de nouvelles possibilités qui pourraient améliorer considérablement la vie de milliards de personnes. C'est pourquoi nous avons réorienté l'entreprise autour de l'IA il y a six ans, et pourquoi nous la considérons comme le moyen le plus important de remplir notre mission : organiser les informations du monde et les rendre universellement accessibles et utiles.

Depuis lors, nous avons continué à investir dans l'IA dans tous les domaines, et Google AI et DeepMind font progresser l'état de l'art. Aujourd'hui, l'échelle des plus grands calculs d'IA double tous les six mois, dépassant de loin la loi de Moore. Dans le même temps, l'IA générative avancée et les grands modèles de langage captent l'imagination des gens dans le monde entier. En fait, notre projet de recherche Transformer et notre article définissant le domaine en 2017, ainsi que nos avancées importantes dans les modèles de diffusion, sont désormais à la base de nombreuses applications d'IA générative que vous commencez à voir aujourd'hui. »

Bard cherche à combiner l'étendue des connaissances mondiales avec la puissance, l'intelligence et la créativité des grands modèles linguistiques de Google. Il s'appuie sur des informations provenant du web pour fournir des réponses qui seraient de qualité. Selon Google, Bard peut être un exutoire pour la créativité et une rampe de lancement pour la curiosité, en aidant à « expliquer les nouvelles découvertes du télescope spatial James Webb de la NASA à un enfant de 9 ans », ou à en savoir plus sur les meilleurs attaquants de football du moment, puis à obtenir des exercices pour développer vos compétences. En d’autres termes, Bard fait exactement ce que fait ChatGPT.

Microsoft innove son moteur de recherche avec ChatGPT

Un jour après l’annonce de Google, Microsoft présente son nouveau Bing mais qui lui repose sur la technologie de ChatGPT. L’objectif : lancer une nouvelle expérience de recherche qui pourrait permettre à la firme de faire sortir son moteur de recherche de l’ombre de Google. La nouvelle expérience Bing est l'aboutissement de quatre percées techniques :

Un modèle OpenAI de nouvelle génération : Microsoft annonce que le nouveau Bing fonctionne avec un nouveau modèle OpenAI de nouvelle génération, plus puissant que ChatGPT et spécialement conçu pour la recherche. Il reprend les principaux enseignements et avancées de ChatGPT et GPT-3.5 et il est encore plus rapide, plus précis et plus performant ;
Le modèle Prometheus de Microsoft : Microsoft développe une méthode de travail propriétaire avec le modèle OpenAI qui permet d'exploiter au mieux sa puissance. Elle appelle cet ensemble de capacités et de techniques le modèle Prometheus. Cette combinaison donne des résultats plus pertinents, opportuns et ciblés, avec une sécurité accrue ;
Application de l'IA à l'algorithme de recherche principal : Microsoft a également appliqué le modèle d'IA à notre principal moteur de classement des recherches Bing, ce qui a entraîné le plus grand bond en avant de la pertinence en vingt ans. Grâce à ce modèle d'IA, même les requêtes de recherche de base sont plus précises et plus pertinentes ;
Nouvelle expérience utilisateur : Microsoft repense la façon dont les utilisateurs interagissent avec la recherche, le navigateur et le chat en les regroupant en une expérience unifiée. Cela pourrait débloquer une toute nouvelle manière d'interagir avec le web.

Microsoft en profite également pour intégrer de nouvelles fonctions d’IA à Edge, son navigateur web. Elle a mis à jour le navigateur Edge avec de nouvelles capacités d'IA et un nouveau look, et a ajouté deux nouvelles fonctionnalités : Chat et compose. Grâce à la barre latérale Edge, il est possible de demander un résumé d'un long rapport financier pour en obtenir les principaux éléments, puis utiliser la fonction de chat pour demander une comparaison avec les données financières d'une entreprise concurrente et les placer automatiquement dans un tableau. Il est de plus possible de demander à Edge de l’aide à composer du contenu, comme un post LinkedIn, en lui donnant quelques invites pour commencer.

Sam Altman, le PDG d’OpenAI, qui a traité du moteur de recherche de Google dans une interview de « monopole de recherche léthargique » a déclaré qu'il voyait d'énormes avantages à la décision de Microsoft d'intégrer la technologie d'OpenAI dans son moteur de recherche. Toutefois, le PDG d'OpenAI a ajouté qu'il est difficile de dire comment Google s'adaptera à cette technologie.

Depuis la sortie de la dernière version de ChatGPT le 30 novembre, Sundar Pichai, le PDG de Google et de sa société mère Alphabet, a participé à plusieurs réunions centrées sur la stratégie de Google en matière d'IA, en réponse à la menace que le chatbot représentait pour la société de moteurs de recherche de Google, The, rapporte le New York Times.

La société a également fait appel aux cofondateurs de Google, Larry Page et Sergey Brin, pour l'aider à résoudre le problème, a rapporté The Times en janvier. La semaine dernière, l'inventeur de Gmail, Paul Buchheit, a prévenu que l'activité de recherche de Google n'était qu'à un an ou deux d'une « perturbation totale » par des chatbots IA comme ChatGPT.

Plus récemment, lundi, Google a annoncé son intention de lancer son rival ChatGPT, Bard. M. Pichai a déclaré que Bard était ouvert aux "testeurs de confiance" et qu'il serait ouvert au public dans les semaines à venir.

Le rival officiel de ChatGPT a déjà connu un raté après son lancement. Mercredi, les actions de Google ont chuté de plus de 8 % après que Bard a commis une erreur factuelle dans sa première vidéo de démonstration. La bataille pour le contrôle de l’IA s’annonce très mouvementée dans les jours à venir.

Source : OpenAI CEO Sam Altman during an interview

Et vous ?

Pensez-vous, comme Paul Buchheit, que l'activité de recherche de Google est proche d'une « perturbation totale » par des chatbots IA comme ChatGPT ?

Comment percevez-vous cette forte concurrence exercée par ChatGPT sur le moteur de recherche Google ?

Croyez-vous que ChatGPT réussira à offrir au monde un véritable concurrent à Google ?

Que pensez-vous de ChatGPT ? L'avez-vous expérimenté ?

Voir aussi :

ChatGPT réussit l'entretien de codage Google pour un ingénieur de niveau 3 avec un salaire de 183 000 $, tout en indiquant qu'il ne peut pas reproduire la créativité humaine

Google investit 300 M$ dans la start-up d'IA Anthropic, fondée par d'anciens chercheurs d'OpenAI, la société a construit son propre chatbot généraliste, un rival de ChatGPT nommé Claude

Un juge utilise ChatGPT pour prendre une décision de justice, alors que l'outil d'IA n'aurait pas encore la maturité suffisante, pour être utilisé dans la prise des décisions conséquentes

**yahiko** · 10/02/2023, 10h51

Je suis certain que le module d'IA ChatGPT de Microsoft va révolutionner la recherche et va introduire une réelle et saine concurrence avec Google.
Heureusement que Microsoft est là pour lutter une nouvelle fois contre les monopoles en tout genre, que ce soit avec Apple et son store anticoncurrentiel ou Google et son moteur de recherche hégémonique.

**Wanto** · 10/02/2023, 14h27

Envoyé par yahiko

Je suis certain que le module d'IA ChatGPT de Microsoft va révolutionner la recherche et va introduire une réelle et saine concurrence avec Google.
Heureusement que Microsoft est là pour lutter une nouvelle fois contre les monopoles en tout genre, que ce soit avec Apple et son store anticoncurrentiel ou Google et son moteur de recherche hégémonique.

Je n'arrive pas à comprendre si c'est ironique ou pas.
Microsoft qui lutte contre les monopoles, alors que c'est un monopole en lui-même (avec des pratique limite pire que Google).

En-tout-cas un peu de sang neuf, qui fait changer les choses.

**walfrat** · 10/02/2023, 15h19

Envoyé par yahiko

Je suis certain que le module d'IA ChatGPT de Microsoft va révolutionner la recherche et va introduire une réelle et saine concurrence avec Google.
Heureusement que Microsoft est là pour lutter une nouvelle fois contre les monopoles en tout genre, que ce soit avec Apple et son store anticoncurrentiel ou Google et son moteur de recherche hégémonique.

Ces propos sont quand même un peu questionnable (ironie ou pas).

Microsoft a lui même été condamné pour abus de position dominante et comportement anticoncurrentiel dans le passé.
Il est vrai que cela fait une concurrence a Google et Apple, mais ça reste sous le giron américain, y'a mieux comme "concurrence".
Microsoft a échoué dans le mobile, mais je ne vois pas pourquoi il n’aurait pas fait son store à la Apple ou Google Play

Au mieux on peut onsidérer qu'après avoir été sanctionné dans les années 80, Microsoft se comporte moins comme une boîte qui peut passer outre les états que Google et Apple.

**Wanto** · 10/02/2023, 19h05

Envoyé par walfrat

Ces propos sont quand même un peu questionnable (ironie ou pas).

Microsoft a lui même été condamné pour abus de position dominante et comportement anticoncurrentiel dans le passé.
Il est vrai que cela fait une concurrence a Google et Apple, mais ça reste sous le giron américain, y'a mieux comme "concurrence".
Microsoft a échoué dans le mobile, mais je ne vois pas pourquoi il n’aurait pas fait son store à la Apple ou Google Play

Au mieux on peut onsidérer qu'après avoir été sanctionné dans les années 80, Microsoft se comporte moins comme une boîte qui peut passer outre les états que Google et Apple.

C'est plutôt qu'il s'achète une bonne image contrairement au autres.
- Microsoft, qui pousse, a l'utilisation de Bing et Edge, avec son monopole Windows.
- Microsoft qui est devenu roi de l'espionnage avec la télémétrie dans Windows. (Avec une gestion des données qui a l'air catastrophique.)
- Le fait que Windows Phone était le pire des deux mondes entre Android et IOS (fermeture + pub)
- Le rachat de masse d'entreprise pour rester compétitif. (que ce soit dans le jeu vidéo ou logiciel)
- Le coté Open Source, mais avec un contrôle total (avec tout les plugin essentiel qui bloque tout portage comme ce que fait google avec le playstore)

**pierre.E** · 10/02/2023, 19h59

madame claude

**Bruno** · 08/03/2023, 18h49

Google dévoile PaLM-E, un modèle d'IA de type ChatGPT, qui prend en compte les besoins de l'utilisateur,
une similitude peut être dégagée dans le récent article de Microsoft intitulé « ChatGPT for Robotics »

Un groupe de chercheurs en intelligence artificielle de Google et de l'université technique de Berlin a dévoilé le 6 mars le PaLM-E, un modèle multimodal de langage visuel incarné (VLM) avec 562 milliards de paramètres qui intègre la vision et le langage pour le contrôle robotique. Ils affirment qu'il s'agit du plus grand VLM jamais développé et qu'il peut effectuer une variété de tâches sans avoir besoin d'être réentraîné. Dans le même temps, l’objectif prononcé par Microsoft pour cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques.

Selon Google, lorsqu'il reçoit une commande de haut niveau, telle que « apporte-moi les chips de riz du tiroir », le PaLM-E peut générer un plan d'action pour une plateforme robotique mobile dotée d'un bras (développée par Google Robotics) et exécuter les actions par lui-même. Pour ce faire, PaLM-E analyse les données de la caméra du robot sans avoir besoin d'une représentation prétraitée de la scène. Il n'est donc pas nécessaire qu'un humain prétraite ou annote les données, ce qui permet un contrôle robotique plus autonome.

Il est également résistant et peut réagir à son environnement. Par exemple, le modèle PaLM-E peut guider un robot pour qu'il aille chercher un sac de chips dans une cuisine - et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui peuvent survenir pendant la tâche. Dans un exemple vidéo, un chercheur saisit les chips du robot et les déplace, mais le robot localise les chips et les saisit à nouveau.

« Notre plus grand modèle, PaLM-E-562B avec 562B paramètres, en plus d'être entraîné sur des tâches robotiques, est un généraliste du langage visuel avec des performances de pointe sur OK-VQA, et conserve des capacités de langage généraliste avec l'augmentation de l'échelle », Google.

Nom : Palm-e.jpg
Affichages : 7917
Taille : 82,7 Ko

Nombre de paramètres dans les systèmes d'intelligence artificielle notable

Les paramètres sont des variables d'un système d'intelligence artificielle dont les valeurs sont ajustées au cours de la formation pour déterminer comment les données d'entrée sont transformées en sortie souhaitée ; par exemple, les poids de connexion dans un réseau neuronal artificiel.

Il a été démontré que les grands modèles de langage permettent d'effectuer des tâches complexes. Cependant, pour permettre une inférence générale dans le monde réel, par exemple pour les problèmes de robotique, il faut relever le défi de l'ancrage. Les chercheurs en intelligence artificielle de Google proposent des modèles de langage incarnés pour incorporer directement les modalités des capteurs continus du monde réel dans les modèles de langage et établir ainsi le lien entre les mots et les percepts.

Les données d'entrée de notre modèle de langage incarné sont des phrases multimodales qui intègrent des encodages d'entrée visuels, textuels et d'estimation d'état continu. Nous entraînons ces encodages de bout en bout, en conjonction avec un grand modèle de langage pré-entraîné, pour de multiples tâches incarnées, y compris la planification de manipulations robotiques séquentielles, la réponse à des questions visuelles et le sous-titrage.

L’évaluation montre que PaLM-E, un grand modèle multimodal unique, peut traiter une variété de tâches de raisonnement intégré, à partir d'une variété de modalités d'observation, sur des incarnations multiples, et qu'il présente en outre un transfert positif : le modèle bénéficie d'un entraînement conjoint diversifié dans les domaines du langage, de la vision et du langage visuel à l'échelle de l'internet.

Approche

L'idée architecturale principale de PaLM-E est d'injecter des observations continues et incarnées telles que des images, des estimations d'état ou d'autres modalités de capteurs dans l'espace d'intégration du langage d'un modèle de langage pré-entraîné. Pour ce faire, les observations continues sont encodées dans une séquence de vecteurs ayant la même dimension que l'espace d'intégration des jetons de langage.

Les informations continues sont donc injectées dans le modèle de langage de manière analogue aux jetons de langage. PaLM-E est un LLM pour décodeur uniquement qui génère des compléments textuels de manière autorégressive à partir d'un préfixe ou d'une invite. Les chercheurs en intelligence artificielle de Google et de l'université technique montrent comment PaLM-E peut être utilisé pour planifier et exécuter des tâches à long terme sur deux incarnations réelles différentes. Veuillez noter que tous ces résultats ont été obtenus en utilisant le même modèle entraîné sur toutes les données.

Dans un autre exemple, le même modèle PaLM-E contrôle de manière autonome un robot dans des tâches aux séquences complexes qui nécessitaient auparavant un support humain. Le document de recherche de Google explique comment le PaLM-E transforme les instructions en actions :

Nous démontrons les performances de PaLM-E sur des tâches de copie mobile difficiles et variées. Nous suivons largement la configuration de Ahn et al. (2022), où le robot doit planifier une séquence d'actions de navigation et de manipulation sur la base d'une instruction donnée par un humain. Par exemple, étant donné l'instruction "J'ai renversé mon verre, peux-tu m'apporter quelque chose pour le nettoyer ?", le robot doit planifier une séquence contenant "

1. trouver une éponge,
2. ramasser l'éponge,
3. l'apporter à l'utilisateur,
4. poser l'éponge".

Inspirés par ces tâches, nous développons 3 cas d'utilisation pour tester les capacités de raisonnement incarné de PaLM-E : la prédiction d'affordance, la détection d'échec et la planification à long terme. Les politiques de bas niveau proviennent de RT-1 (Brohan et al., 2022), un modèle de transformateur qui prend une image RVB et des instructions en langage naturel, et produit des commandes de contrôle de l'effecteur.

Outre le transformateur robotique RT-1, PaLM-E s'inspire des travaux antérieurs de Google sur ViT-22B, un modèle de transformateur de vision révélé en février. ViT-22B a été entraîné à diverses tâches visuelles, telles que la classification d'images, la détection d'objets, la segmentation sémantique et le sous-titrage d'images.

Le transformateur robotique RT-1

D'importantes avancées récentes dans de multiples sous-domaines de la recherche sur l'apprentissage automatique, tels que la vision par ordinateur et le traitement du langage naturel, ont été rendues possibles par une approche commune partagée qui exploite des ensembles de données vastes et diversifiés et des modèles expressifs capables d'absorber toutes les données de manière efficace. Bien qu'il y ait eu plusieurs tentatives d'application de cette approche à la robotique, les robots n'ont pas encore tiré parti de modèles à haute capacité aussi bien que d'autres sous-domaines.

Nom : RT-1.jpg
Affichages : 1934
Taille : 39,4 Ko

Architecture du RT-1 : Le modèle prend en entrée un texte d'instruction et un ensemble d'images, les encode sous forme de jetons via un modèle FiLM EfficientNet pré-entraîné et les compresse via TokenLearner. Ces éléments sont ensuite introduits dans le transformateur, qui produit des jetons d'action.

Plusieurs facteurs contribuent à ce défi. Tout d'abord, il y a le manque de données robotiques diversifiées et à grande échelle, qui limite la capacité d'un modèle à absorber un large éventail d'expériences robotiques. La collecte de données est particulièrement coûteuse et difficile pour la robotique, car la constitution d'ensembles de données nécessite des opérations autonomes lourdes en ingénierie, ou des démonstrations collectées à l'aide de téléopérations humaines. Un deuxième facteur est le manque de modèles d'inférence expressifs, évolutifs et suffisamment rapides pour le temps réel, capables d'apprendre à partir de tels ensembles de données et de généraliser efficacement.

Pour relever ces défis, les chercheurs de Google proposent le Robotics Transformer 1 (RT-1), un modèle multi-tâches qui symbolise les entrées du robot et les actions de sortie (par exemple, les images de la caméra, les instructions de tâche et les commandes du moteur) pour permettre une inférence efficace en cours d'exécution, ce qui rend le contrôle en temps réel faisable.

Ce modèle est entraîné sur un ensemble de données robotiques réelles à grande échelle de 130 000 épisodes couvrant plus de 700 tâches, collectées à l'aide d'une flotte de 13 robots d'Everyday Robots (EDR) sur une période de 17 mois. Ils démontrent que RT-1 peut présenter une généralisation zéro-shot significativement améliorée à de nouvelles tâches, environnements et objets par rapport aux techniques antérieures.

En outre, ils évaluent et éliment soigneusement de nombreux choix de conception dans le modèle et l'ensemble d'entraînement, en analysant les effets de la tokenisation, de la représentation des actions et de la composition de l'ensemble de données. Enfin, ils mettent le code RT-1 en libre accès et espèrent qu'il constituera une ressource précieuse pour les recherches futures sur l'intensification de l'apprentissage des robots.

Google et Microsoft en course pour l’avenir de l’IA

Google rivalise Microsoft avec Bard

Google semble également préoccupé par le maintien de sa domination dans le domaine de la recherche. Le moteur de recherche de Google représentait plus de 91 % du marché mondial de la recherche au cours des 12 derniers mois, tandis que Bing représentait environ 3 %, selon les données de SimilarWeb.

En réponse à Microsoft qui serait fermement lié à OpenAI, Google a dévoilé Bard, son alternative à ChatGPT qui a pour objectif d’améliorer son moteur de recherche et surtout de rattraper son retard par rapport à OpenAI. Google pourrait s'être par ailleurs tourné vers une entreprise moins connue du nom d'Anthropic et fondée par d'anciens employés d'OpenAI.

Le géant de Mountain View a investi approximativement 300 millions de dollars dans la startup d'intelligence artificielle Anthropic, ce qui en fait le dernier géant de la technologie à mettre son argent et sa puissance de calcul au service d'une nouvelle génération d'entreprises qui tentent de se faire une place dans le domaine en plein essor de l'"IA générative".

« L'IA est la technologie la plus profonde sur laquelle nous travaillons aujourd'hui. Qu'il s'agisse d'aider les médecins à détecter les maladies plus tôt ou de permettre aux gens d'accéder aux informations dans leur propre langue, l'IA aide les personnes, les entreprises et les communautés à libérer leur potentiel. Et elle ouvre de nouvelles possibilités qui pourraient améliorer considérablement la vie de milliards de personnes. C'est pourquoi nous avons réorienté l'entreprise autour de l'IA il y a six ans, et pourquoi nous la considérons comme le moyen le plus important de remplir notre mission : organiser les informations du monde et les rendre universellement accessibles et utiles.

Depuis lors, nous avons continué à investir dans l'IA dans tous les domaines, et Google AI et DeepMind font progresser l'état de l'art. Aujourd'hui, l'échelle des plus grands calculs d'IA double tous les six mois, dépassant de loin la loi de Moore. Dans le même temps, l'IA générative avancée et les grands modèles de langage captent l'imagination des gens dans le monde entier. En fait, notre projet de recherche Transformer et notre article définissant le domaine en 2017, ainsi que nos avancées importantes dans les modèles de diffusion, sont désormais à la base de nombreuses applications d'IA générative que vous commencez à voir aujourd'hui. »

Bard cherche à combiner l'étendue des connaissances mondiales avec la puissance, l'intelligence et la créativité des grands modèles linguistiques de Google. Il s'appuie sur des informations provenant du web pour fournir des réponses qui seraient de qualité. Selon Google, Bard peut être un exutoire pour la créativité et une rampe de lancement pour la curiosité, en aidant à « expliquer les nouvelles découvertes du télescope spatial James Webb de la NASA à un enfant de 9 ans », ou à en savoir plus sur les meilleurs attaquants de football du moment, puis à obtenir des exercices pour développer vos compétences. En d’autres termes, Bard fait exactement ce que fait ChatGPT.

Microsoft innove son moteur de recherche avec ChatGPT

Un jour après l’annonce de Google, Microsoft présente son nouveau Bing mais qui lui repose sur la technologie de ChatGPT. L’objectif : lancer une nouvelle expérience de recherche qui pourrait permettre à la firme de faire sortir son moteur de recherche de l’ombre de Google. La nouvelle expérience Bing est l'aboutissement de quatre percées techniques :

Un modèle OpenAI de nouvelle génération : Microsoft annonce que le nouveau Bing fonctionne avec un nouveau modèle OpenAI de nouvelle génération, plus puissant que ChatGPT et spécialement conçu pour la recherche. Il reprend les principaux enseignements et avancées de ChatGPT et GPT-3.5 et il est encore plus rapide, plus précis et plus performant ;
Le modèle Prometheus de Microsoft : Microsoft développe une méthode de travail propriétaire avec le modèle OpenAI qui permet d'exploiter au mieux sa puissance. Elle appelle cet ensemble de capacités et de techniques le modèle Prometheus. Cette combinaison donne des résultats plus pertinents, opportuns et ciblés, avec une sécurité accrue ;
Application de l'IA à l'algorithme de recherche principal : Microsoft a également appliqué le modèle d'IA à notre principal moteur de classement des recherches Bing, ce qui a entraîné le plus grand bond en avant de la pertinence en vingt ans. Grâce à ce modèle d'IA, même les requêtes de recherche de base sont plus précises et plus pertinentes ;
Nouvelle expérience utilisateur : Microsoft repense la façon dont les utilisateurs interagissent avec la recherche, le navigateur et le chat en les regroupant en une expérience unifiée. Cela pourrait débloquer une toute nouvelle manière d'interagir avec le web.

Microsoft en profite aussi pour intégrer de nouvelles fonctions d’IA à Edge, son navigateur web. Elle a mis à jour le navigateur Edge avec de nouvelles capacités d'IA et une nouvelle apparence, et a ajouté deux nouvelles fonctionnalités : Chat et compose. Grâce à la barre latérale Edge, il est possible de demander un résumé d'un long rapport financier pour en obtenir les principaux éléments, puis utiliser la fonction de chat pour demander une comparaison avec les données financières d'une entreprise concurrente et les placer automatiquement dans un tableau. Il est de plus possible de demander à Edge de l’aide à composer du contenu, comme un post LinkedIn, en lui donnant quelques invites pour commencer.

Sam Altman, le PDG d’OpenAI, qui a traité du moteur de recherche de Google dans une interview de « monopole de recherche léthargique » a déclaré qu'il voyait d'énormes avantages à la décision de Microsoft d'intégrer la technologie d'OpenAI dans son moteur de recherche. Toutefois, le PDG d'OpenAI a ajouté qu'il est difficile de dire comment Google s'adaptera à cette technologie.

Depuis la sortie de la dernière version de ChatGPT le 30 novembre, Sundar Pichai, le PDG de Google et de sa société mère Alphabet, a participé à plusieurs réunions centrées sur la stratégie de Google en matière d'IA, en réponse à la menace que le chatbot représentait pour la société de moteurs de recherche de Google, The, rapporte le New York Times.

Microsoft aussi travaille sur le contrôle robotique

Google Robotics n'est pas le seul groupe de recherche à travailler sur le contrôle robotique à l'aide de réseaux neuronaux. Ce travail particulier ressemble au récent article de Microsoft intitulé ChatGPT for Robotics, qui a expérimenté la combinaison de données visuelles et de grands modèles de langage pour le contrôle robotique d'une manière similaire.

Qu’est-ce que ChqtGPT ?

ChatGPT est un grand modèle de langage général (LLM) développé récemment par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées « prompts ».

Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.

Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.

ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.

« Nous avons étendu les capacités de ChatGPT à la robotique et contrôlé plusieurs plateformes telles que des bras robotisés, des drones et des robots d'assistance à domicile de manière intuitive avec le langage », Microsoft.

Avez-vous déjà voulu dire à un robot ce qu'il doit faire en utilisant vos propres mots, comme vous le feriez pour un humain ? Ne serait-il pas extraordinaire de pouvoir dire à votre robot assistant domestique : « S'il vous plaît, réchauffez mon déjeuner », et qu'il trouve tout seul le four à micro-ondes ? Bien que le langage soit le moyen le plus intuitif d'exprimer nos intentions, nous dépendons encore largement du code écrit à la main pour contrôler les robots. L’équipe de Microsoft a étudié comment nous pouvons changer cette réalité et rendre possibles des interactions naturelles entre l'homme et le robot en utilisant le nouveau modèle de langage de l'OpenAI, ChatGPT.

ChatGPT est un modèle de langage entraîné sur un corpus massif de textes et d'interactions humaines, ce qui lui permet de générer des réponses cohérentes et grammaticalement correctes à un large éventail d'invites et de questions. L’objectif prononcé par Microsoft pour cette recherche est de voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques.

« Nous voulons aider les gens à interagir plus facilement avec les robots, sans avoir besoin d'apprendre des langages de programmation complexes ou des détails sur les systèmes robotiques. Le défi principal est d'enseigner à ChatGPT comment résoudre des problèmes en tenant compte des lois de la physique, du contexte, de l'environnement opérationnel et de la façon dont les actions physiques du robot peuvent changer l'état du monde. Il s'avère que ChatGPT peut faire beaucoup par lui-même, mais il a encore besoin d'aide », Microsoft.

Les défis de la robotique aujourd'hui, et comment ChatGPT peut aider

Les filières robotiques actuelles commencent par un ingénieur ou un utilisateur technique qui doit traduire les exigences de la tâche en code pour le système. L'ingénieur reste dans la boucle, ce qui signifie qu'il doit écrire de nouveaux codes et spécifications pour corriger le comportement du robot. Dans l'ensemble, ce processus est lent (l'utilisateur doit écrire un code de bas niveau), coûteux (il nécessite des utilisateurs hautement qualifiés ayant une connaissance approfondie de la robotique) et inefficace (il faut de multiples interactions pour que les choses fonctionnent correctement).

Nom : ChatLLM.jpg
Affichages : 1970
Taille : 35,9 Ko

ChatGPT débloque un nouveau paradigme robotique et permet à un utilisateur (potentiellement non technique) de s'asseoir sur la boucle, en fournissant un retour d'information de haut niveau au grand modèle de langage (LLM) tout en surveillant les performances du robot. En suivant son ensemble de principes de conception, ChatGPT peut générer du code pour des scénarios robotiques. Sans aucun réglage fin, nous exploitons les connaissances du LLM pour contrôler différents facteurs de forme de robots pour une variété de tâches. Dans leur travail, les chercheurs de Microsoft montrent plusieurs exemples de ChatGPT résolvant des énigmes robotiques, ainsi que des déploiements de robots complexes dans le domaine de la manipulation, de l'aérien et de la navigation.

Robotique avec ChatGPT : principes de conception

La rédaction de messages-guides pour les LLM est une science très empirique. En procédant par essais et erreurs, nous avons élaboré une méthodologie et un ensemble de principes de conception pour la rédaction de messages-guides destinés à des tâches robotiques :

Nom : Chatllm1.jpg
Affichages : 1929
Taille : 32,2 Ko

Tout d'abord, les chercheurs définissent un ensemble d'API de haut niveau pour les robots ou une bibliothèque de fonctions. Cette bibliothèque peut être spécifique à un robot particulier, et doit correspondre aux implémentations de bas niveau existantes de la pile de contrôle du robot ou d'une bibliothèque de perception. Il est très important d'utiliser des noms descriptifs pour les API de haut niveau afin que ChatGPT puisse raisonner sur leurs comportements ;
Ensuite, ils écrivent une invite textuelle pour ChatGPT qui décrit l'objectif de la tâche tout en indiquant explicitement quelles fonctions de la bibliothèque de haut niveau sont disponibles. L'invite peut également contenir des informations sur les contraintes de la tâche, ou la manière dont ChatGPT doit formuler ses réponses (langage de codage spécifique, utilisation d'éléments d'analyse auxiliaires) ;
L'utilisateur reste sur la boucle pour évaluer la sortie du code de ChatGPT, soit par une inspection directe, soit en utilisant un simulateur. Si nécessaire, l'utilisateur utilise le langage naturel pour fournir un retour d'information à ChatGPT sur la qualité et la sécurité de la réponse ;
Lorsque l'utilisateur est satisfait de la solution, le code final peut être déployé sur le robot.

Robotique mise à part, les chercheurs de Google ont observé plusieurs effets intéressants qui découlent apparemment de l'utilisation d'un grand modèle de langage comme noyau de PaLM-E. Tout d'abord, il présente un "transfert positif", ce qui signifie qu'il peut transférer les connaissances et les compétences qu'il a apprises d'une tâche à l'autre, ce qui se traduit par des « performances nettement supérieures » à celles des modèles de robots à tâche unique.

Ils ont également observé une tendance liée à l'échelle du modèle : « Plus le modèle linguistique est grand, plus il conserve ses capacités linguistiques lors de l'entraînement à des tâches de langage visuel et de robotique - quantitativement, le modèle 562B PaLM-E conserve presque toutes ses capacités linguistiques.

What happens when we train the largest vision-language model and add in robot experiences?
The result is PaLM-E 🌴🤖, a 562-billion parameter, general-purpose, embodied visual-language generalist - across robotics, vision, and language.

Website: https://t.co/ouMkeQiGr5 pic.twitter.com/5qfK23g52d
— Danny Driess (@DannyDriess) March 7, 2023

Les chercheurs affirment que PaLM-E présente des potentialités émergentes telles que le raisonnement multimodal par chaîne de pensée (qui permet au modèle d'analyser une séquence d'entrées comprenant à la fois des informations linguistiques et visuelles) et l'inférence multi-images (qui utilise plusieurs images en tant qu'entrées pour faire une inférence ou une prédiction), bien qu'il ait été entraîné sur des messages-guides à une seule image.

En ce sens, PaLM-E semble poursuivre la tendance à l'émergence de surprises au fur et à mesure que les modèles d'apprentissage profond deviennent plus complexes au fil du temps. Les chercheurs de Google prévoient d'explorer d'autres applications de PaLM-E dans des scénarios réels tels que la domotique ou la robotique industrielle. Ils espèrent que PaLM-E inspirera d'autres recherches sur le raisonnement multimodal et l'IA incarnée.

Sources : Google, Microsoft

Et vous ?

Quel est votre avis sur le sujet ?

Microsoft souhaite voir si ChatGPT peut penser au-delà du texte et raisonner sur le monde physique pour aider dans les tâches robotiques. Quelle appréciation faites-vous de cet objectif ?

La course entre Microsoft et Google pour le contrôle de l'IA est-elle bonne ou mauvaise ?

Voir aussi :

Google investit 300 M$ dans la start-up d'IA Anthropic, fondée par d'anciens chercheurs d'OpenAI, la société a construit son propre chatbot généraliste, un rival de ChatGPT nommé Claude

Le fondateur de ChatGPT accuse Google d'être un « monopole de recherche léthargique », alors que la guerre de l'intelligence artificielle entre le Google et Microsoft s'intensifie

**Bruno** · 16/03/2023, 11h45

Google annonce des fonctionnalités d'IA dans Gmail, Docs et autres,
pour rivaliser avec Microsoft

Google a annoncé une série de fonctionnalités d'IA générative pour ses différentes applications Workspace, notamment Google Docs, Gmail, Sheets et Slides. « Nous mettons la puissance de l'IA générative à la disposition des développeurs et des entreprises par le biais de Google Cloud et de MakerSuite. Et nous introduisons de nouvelles fonctionnalités alimentées par l'IA dans Google Workspace », Thomas Kurian, CEO Google Cloud.

Ces fonctionnalités comprennent de nouvelles façons de générer, de résumer et de réfléchir à un texte avec l'IA dans Google Docs (de la même manière que de nombreuses personnes utilisent ChatGPT d'OpenAI), l'option de générer des courriels complets dans Gmail sur la base de brèves listes de points, et la possibilité de produire des images, du son et des vidéos d'IA pour illustrer des présentations dans Slides (de la même manière que dans Microsoft Designer, alimenté par DALL-E d'OpenAI, et Canva, alimenté par Stable Diffusion).

Nom : New__revised_0312_Keyword_blog-header-animated-final_YCPcPYO.gif
Affichages : 1299
Taille : 1,70 Mo

Cette annonce montre l'empressement de Google à rattraper ses concurrents dans la nouvelle course à l'IA. Depuis l'arrivée de ChatGPT l'année dernière et le lancement par Microsoft de son chatbot Bing en février, le géant de la recherche s'est efforcé de lancer des fonctionnalités d'IA similaires. L'entreprise aurait déclaré un "code rouge" en décembre, la direction générale demandant à son personnel d'ajouter des outils d'IA à tous ses produits, qui sont utilisés par des milliards de personnes, en l'espace de quelques mois.

« Nous nous trouvons actuellement à un moment charnière de notre parcours dans le domaine de l'IA. Les percées réalisées dans le domaine de l'IA générative modifient radicalement la manière dont les gens interagissent avec la technologie », déclare Thomas Kurian. « Chez Google, nous avons développé de manière responsable de vastes modèles de langage afin de pouvoir les intégrer en toute sécurité dans nos produits. Aujourd'hui, nous sommes ravis de partager nos premiers progrès », poursuit-il.

Google investit dans l'IA depuis de nombreuses années et fait profiter les particuliers, les entreprises et les communautés de ses avantages. Qu'il s'agisse de publier des travaux de recherche de pointe, de concevoir des produits utiles ou de développer des outils et des ressources pour aider les autres, nous nous engageons à rendre l'IA accessible à tous.

ChatGPT a été créé par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts".

Google rivalise Microsoft pour l’avenir de l’IA

Google semble également préoccupé par le maintien de sa domination dans le domaine de la recherche. Le moteur de recherche de Google représentait plus de 91 % du marché mondial de la recherche au cours des 12 derniers mois, tandis que Bing représentait environ 3 %, selon les données de SimilarWeb.

En réponse à Microsoft qui serait fermement lié à OpenAI, Google a dévoilé Bard, une alternative à ChatGPT qui a pour objectif d’améliorer son moteur de recherche et surtout de rattraper son retard par rapport à OpenAI. Google pourrait s'être par ailleurs tourné vers une entreprise moins connue du nom d'Anthropic et fondée par d'anciens employés d'OpenAI.

Le géant de Mountain View a investi environ 300 millions de dollars dans la startup d'IA Anthropic, ce qui en fait le dernier géant de la technologie à mettre son argent et sa puissance de calcul au service d'une nouvelle génération d'entreprises qui tentent de se faire une place dans le domaine en plein essor de l' « IA générative ».

« L'IA est la technologie la plus profonde sur laquelle nous travaillons aujourd'hui. Qu'il s'agisse d'aider les médecins à détecter les maladies plus tôt ou de permettre aux gens d'accéder aux informations dans leur propre langue, l'IA aide les personnes, les entreprises et les communautés à libérer leur potentiel. Et elle ouvre de nouvelles possibilités qui pourraient améliorer considérablement la vie de milliards de personnes. C'est pourquoi nous avons réorienté l'entreprise autour de l'IA il y a six ans, et pourquoi nous la considérons comme le moyen le plus important de remplir notre mission : organiser les informations du monde et les rendre universellement accessibles et utiles.

Depuis lors, nous avons continué à investir dans l'IA dans tous les domaines, et Google AI et DeepMind font progresser l'état de l'art. Aujourd'hui, l'échelle des plus grands calculs d'IA double tous les six mois, dépassant de loin la loi de Moore. Dans le même temps, l'IA générative avancée et les grands modèles de langage captent l'imagination des gens dans le monde entier. En fait, notre projet de recherche Transformer et notre article définissant le domaine en 2017, ainsi que nos avancées importantes dans les modèles de diffusion, sont désormais à la base de nombreuses applications d'IA générative que vous commencez à voir aujourd'hui.

Un jour après l’annonce de Google, Microsoft présente son nouveau Bing mais qui lui repose sur la technologie de ChatGPT. L’objectif : lancer une nouvelle expérience de recherche qui pourrait permettre à la firme de faire sortir son moteur de recherche de l’ombre de Google. La nouvelle expérience Bing est l'aboutissement de quatre percées techniques :

un modèle OpenAI de nouvelle génération : Microsoft annonce que le nouveau Bing fonctionne avec un nouveau modèle OpenAI de nouvelle génération, plus puissant que ChatGPT et spécialement conçu pour la recherche. Il reprend les principaux enseignements et avancées de ChatGPT et GPT-3.5 et il est encore plus rapide, plus précis et plus performant ;
le modèle Prometheus de Microsoft : Microsoft développe une méthode de travail propriétaire avec le modèle OpenAI qui permet d'exploiter au mieux sa puissance. Elle appelle cet ensemble de capacités et de techniques le modèle Prometheus. Cette combinaison donne des résultats plus pertinents, opportuns et ciblés, avec une sécurité accrue ;
application de l'IA à l'algorithme de recherche principal : Microsoft a également appliqué le modèle d'IA à notre principal moteur de classement des recherches Bing, ce qui a entraîné le plus grand bond en avant de la pertinence en vingt ans. Grâce à ce modèle d'IA, même les requêtes de recherche de base sont plus précises et plus pertinentes ;
nouvelle expérience utilisateur : Microsoft repense la façon dont les utilisateurs interagissent avec la recherche, le navigateur et le chat en les regroupant en une expérience unifiée. Cela pourrait débloquer une toute nouvelle manière d'interagir avec le web.

Microsoft en profite également pour intégrer de nouvelles fonctions d’IA à Edge, son navigateur web. Elle a mis à jour le navigateur Edge avec de nouvelles capacités d'IA et un nouveau look, et a ajouté deux nouvelles fonctionnalités : Chat et compose. Grâce à la barre latérale Edge, il est possible de demander un résumé d'un long rapport financier pour en obtenir les principaux éléments, puis utiliser la fonction de chat pour demander une comparaison avec les données financières d'une entreprise concurrente et les placer automatiquement dans un tableau. Il est de plus possible de demander à Edge de l’aide à composer du contenu, comme un post LinkedIn, en lui donnant quelques invites pour commencer.

La nouvelle génération d'IA pour les développeurs et Google Workspace

API PaLM et MakerSuite : une manière accessible d'explorer et de prototyper avec des applications d'IA générative. De nombreux changements de technologie et de plateforme - du mobile au cloud computing - ont inspiré des écosystèmes entiers de développeurs à lancer de nouvelles entreprises, à imaginer de nouveaux produits et à transformer leur façon de créer. Nous sommes au milieu d'un autre changement avec l'IA qui a un effet profond sur toutes les industries.

Pour les développeurs qui expérimentent l'IA, Google introduit l'API PaLM, un moyen « simple » de construire à partir de ses meilleurs modèles de langage. « Aujourd'hui, nous mettons à disposition un modèle efficace, en termes de taille et de capacités, et nous ajouterons bientôt d'autres tailles », a écrit Google. L'API s'accompagne également d'un outil intuitif appelé MakerSuite, qui vous permet de prototyper rapidement des idées et qui, au fil du temps, offrira des fonctions d'ingénierie rapide, de génération de données synthétiques et de réglage de modèles personnalisés, le tout soutenu par des outils de sécurité robustes.

Apporter des capacités d'IA générative à Google Cloud

Les développeurs qui souhaitent créer et personnaliser leurs propres modèles et applications à l'aide de l'IA générative peuvent accéder aux modèles d'IA de Google, y compris PaLM, sur Google Cloud. Google apporte de nouvelles capacités d'IA générative à son portefeuille Google Cloud AI afin d'aider les développeurs et les organisations à accéder à la sûreté, à la sécurité et à la confidentialité au niveau de l'entreprise, ainsi qu'à s'intégrer à leurs solutions Cloud existantes :

Prise en charge de l'IA générative dans Vertex AI : les développeurs et les entreprises utilisent déjà la plateforme Vertex AI de Google Cloud pour créer et déployer des modèles d'apprentissage automatique et des applications d'IA à grande échelle. Google propose désormais des modèles de base, d'abord pour générer du texte et des images, puis, au fil du temps, de l'audio et de la vidéo. Les clients de Google Cloud auront la possibilité de découvrir des modèles, de créer et de modifier des invites, de les affiner avec leurs propres données et de déployer des applications qui utilisent ces nouvelles technologies puissantes ;
Constructeur d'applications d'IA générative : les entreprises et les gouvernements souhaitent également créer leurs propres interfaces de chat et assistants numériques alimentés par l'IA. Pour ce faire, Google introduit Generative AI App Builder, qui connecte les flux d'IA conversationnelle avec des expériences de recherche prêtes à l'emploi et des modèles de base - aidant les entreprises à créer des applications d'IA générative en quelques minutes ou quelques heures ;
Nouveaux partenariats et programmes d'IA : outre l'annonce de nouveaux produits Google Cloud AI, Google s’est également engagée à être le fournisseur de cloud le plus ouvert. « Nous développons notre écosystème d'IA et des programmes spécialisés pour les partenaires technologiques, les fournisseurs de logiciels axés sur l'IA et les startups », précise Thomas Kurian.

« Les développeurs et les entreprises peuvent désormais essayer de nouvelles API et de nouveaux produits qui facilitent, sécurisent et rendent évolutive l'utilisation des meilleurs modèles d'IA de Google par le biais de Google Cloud et d'un nouvel environnement de prototypage appelé MakerSuite. Dans Google Workspace, nous introduisons de nouvelles fonctionnalités qui aident les utilisateurs à exploiter la puissance de l'IA générative pour créer, se connecter et collaborer », a-t-il ajouté.

Nouvelles fonctionnalités d'IA générative dans Google Workspace

Plus de 3 milliards de personnes bénéficient déjà de fonctionnalités basées sur l'IA dans Google Workspace, qu'il s'agisse de Smart Compose dans Gmail ou de résumés générés automatiquement dans Google Docs. Aujourd'hui, nous sommes ravis de passer à l'étape suivante et de proposer à un nombre limité de testeurs de confiance un nouvel ensemble de fonctionnalités qui facilitent encore davantage le processus de rédaction.

Envoyé par Johanna Voolich Wright, Vice-présidente, Produits, chez Google Workspace

Nous permettons désormais aux utilisateurs de Workspace d'exploiter la puissance de l'IA générative pour créer, se connecter et collaborer comme jamais auparavant. Pour commencer, nous présentons un premier ensemble de fonctions d'écriture alimentées par l'IA dans Docs et Gmail à des testeurs de confiance.

En tant que suite de communication et de collaboration cloud-native la plus populaire et la plus sécurisée au monde, nous prenons très au sérieux la réussite de ces fonctionnalités, et ce à grande échelle. Grâce à notre expérience approfondie en matière d'IA et de productivité, nous savons que la création de fonctionnalités avec l'IA nécessite une grande attention, une expérimentation réfléchie et de nombreuses itérations basées sur le retour d'information des utilisateurs.

Nous faisons tout cela en mettant en place des garde-fous contre les abus, en protégeant la confidentialité des données des utilisateurs et en respectant les contrôles des clients en matière de gouvernance des données.

Dans Gmail et Google Documents, il suffit de saisir un sujet sur lequel vous souhaitez écrire pour qu'un brouillon soit instantanément généré. Ainsi, si vous êtes un responsable chargé de l'intégration d'un nouvel employé, Workspace permet d'économiser le temps et les efforts nécessaires à la rédaction du premier message de bienvenue. À partir de là, vous pouvez développer ou abréger le message, ou adapter le ton pour qu'il soit plus ludique ou plus professionnel, le tout en quelques clics.

La mission de Workspace est de connecter les gens de manière significative afin qu'ils puissent créer, construire et se développer ensemble. Selon les progrès de l'IA générative nous permettent de remplir cette mission d'une nouvelle manière. Aujourd'hui, nous partageons notre vision élargie de l'évolution de Workspace pour intégrer l'IA en tant que partenaire collaboratif toujours présent pour vous aider à atteindre vos objectifs, dans Gmail, Docs, Slides, Sheets, Meet et Chat.

Entraînement d'un modèle de langage de 540 milliards de paramètres avec Pathways

PaLM démontre la première utilisation à grande échelle du système Pathways pour adapter l'entraînement à 6144 puces, la plus grande configuration de système basée sur TPU utilisée pour l'entraînement à ce jour. La formation est mise à l'échelle en utilisant le parallélisme de données au niveau du Pod sur deux Pods Cloud TPU v4, tout en utilisant le parallélisme de données et de modèles standard au sein de chaque Pod.

Il s'agit d'une augmentation significative de l'échelle par rapport à la plupart des LLM précédents, qui ont été entraînés sur un seul Pod TPU v3 (par exemple, GLaM, LaMDA), ont utilisé le parallélisme de pipeline pour s'étendre à 2240 GPU A100 à travers les clusters GPU (Megatron-Turing NLG) ou ont utilisé plusieurs Pods TPU v3 (Gopher) avec une échelle maximale de 4096 puces TPU v3.

PaLM atteint une efficacité de formation de 57,8 % d'utilisation de matériels FLOPs, la plus élevée jamais atteinte pour les LLM à cette échelle. Ce résultat est dû à la combinaison de la stratégie de parallélisme et d'une reformulation du bloc Transformer qui permet de calculer en parallèle les couches d'attention et d'anticipation, ce qui permet d'obtenir des accélérations grâce aux optimisations du compilateur de la TPU.

Nom : image1.jpg
Affichages : 1111
Taille : 23,1 Ko

Le PaLM a été entraîné à l'aide d'une combinaison d'ensembles de données anglaises et multilingues comprenant des documents web de haute qualité, des livres, Wikipedia, des conversations et du code GitHub. Nous avons également créé un vocabulaire "sans perte" qui préserve tous les espaces blancs (particulièrement importants pour le code), divise les caractères Unicode hors vocabulaire en octets et divise les nombres en jetons individuels, un pour chaque chiffre.

Des capacités révolutionnaires pour les tâches de langage, de raisonnement et de codage. Le PaLM présente des capacités révolutionnaires pour de nombreuses tâches très difficiles. Nous présentons ci-dessous quelques exemples de compréhension et de génération de langage, de raisonnement et de tâches liées au code.

Compréhension et génération de langage

PaLM a été évalué sur 29 tâches de traitement du langage naturel (NLP) largement utilisées en anglais. Le PaLM 540B a surpassé les performances des grands modèles précédents, tels que GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla et LaMDA, sur 28 des 29 tâches qui couvrent les tâches de réponse aux questions (variante ouverte-domaine à livre fermé), les tâches de cloze et de complétion de phrases, les tâches de style Winograd, les tâches de compréhension de la lecture en contexte, les tâches de raisonnement de sens commun, les tâches SuperGLUE et les tâches d'inférence du langage naturel.

Un groupe de chercheurs en intelligence artificielle de Google et de l'université technique de Berlin a dévoilé le 6 mars le PaLM-E, un modèle multimodal de langage visuel incarné (VLM) avec 562 milliards de paramètres qui intègre la vision et le langage pour le contrôle robotique. Ils affirment qu'il s'agit du plus grand VLM jamais développé et qu'il peut effectuer une variété de tâches sans avoir besoin d'être réentraîné.

Selon Google, lorsqu'il reçoit une commande de haut niveau, telle que « apporte-moi les chips de riz du tiroir », le PaLM-E peut générer un plan d'action pour une plateforme robotique mobile dotée d'un bras (développée par Google Robotics) et exécuter les actions par lui-même. Pour ce faire, PaLM-E analyse les données de la caméra du robot sans avoir besoin d'une représentation prétraitée de la scène. Il n'est donc pas nécessaire qu'un humain prétraite ou annote les données, ce qui permet un contrôle robotique plus autonome.

Il est également résistant et peut réagir à son environnement. Par exemple, le modèle PaLM-E peut guider un robot pour qu'il aille chercher un sac de chips dans une cuisine - et avec PaLM-E intégré dans la boucle de contrôle, il devient résistant aux interruptions qui peuvent survenir pendant la tâche. Dans un exemple vidéo, un chercheur saisit les chips du robot et les déplace, mais le robot localise les chips et les saisit à nouveau.

« Notre plus grand modèle, PaLM-E-562B avec 562B paramètres, en plus d'être entraîné sur des tâches robotiques, est un généraliste du langage visuel avec des performances de pointe sur OK-VQA, et conserve des capacités de langage généraliste avec l'augmentation de l'échelle », Google.

Source : Google

Et vous ?

Quel est votre avis sur le sujet ?

Dans Gmail et Google Documents, il suffit de saisir un sujet sur lequel vous souhaitez écrire pour qu'un brouillon soit instantanément généré. Quelle appréciation faites vous de cette nouvelle possibilité qu'offre l'IA dans Gmail, Docs ?

Voir aussi :

Google dévoile PaLM-E, un modèle d'IA de type ChatGPT, qui prend en compte les besoins de l'utilisateur, une similitude est dégagée dans le récent article de Microsoft intitulé "ChatGPT for Robotic"

Google investit 300 M$ dans la start-up d'IA Anthropic, fondée par d'anciens chercheurs d'OpenAI, la société a construit son propre chatbot généraliste, un rival de ChatGPT nommé Claude

Google annonce des fonctionnalités d'IA dans Gmail, Docs et autres

Intelligence artificielle

Discussions similaires

Partager

Partager