Le PDG de Google DeepMind affirme que l'entreprise investira plus de 100 Mds $ au développement de l'IA

**Stéphane le calme** · 27/06/2023, 03h21

Comment Google DeepMind compte-t-il révolutionner l'IA générative et détrôner ChatGPT avec Gemini,
son système d’IA qui combine les forces d’AlphaGo aux capacités des grands modèles de langage

Google DeepMind, le laboratoire d’intelligence artificielle de Google, travaille sur un nouveau système appelé Gemini qui promet de dépasser les capacités de ChatGPT, le chatbot développé par OpenAI. C’est ce qu’a déclaré Demis Hassabis, le cofondateur et PDG de DeepMind, lors d’une interview.

DeepMind est un pionnier de la recherche en IA depuis dix ans. La société, basée à Londres, au Royaume-Uni, a fait ses preuves avec les systèmes tels qu’AlphaCode, AlphaGo et AlphaFold. Le système d'IA AlphaGo de DeepMind a réussi l'exploit de terrasser Lee Sedol, l'un des meilleurs joueurs du jeu de Go au monde. La société a été rachetée par Alphabet, la société mère de Google, le géant de la recherche et DeepMind ayant entretenu des liens étroits ces dernières années. Après des systèmes d'IA pour le jeu de Go (AlphaGo) et la programmation (AlphaCode), DeepMind a annoncé qu'il se prépare désormais à se lancer sur le marché des chatbots.

Gemini est un modèle de langage de grande taille qui traite du texte et qui est similaire à GPT-4, la technologie qui alimente ChatGPT. Mais Hassabis affirme que son équipe va combiner cette technologie avec des techniques utilisées dans AlphaGo, le programme qui a battu un champion du jeu de Go en 2016. L’objectif est de doter le système de nouvelles capacités telles que la planification ou la résolution de problèmes.

« À un niveau élevé, vous pouvez penser à Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques incroyables des grands modèles », explique Hassabis. « Nous avons aussi quelques innovations qui vont être assez intéressantes ».

Gemini a été présenté pour la première fois lors de la conférence des développeurs de Google le mois dernier, lorsque la société a annoncé une série de nouveaux projets d’IA. AlphaGo était basé sur une technique que DeepMind a perfectionnée appelée l’apprentissage par renforcement, dans laquelle un logiciel apprend à résoudre des problèmes difficiles qui nécessitent de choisir des actions à entreprendre comme dans le Go ou les jeux vidéo en faisant des tentatives répétées et en recevant un retour d’information sur ses performances. Il utilisait également une méthode appelée recherche arborescente pour explorer et mémoriser les coups possibles sur le plateau.

La prochaine grande avancée pour les modèles de langage pourrait impliquer qu’ils effectuent davantage de tâches sur internet et sur les ordinateurs. Gemini est encore en développement, un processus qui prendra plusieurs mois, selon Hassabis. Il pourrait coûter des dizaines ou des centaines de millions de dollars. Sam Altman, PDG d’OpenAI, a déclaré en avril que la création de GPT-4 avait coûté plus de 100 millions de dollars.

Rattraper son retard

Lorsque Gemini sera achevé, il pourrait jouer un rôle majeur dans la réponse de Google à la menace concurrentielle posée par ChatGPT et d’autres technologies d’IA génératives. La société de recherche a été pionnière dans de nombreuses techniques qui ont permis le récent torrent de nouvelles idées en IA, mais a choisi de développer et de déployer des produits basés sur celles-ci avec prudence. Depuis le lancement de ChatGPT, Google s’est empressé de sortir son propre chatbot, Bard, et d’intégrer l’IA générative dans son moteur de recherche et de nombreux autres produits.

Pour stimuler la recherche en IA, la société a fusionné en avril l’unité DeepMind d’Hassabis avec le principal laboratoire d’IA de Google, Brain, pour créer Google DeepMind. Hassabis affirme que la nouvelle équipe réunira deux poids lourds qui ont été à la base des progrès récents en IA.

Les perspectives d’avenir : libérer le pouvoir de Gemini

Former un modèle de langage sophistiqué comme Gemini implique de fournir au logiciel d’apprentissage automatique d’énormes quantités de texte soigneusement sélectionnées. Hassabis explique que son équipe utilise des données provenant de sources diverses et variées, telles que des livres, des articles, des blogs, des réseaux sociaux ou des conversations en ligne. Il précise que les données sont filtrées pour éliminer les contenus inappropriés ou biaisés.

L’un des principaux défis auxquels DeepMind doit faire face est de s’assurer que Gemini respecte les normes éthiques et les principes de Google en matière d’IA responsable. Hassabis affirme que son équipe travaille en étroite collaboration avec les experts en éthique et en politique de Google pour garantir que le système soit sûr, fiable et bénéfique pour la société.

« Nous voulons nous assurer que Gemini soit un outil utile et positif pour les gens », dit-il. « Nous voulons qu’il soit capable de répondre à des questions, de fournir des informations, de générer du contenu créatif ou de divertir les utilisateurs ».

Hassabis envisage que Gemini puisse être utilisé dans divers domaines, tels que l’éducation, la santé, le divertissement ou les affaires. Il espère que le système pourra aider les gens à apprendre de nouvelles choses, à résoudre des problèmes, à exprimer leur créativité ou à se connecter avec d’autres.

« Nous pensons que Gemini a le potentiel de changer la façon dont les gens interagissent avec l’IA et avec le monde », dit-il. « Nous sommes impatients de partager nos progrès avec le public et d’obtenir leurs commentaires ».

Nom : hass.png
Affichages : 3397
Taille : 424,2 Ko

Un rival de taille pour ChatGPT ?

Gemini n’est pas le seul modèle de langage à vouloir rivaliser avec ChatGPT. D’autres acteurs majeurs du domaine de l’IA, tels que Facebook, Microsoft ou Amazon, travaillent également sur leurs propres systèmes. Hassabis reconnaît que la concurrence est rude, mais il affirme que DeepMind a un avantage unique : son expérience et son expertise dans l’apprentissage par renforcement et la recherche arborescente.

« Nous pensons que ces techniques sont essentielles pour créer des systèmes d’IA capables de raisonner, de planifier et de résoudre des problèmes complexes », dit-il. « Nous pensons que Gemini sera le premier modèle de langage à intégrer ces capacités de manière efficace et robuste ».

Hassabis se dit confiant dans le fait que Gemini surpassera ChatGPT et les autres modèles de langage existants ou à venir. Il affirme que le système sera capable de générer des réponses plus pertinentes, plus cohérentes et plus diversifiées que ses concurrents. Il ajoute que le système sera également capable de s’adapter aux besoins et aux préférences des utilisateurs, en leur offrant une expérience personnalisée et engageante.

« Nous pensons que Gemini sera le modèle de langage le plus avancé et le plus polyvalent jamais créé », dit-il. « Nous pensons qu’il ouvrira la voie à une nouvelle génération d’IA générative qui aura un impact positif sur le monde ».

DeepMind n'en est pas à son coup d'essai

Il convient de noter que Gemini n'est pas la première incursion de DeepMind dans les modèles de langage. L'année dernière, la société a présenté Sparrow, un chatbot qui, selon le laboratoire, était moins susceptible que d'autres modèles linguistiques de donner des réponses « dangereuses » ou « inappropriées » aux questions.

Envoyé par DeepMind

Pour créer des agents de dialogue plus sûrs, nous devons être capables d'apprendre de la rétroaction humaine. En appliquant l'apprentissage par renforcement basé sur les commentaires des participants à la recherche, nous explorons de nouvelles méthodes de formation des agents de dialogue qui s'avèrent prometteuses pour un système plus sûr.

Dans notre dernier article, nous présentons Sparrow - un agent de dialogue qui est utile et réduit le risque de réponses dangereuses et inappropriées. Notre agent est conçu pour parler avec un utilisateur, répondre à des questions et effectuer des recherches sur Internet à l'aide de Google lorsqu'il est utile de rechercher des preuves pour éclairer ses réponses.

Sparrow est un modèle de recherche et une preuve de concept, conçu dans le but de former des agents de dialogue pour qu'ils soient plus utiles, corrects et inoffensifs. En apprenant ces qualités dans un cadre de dialogue général, Sparrow fait progresser notre compréhension de la façon dont nous pouvons former des agents pour qu'ils soient plus sûrs et plus utiles - et finalement, pour aider à construire une intelligence artificielle générale (IAG) plus sûre et plus utile.

Selon les premiers tests, Sparrow fournit une réponse plausible et l'étaye avec des preuves 78 % du temps lorsqu'on lui pose une question factuelle : « Pourtant, Sparrow n'est pas à l'abri de faire des erreurs, comme des faits hallucinants et de donner des réponses parfois hors sujet », reconnaît DeepMind.

Hassabis a déclaré en janvier que DeepMind envisagerait de publier Sparrow pour une bêta privée dans le courant de l'année ; on ne sait pas si ces plans sont toujours sur la bonne voie.

Gemini est cependant le travail le plus ambitieux de DeepMind dans ce segment à ce jour, du moins si l'on en croit les premiers rapports. The Information a rapporté en mars que Gemini (qui a été stimulé par les échecs de Bard, le projet de chatbot de Google), pour suivre le rythme de ChatGPT, a une participation directe des plus hauts gradés de Google, y compris Jeff Dean, le plus haut responsable de la recherche sur l'IA de l'entreprise.

Vers une recherche plus transparente

Alors que le développement de l'IA s'accélère, Hassabis reconnaît les risques et les incertitudes qui y sont associés. Les experts en intelligence artificielle craignent que la technologie ne soit exploitée à des fins malveillantes ou ne devienne difficile à contrôler. Certains ont même appelé à l'arrêt du développement d'algorithmes plus puissants pour éviter de créer des entités potentiellement dangereuses.

Cependant, Hassabis soutient que les énormes avantages potentiels de l'IA, tels que les progrès dans des domaines tels que la santé ou la science du climat, nécessitent la poursuite du développement de l'IA. Bien qu'il reconnaisse les risques, il croit fermement au progrès de la technologie de l'IA, la décrivant comme étant potentiellement « la technologie la plus bénéfique pour l'humanité », si elle est développée correctement.

DeepMind est conscient des risques potentiels de l'IA depuis sa création, avec un groupe interne de « sécurité de l'IA » dirigé par l'un des cofondateurs de l'entreprise, Shane Legg. Hassabis s'est également joint à d'autres personnalités de premier plan de l'IA pour publier une déclaration mettant en garde contre les risques associés à l'IA qui pourraient être comparables à une guerre nucléaire ou à une pandémie.

L'un des défis immédiats de Hassabis est d'identifier les risques probables d'une IA plus performante. Dans un effort pour promouvoir la transparence et ouvrir la recherche sur l'IA, Hassabis a suggéré que DeepMind pourrait accorder un accès précoce aux modèles de frontière pour le milieu universitaire. Cette décision contrecarrerait la crainte croissante que des experts extérieurs aux grandes entreprises soient exclus des dernières recherches sur l'IA.

Alors que la menace posée par l'IA reste incertaine, Hassabis demande instamment le développement de garanties compte tenu du rythme des progrès de l'IA.

Source : interview Demis Hassabis

Et vous ?

Que pensez-vous de l’annonce de Google DeepMind sur Gemini ?

Quelle lecture faites-vous des avancées promises par le PDG de DeepMind ?

**Michael Guilloux** · 24/07/2023, 08h41

Sergey Brin, cofondateur de Google, signe son retour pour aider à développer Gemini, le concurrent de ChatGPT
L'ex-président d'Alphabet s'implique dans la stratégie IA et le recrutement

Le cofondateur de Google, Sergey Brin, est revenu au siège de l'entreprise pour contribuer au développement de Gemini, le futur concurrent de ChatGPT. Après avoir quitté son poste de président d'Alphabet en 2019, Brin s'est de plus en plus impliqué dans la stratégie d'IA de Google en travaillant avec les chercheurs. Il s'est notamment penché sur des aspects techniques liés à l'IA et a été impliqué dans le recrutement de chercheurs. Son implication accrue reflète sa passion pour l'IA et les défis auxquels Google fait face pour rester compétitif dans le domaine. L'objectif de Google est de rivaliser avec le modèle GPT-4 d'OpenAI en lançant Gemini, dont le développement est dirigé par Demis Hassabis de Google DeepMind.

C'est en décembre 2019 que Sergey Brin et Larry Page, cofondateurs de Google, ont décidé de quitter la direction d'Alphabet, société mère de Google. Larry Page a démissionné de son poste de PDG d'Alphabet, tandis que Sergey Brin a quitté son poste de président. Cependant, les deux cofondateurs sont restés des actionnaires importants de l'entreprise et ont continué à exercer une influence significative sur les décisions stratégiques.

En tant que président de Google puis de la société mère Alphabet, Sergey Brin a été un moteur majeur derrière plusieurs projets de recherche et d'innovation de l'entreprise. Il a été impliqué dans le développement de Google Search, Google Maps, Google Glass, et d'autres projets novateurs qui ont contribué à la diversification de l'entreprise.

Aujourd'hui, le monde est en train de connaitre une petite révolution technologique avec les grands modèles de langage, mais Google, reconnu comme un des leaders mondiaux de l'IA, semble à la traîne. Pour rattraper son retard, l'entreprise est en train de développer un nouveau système supposé être plus performant que ChatGPT, et Sergey Brin a décidé de s'y impliquer.

Nom : serge_brin.png
Affichages : 2105
Taille : 557,9 Ko

Sergey Brin

Certains médias US rapportent en effet que depuis un certain temps, l'ex-président d'Alphabet se rend trois à quatre jours par semaine au siège d'Alphabet pour aider à développer Gemini. Son implication aurait porté sur des aspects techniques et administratifs, tels que la mesure des performances de l'IA, le recrutement de chercheurs, et l'organisation de réunions hebdomadaires pour discuter des dernières recherches en IA.

Sergey Brin et l'autre cofondateur d'Alphabet, Larry Page, ont été sollicités pour apporter leur soutien en décembre dernier, lorsque le PDG de Google, Sundar Pichai, a lancé une alerte rouge en réponse au lancement de ChatGPT.

Cependant, l'implication de Brin dans les efforts d'IA de Google s'est considérablement renforcée depuis lors. Cela intervient également à un moment critique pour le géant de la recherche, qui se retrouve à la traîne dans une compétition de plus en plus intense pour dominer le domaine de l'IA.

D'anciens et actuels employés de Google ont déclaré que l'implication accrue de Brin reflète sa passion pour l'IA ainsi que les défis de Google pour suivre le rythme de la commercialisation rapide de l'IA par ses concurrents. Pour rattraper son retard, Google compte énormément sur Gemini, son IA dont le développement est dirigé par le patron de Google DeepMind, Demis Hassabis.

Gemini est grand modèle de langage qui est similaire à GPT-4, la technologie qui alimente ChatGPT. Mais Hassabis affirme que son équipe va combiner cette technologie avec des techniques utilisées dans AlphaGo, le programme qui a battu un champion du jeu de Go en 2016. L’objectif est de doter le système de nouvelles capacités telles que la planification ou la résolution de problèmes.

« À un niveau élevé, vous pouvez penser à Gemini comme combinant certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques incroyables des grands modèles », explique Hassabis. « Nous avons aussi quelques innovations qui vont être assez intéressantes ».

Gemini a été présenté pour la première fois lors de la conférence des développeurs de Google au mois de mai, lorsque la société a annoncé une série de nouveaux projets d’IA. AlphaGo était basé sur une technique que DeepMind a perfectionnée, appelée l’apprentissage par renforcement. Grâce à cette technique, AlphaGo apprend à résoudre des problèmes difficiles qui nécessitent de choisir des actions à entreprendre comme dans le Go ou les jeux vidéo en faisant des tentatives répétées et en recevant un retour d’information sur ses performances. Il utilisait également une méthode appelée recherche arborescente pour explorer et mémoriser les coups possibles sur le plateau.

Gemini fera face à une concurrence rude

Lorsque Gemini sera achevé, il pourrait jouer un rôle majeur dans la réponse de Google à la menace concurrentielle posée par ChatGPT, mais pas seulement le système d'OpenAI. D’autres acteurs majeurs du domaine de l’IA, tels que Facebook ou Amazon, travaillent également sur leurs propres systèmes. Et la semaine dernière, Meta a dévoilé Llama 2. Il s'agit d'une nouvelle version de son grand modèle de langage, lancée en partenariat avec Microsoft, dans le but de rendre l'IA générative gratuitement accessible aux développeurs et aux entreprises.

Meta et Microsoft ont déclaré que le modèle serait "open source", bien que les partenaires ayant plus de 700 millions d'utilisateurs actifs par mois auront besoin d'une autorisation spéciale de Meta pour utiliser le modèle, selon les termes et conditions.

Hassabis reconnaît que la concurrence est rude, mais il affirme que DeepMind a un avantage unique : son expérience et son expertise dans l’apprentissage par renforcement et la recherche arborescente.

« Nous pensons que ces techniques sont essentielles pour créer des systèmes d’IA capables de raisonner, de planifier et de résoudre des problèmes complexes. Nous pensons que Gemini sera le premier modèle de langage à intégrer ces capacités de manière efficace et robuste », dit-il.

Hassabis se dit confiant dans le fait que Gemini surpassera ChatGPT et les autres modèles de langage existants ou à venir. Il affirme que le système sera capable de générer des réponses plus pertinentes, plus cohérentes et plus diversifiées que ses concurrents. Il ajoute que le système sera également capable de s’adapter aux besoins et aux préférences des utilisateurs, en leur offrant une expérience personnalisée et engageante.

« Nous pensons que Gemini sera le modèle de langage le plus avancé et le plus polyvalent jamais créé », dit-il. « Nous pensons qu’il ouvrira la voie à une nouvelle génération d’IA générative qui aura un impact positif sur le monde ».

Et vous ?

Que pensez-vous du retour de Sergey Brin pour travailler sur le concurrent de ChatGPT ?

Même si Gemini se montre plus performant que GPT, Google pourrait-il rattraper son retard sur le marché ?

Voir aussi

Meta s'associe à Microsoft et lance en open-source LLaMA 2 pour faire concurrence à chatGPT d'OpenAI, l'entreprise pourrait vouloir diluer l'avantage concurrentiel de ses rivaux

Comment Google DeepMind compte révolutionner l'IA générative et détrôner ChatGPT avec Gemini, son système d'IA qui combine les forces d'AlphaGo aux capacités des grands modèles de langage

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Le chatbot Bard de Google est enfin lancé dans l'UE et prend désormais en charge plus de 40 langues, mais les préoccupations en matière de protection de la vie privée persistent

**Mathis Lucas** · 29/08/2023, 12h38

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI
il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

Google travaille sur le projet Gemini qu'il a présenté comme un ensemble de grands modèles de langage (LLM) combinant diverses technologies. Alors que l'entreprise entretient un silence total autour de ce développement, un récent article indique que Gemini devrait être au moins cinq fois plus puissant que GPT-4 (le plus puissant modèle de langage d'OpenAI) grâce à ses capacités multimodales et à l'accès potentiel aux vastes bases de données d'entraînement propriétaires de Google provenant de divers services. Google reprendrait ainsi la tête de la course à l'IA. Cependant, aucune information officielle ne permet pour l'instant de corroborer cette affirmation.

Gemini : la réponse stratégique de Google à ChatGPT et GPT-4 d'OpenAI ?

L'intensification de la course à l'IA a poussé Alphabet, la société mère de Google, à fusionner ses deux équipes de recherche sur l'IA, Google Brain et DeepMind, en une seule entité appelée Google DeepMind. Le but déclaré d'Alphabet est de centraliser ses efforts et d'optimiser ses investissements. En plus, ces deux équipes ont un palmarès impressionnant. DeepMind est le créateur d'AlphaGo, l'IA qui a battu un champion du monde du jeu de Go en 2016, d'AlphaFold qui prédit la structure des protéines, etc. Google Brain a contribué à Google Traduction, et a notamment créé TensorFlow, ainsi que le modèle LaMDA sur lequel est basé le chatbot d'IA Bard.

De cette fusion est né le projet Gemini, une série de grands modèles de langage qui combinent les capacités de GPT-4 avec des techniques de formation tirées d'AlphaGo, telles que l'apprentissage par renforcement et la recherche arborescente. Il aurait le potentiel de détrôner ChatGPT en tant que solution d'IA générative la plus dominante de la planète. Gemini semble être la réponse stratégique de Google à ChatGPT. Le lancement de ChatGPT a ébranlé Google dans ses fondements. La menace était telle que le géant de la recherche a dû déclarer un code rouge et commencer à investir pour rattraper son retard sur OpenAI dans le domaine de l'IA générative.

Cet effort s'est traduit non seulement par la sortie de Bard, mais aussi de Gemini. Alors que Bard peine à séduire les utilisateurs, Gemini vise à remettre en question la domination de ChatGPT sur le marché très concurrentiel de l'IA générative. Pour ce faire, Gemini devrait s'appuyer sur ses capacités multimodales et à l'accès potentiel aux vastes données d'entraînement propriétaires de Google provenant de divers services. Les analystes estiment que le marché de l'IA générative pourrait valoir 1 300 milliards de dollars d'ici 2032. Il est donc clair que Google investit à fond dans cet espace pour maintenir sa position de leader dans le développement de l'IA.

Si beaucoup s'attendent à ce que Gemini soit commercialisé à l'automne 2023, on ne sait pas grand-chose sur les capacités du modèle. En mai dernier, Sundar Pichai, PDG de Google et d'Alphabet, a publié un billet de blogue présentant une vue d'ensemble du modèle, en insistant sur ses capacités multimodales : « Gemini a été créé dès le départ pour être multimodal, très efficace en matière d'intégration d'outils et d'API et construit pour permettre de futures innovations, comme la mémoire et la planification. Bien qu'il soit encore tôt, nous voyons déjà des capacités multimodales impressionnantes qui n'ont pas été vues dans les modèles précédents ».

« Une fois affiné et rigoureusement testé pour la sécurité, Gemini sera disponible en différentes tailles et capacités, tout comme PaLM 2 », a-t-il ajouté. Depuis, peu de choses ont filtré sur la sortie officielle, à part l'interview de Demis Hassabis, PDG de Google DeepMind, avec Wired, notant que "Gemini combinera certaines des forces des systèmes de type AlphaGo avec les capacités linguistiques étonnantes des grands modèles". D'autres sources ont également rapporté que Gemini sera capable de générer du texte et des images contextuelles et sera entraîné sur des sources telles que les transcriptions de vidéos YouTube. Mais Google n'a rien confirmé.

Selon les analystes, la fusion des équipes de DeepMind et de Google Brain ne doit pas être sous-estimée, car elle met OpenAI face à une équipe de chercheurs en IA de classe mondiale, dont le cofondateur de Google Sergey Brin et le scientifique principal en IA de DeepMind et expert en apprentissage automatique Paul Barham. Ensemble, ces chercheurs forment une équipe expérimentée qui sait parfaitement comment appliquer des techniques telles que l'apprentissage par renforcement et la recherche arborescente pour créer des programmes d'IA capables de recueillir des commentaires et d'améliorer leur résolution de problèmes au fil du temps.

Gemini a-t-il les capacités nécessaires pour surpasser ChatGPT et GPT-4 ?

L'une des plus grandes conversations autour de la sortie de Gemini est de savoir si le modèle mystérieux de Google a ce qu'il faut pour détrôner ChatGPT, qui a atteint cette année plus de 100 millions d'utilisateurs actifs mensuels. À première vue, la capacité de Gemini à générer du texte et des images lui confère un sérieux avantage sur GPT4 en ce qui concerne la gamme de contenus qu'il peut produire. Toutefois, le facteur de différenciation le plus menaçant entre les deux est sans doute le vaste éventail de données d'entraînement exclusives de Google. Selon plusieurs sources, Gemini peut traiter des données provenant de différents services.

Il s'agit, entre autres, de Google Search, YouTube, Google Books et Google Scholar. (L'on ignore si Google a le droit d'utiliser ces données pour entraîner ses systèmes d'IA) Des analystes suggèrent que l'utilisation de ces données exclusives pour l'entraînement des modèles Gemini pourrait se traduire par un net avantage en matière de sophistication des informations et des déductions qu'ils peuvent tirer d'un ensemble de données. Cela est particulièrement vrai si les premiers rapports indiquant que le modèle Gemini est entraîné sur deux fois plus de jetons que GPT4 sont corrects. D'autres sources parlent de cinq à vingt fois plus de données.

Dans un article publié lundi, les journalistes technologiques Dylan Patel et Daniel Nishball ont affirmé que Google itère à un rythme qui permettra de multiplier par cinq le nombre total de FLOPS (floating-point operations per second - le nombre d'opérations en virgule flottante par seconde) de pré-entraînement de GPT-4 avant la fin de l'année. « La voie est toute tracée pour atteindre 20x d'ici la fin de l'année prochaine, compte tenu de la construction actuelle de l'infrastructure. La question de savoir si Google a le courage de rendre ces modèles publics sans nuire à sa créativité ou à son modèle d'entreprise existant est une autre question », indique l'article.

La raison d'être de Gemini pour Google est d'améliorer ses propres produits, défier Microsoft et, éventuellement, faire progresser la science médicale. La date de sortie et les capacités finales de Gemini sont encore inconnues. L'article indique également que Google dispose de la puissance de calcul nécessaire pour faire face à l'enjeu. Selon l'article, Google ferait partie d'un groupe d'entreprises disposant de plus de 20 000 GPU A100/H100 pour le développement. OpenAI, Anthropic, Inflection, X et Meta seraient les autres entités appartenant au groupe restreint d'entreprises disposant de la puissance de calcul nécessaire pour participer à la course à l'IA.

Les auteurs de l'article affirment également que quelques-unes des entreprises susmentionnées ainsi que de nombreuses entreprises chinoises disposeront de plus de 100 000 unités de ces GPU d'ici la fin de l'année prochaine. Cependant, aucune source officielle ne permet pour l'instant de corroborer ces déclarations ni ces chiffres. Aucune de ces entreprises ne communique sur la puissance de calcul dont elle dispose pour le développement de ses systèmes d'IA. Lors de l'annonce de ces résultats la semaine dernière, Nvidia a reconnu avoir des difficultés à faire face à la demande des accélérateurs GPU H100, mais n'a pas communiqué sur ses clients.

En somme, les capacités multimodales de Gemini, l'utilisation de l'apprentissage par renforcement, les capacités de génération de textes et d'images et les données propriétaires de Google sont tous les ingrédients dont Gemini a besoin pour surpasser GPT-4. Les données d'entraînement sont le principal facteur de différenciation. Après tout, l'organisation qui remportera la course aux grands modèles de langage sera en grande partie déterminée par celle qui entraînera ses modèles sur l'ensemble de données le plus vaste et le plus riche. La question est maintenant de savoir ce que fera OpenAI pour répondre à cette concurrence.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du projet Gemini de Google ?

Selon vous, à quoi pourrait-on s'attendre avec ce projet ?

Google peut-il faire face au partenariat entre Microsoft et OpenAI ?

Google est-il en mesure de reprendre la tête de la course à l'IA ? Pourquoi ?

Voir aussi

Comment Google DeepMind compte révolutionner l'IA générative et détrôner ChatGPT avec Gemini, son système d'IA qui combine les forces d'AlphaGo aux capacités des grands modèles de langage

Sergey Brin, cofondateur de Google, signe son retour pour aider à développer Gemini, le concurrent de ChatGPT. L'ex-président d'Alphabet s'implique dans la stratégie IA et le recrutement

Des employés clés d'OpenAI démissionnent pour rejoindre Google qui travaille sur un système d'intelligence artificielle qui pourrait surpasser ChatGPT

**Jade Emy** · 15/09/2023, 14h51

Google s'apprête à lancer le logiciel d'IA Gemini, un ensemble de LLM, pouvant résumer ou générer des textes originaux en fonction de ce que les utilisateurs veulent lire.

Google, la société d'Alphabet, a donné à un petit groupe d'entreprises l'accès à une première version de Gemini, son logiciel d'intelligence artificielle conversationnelle, a rapporté The Information jeudi. Gemini est destiné à concurrencer le modèle GPT-4 d'OpenAI, selon le rapport.

Pour Google, les enjeux du lancement de Gemini sont importants. Google a intensifié ses investissements dans l'IA générative cette année pour rattraper son retard après que le lancement de ChatGPT par OpenAI, soutenu par Microsoft, a pris d'assaut le monde de la technologie l'année dernière.

Gemini est une collection de modèles de grands langages qui alimentent tout, des chatbots aux fonctions, qui résume un texte ou génèrent un texte original basé sur ce que les utilisateurs veulent lire, comme des brouillons de courriels, des paroles de musique ou des articles d'actualité, selon le rapport. Il devrait également aider les ingénieurs logiciels à écrire du code et à générer des images originales basées sur ce que les utilisateurs demandent à voir.

Google donne actuellement aux développeurs l'accès à une version relativement grande de Gemini, mais pas à la version la plus grande qu'il est en train de développer et qui serait plus proche de GPT-4, selon le rapport. Le géant de la recherche et de la publicité prévoit de mettre Gemini à la disposition des entreprises par l'intermédiaire de son service Google Cloud Vertex AI.

Le mois dernier, la société a introduit l'IA générative dans son outil de recherche pour les utilisateurs en Inde et au Japon, qui affichera des résultats textuels ou visuels à des invites, y compris des résumés. Elle a également mis ses outils alimentés par l'IA à la disposition des entreprises clientes pour un prix mensuel de 30 dollars par utilisateur.

Source : The Information

Et vous ?

Quel est votre avis sur Gemini ?

Pensez-vous que Gemini puisse concurrencer GPT-4 ?

Voir aussi :

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

Comment Google DeepMind compte révolutionner l'IA générative et détrôner ChatGPT avec Gemini, son système d'IA qui combine les forces d'AlphaGo aux capacités des grands modèles de langage

Sergey Brin, cofondateur de Google, signe son retour pour aider à développer Gemini, le concurrent de ChatGPT. L'ex-président d'Alphabet s'implique dans la stratégie IA et le recrutement

**Mathis Lucas** · 23/10/2023, 20h27

Une fuite de données révèle des informations sur le modèle d'IA Gemini de Google et sur son outil d'IA secret appelé Stubbs
qui permet de générer une application fonctionnelle à partir d'une invite

Une prétendue fuite de données provenant de Google révèle quelques informations sur son prochain modèle d'IA multimodal Gemini ainsi que sur un nouvel outil d'IA appelé Stubbs. La fuite indique que Gemini prendra en charge des fonctionnalités telles que la reconnaissance de texte et d'objets, les légendes, la compréhension d'image, etc. (et éventuellement le traitement de l'audio et de la vidéo). Stubbs quant à lui est décrit comme une plateforme d'IA permettant de créer des prototypes d'applications fonctionnelles, de les déployer et de les partager, à l'aide d'une simple invite et éventuellement d'une image de l'application que vous souhaitez créer.

Google Gemini, ou Gemini AI, est une suite intégrée de grands modèles de langage (LLM) en cours de développement par Google. Selon Sundar Pichai, PDG de Google, les modèles de base de Gemini ont été conçus dès le départ pour être multimodaux. Cela signifie que les utilisateurs pourront traiter et générer du texte, des images, du code et du contenu audio par le biais d'une interface utilisateur unique. Gemini est actuellement testé en version bêta par un groupe de développeurs sélectionnés au sein d'un petit nombre d'entreprises. Gemini devrait remplacer PaLM 2, le modèle de langage qui équipe actuellement Google Bard, d'ici à la fin de l'année 2023.

Jusque-là, très peu d'informations ont filtré sur Gemini. En août, un rapport a révélé que Gemini devrait combiner les capacités de GPT-4 avec des techniques de formation tirées d'AlphaGo, telles que l'apprentissage par renforcement et la recherche arborescente. Il aurait le potentiel de détrôner ChatGPT en tant que solution d'IA générative la plus dominante de la planète. Gemini semble être la réponse stratégique de Google à ChatGPT. Le lancement de ChatGPT a ébranlé Google dans ses fondements. La menace était telle que le géant de la recherche a dû déclarer un code rouge et commencer à investir pour rattraper son retard sur OpenAI.

Nom : vfghb.png
Affichages : 1759
Taille : 94,4 Ko

Cet effort s'est traduit non seulement par la sortie de Bard, mais aussi de Gemini. Alors que Bard peine à séduire les utilisateurs, Gemini vise à remettre en question la domination de ChatGPT sur le marché de l'IA générative. Zoubin Ghahramani, vice-président de Google DeepMind, a déclaré que Gemini sera disponible dans les quatre mêmes tailles que PaLM 2 : Gecko, Otter, Bison et Unicorn.

Gecko devrait être léger et idéal pour les appareils mobiles ;
Otter est conçu pour être plus puissant que Gecko. Il devrait convenir à un large éventail de tâches unimodales ;
Bison est conçu pour être plus grand et plus polyvalent qu'Otter. Il est susceptible de convenir à un nombre limité de tâches multimodales et devrait concurrencer le modèle GPT-4 en matière de parts de marché ;
Unicorn est conçue pour être la plus grande, la plus puissante et la plus polyvalente des quatre modèles Gemini. Cette version devrait convenir à un large éventail de tâches multimodales et dépasser largement les capacités du ChatGPT ou de l'un de ses concurrents.

Selon la rumeur, si tout se passe bien, Gemini devrait également être intégré à tous les services cloud qui utilisent l'IA que Google propose aux entreprises et aux particuliers, notamment Google Search, Google Translate et Google Assistant. Une fois Gemini lancé, son évolutivité - ainsi que ses capacités d'intégration d'outils et d'API flexibles - permettra de l'utiliser dans une large gamme d'applications de bureau et mobiles en temps réel. La fuite de données indique que Google devrait publier Gemini directement dans MakerSuite, une sorte de studio qui permet de créer rapidement et facilement des applications basées sur des modèles d'IA générative.

Nom : mokjhg.png
Affichages : 1595
Taille : 104,4 Ko

MakerSuite fournit une interface utilisateur efficace pour solliciter certains des derniers modèles de Google et traduit facilement les invites en code prêt à la production que les utilisateurs peuvent intégrer dans leurs applications. Google a annoncé fin septembre avoir supprimé la liste d'attente et que les utilisateurs de 179 pays et territoires peuvent désormais utiliser MakerSuite. En outre, la fuite de données annonce l'arrivée prochaine de Makersuite Autosave pour permettre la sauvegarde automatique des invites. Elle annonce aussi l'arrivée d'un nouvel outil : il s'agit de l'outil de construction d'application piloté par l'IA appelé Stubbs à partir de Makersuite.

Selon l'auteur de la fuite, Stubbs permet de créer des applications fonctionnelles dans un seul site avec une seule invite. Les utilisateurs peuvent créer/générer, déployer et publier des applications à partir de Stubbs. « Pouvoir créer des applications et les lancer à partir d'un seul site avec une interface utilisateur simplifiée, c'est parfait. Vous publiez l'application et vous pouvez ensuite partager le lien. Est-ce un nouveau terrain pour l'IA ? Probablement. Il y aura une galerie communautaire, où vous pourrez publier vos Stubbs pour que tout le monde puisse les voir. Vous pourrez aussi remixer les Stubbs et avoir votre propre version d'une idée », note l'auteur de la fuite.

L'auteur de la suite affirme que Stubbs ne remplacera pas les développeurs d'applications, mais devrait donner un coup de pouce "massif" à l'industrie. D'après ce que l'on peut voir, cela ressemblera à des prototypes Figma générés par l'IA, et ne créera pas de code complet, mais plutôt des prototypes d'applications générées par l'IA qui fonctionneront. La galerie Stubbs (Stubbs Gallery) permet de voir les Stubbs créés par d'autres personnes. Lorsque vous créez une application à partir de Stubbs, elle n'est pas publiée par défaut. La fuite indique que vous devez le publier explicitement, ce qui signifie que le public ne voit pas directement tout ce que vous créez.

Nom : kijhg.png
Affichages : 1589
Taille : 32,2 Ko

La fuite de données donne un aperçu du futur de Gemini et du nouvel outil d'IA Stubbs, mais ces informations ne sont pas précises et il est encore difficile de se faire une idée précise des ambitions réelles de Google avec ces deux technologies d'IA. Stubbs ressemble à un outil no-code basé sur l'IA. Les informations qui ayant fait l'objet de fuite sur ce prétendu outil secret de Google relancent le débat sur l'avènement des outils no-code basés sur l'IA qui pourrait remplacer les développeurs dans un avenir proche.

En attendant que Google se prononce sur Stubbs, l'auteur de la fuite annonce que d'autres fuites de données concernant Gemini et Stubbs pourraient suivre. Il a déclaré : « bien que la première fuite donne un aperçu, les détails techniques de Stubbs seront bientôt publiés pour vous aider à vous faire votre propre opinion sur ce qu'il fait dans une autre fuite ».

Sources : billet de blogue, Google

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'outil d'IA "Stubbs" développé par Google ?

Selon vous, cet outil no-code peut-il prétendre remplacer les développeurs ?

Que pensez-vous des caractéristiques potentielles du modèle d'IA Gemini de Google ?

Avec Gemini, Google pourrait-il surpasser ChatGPT et reprendre la tête de la course à l'IA ?

Voir aussi

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

Sergey Brin, cofondateur de Google, signe son retour pour aider à développer Gemini, le concurrent de ChatGPT. L'ex-président d'Alphabet s'implique dans la stratégie IA et le recrutement

Comment Google DeepMind compte révolutionner l'IA générative et détrôner ChatGPT avec Gemini, son système d'IA qui combine les forces d'AlphaGo aux capacités des grands modèles de langage

**Mathis Lucas** · 17/11/2023, 20h24

La publication du modèle d'IA Gemini tant attendu de Google DeepMind sera retardée jusqu'au premier trimestre 2024
selon un rapport

Le lancement du modèle d'IA Gemini de Google DeepMind aurait été reporté au premier trimestre 2024. Citant des sources au fait des plans de la société, un nouveau rapport allègue que les efforts de Google DeepMind pour rattraper son rival OpenAI s'avèrent plus difficiles que prévu. Les attentes à l'égard de Gemini sont très élevées, notamment il devrait être plus puissant que GPT-4 d'OpenAI et regrouper les capacités phares d'anciens modèles d'IA de DeepMind comme AlphaGo. L'entreprise aurait prévu de donner accès à Gemini à ses clients cloud dès le mois de novembre, mais il semble que les choses ne sont pas déroulées comme prévu, faussant ainsi le calendrier.

La rivalité dans la course à l'IA a poussé Alphabet, la société mère de Google, à fusionner ses deux équipes clés de recherche sur l'IA, Google Brain et DeepMind, en une seule entité appelée Google DeepMind. Le but déclaré d'Alphabet est de centraliser ses efforts et d'optimiser ses investissements. En plus, ces deux équipes ont un palmarès impressionnant. DeepMind est le créateur d'AlphaGo, l'IA qui a battu un champion du monde du jeu de Go en 2016, d'AlphaFold qui prédit la structure des protéines, etc. Google Brain a contribué à Google Traduction, et a notamment créé TensorFlow, ainsi que le modèle LaMDA sur lequel est basé le chatbot d'IA Bard.

De cette fusion est né le projet Gemini, une série de modèles de langage combinant les capacités de GPT-4 avec des techniques de formation tirées d'AlphaGo, telles que l'apprentissage par renforcement et la recherche arborescente. Il aurait le potentiel de détrôner ChatGPT en tant que solution d'IA générative la plus dominante de la planète. Gemini semble être la réponse stratégique de Google à ChatGPT. Le lancement de ChatGPT a ébranlé Google dans ses fondements. La menace était telle que le géant de la recherche a dû déclarer un code rouge et commencer à investir pour rattraper son retard sur OpenAI dans le domaine de l'IA générative.

Le PDG Sundar Pichai a mentionné que Google vise à publier Gemini dès que possible et à s'assurer qu'il est compétitif et à la pointe de la technologie. Lors d'un appel avec des investisseurs, Pichai a souligné que le prochain modèle d'IA de l'entreprise jettera les bases d'une série de modèles de nouvelle génération qui sortiront tout au long de l'année 2024. En septembre dernier, il a été rapporté que Google a donné à un petit groupe d'entreprises l'accès à une première version de Gemini et l'entreprise pourrait publier le nouveau modèle d'IA avant la fin de cette année. Cependant, un rapport publié cette semaine indique que ce ne sera pas le cas.

Le rapport, publié par The Information, indique que Gemini ne devrait pas arriver avant le premier trimestre de l'année prochaine. Pour Google, ce retard est un revers dans la course qui l'oppose à Microsoft et à OpenAI. Alors que Microsoft commercialise avec succès les technologies d'OpenAI auprès des entreprises par l'intermédiaire de son cloud, Google peine à atteindre les consommateurs avec sa solution concurrente, Bard. De récentes analyses indiquent que la croissance des ventes de Google dans le domaine du cloud s'est ralentie, tandis que celle de son rival Microsoft s'est accélérée. En effet, Microsoft et OpenAI pourraient creuser davantage l'écart.

« Je suis assez réticent à l'idée de dire que Google a du mal à suivre, mais le fait que Google soit passé en alerte rouge à la fin de l'année dernière et n'ait toujours pas respecté sa date de sortie est assez inquiétant », analyse un critique. Un autre se montre plus optimiste : « c'est triste de voir Google comme ça. Il n'y a pas de raison que les entreprises deviennent trop grandes et n'arrivent pas à innover assez vite. J'espère que le produit final Gemini vaudra la peine d'attendre. Il serait peu utile s'il n'était pas au moins de niveau GPT 4.5. Mais si Gemini est intégré à la recherche Google, de nombreuses personnes pourraient être séduites par son utilité ».

Pour d'autres, Google hésite de peur d'empiéter sur son activité lucrative de recherche. « Selon moi, il s'agit du dilemme de l'innovateur classique : Google gagne trop d'argent avec son modèle commercial actuel basé sur la recherche. Il est donc réticent à se perturber lui-même en prenant des risques importants dans le domaine de l'IA, qui pourrait changer le statu quo. En revanche, OpenAI et Microsoft n'ont aucun problème à prendre des risques, parce qu'ils ne sont pas confrontés au même dilemme, à savoir perturber un modèle commercial rentable grâce à l'IA ». Selon ce critique, il est possible que Google reste dans cette phase pendant encore longtemps.

« Cette situation ressemble à celle de Microsoft lorsqu'Apple a commencé à fabriquer l'iPhone. Ils ont été pris au dépourvu alors qu'Apple dominait déjà les téléphones dès le départ », a écrit un autre critique. Il rappelle qu'à sa sortie, l'iPhone a été considéré comme une innovation de rupture, mettant hors jeu des entreprises comme Microsoft, Nokia et Sony Mobile (anciennement Sony Ericsson). Depuis lors, ces acteurs peinent à remonter la pente. Microsoft a finalement enterré Windows Phone et a décidé d'adopter le système d'exploitation Android sur ses récents smartphones. Son système d’exploitation Windows 10 Mobile n'a pas non plus été à la hauteur.

Avec peu d'utilisateurs de Bard, il n'y a pas non plus de grande base de données de retour d'information permettant d'améliorer continuellement le modèle. En matière de qualité, la suite exclusive de modèles PaLM de Google, disponible dans le cloud, est à la traîne par rapport au GPT-4 d'OpenAI. Selon le rapport, qui cite des sources au fait du projet Gemini, l'intégration des différentes équipes (de Google Brain et DeepMind) et des différents modèles s'avère complexe. Rappelé de la retraite, Sergey Brin, cofondateur de Google, passerait quatre à cinq jours par semaine avec les développeurs et leur donne des conseils, bien qu'il ne prenne aucune décision.

L'on ignore encore si Gemini sera en mesure de rivaliser avec le GPT-4. Les dernières mises à jour de GPT-4 et l'arrivée de GPT-4 Turbo ont renforcé la position de leader d'OpenAI dans la course à l'IA. GPT-4 Turbo est une version améliorée de GPT-4 qui serait à la fois plus puissante et moins coûteuse, même si des analyses indépendantes montrent que le modèle affiche des performances mitigées. GPT-4 Turbo dispose d'une fenêtre contextuelle plus élargie et OpenAI a annoncé que le modèle se décline en deux versions : une version qui analyse strictement le texte et une seconde version qui comprend le contexte du texte et des images.

Le fait que Google ait eu par le passé une longueur d'avance en matière de puissance de calcul n'a plus guère d'importance maintenant qu'OpenAI a trouvé en Microsoft un partenaire majeur dans le domaine du cloud computing. Microsoft a investi un milliard de dollars dans OpenAI en 2019 et a fait un ajout de plusieurs milliards de dollars au début de l'année. Avec le succès de ChatGPT, OpenAI s'attend que Microsoft lui apporte encore plus de puissance de calcul et ses propres puces d'IA l'année prochaine. Les deux parties manquent également de personnel. Et OpenAI aurait dépensé des millions pour attirer les meilleurs experts en IA de Google.

Le scepticisme est grand parmi les commentateurs. Beaucoup ne croient pas en la capacité de Google de rivaliser avec GPT-4 ou l'IA d'OpenAI qui sera sur le marché à la sortie de Gemini. « Je ne pense pas que Google Gemini sera supérieur au modèle GPT disponible sur le marché lorsqu'il sortira. Il suffit de regarder n'importe quelle conférence Google I/O. Ils ne font que du battage médiatique alors qu'ils n'ont pas la technologie. Google est devenu comme IBM lorsqu'il était à son apogée dans les années 80. Et la comparaison avec IBM est peut-être encore meilleure que vous ne le pensez », a écrit un critique. En gros, l'enjeu est de taille pour Google.

Retarder le lancement de Gemini désavantagerait Google par rapport à Microsoft dans le domaine de l'informatique dématérialisée. En plus, les fonctionnalités d'IA sur YouTube et les améliorations apportées à Google Assistant devraient attendre, car ChatGPT continue de gagner du terrain. En dépit du scepticisme, le rapport souligne que le pilier financier le plus important de Google, son activité publicitaire, pourrait aussi bénéficier de Gemini. Avec une mémoire plus longue pour les interactions des utilisateurs, les annonceurs pourraient utiliser Gemini pour créer de nouvelles variations sur la campagne la plus réussie des derniers mois.

Pour rappel, Google DeepMind a annoncé que Gemini sera capable de tout piloter, des chatbots aux fonctions qui résument un texte ou génèrent un texte original basé sur ce que les utilisateurs veulent lire, comme des brouillons de courriels, des paroles de musique ou des articles d'actualité. Le prochain modèle d'IA de Google devrait également être capable d'aider les ingénieurs logiciels à écrire du code et à générer des images originales à partir d'invites.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du report de la date de lancement de Gemini ?

Est-ce un aveu de faiblesse de la part du géant de Mountain View ? Pourquoi ?

Selon vous, Gemini sera-t-il en mesure de rivaliser avec le modèle GPT de son époque ?

Qu'est-ce qui explique ce retard ? Google est-il victime du dilemme de l'innovateur ?

OpenAI, soutenu par Microsoft, est-il bien parti pour gagner la course à l'IA ? Pourquoi ?

Google DeepMind fait-il réellement le poids face au duo Microsoft/OpenAI ? Pourquoi ?

Voir aussi

Google s'apprête à lancer le logiciel d'IA Gemini, un ensemble de LLM pouvant résumer ou générer des textes originaux en fonction de ce que les utilisateurs veulent lire

OpenAI lance un nouveau modèle de langage appelé GPT-4 Turbo qui serait plus puissant et moins cher que GPT-4, avec une fenêtre contextuelle plus grande que celle du modèle d'IA Claude 2 d'Anthropic

Une fuite de données révèle des informations sur le modèle d'IA Gemini de Google et sur son outil d'IA secret appelé Stubbs, qui permet de générer une application fonctionnelle à partir d'une invite

**Anthony** · 04/12/2023, 15h48

Google a discrètement repoussé le lancement du modèle d'IA de nouvelle génération Gemini jusqu'en 2024, cette IA aurait des capacités inégalées de génération de textes et d'images, selon les rumeurs

Le monde devra attendre encore un peu avant de pouvoir assister au lancement du modèle d'intelligence artificielle le plus complexe de Google à ce jour.

Gemini a été décrit comme la prochaine génération d'IA et comme multimodal, ce qui signifie qu'il peut traiter plusieurs types de données et qu'il aurait la capacité de comprendre et de générer du texte et des images ainsi que d'autres types de contenu - comme des sites web - sur la base d'un croquis ou d'une description écrite.

The Information, citant deux sources anonymes ayant connaissance de la décision, a rapporté que les événements de lancement précédemment non annoncés - initialement prévus pour la semaine prochaine à New York, Washington et en Californie - ont été discrètement reprogrammés pour le début de l'année 2024 en raison de préoccupations concernant l'IA qui n'était pas fiable lorsqu'elle répondait à certaines demandes et requêtes en langue autre que l'anglais.

Bien qu'il n'ait pas encore été mis à la disposition du public, Gemini est considéré comme nettement plus performant que GPT-4 d'OpenAI, car il exploite une puissance de calcul nettement supérieure à celle de son concurrent.

"J'ai vu des choses assez étonnantes", a déclaré Sissie Hsiao, vice-président et directeur de Bard et Google Assistant, à propos de Gemini : "Par exemple, si j'essaie de faire un gâteau, dessinez-moi trois images des étapes à suivre pour glacer un gâteau à trois couches, et Gemini créera réellement ces images".

Et Hsiao d'ajouter : "Il s'agit d'images totalement inédites. Ce ne sont pas des images tirées de l'internet. Gemini est désormais capable de parler en images avec les humains, et non plus seulement en texte".

Bien que Google dispose déjà de son propre modèle d'IA générative appelé Bard, ChatGPT a jusqu'à présent bénéficié d'une plus grande notoriété auprès des consommateurs, mais les analystes estiment que cela pourrait changer lorsque Gemini sera enfin lancé.

Source : The Information

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi

Google s'apprête à lancer le logiciel d'IA Gemini, un ensemble de LLM, pouvant résumer ou générer des textes originaux en fonction de ce que les utilisateurs veulent lire

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

La publication du modèle d'IA Gemini tant attendu de Google DeepMind sera retardée jusqu'au premier trimestre 2024, selon un rapport

**Stéphane le calme** · 07/12/2023, 07h54

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4.
Il dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon Alphabet

Google a dévoilé un nouveau modèle d'intelligence artificielle qui, selon lui, surpasse ChatGPT dans la plupart des tests et affiche un « raisonnement avancé » dans plusieurs formats, y compris la possibilité de visualiser et de noter les devoirs de physique d'un étudiant. Le modèle, appelé Gemini, est le premier à être annoncé depuis le sommet mondial sur la sécurité de l’IA du mois dernier, au cours duquel les entreprises technologiques ont convenu de collaborer avec les gouvernements pour tester des systèmes avancés avant et après leur lancement. Google a déclaré qu'il était en discussion avec le nouveau AI Safety Institute du Royaume-Uni pour tester la version la plus puissante de Gemini, qui sera publiée l'année prochaine.

Google a adopté une approche prudente lors du lancement de son chatbot IA, Bard, plus tôt cette année, le décrivant comme « une expérience ». Bard a commis une erreur dans sa propre démo publicitaire, en fournissant une mauvaise réponse à une question sur l'espace. Mais Google fait de grandes affirmations concernant son nouveau modèle, le décrivant comme étant « le plus performant » à ce jour et a suggéré qu'il peut surpasser les experts humains dans une série de tests d'intelligence.

Alphabet a présenté mercredi son modèle d'intelligence artificielle le plus avancé, une technologie capable de traiter différentes formes d'informations telles que la vidéo, l'audio et le texte. Appelé Gemini, le modèle d'IA très attendu du propriétaire de Google possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise.

Envoyé par Google

Gemini est également notre modèle le plus flexible à ce jour : capable de fonctionner efficacement sur tout, des centres de données aux appareils mobiles. Ses capacités de pointe amélioreront considérablement la façon dont les développeurs et les entreprises clientes construisent et évoluent avec l’IA.

Nous avons optimisé Gemini 1.0, notre première version, pour trois tailles différentes :

Gemini Ultra — notre modèle le plus grand et le plus performant pour les tâches très complexes.
Gemini Pro : notre meilleur modèle pour évoluer vers un large éventail de tâches.
Gemini Nano — notre modèle le plus efficace pour les tâches sur appareil.

Google a déclaré qu'Ultra avait surpassé les modèles d'IA « de pointe », y compris le modèle le plus puissant de ChatGPT, GPT-4, dans 30 des 32 tests de référence, y compris en matière de raisonnement et de compréhension des images. Le modèle Pro a surpassé GPT-3.5, la technologie qui sous-tend la version en accès gratuit de ChatGPT, dans six tests sur huit.

Le modèle est disponible en trois versions et est « multimodal », ce qui signifie qu’il peut comprendre simultanément du texte, de l’audio, des images, de la vidéo et du code informatique.

Gemini, qui sera intégré aux produits Google, y compris son moteur de recherche, est initialement lancé mercredi dans plus de 170 pays, dont les États-Unis, sous la forme d'une mise à niveau du chatbot de Google, Bard. Cependant, la mise à niveau Bard ne sera pas publiée au Royaume-Uni et en Europe, car Google demande l'autorisation des régulateurs.

Deux versions plus petites de Gemini, Pro et Nano, seront publiées mercredi. Le modèle Pro est accessible sur le chatbot Bard de Google et la version Nano sera sur les téléphones mobiles utilisant le système Android de Google.

L'itération la plus puissante, Ultra, est testée en externe et ne sera rendue publique que début 2024, date à laquelle elle sera également intégrée à une version de Bard appelée Bard Advanced.

Google a déclaré qu'Ultra était le premier modèle d'IA à surpasser les experts humains, avec un score de 90 %, à un test multitâche appelé MMLU, qui couvre 57 matières, dont les mathématiques, la physique, le droit, la médecine et l'éthique. Ultra va désormais alimenter un nouvel outil d'écriture de code appelé AlphaCode2, qui, selon Google, pourrait surpasser 85 % des programmeurs informatiques humains de niveau concurrent.

Nom : texte.png
Affichages : 2957
Taille : 67,0 Ko

Gemini en action dans des interactions non textuelles : la démo de Google

C'est dans les interactions non textuelles que les Gemini brille vraiment, déclare Demis Hassabis, responsable de Google DeepMind. « Nous l’avons construit de A à Z pour qu’il soit nativement multimodal », dit-il. « C'est l'une des nouvelles capacités dont il dispose… le type d'intégration et de raisonnement transparents qu'il peut réaliser entre les modalités ».

Dans une démo, le YouTuber Mark Rober s'est servi de Bard pour créer l'avion en papier parfait (notamment en prenant des photos de ses créations pour obtenir des commentaires fournis par l'IA). Dans une autre démo, des parents ont téléchargé des photos des devoirs de leurs enfants pour obtenir de l'aide pour déterminer où leurs calculs avaient mal tourné.

Nous pouvons aussi parler de cette démo où Gemini s'est montré capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes d'un humain ou de réagir à des situations par l’humour. Une des forces de la démonstration en vidéo est qu'à un moment, l’utilisateur ne pose plus de questions; c’est Gemini qui devine seul le contexte et qui parle.

Mais pour le moment, ce ne sont que des démos et des vidéos promotionnelles. Sundar Pichai, PDG d'Alphabet, dit qu'il considère ce lancement à la fois comme un grand moment pour Bard et comme le tout début de l'ère de Gemini.

Quelques particularités de Gemini

Ceci est extrait de la communication de Google.

Capacités de nouvelle génération

Jusqu'à présent, l'approche standard de création de modèles multimodaux impliquait la formation de composants distincts pour différentes modalités, puis leur assemblage pour imiter approximativement certaines de ces fonctionnalités. Ces modèles peuvent parfois être efficaces pour accomplir certaines tâches, comme décrire des images, mais ont du mal à répondre à un raisonnement plus conceptuel et complexe.

Nous avons conçu Gemini pour qu'il soit nativement multimodal, pré-entraîné dès le départ sur différentes modalités. Nous l’avons ensuite affiné avec des données multimodales supplémentaires pour affiner encore son efficacité. Cela aide Gemini à comprendre et à raisonner de manière transparente sur toutes sortes d’entrées, bien mieux que les modèles multimodaux existants – et ses capacités sont à la pointe de la technologie dans presque tous les domaines.

Raisonnement sophistiqué

Les capacités de raisonnement multimodal sophistiquées de Gemini 1.0 peuvent aider à donner un sens à des informations écrites et visuelles complexes. Cela le rend particulièrement compétent pour découvrir des connaissances qui peuvent être difficiles à discerner parmi de grandes quantités de données.

Sa capacité remarquable à extraire des informations de centaines de milliers de documents grâce à la lecture, au filtrage et à la compréhension des informations contribuera à réaliser de nouvelles avancées à la vitesse du numérique dans de nombreux domaines, de la science à la finance.

Comprendre le texte, les images, l'audio et plus encore

Gemini 1.0 a été formé pour reconnaître et comprendre simultanément du texte, des images, du son et bien plus encore, afin de mieux comprendre les informations nuancées et de pouvoir répondre aux questions relatives à des sujets complexes. Cela le rend particulièrement efficace pour expliquer le raisonnement dans des matières complexes comme les mathématiques et la physique.

Codage avancé

Notre première version de Gemini peut comprendre, expliquer et générer du code de haute qualité dans les langages de programmation les plus populaires au monde, comme Python, Java, C++ et Go. Sa capacité à travailler dans plusieurs langues et à raisonner sur des informations complexes en fait l’un des principaux modèles de base pour le codage au monde.

Gemini Ultra excelle dans plusieurs tests de codage, notamment HumanEval, une norme industrielle importante pour évaluer les performances des tâches de codage, et Natural2Code, notre ensemble de données interne réservé, qui utilise des sources générées par l'auteur au lieu d'informations basées sur le Web.

Gemini peut également être utilisé comme moteur pour des systèmes de codage plus avancés. Il y a deux ans, nous présentions AlphaCode, le premier système de génération de code d'IA à atteindre un niveau de performance compétitif dans les compétitions de programmation.

À l'aide d'une version spécialisée de Gemini, nous avons créé un système de génération de code plus avancé, AlphaCode 2, qui excelle dans la résolution de problèmes de programmation compétitifs qui vont au-delà du codage pour impliquer des mathématiques complexes et de l'informatique théorique.

La course à l'IA

Gemini semble avoir établi une « nouvelle norme », soulignant sa capacité à apprendre de sources autres que le texte, comme les images, selon Chirag Dekate, des analystes de Gartner. Il a déclaré que cela pourrait « permettre des innovations susceptibles de transformer l’IA générative ».

Google a jusqu'à présent eu du mal à attirer autant d'attention et autant d'utilisateurs que le chatbot viral ChatGPT d'OpenAI. Mais il affirme que la version la plus puissante de Gemini surpasse la plate-forme GPT-4 d'OpenAI (qui pilote ChatGPT) sur 30 des 32 benchmarks académiques largement utilisés.

Cependant, une nouvelle version plus puissante du logiciel OpenAI devrait être publiée l'année prochaine, le directeur général Sam Altman affirmant que les nouveaux produits de l'entreprise feraient ressembler les produits actuels à « un parent pittoresque ».

Il reste à voir si les récents troubles au sein d'OpenAI (qui ont vu Altman être licencié puis réembauché en l'espace de quelques jours) auront un impact sur ce lancement.

L'entreprise fait également face à une nouvelle concurrence de la part de xAI d'Elon Musk, qui cherche à lever jusqu'à 1 milliard de dollars pour investir dans la recherche et le développement. La société chinoise Baidu avance également avec ses propres produits d’IA.

Mais à mesure que la technologie évolue rapidement, les craintes quant à son potentiel nocif augmentent également

Les gouvernements du monde entier tentent d’élaborer des règles, voire des lois, pour contenir les éventuels risques futurs liés à l’IA.

En novembre, le sujet a été discuté lors d'un sommet au Royaume-Uni, où les signataires ont convenu d'une déclaration appelant à son développement en toute sécurité. Le roi a également déclaré que les dangers possibles devaient être affrontés avec un sentiment « d'urgence, d'unité et de force collective ».

Conclusion

L’annonce de Gemini par Google marque une étape importante dans le développement de l’intelligence artificielle. Avec ses capacités améliorées et son intégration dans une multitude de services, Gemini pourrait bien transformer notre interaction avec la technologie et ouvrir la voie à de nouvelles possibilités dans le domaine de l’IA. Reste à voir comment les utilisateurs et le marché réagiront à cette innovation prometteuse.

Sources : Google, DeepMind

Et vous ?

Quelles sont les implications de l’utilisation de modèles d’IA aussi avancés que Gemini dans notre vie quotidienne ?

Comment pensez-vous que Gemini changera la manière dont nous interagissons avec les services en ligne et les appareils intelligents ?

Quels sont les avantages et les inconvénients potentiels de l’intégration de Gemini dans des services tels que la recherche Google, Gmail et Android ?

Gemini pourrait-il contribuer à une meilleure compréhension et résolution des problèmes complexes dans des domaines tels que la science et la technologie ?

Quel impact Gemini aura-t-il sur le développement et l’apprentissage des langages de programmation ?

En quoi l’approche de Google avec Gemini diffère-t-elle de celle d’autres entreprises comme OpenAI avec GPT-4 ?

Quelles précautions devraient être prises pour assurer la sécurité et la confidentialité des utilisateurs avec l’utilisation de Gemini ?

Comment Google devrait-il aborder la question de la transparence et de la responsabilité avec l’utilisation de modèles d’IA comme Gemini ?

**Stéphane le calme** · 07/12/2023, 18h47

AlphaCode 2 : le générateur de code de Google est alimenté par l'IA générative Gemini de Google,
et il est bien plus performant que son prédécesseur

Google a publié AlphaCode 2, une version considérablement améliorée de son IA génératrice de code. Cette dernière version a le potentiel d'apporter des changements dans le secteur du développement logiciel car elle est pilotée par la technologie Gemini AI.

Parallèlement à son modèle d'IA générative Gemini, Google a présenté AlphaCode 2, une version améliorée de son IA génératrice de code AlphaCode présentée par le laboratoire DeepMind de Google il y a environ un an.

Alphabet a indiqué que Gemini possède des « capacités de raisonnement » avancées pour « réfléchir plus attentivement » lorsqu'il répond à des questions difficiles, selon l'entreprise. Son modèle d'IA se décline en trois formats :

Gemini Ultra — notre modèle le plus grand et le plus performant pour les tâches très complexes.
Gemini Pro : notre meilleur modèle pour évoluer vers un large éventail de tâches.
Gemini Nano — notre modèle le plus efficace pour les tâches sur appareil.

Alphabet a assuré qu'Ultra avait surpassé les modèles d'IA « de pointe », y compris le modèle le plus puissant de ChatGPT, GPT-4, dans 30 des 32 tests de référence, y compris en matière de raisonnement et de compréhension des images. Le modèle Pro a surpassé GPT-3.5, la technologie qui sous-tend la version en accès gratuit de ChatGPT, dans six tests sur huit.

Nom : humains.png
Affichages : 9287
Taille : 16,0 Ko

AlphaCode 2 alimenté par Gemini

AlphaCode 2 est en fait alimenté par Gemini, ou du moins une variante de celui-ci (Gemini Pro) affinée sur les données des concours de codage. Et il est bien plus performant que son prédécesseur, affirme Google (au moins sur un point de référence).

Dans un sous-ensemble de concours de programmation hébergés sur Codeforces, une plateforme de concours de programmation, AlphaCode 2 (qui a écrit des codes dans des langages couvrant Python, Java, C++ et Go) a obtenu de meilleurs résultats qu'environ 85 % des concurrents en moyenne, selon Google. Cela peut être mis en perspective avec les 50 % de concurrents que son prédécesseur a réussi à battre sur le même sous-ensemble.

« Nous avons sélectionné 12 concours récents avec plus de 8 000 participants, soit de la division 2, soit de la division la plus difficile '1+2'. Cela fait un total de 77 problèmes », lit-on dans un livre blanc technique sur AlphaCode 2. « AlphaCode 2 résout 43 % des problèmes en 10 tentatives, soit près de deux fois plus de problèmes que l'AlphaCode original (25 %). »

AlphaCode 2 peut comprendre les défis de programmation impliquant des mathématiques « complexes » et de l’informatique théorique. Et, entre autres techniques raisonnablement sophistiquées, AlphaCode 2 est capable de programmation dynamique, explique Rémi Leblond, chercheur chez DeepMind, dans une vidéo préenregistrée.

La programmation dynamique implique de simplifier un problème complexe en le décomposant encore et encore en sous-problèmes plus simples; Leblond affirme qu'AlphaCode 2 sait non seulement quand mettre en œuvre correctement cette stratégie, mais aussi où l'utiliser. Cela est remarquable, étant donné que les problèmes de programmation nécessitant une programmation dynamique ont constitué un problème majeur pour l’AlphaCode original.

« [AlphaCode 2] doit faire preuve d'un certain niveau de compréhension, d'un certain niveau de raisonnement et de conception de solutions de code avant de pouvoir passer à la mise en œuvre réelle pour résoudre [un] problème de codage », a déclaré Leblond. « Et il fait tout cela sur des problèmes jamais vus auparavant ».

Vos emplois sont en sécurité… pour l’instant

Dans deux des douze concours auxquels il a participé, AlphaCode 2 a surpassé 99,5 % des participants. Bien qu’impressionnantes, les conditions de compétition étaient différentes pour la machine et pour les humains.

AlphaCode 2 peut proposer jusqu'à dix solutions différentes pour chaque problème et marquer des points si l'une d'entre elles est correcte – contrairement aux candidats humains, qui n'ont qu'une seule tentative pour relever le défi.

AlphaCode 2 fonctionne également très différemment des développeurs humains. En cas de problème, il génère environ un million d'échantillons de code différents, qui sont ensuite filtrés. Les scripts aléatoires qui ne sont pas pertinents et ne correspondent pas à la description du problème – ou ceux qui génèrent des exemples de réponses de test incorrects, ou qui ne se compilent pas du tout – sont supprimés.

« Chaque problème de programmation compétitif contient au moins un test d'entrée/sortie public indiquant comment les échantillons de code doivent se comporter. Nous exécutons chaque échantillon de code sur l'entrée de test correspondante et filtrons tous ceux qui ne produisent pas le résultat attendu et qui n'auraient donc pas pu être corrects », ont expliqué les chercheurs.

Nom : evaluation.png
Affichages : 3909
Taille : 30,8 Ko

Le filtrage élimine 95 % des échantillons de code générés par AlphaCode 2. Ensuite, un algorithme de clustering collecte et classe les 50 000 programmes restants par similarité et les trie en différents groupes. Les dix plus grands clusters sont ensuite notés par un modèle Gemini Pro distinct, entraîné pour prédire leur précision. Les échantillons des dix groupes différents sont ensuite classés du meilleur au dernier, et le premier de chaque groupe est soumis.

Les codeurs humains réfléchissent généralement à différentes stratégies pour résoudre un problème, puis se concentrent sur l'idée la plus prometteuse et la rédigent, au lieu d'essayer des millions de solutions différentes. Le succès dépend de la compréhension des problèmes et de la découverte d’astuces mathématiques intelligentes pour les résoudre.

L'approche par force brute d'AlphaCode 2 – filtrer tout son code et exécuter les différents modèles pour noter et classer les meilleurs – nécessite beaucoup de calculs, il est donc probablement trop coûteux de le publier jusqu'à ce qu'il soit plus efficace.

« Malgré les résultats impressionnants d'AlphaCode 2, il reste encore beaucoup à faire avant de voir des systèmes capables d'atteindre de manière fiable les performances des meilleurs codeurs humains. Notre système nécessite de nombreux essais et erreurs et reste trop coûteux à exploiter à grande échelle, cela repose en grande partie sur la capacité de filtrer les échantillons de code manifestement mauvais », ont admis les chercheurs.

Nom : performance.png
Affichages : 3925
Taille : 96,5 Ko

Néanmoins, AlphaCode 2 constitue une grande amélioration par rapport à l'ancien AlphaCode et est plus de 10 000 fois plus efficace en matière d'échantillonnage, affirme Google. Il ne nécessite que 100 échantillons générés pour atteindre les mêmes performances qu’AlphaCode, qui en nécessitait un million.

Google DeepMind estime qu'il pourrait créer un modèle d'écriture de code encore meilleur en utilisant Gemini Ultra – un modèle de langage plus grand et plus puissant que Gemini Pro – et a déclaré qu'il s'efforçait de mettre ses capacités à la disposition des développeurs.

« Nous espérons que ce type de codage interactif sera l'avenir de la programmation, où les programmeurs utiliseront des modèles d'IA hautement performants comme outils collaboratifs qui pourront les aider à réfléchir sur les problèmes, à proposer des conceptions de code et à les aider à la mise en œuvre », a conclu l'équipe. « Nous travaillons à intégrer les capacités uniques d'AlphaCode 2 à nos modèles Gemini de base comme première étape pour rendre ce nouveau paradigme de programmation accessible à tous ».

Des conséquences potentielles

Voici quelques conséquences possibles :

Productivité et efficacité améliorées : en automatisant les processus de codage répétitifs, AlphaCode 2 permet aux développeurs de se concentrer sur des domaines plus stratégiques et créatifs du développement logiciel.
Meilleure qualité de code : les produits logiciels plus fiables et plus entretenus peuvent bénéficier de la capacité d'AlphaCode 2 à produire un code précis et efficace.
Démocratisation du développement logiciel : AlphaCode 2 a le potentiel de permettre aux personnes sans connaissances formelles en programmation de participer à la création d'applications logicielles en rendant le codage plus simple et plus accessible.
Obstacles et perspectives d'avenir : AlphaCode 2 est actuellement en développement et présente un certain nombre d'obstacles malgré son potentiel.
Problèmes éthiques potentiels : Il existe des problèmes éthiques qui doivent être résolus lorsque l’on envisage la possibilité que l’IA remplace les travailleurs humains.
Sûreté et sécurité : pour les applications du monde réel, il est essentiel de garantir la sûreté et la sécurité du code généré par l’IA.
Transparence et explicabilité : pour avoir confiance dans les compétences des modèles d'IA tels qu'AlphaCode 2, il faut comprendre comment ils portent des jugements.

Même si ces problèmes doivent être résolus, AlphaCode 2 offre une pléthore d'options fascinantes. Nous pouvons nous attendre à ce que la technologie continue de façonner le développement de logiciels de manière significative à mesure qu’elle progresse.

Conclusion

Quant à savoir si nous pouvons nous attendre à voir AlphaCode 2 être proposé en tant que produit à un moment donné (AlphaCode n'a jamais été publié en tant que tel), lors d'un briefing, Eli Collins, vice-président des produits chez DeepMind, a fait allusion à cette possibilité.

« L'une des choses qui m'a le plus enthousiasmé dans les derniers résultats est que lorsque les programmeurs collaborent avec [AlphaCode 2 propulsé par] Gemini, en définissant certaines propriétés que le code doit suivre, les performances [du modèle] s'améliorent encore », a déclaré Collins. « À l'avenir, nous voyons des programmeurs utiliser des modèles d'IA hautement performants comme outils collaboratifs qui facilitent l'ensemble du processus de développement logiciel, depuis le raisonnement sur les problèmes jusqu'à l'aide à la mise en œuvre. »

Source : rapport technique AlphaCode 2

Et vous ?

Quel impact pensez-vous qu’AlphaCode 2 aura sur le rôle des développeurs dans l’avenir de la programmation?

Comment l’intégration de Gemini pourrait-elle changer la manière dont nous interagissons avec les outils de développement de logiciels?

Quels sont les avantages et les inconvénients potentiels de l’automatisation de la génération de code grâce à des IA comme AlphaCode 2?

En quoi la capacité d’AlphaCode 2 à comprendre et générer du code dans plusieurs langages de programmation pourrait-elle influencer la collaboration entre les communautés de développeurs?

Quelles mesures de sécurité devraient être prises en compte lors de l’utilisation d’outils d’IA pour le développement de logiciels?

Comment Google devrait-il aborder les questions éthiques liées à l’utilisation de l’IA dans la programmation?

**Stéphane le calme** · 08/12/2023, 19h02

La meilleure démo AI Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle.
Elle n’a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

Dans le monde en constante évolution de l’intelligence artificielle, Google a récemment fait les gros titres avec son modèle d’IA de nouvelle génération, Gemini. Cependant, la société est déjà accusée d'avoir menti sur ses performances. Elle est notamment attaquée sur l'une des démos publiées pour présenter son modèle d'IA.

La vidéo de six minutes montre les capacités multimodales de Gemini (invites conversationnelles vocales combinées à la reconnaissance d’images, par exemple). Gemini reconnaît apparemment les images rapidement (même pour les images qui relient les points) répond en quelques secondes et suit une liasse de papier dans un jeu de gobelet et de balle en temps réel. Bien sûr, les humains peuvent faire tout cela, mais il s’agit d’une IA capable de reconnaître et de prédire ce qui va se passer ensuite.

Mais cliquez sur la description de la vidéo sur YouTube et Google a un avertissement important : « Pour les besoins de cette démo, la latence a été réduite et les sorties Gemini ont été raccourcies par souci de concision ». De plus, Google a préparé à l'avance des questions écrites et à orienté l’IA vers les bonnes réponses.

Le nouveau modèle Gemini AI de Google reçoit un accueil mitigé après ses grands débuts, mais les utilisateurs pourraient avoir moins confiance dans la technologie ou l'intégrité de l'entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie truquée.

Une vidéo intitulée « Hands-on with Gemini : Interacting with multimodal AI » a été vue près de deux millions de fois en moins de 48 heures, et il n’est pas difficile de comprendre pourquoi. La démo impressionnante « met en évidence certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c'est-à-dire qu'il comprend et mélange le langage et la compréhension visuelle) peut être flexible et réactif à une variété d'entrées.

Gemini est loin de pouvoir commenter le monde en temps réel

Pour commencer, il raconte l'évolution d'un croquis d'un canard depuis un gribouillis jusqu'à un dessin complet, dont il dit qu'il s'agit d'une couleur irréaliste, puis manifeste sa surprise en voyant un canard bleu jouet. Il répond ensuite à diverses requêtes vocales sur ce jouet, puis la démo passe à d'autres mouvements de démonstration, comme suivre une balle dans un jeu de changement de tasse, reconnaître les gestes des ombres chinoises, réorganiser les croquis de planètes, etc.

Google a prévenu que « la latence a été réduite et les sorties Gemini ont été raccourcies ». Cela signifie que le temps nécessaire pour chaque réponse était en réalité plus long que dans la vidéo.

En réalité, la démo n’a pas non plus été réalisée en temps réel ni en voix. Interrogé sur la vidéo, un porte-parole de Google a déclaré qu'elle avait été réalisée en « utilisant des images fixes de la séquence et des invites via du texte », et il a indiqué un site montrant comment d'autres pourraient interagir avec Gemini avec des photos de leurs mains, de dessins ou d'autres objets. En d’autres termes, la voix dans la démo lisait les invites humaines sous forme de texte qu’ils avaient adressées à Gemini et leur montrait des images fixes. C’est assez différent de ce que Google semblait suggérer : qu’une personne puisse avoir une conversation vocale fluide avec Gemini qui observait et répondait en temps réel au monde qui l’entoure.

Nom : papier.png
Affichages : 16052
Taille : 107,7 Ko

...encore moins deviner le contexte

Ainsi, bien que Gemini puisse faire en quelque sorte les choses que Google montre dans la vidéo, il ne l’a pas fait, et peut-être ne pouvait pas, le faire en direct et de la manière que Google le sous-entendait. En réalité, il s’agissait d’une série de messages texte soigneusement réglés avec des images fixes, clairement sélectionnées et raccourcies pour donner une fausse idée de la nature réelle de l’interaction.

D’une part, Gemini semblait vraiment avoir généré les réponses présentées dans la vidéo. D'autre part, les téléspectateurs sont induits en erreur sur la vitesse, la précision et le mode fondamental d'interaction avec le modèle.

Par exemple, à 2 min 45 s de la vidéo, une main est montrée effectuant silencieusement une série de gestes. Gemini réponde rapidement : « Je sais ce que tu fais ! Tu joues à Pierre, Feuille, Ciseaux ! »

Nom : pierre.png
Affichages : 2855
Taille : 189,2 Ko

Mais la toute première chose dans la documentation de cette capacité est que le modèle ne raisonne pas sur la base de la visualisation de gestes individuels. Il faut lui montrer les trois gestes à la fois et lui demander : « Que penses-tu que je fais ? Indice : c’est un jeu. » Il répond : « Tu joues à pierre, papier, ciseaux. »

Nom : vois.png
Affichages : 2807
Taille : 115,7 Ko

La vidéo ne précise pas non plus que cette démo est (probablement) avec Gemini Ultra, un modèle qui n'est pas encore disponible. Truquer de tels détails indique un effort marketing plus large ici : Google veut que nous nous souvenions qu'il possède l'une des plus grandes équipes de chercheurs en IA au monde et qu'il a accès à plus de données que quiconque. Il souhaite nous rappeler, comme il l'a fait mercredi, l'étendue de son réseau de déploiement en apportant des versions moins performantes de Gemini aux téléphones Chrome, Android et Pixel.

Une IA qui a besoin d'être orientée pour fournir les bonnes réponses ?

Quand Google prétend demander à Gemini « quelle voiture va le plus vite ? », la réalité est qu’il lui a demandé : « en se basant sur l’aérodynamisme de ces voitures, quelle voiture ira le plus vite entre celle de gauche et celle de droite ? Explique pourquoi et détaille ta réponse ». Cet indice lui a permis de donner une réponse complète, qui mentionne l’aérodynamisme, mais sa réponse n’était pas spontanée.

L’ordre des astres du système solaire est lui aussi manipulé : Google n’a pas juste demandé « est-ce que c’est le bon ordre » mais « est-ce que c’est le bon ordre en prenant en compte la distance avec le Soleil. Explique ton raisonnement ».

Nom : astres.png
Affichages : 2745
Taille : 162,6 Ko

Oriol Vinyals, VP of Research & Deep Learning Lead, Google DeepMind et Gemini co-lead a expliqué :

Nous avons donné à Gemini des séquences de différentes modalités – image et texte dans ce cas – et lui avons fait réagir en prédisant ce qui pourrait arriver ensuite. Les développeurs pourront essayer des choses similaires lorsque l'accès à Pro sera ouvert le 13/12 🚀. La démo de tricot utilisée Ultra⚡

Toutes les invites et sorties utilisateur dans la vidéo sont réelles, abrégées par souci de concision. La vidéo illustre à quoi pourraient ressembler les expériences utilisateur multimodales créées avec Gemini. Nous l'avons créé pour inspirer les développeurs.

Lorsque vous créez une application, vous pouvez obtenir des résultats similaires (il y a toujours une certaine variabilité avec les LLM) en demandant à Gemini une instruction qui permet à l'utilisateur de « configurer » le comportement du modèle, par exemple en saisissant « vous êtes un expert en science… » avant qu'un utilisateur puisse s'engager dans le même type de dialogue de va-et-vient. Voici un extrait de ce à quoi cela ressemble dans AI Studio avec Gemini Pro. Nous avons parcouru un long chemin depuis Flamingo 🦩 & PALI, j'ai hâte de voir ce que les gens construisent avec !

Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0

We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023

Une pilule qui a du mal à passer

Plusieurs internautes se sont montrés déçus. Par exemple, celui-ci déclare :

Je comprends pourquoi cela serait ressenti en interne (

comme décevant.

Savoir que votre entreprise commercialise des choses qui ne tiennent pas est profondément préjudiciable au moral des ingénieurs qui travaillent d'arrache-pied. Pourquoi? Parce que si Google ne peut pas livrer, ou plutôt s'il ne livre pas ce produit comme il le présente, il y aura des répercussions et Google ne s'en remettra jamais.

La supercherie utilisée par Google est une astuce couramment pratiquée dans l’industrie technologique.

On vous montre ce PoC et nous finirons par construire le vrai.

En temps normal, le développement est acceptable, mais vous perdez ici environ des milliards de dollars et de la crédibilité. Si Google perd toute crédibilité, il ne s’en remettra pas.

Personne de sensé ne leur pardonnerait d’être connu comme étant des menteurs.

Ce qui est fou, c'est que Google a déjà fait exactement la même chose. Vous vous souvenez de la démo d'eux appelant le salon de coiffure avec l'assistant virtuel ?

Cela n’était apparemment pas réel non plus et ce produit n’a jamais abouti. Complètement abandonné.

Google joue actuellement à un jeu très dangereux.

Pour mémoire, durant l’édition 2018 de sa conférence dédiée aux développeurs, Google a présenté Duplex ; un chatbot tellement réaliste que, pendant la démonstration, certains humains au bout du fil n’ont pas réalisé qu’ils échangeaient avec une IA. Pour rappel, voici la vidéo de démonstration :

Si la prouesse a été saluée par la communauté, certains n’ont pas manqué de soulever des problèmes d’éthiques liés à une IA dont la voix générée ne peut pas facilement être distinguée d’une personne réelle. De plus, un quotidien a relevé quelques incohérences dans la présentation de Google, laissant penser que l'entreprise a simulé une avancée dans le domaine de l'IA.

Profiter des turbulences chez OpenAI pour tenter d'attirer des investisseurs

Google tente sans doute de capitaliser sur toutes les récentes turbulences chez OpenAI. Lorsqu'un coup d'État au sein du conseil d'administration de la petite startup d'IA a temporairement évincé le PDG Sam Altman et mis l'avenir de l'entreprise en doute, Google a rapidement lancé une campagne commerciale pour persuader les entreprises clientes d'OpenAI de passer à Google, selon un rapport du Wall Street Journal. L'entreprise semble désormais surfer sur cette vague d’incertitude avec le lancement de Gemini.

Mais des démos impressionnantes ne peuvent vous mener que jusqu’à présent, et Google a déjà fait la démonstration de nouvelles technologies étranges qui n’ont mené nulle part (rappelez-vous par exemple de Duplex). La bureaucratie gargantuesque de Google et les couches de chefs de produit l'ont empêché jusqu'à présent de livrer des produits aussi agilement qu'OpenAI. Alors que la société est aux prises avec les effets transformateurs de l’IA, ce n’est pas une mauvaise chose.

Les questions sur l’authenticité de la démonstration de Gemini (Google estime que la vidéo n'est pas une fake, même si, présentée ainsi, la réalité semble déformée) mettent en lumière l’importance de la transparence et de la fiabilité dans le développement de l’IA. Alors que nous attendons avec impatience de voir ce que Gemini a à offrir, il est clair que le chemin vers une IA véritablement révolutionnaire est pavé d’obstacles et d’apprentissages continus pour les grandes enseignes de la technologie comme Google.

Source : Google

Et vous ?

Êtes-vous surpris de voir ces détails sur la démo de Google ? Selon-vous, l'entreprise aurait-elle tenté de simuler une avancée dans le domaine de l'IA ? Dans quelle mesure ?

Les messages en description de la vidéo, notamment celui qui parle de la latence réduite et le lien vers le making-of de la vidéo vous semblent-ils suffisamment clair pour ne pas semer de doute dans l'esprit du public ou fallait-il préciser également dans la vidéo ?

Mais alors, quelles sont vos attentes concernant le modèle d’IA Gemini de Google, et pensez-vous qu’il pourra révolutionner le domaine de l’intelligence artificielle ?

Comment les entreprises technologiques devraient-elles gérer la transparence et la communication autour des capacités réelles de leurs modèles d’IA ?

Quel impact pensez-vous que les retards et les controverses comme celle de Gemini peuvent avoir sur la confiance du public envers l’intelligence artificielle ?

En quoi les erreurs commises par les IA dans des démonstrations publiques affectent-elles votre perception de leur fiabilité et de leur utilité au quotidien ?

Quelles mesures devraient être prises pour assurer que les modèles d’IA soient testés de manière approfondie avant leur lancement officiel ?

**Stéphane le calme** · 14/12/2023, 19h12

Google lance Gemini Pro. Son modèle d'IA est accessible pour les développeurs et les entreprises via Google AI Studio et Vertex AI,
mais sa tarification fait déjà l'objet de critiques

Alphabet a annoncé que les développeurs peuvent utiliser Google AI Studio et Vertex AI pour créer des applications avec l'API Gemini Pro, qui permet d'accéder au nouveau modèle d'IA générative de Google. Le déploiement initial de Gemini par Google était limité à Google Bard et au Pixel 8 Pro. Aussi, la disponibilité générale de Gemini mercredi pour Google AI Studio et Vertex AI marque le premier test de Gemini pour les développeurs d'entreprise.

Un « quota gratuit » au lancement autorise 60 requêtes par minute, ce qui, selon Google, est « 20 fois plus que les autres offres gratuites ». Google utilisera ces entrées/sorties gratuites pour améliorer le modèle, avec des données anonymisées de votre compte Google et de votre clé API. Il « peut être accessible aux évaluateurs formés ».

Le 13 décembre, Google a annoncé la disponibilité générale de Google AI Studio. Google AI Studio est un environnement de développement basé sur le Web permettant de découvrir les API Gemini Pro, de créer des invites et d'affiner le modèle Gemini. Google appelle cela son « moyen le plus rapide de commencer à développer l’IA », a déclaré Thomas Kurian, PDG de Google Cloud, lors d'un point de presse.

« Gemini est formé et fait partie d'une vaste infrastructure d'hyper-informatique d'IA », a-t-il indiqué, faisant référence à la puce d'IA personnalisée de l'entreprise, la Tensor Processing Unit, ou TPU. « C'est l'infrastructure que nous proposons non seulement en interne mais désormais à nos clients ». Une partie de l'annonce de mercredi concernait la disponibilité générale du TPU v5p, qui multiplie par quatre les performances des TPU par rapport aux puces v4 existantes.

Nom : cloud.png
Affichages : 3098
Taille : 175,9 Ko

Puis, le lendemain (14 décembre), Google a annoncé que son modèle d'IA générative le plus puissant et le plus performant, Gemini, est désormais disponible pour les entreprises pour leurs besoins de développement d'applications. Annoncé la semaine dernière, Gemini est disponible en trois tailles : Ultra, Pro et Nano. Avec la décision d'aujourd'hui, la société dirigée par Sundar Pichai rend la version Pro du modèle accessible via l'API. Il peut être utilisé gratuitement pour le moment, mais il existe certaines limitations d'utilisation, a expliqué la société dans un article de blog.

Nom : un.png
Affichages : 1333
Taille : 41,7 Ko

Gemini Pro pour les développeurs : à quoi s'attendre ?

Cette première version de Gemini Pro dispose d'une fenêtre contextuelle de 32 Ko (Google prévoit de l'augmenter à l'avenir) et prend en charge la saisie/sortie de texte. Il existe également aujourd'hui un point de terminaison Gemini Pro Vision qui accepte la saisie de texte et d'image pour produire du texte.

Le bouton « Obtenir le code » vous permet de transférer le travail vers votre EDI dans cURL, JavaScript, Python, Android (Kotlin) et Swift.

Dans un publication sur X/Twitter annonçant la disponibilité, Pichai a souligné que l'API Gemini donne aux développeurs l'accès à une gamme complète de fonctionnalités, notamment l'appel de fonctions, l'intégration, la récupération sémantique, la base de connaissances personnalisée et la fonctionnalité de chat. Il prend également en charge 38 langues dans plus de 180 pays. Des SDK sont disponibles pour Gemini Pro pour vous aider à créer des applications qui s'exécutent n'importe où. Python, Android (Kotlin), Node.js, Swift et JavaScript sont tous pris en charge.

Today developers can start building with our first version of Gemini Pro through Google AI Studio at https://t.co/ozfVwuBpSZ.

Developers have a free quota and access to a full range of features including function calling, embeddings, semantic retrieval, custom knowledge… pic.twitter.com/GHzFaoU9cK
— Sundar Pichai (@sundarpichai) December 13, 2023

Vertex AI

Vertex AI, contrairement à AI Studio, est connecté à de nombreuses sources de données d'entreprise, notamment celles provenant de partenaires tiers de Google Cloud. L'accent est donc mis sur l'utilisation des propres données d'une entreprise.

En fin de compte, la société prévoit de tirer les leçons des commentaires des développeurs pour affiner Gemini Pro et se diriger vers le lancement du plus grand Gemini Ultra l'année prochaine. Il a été conçu pour des tâches plus complexes.

Ci-dessous les commentaires de Google à ce sujet.

Vertex AI permet de personnaliser et de déployer Gemini, permettant ainsi aux développeurs de créer de nouvelles applications différenciées capables de traiter les informations à travers le texte, le code, les images et les vidéos. Avec Vertex AI, les développeurs peuvent :

Découvrir et utiliser Gemini Pro, ou sélectionner parmi une liste organisée de plus de 130 modèles de Google, open source et tiers qui répondent aux normes strictes de sécurité et de qualité d'entreprise de Google. Les développeurs peuvent accéder aux modèles sous forme d'API faciles à utiliser pour les intégrer rapidement dans des applications.
Personnaliser le comportement du modèle avec une expertise spécifique dans un domaine ou une entreprise, en utilisant des outils de réglage pour augmenter les connaissances de formation et même ajuster les pondérations du modèle si nécessaire. Vertex AI propose diverses techniques de réglage, notamment la conception rapide, le réglage basé sur des adaptateurs tels que l'adaptation de bas rang (LoRA) et la distillation. Nous offrons également la possibilité d'améliorer un modèle en capturant les commentaires des utilisateurs grâce à notre prise en charge de l'apprentissage par renforcement à partir des commentaires humains (RLHF).
Améliorer les modèles avec des outils pour vous aider à adapter Gemini Pro à des contextes ou des cas d'utilisation spécifiques. Les extensions et connecteurs Vertex AI permettent aux développeurs de lier Gemini Pro à des API externes pour des transactions et d'autres actions, de récupérer des données à partir de sources externes ou d'appeler des fonctions dans des bases de code. Vertex AI donne également aux organisations la possibilité d'ancrer les résultats du modèle de base dans leurs propres sources de données, contribuant ainsi à améliorer la précision et la pertinence des réponses d'un modèle. Nous offrons aux entreprises la possibilité d'utiliser la mise à la terre sur leurs données structurées et non structurées, ainsi que la technologie de recherche Google.
Gérer et faire évoluer les modèles en production avec des outils spécialement conçus pour garantir qu'une fois les applications créées, elles peuvent être facilement déployées et entretenues. À cette fin, nous introduisons une nouvelle façon d’évaluer les modèles appelée Automatic Side by Side (Auto SxS), un outil automatisé à la demande pour comparer les modèles. Auto SxS est plus rapide et plus rentable que l'évaluation manuelle de modèles, et personnalisable selon diverses spécifications de tâches pour gérer de nouveaux cas d'utilisation de l'IA générative.
Créer des agents de recherche et conversationnels dans un environnement low code/no code. Avec Vertex AI, les développeurs de tous niveaux de compétences en machine learning pourront utiliser Gemini Pro pour créer des agents IA attrayants et de qualité production en quelques heures et jours au lieu de semaines et de mois. Bientôt, Gemini Pro sera une option pour optimiser les fonctionnalités de synthèse de recherche et de génération de réponses dans Vertex AI, améliorant ainsi la qualité, la précision et les capacités de base des applications de recherche. Gemini Pro sera également disponible en avant-première en tant que modèle de base pour les agents conversationnels vocaux et de chat, offrant des interactions dynamiques avec les utilisateurs prenant en charge un raisonnement avancé.
Innover de manière responsable en utilisant les filtres de sécurité, les API de modération de contenu et d'autres outils d'IA responsable de Vertex AI pour aider les développeurs à garantir que leurs modèles ne génèrent pas de contenu inapproprié.
Contribuer à protéger les données grâce aux contrôles intégrés de gouvernance des données et de confidentialité de Google Cloud. Les clients gardent le contrôle de leurs données et Google n'utilise jamais les données client pour entraîner nos modèles. Vertex AI propose divers mécanismes permettant aux clients de conserver le contrôle exclusif de leurs données, notamment les clés de chiffrement gérées par le client et les contrôles de service VPC.

Gratuit mais avec des limitations

Selon Google, Gemini Pro et Gemini Pro Vision sont désormais accessibles gratuitement avec une limite de débit allant jusqu'à 60 requêtes par minute. Il en va de même pour les développeurs utilisant les modèles sur Vertex AI, mais seulement jusqu'à leur disponibilité générale l'année prochaine. Google affirme que le quota gratuit est 20 fois supérieur à celui des autres offres et devrait convenir à la plupart des besoins de développement.

Cela dit, une fois l'offre disponible, la société prévoit de facturer par 1 000 caractères ou par image sur Google AI Studio et Vertex AI.

Plus précisément, le prix d'entrée de Gemini Pro est maintenu à 0,00025 USD pour 1 000 caractères et à 0,0025 USD par image, tandis que le prix de sortie pour les deux reste le même, à 0,0005 USD pour 1 000 caractères.

Nom : prix.png
Affichages : 1335
Taille : 34,2 Ko

Envoyé par Google

Google AI Studio est un outil de développement Web gratuit qui vous permet de développer rapidement des invites, puis d'obtenir une clé API à utiliser dans le développement de votre application. Vous pouvez vous connecter à Google AI Studio avec votre compte Google et profiter du quota gratuit, qui autorise 60 requêtes par minute, soit 20 fois plus que les autres offres gratuites. Lorsque vous êtes prêt, vous pouvez simplement cliquer sur « Obtenir le code » pour transférer votre travail vers l'IDE de votre choix, ou utiliser l'un des modèles de démarrage rapide disponibles dans Android Studio, Colab ou Project IDX. Pour nous aider à améliorer la qualité des produits, lorsque vous utilisez le quota gratuit, les entrées et sorties de votre API et de Google AI Studio peuvent être accessibles aux évaluateurs formés. Ces données sont anonymisées de votre compte Google et de votre clé API.

Comme certains l'ont observé sur X, c'est bien plus que les prix comparables de concurrents tels que le GPT d'OpenAI, puisque Google facture « par caractère », c'est-à-dire chaque lettre ou chiffre généré par le modèle d'IA, par rapport à ceux d'OpenAI et de la plupart des autres sociétés d'IA qui propose une tarification « par jeton », dans laquelle un jeton numérique peut être utilisé pour représenter des mots entiers.

Gemini Pro API details, more expensive than gpt-3.5 (hint they use character pricing vs token) pic.twitter.com/6tFDSftdmv
— anton (@abacaj) December 13, 2023

Imagen2 : le réseau neuronal de conversion texte-image

Google Cloud a également annoncé une nouvelle version de son réseau neuronal de conversion texte-image, Imagen2, qui, selon lui, offre de plus grandes capacités pour des choses telles que le rendu de texte, pour l'insertion de marques d'entreprise dans des images (le logo de votre entreprise sur un tube de dentifrice dans une image). d'une salle de bain.)

Imagen2 est disponible dans la fonctionnalité Vertex AI appelée Model Garden, qui comprend une collection de différents programmes de réseaux neuronaux.

Le Model Garden comprend pour la première fois plusieurs réseaux de neurones tiers, notamment Mistral, ImageBind et DITO.

Sources : Google (1, 2)

Et vous ?

Que pensez-vous de Gemini ? Que pensez-vous de sa disponibilité sur les différentes plateformes de Google ?

Avez-vous déjà utilisé Google AI Studio et / ou Vertex AI ? Qu'en pensez-vous ? Comment trouvez-vous ces outils par rapports à ceux de la concurrence ?

Quelles sont les applications potentielles de Gemini Pro dans votre domaine d’activité ou d’intérêt ?

Que pensez-vous de l'offre gratuite ? De ses limitations ? Des tarifications comparées à celles de la concurrence ?

Voir aussi :

La meilleure démo de l'IA Gemini de Google a été truquée, Google a déjà admis que sa démo n'était pas réelle. Elle n'a pas été réalisée en temps réel ni en voix. Le modèle a vu des images fixes

**Jade Emy** · 20/12/2023, 17h20

Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon.

Google vient de lancer sa dernière offre d'IA, baptisée Gemini Pro. L'entreprise a fait de grandes promesses lors de la présentation. Mais il semble que tout ce qui brille ne soit pas d'or dans le cas du rival ChatGPT. Selon une nouvelle étude, les performances de Gemini Pro de Google sont inférieures à celles de ChatGPT 3.5 d'OpenAI.

Cela fait moins d'un mois que le géant des moteurs de recherche a présenté la vidéo de démonstration qui a fait couler beaucoup d'encre. Mais au final, le fabricant d'Android a été vivement critiqué pour ce qui semblait être une mise en scène entre le présentateur et le monde de l'IA, comme le souligne la dernière controverse sur le sujet.

Aujourd'hui, selon une nouvelle étude, on assiste à des révélations choquantes, notamment sur le fait que le chatbot que Google affirme être le plus puissant mis à la disposition des utilisateurs est en réalité loin d'être idéal. En fait, ses performances sont comparées à celles de la variante GPT 3.5 d'OpenAI, qui est dépassée, et les résultats sont bien pires.

Oui, cela signifie que le LLM le plus puissant et le plus récent de Google n'a pas réussi à impressionner malgré les mois qu'il a mis à arriver sur le marché, et qu'il n'a pas répondu aux attentes des experts. N'oubliez pas que la version 3.5 de ChatGPT est non seulement ancienne et moins innovante, mais qu'elle est également gratuite. Les utilisateurs qui paient un abonnement peuvent accéder aux LLM GPT-4 et 4V et la majorité des utilisateurs tirent le meilleur parti de la dernière alternative OpenAI.

Cette recherche menée par des auteurs de l'université Carnegie Mellon a montré comment le modèle a effectué plusieurs tâches, y compris l'écriture, pour parvenir à cette compréhension. Il est choquant de constater que la qualité de ces écrits est inférieure à celle d'autres écrits générés par des outils similaires de la concurrence. Ce type de conclusion, qui comporte des chocs importants, ne peut que nuire à la direction de Google, qui a consacré non seulement du temps mais aussi beaucoup d'argent à la commercialisation du modèle Gemini Pro, considéré comme le nec plus ultra dans le monde de l'intelligence artificielle. Il n'était pas seulement comparable, mais inférieur en termes de précision à la version récente d'OpenAI.

Lorsque Google a été contacté pour faire la lumière sur cette affaire et sur ce qu'il pensait des résultats, le porte-parole a dévoilé quelques faits intéressants. Il a expliqué en détail les études menées par Google, qui ont prouvé le contraire. Non seulement Gemini Pro était meilleur que GPT 3.5, mais Gemini Ultra, qui n'est pas encore sorti, obtiendrait de meilleurs résultats que GPT-4, la meilleure solution d'IA d'OpenAI à ce jour.

D'après ce scénario jusqu'à présent, il s'agit certainement d'une nouvelle alarmante. Bien entendu, d'autres études menées par d'autres entités externes sont nécessaires pour faire toute la lumière sur cette affaire et tirer d'autres conclusions sur la qualité du modèle Pro de Gemini. Pour l'instant, Google a réfuté les affirmations de l'étude et s'engage à s'en tenir à ses recherches internes. L'entreprise a également accusé l'auteur d'avoir utilisé de mauvaises références pour la comparaison et d'avoir provoqué des conflits en raison de la contamination des données.

Les chercheurs auraient testé quatre types de grands modèles linguistiques, dont Gemini Pro, GPT-3.5 Turbo, Mixtral 8X7B et GPT-4 Turbo d'OpenAI. Ils ont ensuite utilisé un LiteLLM pendant quatre jours, puis ont fait fonctionner les modèles sur différentes invites. En outre, il a été choquant de constater que la programmation ne répondait pas non plus aux attentes. Les niveaux de précision étaient médiocres par rapport à d'autres et pour les QCM, il a choisi de donner plus de réponses D, bien qu'elles soient incorrectes, ce qui témoigne d'un parti pris.

La question est maintenant de savoir ce que cela signifie réellement pour le géant de la technologie Google. C'est sans aucun doute un coup dur pour l'entreprise. Elle a essayé de prendre de l'avance dans la course à l'IA, mais une chose ou l'autre la fait chuter. En attendant, la variante la plus innovante et la plus puissante, baptisée Gemini Ultra, sera lancée l'année prochaine. Cela signifie donc que le géant de la technologie est à la traîne dans la course à l'IA, en ce qui concerne les performances.

Résumé

La classe de modèles Google Gemini, récemment publiée, est la première à présenter des résultats complets qui rivalisent avec la série OpenAI GPT dans une grande variété de tâches. Dans cet article, nous explorons en profondeur les capacités linguistiques de Gemini, en apportant deux contributions.

Tout d'abord, nous fournissons une comparaison objective des capacités des modèles OpenAI GPT et Google Gemini avec un code reproductible et des résultats totalement transparents. Deuxièmement, nous examinons de plus près les résultats, en identifiant les domaines dans lesquels l'une des deux classes de modèles excelle. Nous effectuons cette analyse sur 10 ensembles de données testant une variété de capacités linguistiques, y compris le raisonnement, la réponse à des questions basées sur la connaissance, la résolution de problèmes mathématiques, la traduction entre les langues, la génération de code et l'action en tant qu'agents qui suivent des instructions.

Nom : 1.png
Affichages : 15535
Taille : 73,2 Ko

Cette analyse révèle que Gemini Pro atteint une précision proche, mais légèrement inférieure à celle du GPT 3.5 Turbo correspondant pour toutes les tâches que nous avons évaluées. Nous expliquons en outre certaines de ces contre-performances, notamment les échecs du raisonnement mathématique avec de nombreux chiffres, la sensibilité à l'ordre des réponses à choix multiples, le filtrage agressif du contenu, etc. Nous identifions également les domaines dans lesquels Gemini fait preuve d'une performance comparativement élevée, notamment la génération dans des langues autres que l'anglais et la gestion de chaînes de raisonnement plus longues et plus complexes.

Conclusion

Dans cet article, nous avons jeté un premier regard impartial et approfondi sur le modèle Gemini de Google, en le comparant aux modèles GPT 3.5 et 4 d'OpenAI, ainsi qu'au modèle open source Mixtral.

À retenir

Nous sommes arrivés à un certain nombre de conclusions :

Le modèle Gemini Pro, qui est comparable au modèle GPT 3.5 Turbo en termes de taille et de classe, atteint généralement une précision comparable mais légèrement inférieure à celle du modèle GPT 3.5 Turbo, et bien inférieure à celle du modèle GPT 4. Il surpasse Mixtral dans toutes les tâches que nous avons examinées.
En particulier, nous avons constaté que Gemini Pro était un peu moins performant que GPT 3.5 Turbo en moyenne, mais qu'il présentait en particulier des problèmes de biais dans l'ordre des réponses aux questions à choix multiples, de raisonnement mathématique avec de grands chiffres, de fin prématurée des tâches agentives, ainsi que de réponses échouées en raison d'un filtrage agressif du contenu.
D'un autre côté, il y a eu des points positifs : Gemini a obtenu de meilleurs résultats que GPT 3.5 Turbo dans les tâches de raisonnement particulièrement longues et complexes, et s'est également montré compétent dans les tâches multilingues où les réponses n'étaient pas filtrées.

Nom : 2.png
Affichages : 2700
Taille : 100,8 Ko

Limites

Enfin, nous souhaitons tempérer ces conclusions par un certain nombre de limites.

Tout d'abord, notre travail est un instantané dans le temps par rapport à des systèmes basés sur des API instables et en constante évolution. Tous les résultats présentés ici sont à jour au moment de la rédaction de ce document, le 19 décembre 2023, mais peuvent changer à l'avenir, à mesure que les modèles et les systèmes environnants sont mis à niveau.

Deuxièmement, les résultats peuvent dépendre des invites spécifiques et des paramètres de génération que nous avons sélectionnés. Il est tout à fait possible qu'avec une ingénierie plus poussée des invites, ou des échantillons multiples et une autoconsistance comme celle utilisée par l'équipe Gemini [2023], les résultats pourraient changer de manière significative. Cependant, nous pensons que les résultats cohérents sur plusieurs tâches avec des invites standardisées sont une indication raisonnable de la robustesse et de la capacité à suivre des instructions généralisées des modèles testés.

Enfin, tout article sur l'évaluation comparative serait négligent s'il n'abordait pas la question de la fuite de données, qui est un problème pour l'évaluation actuelle des modèles de langage de grande taille. Bien que nous n'ayons pas mesuré cette fuite de manière explicite, nous avons tenté de l'atténuer en évaluant une grande variété de tâches, y compris celles dont les résultats ne provenaient pas d'Internet ou n'y étaient pas largement disponibles (comme WebArena).

Nom : 3.PNG
Affichages : 2691
Taille : 98,9 Ko

Perspectives

Sur la base de cet article, nous pouvons recommander aux chercheurs et aux praticiens de considérer attentivement le modèle Gemini Pro comme un outil dans la boîte à outils, comparable à GPT 3.5 Turbo. L'édition Ultra de Gemini, qui n'a pas encore été publiée, serait comparable à GPT 4, et un examen plus approfondi de ce modèle sera justifié lorsqu'il sera disponible.

Source : "An In-depth Look at Gemini’s Language Abilities", Université Carnegie Mellon

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »

LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

**Mathis Lucas** · 23/01/2024, 16h36

Google veut déployer "l'IA la plus avancée, la plus sûre et la plus responsable au monde" en 2024, mais le chemin à parcourir est encore long
et pourrait comporter des défis majeurs

Les objectifs de Google pour 2024 ont fait l'objet d'une fuite et la réduction des coûts et l'IA sont deux des principaux points d'attention. Les documents divulgués révèlent que la société prévoit cette année "des avancées significatives" en matière d'IA et "la livraison de l'IA la plus avancée, la plus sûre et la plus responsable au monde". Cela suggère que le géant de la recherche a pour objectif de surpasser les efforts d'OpenAI pour devenir le leader mondial de la recherche en IA. Cependant, les analystes affirment que le chemin à parcourir est encore long et l'entreprise pourrait être confrontée à des défis majeurs.

En 2023, le monde a assisté à la prolifération rapide de l'IA dans diverses industries. Le lancement de ChatGPT et son succès rapide ont donné lieu à une course effrénée à l'IA, de nombreux géants de la technologie s'efforçant de devenir les leaders dans ce domaine. Meta, Google et Microsoft se sont efforcés de développer des modèles d'IA rivaux et de les intégrer dans leurs produits et services. Malgré les progrès rapides de ces entreprises concurrentes, leurs modèles d'IA n'ont pas connu le même succès que ChatGPT et OpenAI mène toujours la dance dans le domaine. Mais Google est décidé à inverser la tendance dès cette année.

Du moins, c'est ce que révèlent des documents internes de Google auxquels le média américain The Verge a eu accès. L'un des documents liste les objectifs de Google pour 2024 et révèle que l'objectif principal de Google est de livrer l'IA "la plus avancée au monde" cette année. Les objectifs listés dans le document divulgué seraient les suivants :

fournir l'IA la plus avancée, la plus sûre et la plus responsable du monde ;
améliorer la connaissance, l'apprentissage, la créativité et la productivité ;
créer les plateformes et les appareils informatiques personnels les plus utiles ;
permettre aux entreprises et aux développeurs d'innover sur Google Cloud ;
fournir les produits et les plateformes les plus fiables au monde ;
construire un Google extraordinaire pour les Googlers et le monde entier ;
améliorer la vélocité, l'efficacité et la productivité des entreprises, et réaliser des économies durables.

Le dernier point de la liste laisse présager d'autres licenciements et les économies réalisées, ainsi que d'autres ressources, seront probablement réaffectées aux projets d'IA de Google en vue de permettre à l'entreprise de prendre la tête de la course à l'IA. Depuis le début du mois de janvier, Google aurait licencié des milliers d'employés dans différents domaines et aurait annoncé que la société veut se concentrer davantage sur l'IA. Certains des employés licenciés faisaient partie des équipes chargées de la publicité ou du matériel et d'autres travaillaient sur l'un des premiers outils d'IA du géant de la recherche en ligne, Google Assistant.

La rumeur indique que l'entreprise tourne progressivement la page de Google Assistant et pourrait le remplacer à l'avenir par un assistant d'IA plus intelligent. Dans une note interne distincte, le PDG de Google, Sundar Pichai a cité des "objectifs ambitieux et de "grandes priorités" pour cette année. Selon Pichai, pour faire de la place aux investissements, des "choix difficiles doivent être faits pour devenir plus efficaces. Les licenciements devraient être moins importants que l'année dernière, lorsque Google avait licencié environ 12 000 personnes en janvier. Certains employés de YouTube devraient être touchés par les nouveaux licenciements.

L'objectif de Google qui vise à livrer l'IA la plus avancée au monde en 2024 est un projet ambitieux, mais selon certains analystes, Google pourrait faire face à des défis majeurs. Notamment, ils estiment que la puissance de calcul de Google Cloud Platform (GPC) n'est pas à la hauteur de ses ambitions et semble plus faible que la puissance de calcul dont dispose l'infrastructure cloud de Microsoft, Azure. Par conséquent, cela limite les capacités de Google à entraîner de manière efficace ses modèles d'IA. Microsoft et OpenAI ont un accord qui permet à ce dernier de bénéficier de la puissance de calcul d'Azure et de ressources financières importantes.

Selon les données de Synergy Research Group, la part de marché mondial d'Amazon sur le marché du cloud computing s'élevait à 34 % au troisième trimestre 2022, dépassant toujours la part combinée de ses deux principaux concurrents : Microsoft Azure (21 %) et Google Cloud Platform (11 %). L'année dernière, Google Cloud Platform a accusé Microsoft de pratiques antitrust sur le marché du cloud et a critiqué les accords conclus par le géant de Redmond avec plusieurs fournisseurs européens de cloud computing. Selon Google, ces accords ne résolvaient pas les problèmes plus généraux liés aux conditions de licence de l'entreprise.

Google est actuellement loin derrière Microsoft et OpenAI en matière de technologie et de déploiement de l'IA. D'après les benchmarks, les modèles Gemini dévoilés l'année dernière peuvent à peine rivaliser avec ceux d'OpenAI. Avant le lancement, Google avait assuré que les performances de Gemini surpasseraient celles de GPT-4, mais ce n'est pas le cas. Le modèle n'impressionne pas et certains benchmarks montrent que ces performances sont inférieures à celles de GPT-3.5. Pendant ce temps, le PDG d'OpenAI, Sam Altman, a confirmé que la startup a commencé à travailler sur GPT-5, la prochaine mise à jour majeure des modèles GPT.

Il est important de noter que beaucoup ne partagent pas cet avis. Certains critiques semblent placer de grands espoirs dans les capacités de Google à renverser la tendance et à prendre la tête de la course à l'IA. « Ils sortiront probablement une IA de niveau GPT-5 à peu près en même temps qu'OpenAI. Google réalise un chiffre d'affaires de plus de cent milliards par an et dispose de centres de données et d'ordinateurs à l'échelle mondiale. N'oublions pas que Google est à l'origine des études sur les réseaux neuronaux "Transformer". Ils ont également plus de données que n'importe qui d'autre pour former ces choses », affirme un critique.

En termes de production, Google, comme Microsoft, tente de mettre en œuvre l'IA dans des produits existants tels que ses applications professionnelles, les smartphones Pixel et la recherche générative d'IA. Cependant, Google n'a pas encore réussi à produire un produit d'IA autonome comme ChatGPT. On dit qu'elle travaille sur une nouvelle offre de chatbot basée sur son modèle Gemini Ultra le plus performant. Mais jusqu'à présent, le chatbot Bard de Google est loin derrière ChatGPT en matière de nombre d'utilisateurs.

Selon les analystes, l'activité de cloud computing de Microsoft semble se développer plus rapidement que celle de Google, notamment grâce à son partenariat avec OpenAI. Les analystes estiment que cela risque d'être un point sensible pour Google. Les grandes entreprises technologiques considèrent le cloud comme le prochain horizon de croissance.

Et vous ?

Quel est votre avis sur le plan audacieux de Google ?

Selon vous, Google est-il en mesure de réussir son pari ? Pourquoi ?

L'état de Gemini suggère-t-il que Google a perdu la course à l'IA face à OpenAI ?

Partagez-vous l'avis selon lequel Microsoft Azure se développe plus rapidement que GCP ?

Voir aussi

« L'IA nous a obligés à le faire » : c'est la nouvelle raison invoquée par les Big Tech pour justifier les licenciements, ces derniers sont utilisés pour réaffecter les ressources aux projets d'IA

Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon

Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo

**Bruno** · 23/02/2024, 16h45

Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos,
avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turbo

Google a récemment annoncé Gemini Pro 1.5, la dernière mise à jour de sa série de modèles d'IA Gemini. Cette version offre des améliorations significatives, notamment une fenêtre contextuelle de 1 million de jetons, surpassant largement les précédents détenteurs du record tels que Claude 2.1 (200 000 jetons) et gpt-4-turbo (128 000 jetons). Cependant, il est important de noter que la comparaison directe entre ces modèles est quelque peu nuancée en raison des différences d'implémentation des jetons. Elle permet une compréhension approfondie des contextes longs. La nouvelle architecture MoE (Mélange d'experts) et des innovations dans l'apprentissage automatique rendent Gemini 1.5 plus performant et efficace pour la formation et le service.

Gemini Pro 1.5, le premier modèle disponible, est multimodal, optimisé pour diverses tâches, et peut traiter jusqu'à 1 million de jetons. Il excelle dans l'analyse, la classification et le résumé d'informations, même avec des volumes importants, comme une heure de vidéo ou 11 heures d'audio. La capacité à raisonner sur des contextes longs ouvre de nouvelles possibilités, notamment dans la compréhension vidéo, la résolution de problèmes avec des blocs de code étendus, et la traduction de langues rares.

Nom : Gemini.jpg
Affichages : 36519
Taille : 14,3 Ko

« La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.

Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.

Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.

L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous », Sundar Pichai, PDG de Google et d'Alphabet.

Comparaison entre Gemini 1.5 Pro et GPT-4 Vision pour le traitement vidéo

À travers son compte Twitter, une développeuse de Google DeepMind a partagé qu'elle avait enregistré une vidéo d'une tâche, et Gemini a généré du code pour la reproduire. Cependant, il est important de noter que le code généré par Gemini n'est pas entièrement opérationnel, soulignant ainsi l'importance de vérifier attentivement les résultats produits par l'intelligence artificielle.

🤯 Mind officially blown:

I recorded a screen capture of a task (looking for an apartment on Zillow). Gemini was able to generate Selenium code to replicate that task, and described everything I did step-by-step.

It even caught that my threshold was set to $3K, even though I… pic.twitter.com/IU7kvnYHlt
— 👩*💻 Paige Bailey (@DynamicWebPaige) February 22, 2024

L'intégration de modèles tels que GPT-4 Vision et Gemini 1.5 Pro pour le traitement vidéo suscite un intérêt, mais des interrogations persistent quant à leur efficacité et à leur coût. GPT-4 Vision semble offrir une démo basée sur une séquence d'images, tandis que Gemini 1.5 Pro prétend pouvoir traiter jusqu'à une heure de vidéo, mais des inquiétudes émergent quant à la variation des fréquences d'échantillonnage et à la cohérence des résultats. La question du coût demeure centrale, avec des utilisateurs soulignant la nécessité d'une clarification sur la comparaison des jetons utilisés entre les deux modèles et sur la véritable efficacité économique.

Un débat émerge également sur la méthodologie de traitement des vidéos. Certains avis suggèrent que le processus ne se limite pas à une simple division en images, mais que Gemini 1.5 Pro segmente les vidéos en scènes, les contextualise sur plusieurs scènes, et peut générer un index et un résumé. Cette approche plus sophistiquée pourrait influencer la qualité des informations extraites, mais des préoccupations subsistent quant à la cohérence technique de cette méthodologie.

L'évaluation de ces modèles pour le traitement vidéo nécessite une compréhension approfondie de leurs performances pratiques, de leur coût réel et de leur capacité à répondre aux besoins spécifiques des utilisateurs. La transparence sur la méthodologie de traitement, la fréquence d'échantillonnage et les coûts associés est cruciale pour prendre des décisions informées et optimiser l'utilisation de ces technologies émergentes.

1.5 Pro a été soumis à des évaluations exhaustives couvrant divers domaines tels que textes, codes, images, audio et vidéo, surpassant 87 % des points de référence utilisés pour les grands modèles de langage (LLM) par rapport à 1.0 Pro. En comparaison avec 1.0 Ultra sur ces mêmes critères, les performances de 1.5 Pro sont largement similaires.

Malgré l'augmentation de la fenêtre contextuelle, Gemini 1.5 Pro maintient des niveaux élevés de performance. Dans l'évaluation Needle In A Haystack (NIAH), où un fragment de texte spécifique est inséré intentionnellement dans un long bloc de texte, 1.5 Pro a identifié le texte intégré dans 99 % des cas, même dans des blocs de données d'un million de jetons.

De la sécurité à l'apprentissage Multimodal

Les capacités d'"apprentissage en contexte" de Gemini 1.5 Pro sont impressionnantes, lui permettant d'acquérir de nouvelles compétences à partir d'informations fournies dans une longue invite, sans nécessiter de focalisation supplémentaire. Des tests sur le benchmark Machine Translation from One Book (MTOB) démontrent sa capacité à apprendre à traduire vers le kalamang, une langue rare avec moins de 200 locuteurs, à un niveau comparable à celui d'une personne apprenant à partir du même contenu.

En tant que premier modèle à grande échelle avec une fenêtre contextuelle étendue, 1.5 Pro est soumis à des évaluations continues et à de nouveaux critères de référence pour tester ses capacités évolutives. Des tests approfondis d'éthique et de sécurité sont effectués conformément aux principes d'IA et aux politiques strictes de Google.

Depuis le lancement de la version 1.0 Ultra en décembre, des ajustements ont été apportés pour améliorer la sécurité, des recherches sur les risques ont été menées, et des techniques d'équipe d'experts ont été développées pour tester divers dommages potentiels. Avant le déploiement de la version 1.5 Pro, une approche responsable a été adoptée, avec des évaluations approfondies dans des domaines tels que la sécurité du contenu et les préjudices liés à la représentation, et des tests continus sont prévus pour tenir compte des nouvelles capacités de contexte long.

L'architecture de modèle repose sur des recherches avancées en matière de Transformer et MoE, offrant des performances accrues tout en maintenant la qualité. Gemini 1.5 Pro a été testé sur diverses modalités (texte, code, images, audio, vidéo), surpassant son prédécesseur sur 87 % des points de référence. Des tests approfondis d'éthique et de sécurité ont été effectués, et le modèle est proposé aux développeurs et entreprises via AI Studio et Vertex AI, avec une fenêtre contextuelle standard de 128 000 jetons.

La fonctionnalité la plus notable de Gemini Pro 1.5 est son utilisation de la vidéo comme entrée, ouvrant de nouvelles perspectives pour des applications diverses. Des tests pratiques ont démontré la capacité du modèle à identifier des objets dans une vidéo et à fournir des informations pertinentes, marquant une avancée significative dans l'application de l'IA à des données multimodales.

L'enthousiasme autour de Gemini Pro 1.5 est tempéré par des questions éthiques et de sécurité cruciales. Bien que Google affirme avoir soumis le modèle à des tests approfondis, la question de la fiabilité éthique des résultats persiste. Les risques potentiels liés à la représentation, bien que explorés, nécessitent une vigilance continue, en particulier avec l'introduction de nouvelles capacités de contexte long dans la version 1.5 Pro.

En outre, la déclaration sur les performances similaires à celles de 1.0 Ultra soulève des interrogations. Si la comparaison est valable sur les points de référence spécifiques, elle ne fournit pas une image complète de la valeur ajoutée réelle de la mise à jour. L'utilisation expérimentale de la vidéo comme entrée est certes innovante, mais des questions subsistent quant à la manipulation de données visuelles de manière éthique et équitable, ainsi qu'à la gestion de la confidentialité des utilisateurs.

Source : Google

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon

Google lance Gemini Pro. Son modèle d'IA est accessible pour les développeurs et les entreprises via Google AI Studio et Vertex AI, mais sa tarification fait déjà l'objet de critiques

**Patrick Ruiz** · 09/04/2024, 19h17

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d’IA de Google pour les entreprises
Avec la capacité d’analyser des flux audio en sus des vidéos

Gemini 1.5 Pro, le modèle d'IA générative annoncé comme étant le plus performant de Google, sort de sa phase de préversion privée et passe en préversion publique sur Vertex AI – la plateforme de développement d’IA de Google pour les entreprises. Le modèle déjà connu pour sa capacité à générer du code informatique à partir de vidéos arrive à disposition du public après une mise à jour qui le met en capacité d’analyser des flux audio. Sa disponibilité se fait dans le contexte de la multiplication des rapports selon lesquels l’intelligence artificielle menace les emplois en cols blancs dans divers secteurs dont celui du développement de logiciels.

Gemini 1.5 Pro a fait l'objet de lancement en février, rejoignant la famille des modèles d'IA générative Gemini de Google. Sa principale caractéristique est sans aucun doute la quantité de contexte qu'il peut traiter : entre 128 000 tokens et jusqu'à 1 million de tokens, où "tokens" se réfère à des bits subdivisés de données brutes.

Un million de tokens équivaut à environ 700 000 mots ou environ 30 000 lignes de code. C'est environ quatre fois la quantité de données que le modèle phare d'Anthropic, Claude 3, peut prendre en entrée et environ huit fois plus que le contexte maximal du GPT-4 Turbo d'OpenAI.

Le contexte d'un modèle, ou fenêtre contextuelle, fait référence à l'ensemble initial de données (par exemple un texte) que le modèle prend en compte avant de générer un résultat (par exemple un texte supplémentaire). Une simple question - "Qui a remporté l'élection présidentielle américaine de 2020 ?" - peut servir de contexte, tout comme un scénario de film, un courriel, un essai ou un livre électronique.

Gemini 1.5 Pro étant multilingue - et multimodal dans le sens où il est capable de comprendre des images et des vidéos et, depuis peu, des flux audio en plus du texte - le modèle peut également analyser et comparer le contenu de médias tels que des émissions de télévision, des films, des émissions de radio, des enregistrements de conférences téléphoniques et bien d'autres encore dans différentes langues. Un million de jetons correspond à environ une heure de vidéo ou à environ 11 heures d'audio.

Grâce à ses capacités de traitement audio, Gemini 1.5 Pro peut également générer des transcriptions pour les clips vidéo, même si la qualité de ces transcriptions n'est pas encore au rendez-vous.

Google indique que les premiers utilisateurs de Gemini 1.5 Pro - dont United Wholesale Mortgage, TBS et Replit - exploitent la grande fenêtre contextuelle pour des tâches allant de la souscription de prêts hypothécaires à l'automatisation du marquage des métadonnées dans les archives médiatiques, en passant par la génération, l'explication et la transformation de code.

Les gains de productivité avec des outils de ce type sont néanmoins de nature à entraîner des pertes d’emplois dans la filière du développement de logiciels en dépit des tares dont ils font encore montre

En effet, si Gemini est connu pour générer du code à partir de vidéo, il faut souligner que le code produit n’est pas totalement fonctionnel, ce qui remet en avant la nécessité de vérifier les productions de l’intelligence artificielle. En d’autres termes, au stade actuel de son évolution, cette intelligence artificielle est un outil qui nécessite l’intervention d’un professionnel de la filière du développement de logiciels pour obtenir un produit fini.

Le tableau n’est pas sans faire penser au cas Air Canada en matière de mise à contribution de l’intelligence artificielle dans la filière du développement de logiciels. Le jour où la grand-mère de Jake Moffatt est décédée, ce dernier s'est à l’immédiat rendu sur le site Web d'Air Canada pour réserver un vol de Vancouver à Toronto. Ne sachant pas comment fonctionnent les tarifs d'Air Canada pour les personnes en deuil, Moffatt a demandé au chatbot d'Air Canada de lui expliquer. Ce dernier a fourni des informations inexactes, encourageant Jake Moffatt à réserver un vol à l’immédiat, puis à demander un remboursement dans les 90 jours. Une recommandation en contradiction avec la politique de la compagnie aérienne qui stipule qu’elle ne procède pas à des remboursements une fois que la réservation est effectuée.

Jake Moffatt a donc porté plainte en joignant une capture d’écran de sa conversation avec le chatbot : « Si vous devez voyager à l’immédiat ou si vous avez déjà voyagé et que vous souhaitez soumettre votre billet pour bénéficier d'un tarif réduit pour les personnes en deuil, veuillez le faire dans les 90 jours suivant la date d'émission de votre billet en remplissant notre formulaire de demande de remboursement de billet. »

Le tribunal a au final tranché que M. Moffatt a droit à un remboursement partiel de 650,88 dollars canadiens (environ 482 USD) sur le prix initial du billet qui était de 1 640,36 CAD (environ 1 216 USD), ainsi qu'à des dommages-intérêts supplémentaires pour couvrir les intérêts sur le billet d'avion et les frais de justice de M. Moffatt.

Air Canada a décidé de se conformer à la décision et de considérer l'affaire comme close après avoir refusé d’endosser la responsabilité de l’erreur commise par le chatbot intégré à son site web. La compagnie aérienne a ensuite procédé à la désactivation de ce dernier.

Une étude publiée au premier trimestre de l’année précédente par des économistes du MIT rapporte que l'IA générative, notamment le chatbot d'IA ChatGPT d'OpenAI, augmente la productivité de 40 % et la qualité de 20 %. C’est la raison pour laquelle des employeurs s’appuie pour licencier du personnel. L'étude des chercheurs du MIT met justement en garde les employeurs contre l'utilisation de l'IA générative pour augmenter les licenciements. De nombreux employés ont déjà signalé avoir été remplacés par une IA. Par le passé, une expérience menée par un chercheur de Microsoft a montré que des programmeurs utilisant GitHub Copilot, un outil d'assistance basé sur ChatGPT, ont réduit de plus de moitié le temps nécessaire à la programmation d'un serveur Web.

Et vous ?

Quel impact voyez-vous des outils comme Gemini avoir sur la filière du développement de logiciels dans les années à venir ?

Les craintes en lien avec des pertes d’emploi (dans la filière du développement) causées par de tels outils sont-elles fondées ?

Voir aussi :

« ChatGPT est appelé à changer l'éducation telle que nous la connaissons, pas la détruire comme certains le pensent », affirme Douglas Heaven du MIT Technology Review

ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile

51 % des enseignants déclarent utiliser ChatGPT dans le cadre de leur travail, de même que 33 % des élèves, et affirment que l'outil a eu un impact positif sur leur enseignement et leur apprentissage

Un professeur surprend un étudiant en train de tricher avec le chatbot d'IA ChatGPT : « je suis terrorisé », il estime que ces outils pourraient aggraver la tricherie dans l'enseignement supérieur

**Mathis Lucas** · 16/04/2024, 20h10

Le PDG de Google DeepMind affirme que l'entreprise consacrera plus de 100 milliards de dollars au développement l'IA
et qu'elle dispose d'un supercalculateur d'IA plus puissant que ceux de ses rivaux

Demis Hassabis, PDG de Google DeepMind, a déclaré que l'entreprise dépensera au fil du temps plus de 100 milliards de dollars pour développer l'IA. Il a ajouté que le géant des moteurs de recherche dispose de superordinateurs d'IA plus puissants que ceux de ses rivaux comme Microsoft et a laissé entendre que Google ferait tout ce qui est en son pouvoir pour gagner la course à l'AGI. Microsoft, OpenAI (soutenu par le géant de Redmond), Google et Meta augmentent de manière exponentielle leurs investissements dans la course à l'IA, notamment dans la fabrication de puces et la construction de centres de données et de superordinateurs.

Lundi, lors d'une conférence TED à Vancouver, au Canada, Hassabis a répondu à quelques questions sur les plans de l'entreprise pour les années à venir. Hassabis a notamment été interrogé sur un éventuel supercalculateur de 100 milliards de dollars, baptisé "Stargate", en cours de préparation par Microsoft et OpenAI. En réponse, il a affirmé que les investissements du géant mondial des moteurs de recherche dans le développement de la technologie d'IA dépenseraient largement les 100 milliards de dollars au fil des ans. Google a déjà investi des sommes considérables dans la création de Gemini pour rivaliser avec ChatGPT.

Fin mars, The Information a rapporté que Microsoft et OpenAI travaillaient sur un projet de centre de données qui pourrait coûter jusqu'à 100 milliards de dollars. Il comprendrait également un superordinateur d'IA appelé Stargate, dont le lancement est prévu en 2028. Cette annonce est intervenue alors que la demande pour les logiciels d'IA générative a entraîné un besoin sans précédent de centres de données plus puissants, capables de gérer d'énormes charges de travail. Ce supercalculateur serait le plus grand d'une série de supercalculateurs que les entreprises envisagent de construire au cours des six prochaines années.

« Nous ne parlons pas de nos chiffres spécifiques, mais je pense que nous investirons plus que cela au fil du temps », a-t-il déclaré. Hassabis, un des trois chercheurs qui ont cofondé DeepMind en 2010 avant que la startup ne soit rachetée par Google en 2014, a également affirmé qu'Alphabet dispose d'un superordinateur d'IA beaucoup plus puissant que ses rivaux tels que Microsoft. « C'est l'une des raisons pour lesquelles nous nous sommes associés à Google en 2014, car nous savions que pour parvenir à une intelligence artificielle générale (AGI), nous aurions besoin de beaucoup de puissance de calcul », a-t-il ajouté.

Selon lui, Google possède toujours le plus grand nombre d'ordinateurs par rapport à ses rivaux. Les commentaires d'Hassabis font suite à des informations selon lesquelles Google envisage de faire payer les nouvelles fonctionnalités premium d'IA générative, ce qui marquerait la première fois que le géant des moteurs de recherche mettrait l'un de ses principaux produits derrière un abonnement payant. Google n'a ni confirmé ni infirmé ces rumeurs. Plusieurs rapports indiquent que les ingénieurs travaillent actuellement sur le développement de la technologie, mais n'ont pas encore décidé s'ils allaient ou non la lancer.

À en croire les rumeurs, le moteur de recherche principal de Google restera gratuit et les publicités continueront d'être affichées à côté des résultats de recherche, même pour les clients payants. « Nous continuons à améliorer rapidement le produit pour répondre aux nouveaux besoins des utilisateurs », avait alors déclaré un porte-parole de Google. L'été dernier, plusieurs rapports ont signalé que des employés clés d'OpenAI ont démissionné pour rejoindre Google afin de l'aider à construire son grand modèle de langage Gemini. Toutefois, à sa sortie, Gemini a eu beaucoup de mal à concurrencer le modèle GPT-4 d'OpenAI.

En mars, Hassabis a déclaré au Financial Times que les milliards de dollars déversés dans l'IA rappellent le battage médiatique qui entourait les cryptomonnaies il y a quelques années et détournent l'attention de la science et de la recherche "phénoménales" qui sont à la base de son développement. Il a déclaré : « l'investissement dans l'IA s'accompagne d'un battage médiatique et peut-être d'une certaine forme d'arnaque ». Il a déclaré qu'il trouve un peu regrettable. Hassabis n'est pas le seul à avoir dénoncé le battage médiatique autour de l'IA. D'autres chercheurs comme Yann LeCun l'ont également dénoncé.

La nouvelle unité de recherche sur l'AI Google DeepMind a été lancée l'année dernière et résulte de la fusion de l'équipe Google Brain et du laboratoire DeepMind. Demis Hassabis, qui dirigeait DeepMind autrefois, a été nommé PDG de Google DeepMind et Jeff Dean le scientifique en chef. Google DeepMind combine les efforts des anciennes équipes et l'objectif du nouveau laboratoire est d'accélérer les progrès en matière d'IA et de créer des systèmes responsables et performants. Selon de nombreux rapports, la fusion intervient après des tensions entre DeepMind et Google sur la commercialisation du travail de la première.

En 2021, DeepMind aurait perdu sa tentative d'obtenir plus d'indépendance vis-à-vis de Google. Le géant des moteurs de recherche aurait commencé à pousser DeepMind à commercialiser son travail. Google recherchait un moyen rapide d'empêcher OpenAI d'accaparer le marché avec son chatbot ChatGPT, qui a connu un début spectaculaire. À la suite du lancement de Bard l'année dernière, un rapport du New York Times a révélé que le PDG de Google, Sundar Pichai, a fait pression pour que l’IA de Google soit rendue publique, malgré les préoccupations éthiques et sécuritaires exprimées par plusieurs employés.

Il révèle que Jen Gennai, la directrice du groupe "Innovation responsable" de Google, a modifié un document qui recommandait de bloquer la diffusion de Bard, en minimisant les risques liés au chatbot. Il indique que Bard a été lancé en mars, malgré les avertissements de deux employés qui ont tenté de l’empêcher. Il souligne que Bard pourrait générer des déclarations inexactes et dangereuses, blesser les utilisateurs qui s’attachent émotionnellement à lui et permettre un harcèlement de masse en ligne. Bard a connu un début chaotique en raison de ces hallucinations et de ses performances médiocres sur plusieurs plans.

Après la fusion, Hassabis a déclaré dans un courriel aux employés : « ensemble, nous avons une réelle opportunité de proposer des recherches et des produits d'IA qui améliorent considérablement la vie de milliards de personnes, transforment les industries, font progresser la science et servent diverses communautés. En créant Google DeepMind, je pense que nous pouvons atteindre cet avenir plus rapidement. Construire une IA de plus en plus performante et générale, en toute sécurité et de manière responsable, exige que nous résolvions certains des défis scientifiques et techniques les plus difficiles de notre époque ».

Les investissements dans cette technologie émergente augmentent de manière exponentielle. GlobalData prévoit que le marché global de l'IA représentera 909 milliards de dollars d'ici 2030, avec un taux de croissance annuel composé (TCAC) de 35 % entre 2022 et 2030. Dans le domaine de l'IA générative, les prédictions indiquent que les revenus devraient passer de 1,8 milliard de dollars en 2022 à 33 milliards de dollars en 2027, avec un TCAC de 80 %.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des sommes que Google envisage d'investir dans le développement de l'IA ?

Ces investissements colossaux permettront-ils à Google et Microsoft d'atteindre une IA de niveau humain ?

Voir aussi

Google crée Google DeepMind, un nouveau groupe de recherche en IA, formé par la fusion de DeepMind et Brain

Des employés clés d'OpenAI démissionnent pour rejoindre Google qui travaille sur un système d'intelligence artificielle qui pourrait surpasser ChatGPT

Le patron de Google DeepMind répond au chef de la division IA de Meta qui l'accuse d'entretenir la peur d'un futur où l'IA deviendrait une menace pour l'humain afin d'appeler à une réglementation