IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Le modèle expérimental Gemini-Exp-1206 de Google devance GPT-4o d'OpenAI et se place en tête du Chatbot Arena


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 153
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 153
    Points : 210 965
    Points
    210 965
    Par défaut Le modèle expérimental Gemini-Exp-1206 de Google devance GPT-4o d'OpenAI et se place en tête du Chatbot Arena
    Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0
    « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

    Une semaine après sa dernière annonce majeure en matière d'IA, Google semble s'être surpassé. Jeudi de la semaine dernière, Google a lancé Gemini Ultra 1.0, qui était censé représenter le meilleur modèle de langage d'IA que Google pouvait rassembler - disponible dans le cadre de l'assistant d'IA rebaptisé "Gemini" (anciennement Bard). Cette fois-ci, Google annonce Gemini Pro 1.5, qui, selon la société, « atteint une qualité comparable à celle de 1.0 Ultra, tout en utilisant moins de ressources informatiques ».

    Deux mois à peine après le lancement de Gemini, le grand modèle de langage sur lequel Google mise pour se hisser au sommet de l'industrie de l'IA, l'entreprise annonce déjà son successeur. Google a présenté Gemini 1.5 et le met à la disposition des développeurs et des utilisateurs professionnels, avant de le proposer prochainement au grand public. L'entreprise a clairement indiqué qu'elle souhaitait faire de Gemini un outil professionnel, un assistant personnel et tout ce qui se trouve entre les deux, et qu'elle met tout en œuvre pour atteindre cet objectif.

    Gemini 1.5 comporte de nombreuses améliorations : Gemini 1.5 Pro, le modèle polyvalent du système de Google, est apparemment au même niveau que le Gemini Ultra haut de gamme que l'entreprise n'a lancé que récemment, et il a surpassé Gemini 1.0 Pro dans 87 % des tests de référence. Il a été réalisé à l'aide d'une technique de plus en plus courante appelée "Mixture of Experts" (MoE), ce qui signifie qu'il n'exécute qu'une partie du modèle global lorsque vous envoyez une requête, plutôt que de traiter l'ensemble du modèle en permanence (cette approche devrait rendre le modèle plus rapide pour vous et plus efficace pour Google).

    Mais il y a une nouveauté dans Gemini 1.5 qui enthousiasme toute l'entreprise, à commencer par le PDG Sundar Pichai : Gemini 1.5 dispose d'une énorme fenêtre contextuelle, ce qui signifie qu'il peut traiter des requêtes beaucoup plus importantes et examiner beaucoup plus d'informations à la fois. Cette fenêtre est d'un million de jetons, contre 128 000 pour la GPT-4 d'OpenAI et 32 000 pour la version actuelle de Gemini Pro. Les jetons sont une mesure difficile à comprendre, c'est pourquoi Pichai simplifie : « Cela représente environ 10 ou 11 heures de vidéo, des dizaines de milliers de lignes de code ». La fenêtre contextuelle permet d'interroger l'intelligence artificielle sur l'ensemble de ce contenu en une seule fois.

    Nom : token.png
Affichages : 9904
Taille : 21,6 Ko

    Citation Envoyé par Sundar Pichai
    La semaine dernière, nous avons lancé notre modèle le plus performant, Gemini 1.0 Ultra, et nous avons fait un grand pas en avant pour rendre les produits Google plus utiles, en commençant par Gemini Advanced. Aujourd'hui, les développeurs et les clients du cloud peuvent commencer à construire avec 1.0 Ultra, grâce à notre API Gemini dans AI Studio et Vertex AI.

    Nos équipes continuent de repousser les limites de nos derniers modèles en plaçant la sécurité au cœur de leurs préoccupations. Elles font des progrès rapides. En fait, nous sommes prêts à présenter la prochaine génération : Gemini 1.5. Il présente des améliorations spectaculaires dans un certain nombre de dimensions et 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul.

    Cette nouvelle génération offre également une percée dans la compréhension des contextes longs. Nous avons pu augmenter de manière significative la quantité d'informations que nos modèles peuvent traiter - en exécutant jusqu'à 1 million de tokens de manière cohérente, nous avons obtenu la plus longue fenêtre contextuelle de tous les modèles de fondation à grande échelle à ce jour.

    L'allongement de la fenêtre contextuelle nous laisse entrevoir les possibilités qui s'offrent à nous. Elles permettront des capacités entièrement nouvelles et aideront les développeurs à créer des modèles et des applications beaucoup plus utiles. Nous sommes ravis d'offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes. Demis en dit plus sur les capacités, la sécurité et la disponibilité ci-dessous.

    Un « saut générationnel », selon les chercheurs de Google

    « Gemini 1.5 Pro permet d'obtenir un rappel [ndlr. "recall" en anglais, qui est la capacité d'un modèle à trouver tous les cas pertinents dans un ensemble de données] presque parfait sur les tâches de recherche en contexte long dans toutes les modalités, améliore l'état de l'art en matière d'assurance qualité des documents longs, d'assurance qualité des vidéos longues et d'ASR en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large éventail de points de référence », écrivent les chercheurs de Google dans un document technique sur Gemini 1.5 Pro.

    En d'autres termes, lorsqu'on lui présente un long document à assimiler - jusqu'à 10 millions de jetons - Gemini 1.5 peut répondre de manière appropriée à une requête spécifique dans plus de 99 % des cas. Selon les chercheurs de Google, la capacité de 10 millions de jetons de Gemini représente « un saut générationnel par rapport aux modèles existants tels que Claude 2.1 et GPT-4 Turbo, qui pour l'instant plafonnent respectivement à 200 000 et 128 000 jetons ».

    « Le modèle Gemini Ultra surpasse actuellement toutes les alternatives existantes sur un large éventail de tests de référence », a déclaré François Chollet, créateur de Keras et ingénieur logiciel chez Google, dans un billet en ligne. « Google dispose d'un mécanisme de filtrage des jeux de tests de pointe qui n'a pas d'équivalent à l'extérieur, de sorte que les tests de référence surestiment probablement d'autres modèles ».

    Citant ces tests, Jeff Dean, scientifique en chef chez Google DeepMind et Google Research, a déclaré dans un message en ligne : « Pour le texte, Gemini 1.5 Pro atteint 100 % de rappel jusqu'à 530k tokens, 99,7 % jusqu'à 1M tokens et 99,2 % de précision jusqu'à 10M tokens ».

    La grande capacité de Gemini 1.5 Pro lui permet de réaliser des exploits tels que l'ingestion de la transcription de 402 pages du vol Apollo 11 (326 914 jetons) puis, lorsqu'on le lui demande, de trouver « trois moments comiques » dans les échanges entre les astronautes d'Apollo 11 et d'identifier le texte de la transcription qui correspond à un croquis dessiné à la main d'une botte marchant sur la surface lunaire.


    Lors de l'alimentation de Sherlock Jr, un film de 45 minutes de Buster Keaton datant de 1924 (2 674 images à 1FPS, 684K jetons), Gemini 1.5 Pro a répondu à l'invite « Donne-moi quelques informations clés sur le morceau de papier qui est retiré de la poche de la personne, et le timecode de ce moment » en récitant le texte de la note dans le film et l'heure à laquelle la scène s'est déroulée.

    Google offre gratuitement aux développeurs et aux entreprises clientes un aperçu limité de Gemini 1.5 Pro avec une fenêtre contextuelle de 1 million de jetons par l'intermédiaire de ses services AI Studio et Vertex AI. La disponibilité générale avec une fenêtre contextuelle de 128K jetons sera annoncée ultérieurement, de même que la structure de prix de la méga-entreprise.

    Fiche technique : le meilleur modèle de codage existant ?

    Pour ceux qui souhaitent se plonger dans les détails techniques, Google a publié un rapport technique sur Gemini 1.5 qui semble montrer que Gemini est plus performant que GPT-4 Turbo sur diverses tâches, mais il est également important de noter que la sélection et l'interprétation de ces benchmarks peuvent être subjectives. Le rapport donne quelques chiffres sur l'amélioration de la version 1.5 par rapport à la version 1.0, indiquant qu'elle est 28,9 % plus performante que la version 1.0 Pro en « mathématiques, sciences et raisonnement » et 5,2 % plus performante dans ces domaines que la version 1.0 Ultra.

    Selon natrual2code, Gemini 1.5 Pro dispose de la meilleure précision en codage :

    Nom : model.png
Affichages : 2417
Taille : 7,1 Ko

    Les points saillants de Gemini 1.5

    Google a noté les points forts de la nouvelle version. Ci-dessous un extrait de son communiqué :

    Une architecture très efficace

    Gemini 1.5 s'appuie sur nos recherches de pointe en matière d'architecture Transformer et MoE. Alors qu'un transformateur traditionnel fonctionne comme un grand réseau neuronal, les modèles MoE sont divisés en réseaux neuronaux "experts" plus petits.

    En fonction du type d'entrée, les modèles MoE apprennent à activer de manière sélective les voies expertes les plus pertinentes de leur réseau neuronal. Cette spécialisation améliore considérablement l'efficacité du modèle. Google a été l'un des premiers adoptants et pionniers de la technique MoE pour l'apprentissage profond grâce à des recherches telles que Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 et bien d'autres encore.

    Nos dernières innovations en matière d'architecture de modèle permettent à Gemini 1.5 d'apprendre des tâches complexes plus rapidement et de maintenir la qualité, tout en étant plus efficace pour la formation et le service. Ces gains d'efficacité permettent à nos équipes d'itérer, de former et de fournir des versions plus avancées de Gemini plus rapidement que jamais, et nous travaillons à d'autres optimisations.

    Plus de contexte, plus de capacités utiles

    La "fenêtre contextuelle" d'un modèle d'IA est constituée de jetons, qui sont les éléments de base utilisés pour traiter les informations. Les jetons peuvent être des parties ou des sous-sections entières de mots, d'images, de vidéos, de sons ou de codes. Plus la fenêtre contextuelle d'un modèle est grande, plus il peut absorber et traiter d'informations dans une invite donnée, ce qui rend ses résultats plus cohérents, plus pertinents et plus utiles.

    Grâce à une série d'innovations en matière d'apprentissage automatique, nous avons augmenté la capacité de la fenêtre contextuelle de 1.5 Pro bien au-delà des 32 000 jetons prévus à l'origine pour Gemini 1.0. Nous pouvons désormais utiliser jusqu'à 1 million de jetons en production.

    Cela signifie que 1.5 Pro peut traiter de grandes quantités d'informations en une seule fois, y compris 1 heure de vidéo, 11 heures d'audio, des bases de code de plus de 30 000 lignes de code ou plus de 700 000 mots. Dans le cadre de nos recherches, nous avons également testé avec succès jusqu'à 10 millions de jetons.

    Raisonnement complexe sur de grandes quantités d'informations

    1.5 Pro est capable d'analyser, de classer et de résumer de grandes quantités d'informations dans un document donné. Par exemple, lorsqu'on lui donne les 402 pages de la transcription de la mission d'Apollo 11 sur la lune, il peut raisonner sur les conversations, les événements et les détails trouvés dans le document.


    Une meilleure compréhension et un meilleur raisonnement entre les différentes modalités

    1.5 Pro peut effectuer des tâches de compréhension et de raisonnement très sophistiquées pour différentes modalités, y compris la vidéo. Par exemple, lorsqu'on lui présente un film muet de 44 minutes de Buster Keaton, le modèle peut analyser avec précision les différents points de l'intrigue et les événements, et même raisonner sur de petits détails du film qui pourraient facilement passer inaperçus.

    OpenAI dévoile de son côté Sora

    Pour ne pas être en reste, OpenAI a dévoilé jeudi Sora, un modèle de conversion de texte en vidéo. À partir d'un texte, il crée une courte vidéo, d'une durée maximale d'une minute.

    Selon l'entreprise, Sora peut générer des scènes complexes avec plusieurs personnages qui se déplacent et interagissent avec le monde dépeint de manière cohérente. Le super laboratoire a tweeté des exemples de sa production.

    Jim Fan, chercheur principal chez Nvidia, a décrit Sora comme un moteur physique piloté par les données et il suppose qu'il a été entraîné sur un grand nombre de données synthétiques provenant d'Unreal Engine 5 :

    Si vous pensez que OpenAI Sora est un jouet créatif comme DALLE, ... détrompez-vous. Sora est un moteur physique piloté par des données. Il s'agit d'une simulation de nombreux mondes, réels ou fantastiques. Le simulateur apprend le rendu complexe, la physique "intuitive", le raisonnement à long terme et l'ancrage sémantique, le tout grâce au débruitage et aux mathématiques de gradient.

    Je ne serais pas surpris que Sora soit entraîné sur de nombreuses données synthétiques à l'aide d'Unreal Engine 5. Il faut qu'il le soit !

    Analysons la vidéo suivante. Invitation : « Vidéo photoréaliste en gros plan de deux bateaux pirates s'affrontant alors qu'ils naviguent à l'intérieur d'une tasse de café ».
    • Le simulateur instancie deux actifs 3D exquis : des bateaux de pirates avec des décorations différentes. Sora doit résoudre le problème du passage du texte à la 3D de manière implicite dans son espace latent.
    • Les objets 3D sont animés de manière cohérente lorsqu'ils naviguent et évitent les trajectoires des autres.
    • La dynamique des fluides du café, et même les mousses qui se forment autour des navires. La simulation des fluides est un sous-domaine entier de l'infographie, qui nécessite traditionnellement des algorithmes et des équations très complexes.
    • Photoréalisme, presque comme un rendu avec raytracing.
    • Le simulateur tient compte de la petite taille de la tasse par rapport aux océans, et applique la technique du tilt-shift pour donner une impression de "minuscule".
    • La sémantique de la scène n'existe pas dans le monde réel, mais le moteur met en œuvre les règles physiques correctes que nous attendons.

    Prochaine étape : ajouter d'autres modalités et conditionnements, et nous aurons alors une UE complète basée sur les données qui remplacera tous les pipelines graphiques conçus à la main.
    Sora n'est pas encore accessible au public car il doit encore subir des tests de sécurité.

    « Le modèle actuel présente des faiblesses », a déclaré OpenAI dans un billet de blog. « Il peut avoir du mal à simuler avec précision la physique d'une scène complexe et peut ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut prendre une bouchée d'un biscuit, mais après, le biscuit peut ne pas avoir de trace de morsure ».

    Le modèle a également des difficultés avec les détails spatiaux (par exemple, distinguer la gauche de la droite) et n'est pas très à l'aise avec les descriptions qui décrivent des changements dans le temps.

    Par conséquent, Sora est proposé aux "red teamers" qui testeront le modèle pour déterminer s'il est nuisible, ainsi qu'à divers artistes visuels afin d'obtenir un retour d'information sur la manière dont le modèle pourrait être utile dans le cadre de leur travail.

    Selon OpenAI, une fois Sora intégré dans un produit public, « notre classificateur de texte vérifiera et rejettera les invites de saisie de texte qui sont en violation de nos politiques d'utilisation, comme celles qui demandent une violence extrême, un contenu sexuel, une imagerie haineuse, l'image d'une célébrité ou la propriété intellectuelle d'autrui ».

    Sources : document technique sur Gemini 1.5 Pro, exemple d'analyse d'une transcription de 402 pages de la mission d'Apollo 11 sur la Lune, explication sur Mixture-of-Experts

    Et vous ?

    Quelle lecture faites-vous de Gemini 1.5 ? Que pensez-vous des performances annoncées par Google ?
    Que pensez-vous de Sora ?

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 875
    Points : 130 690
    Points
    130 690
    Par défaut Gemini 1.5 surpasse GPT-4-Turbo-128K sur les longues invites de code
    Gemini 1.5 surpasse GPT-4-Turbo-128K sur les longues invites de code, selon l'auteur de HVM, "Dans la tâche de compréhension de la base de code, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K.

    L'auteur de HVM a mis une base de code complexe dans un seul prompt de 120K-tokens, et il a posé 7 questions GPT-4 et Gemini 1.5. Voici les résultats !

    Je suis l'auteur de HVM1, qui est actuellement en cours de mise à jour vers HVM2. Il s'agit de deux bases de code complexes qui implémentent un runtime parallèle inet ; en gros, des trucs de compilateurs durs. L'utilisateur @SullyOmarr sur X, qui a obtenu l'accès à Gemini 1.5, m'a gentiment offert un prompt. J'ai donc concaténé les deux bases de code HVM en un seul fichier de 120K-token, et j'ai posé 7 questions à Gemini et GPT-4. Voici les résultats complets.

    Répartition :

    1. Laquelle est basée sur un calcul de type terme, et laquelle est basée sur des combinateurs d'interaction bruts ?

      Il s'agit d'une information de base, répétée à de nombreux endroits, qui ne devrait donc pas être difficile à trouver. En effet, les deux ont eu raison. Égalité.

    2. Comment la syntaxe de chacun fonctionne-t-elle ? Donnez des exemples.

      Gemini a parfaitement compris la syntaxe de HVM1. C'est une syntaxe familière, semblable à celle de Haskell, donc pas de problème ; mais Gemini a aussi compris la logique derrière la syntaxe raw-inet IR de HVM2, ce qui est époustouflant, puisqu'elle est étrangère et ne ressemble à rien de ce qu'il aurait pu voir pendant la formation. L'échantillon inet fourni n'était pas correct, mais ce n'était pas explicitement demandé (et ce serait plutôt du niveau de l'AGI). GPT-4 s'est complètement trompé dans les deux syntaxes et a juste halluciné, même s'il se débrouille bien avec les petits messages. Je suppose que le long contexte l'a submergé. Quoi qu'il en soit, victoire astromonique pour Gemini.

    3. Comment λf. λx. (f x) serait stocké en mémoire, sur chaque ? Ecrivez un exemple en hexadécimal, avec 1 mot de 64 bits par ligne. Expliquez ce que fait chaque ligne.

      Gemini a écrit un memdump HVM1 raisonnable, ce qui est fou : cela signifie qu'il a trouvé le tutoriel sur la disposition de la mémoire dans les commentaires, l'a appris, et l'a appliqué à un tout nouveau cas. Le memdump fourni EST partiellement faux, mais, bien, il EST partiellement juste ! Malheureusement, Gemini n'a pas pu comprendre la disposition de la mémoire de HVM2, ce qui serait énorme, car il n'y a pas de tutoriel dans les commentaires, donc il faudrait comprendre le code. Ce n'est pas encore le cas. Quant à GPT-4, il a simplement évité les deux questions, et a ensuite menti en disant que l'information n'était pas présente (elle l'est). Une grande victoire pour Gemini.

    4. Quelle partie du code était responsable de la réduction bêta, dans les deux cas ? Citez-la.

      Gemini a trouvé l'emplacement pour HVM1, mais a halluciné pour HVM2, ce qui est décevant. GPT-4 Turbo a évité de répondre pour HVM1, mais a fourni une estimation étonnamment bien raisonnée pour HVM2. Egalité.

    5. HVM1 avait un bug de garbage collect, qui n'est pas présent dans HVM2. Pouvez-vous raisonner à ce sujet et expliquer pourquoi ?

      Gemini a fourni une réponse décente, ce qui signifie qu'il a trouvé, lu et compris le commentaire décrivant le problème (sur HVM1). Il n'a pas fourni de raisonnement plus approfondi pour expliquer pourquoi le problème est corrigé sur HVM2, mais cela n'est écrit nulle part et nécessiterait une connaissance approfondie du système. GPT-4 s'est contenté de raconter des conneries. Victoire pour Gemini.

    6. HVM1 avait un bug de concurence, qui a été résolu sur HVM2. Comment ?

      Gemini a déterminé quel était le bug de HVM1, et comment HVM2 l'a résolu. Cette réponse n'est pas écrite à un seul endroit spécifique, mais peut être trouvée à différents endroits, ce qui signifie que Gemini était capable de relier des informations dispersées dans le contexte. GPT-4 a complètement manqué les notes, et s'est contenté de raconter des conneries. Victoire pour Gemini.

    7. Il existe de nombreuses fonctions sur HVM1 qui n'ont pas de correspondants sur HVM2. Citez-en quelques-unes et expliquez pourquoi elles ont été supprimées.

      Gemini a répondu correctement à la question, en identifiant 2 fonctions qui ont été supprimées et en fournissant une bonne explication. GPT-4 a l'air d'avoir raconté des bêtises et d'avoir eu raison sur un point ou un autre par accident. De plus, cette question était censée être facile (il suffit de trouver une fonction Rust sur HVM1 mais pas sur HVM2), mais Gemini a répondu à une "interprétation plus difficile" de la question, et a identifié une primitive HVM1 qui n'est pas présente sur HVM2. C'est astucieux. Victoire pour Gemini.


    Verdict

    Dans la tâche de comprendre la base de code de 120K tokens de HVM, Gemini 1.5 a absolument détruit GPT-4-Turbo-128K. La plupart des questions auxquelles GPT-4 s'est trompé sont des questions qu'il aurait répondues dans des invites plus petites, donc le contexte géant l'a clairement dépassé, alors que Gemini 1.5 ne s'en est pas soucié du tout. Je suis impressionné. J'ai été le premier à me plaindre de la médiocrité de Gemini Ultra, alors il faut reconnaître que Gemini 1.5 est vraiment prometteur. Cela dit, Gemini n'est toujours pas en mesure de créer un modèle mental complet du système, ni de répondre à des questions qui nécessiteraient un raisonnement plus approfondi de sa part, donc pas d'AGI pour l'instant ; mais il est extrêmement doué pour localiser les informations existantes, établir des connexions à long terme et effectuer un raisonnement limité. Ce test a été fait à la hâte (il est 1 heure du matin...), j'espère donc pouvoir en faire un meilleur et le réessayer quand j'y aurai accès.

    Sources : Résultat Test, HVM (GitHub)

    Et vous ?

    Pensez-vous que ce test est crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

    LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables

    Le nouveau Gemini Pro de Google n'impressionne pas, ses performances étant inférieures à celles de ChatGPT 3.5 d'OpenAI, selon une étude des chercheurs de l'université Carnegie Mellon

  3. #3
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 137
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 137
    Points : 57 285
    Points
    57 285
    Par défaut Gemini 1.5 pro en passe de changer le développement de logiciels ?
    Gemini 1.5 pro en passe de changer le développement de logiciels ? Cette IA peut comprendre une base de code entière et proposer des correctifs :
    Vers une mise au rebut des développeurs humains ?

    Les retours en matière de mise à contribution de Gemini 1.5 se multiplient. Après celui de l’auteur de HVM, le cofondateur de Cognosysai fait une sortie pour souligner les avantages de l’utilisation de cette intelligence artificielle de Google. Cette intervention se fait dans un contexte de multiplication des rapports selon lesquels l’intelligence artificielle menace les emplois en cols blancs dans divers secteurs dont celui du développement de logiciels. Le tableau ravive donc les questionnements sur les perspectives de mise au rebut totale des développeurs humains en raison de la montée en puissance de l’intelligence artificielle.

    « J'ai téléchargé une base de code entière directement depuis github, ainsi que toutes les issues. Non seulement il a été capable de comprendre l'ensemble de la base de code, mais il a identifié le problème le plus urgent et a mis en œuvre un correctif. Cela change tout », déclare le cofondateur de Cognosysai qui ajoute d’ailleurs que Gemini 1.5 ne bénéficie pas de la médiatisation qu’il mérite.

    Nom : 1.png
Affichages : 40828
Taille : 62,8 Ko

    Gemini 1.5 est un « saut générationnel », d’après les chercheurs de Google :

    « Gemini 1.5 Pro permet d'obtenir un rappel [ndlr. "recall" en anglais, qui est la capacité d'un modèle à trouver tous les cas pertinents dans un ensemble de données] presque parfait sur les tâches de recherche en contexte long dans toutes les modalités, améliore l'état de l'art en matière d'assurance qualité des documents longs, d'assurance qualité des vidéos longues et d'ASR en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large éventail de points de référence », écrivent les chercheurs de Google dans un document technique sur Gemini 1.5 Pro.

    En d'autres termes, lorsqu'on lui présente un long document à assimiler - jusqu'à 10 millions de jetons - Gemini 1.5 peut répondre de manière appropriée à une requête spécifique dans plus de 99 % des cas. Selon les chercheurs de Google, la capacité de 10 millions de jetons de Gemini représente « un saut générationnel par rapport aux modèles existants tels que Claude 2.1 et GPT-4 Turbo, qui pour l'instant plafonnent respectivement à 200 000 et 128 000 tokens ».

    « Le modèle Gemini Ultra surpasse actuellement toutes les alternatives existantes sur un large éventail de tests de référence », a déclaré François Chollet, créateur de Keras et ingénieur logiciel chez Google, dans un billet en ligne. « Google dispose d'un mécanisme de filtrage des jeux de tests de pointe qui n'a pas d'équivalent à l'extérieur, de sorte que les tests de référence surestiment probablement d'autres modèles ».


    Vers une mise au rebut totale des développeurs humains ?

    L’intelligence artificielle menace les emplois en col blanc dans divers secteurs. C’est ce qui ressort d’une enquête de The Burning Glass Institute qui liste le développement de logiciels parmi les métiers concernés.

    « Comme le montre la figure 4, les précédentes vagues d'automatisation ont surtout touché les professions à bas salaires (indiquées par des barres bleues). La vague d'automatisation par l’IA générative est unique en ce sens que les cols bleus pourraient être les moins touchés. Cela s'explique à la fois par l'augmentation de la demande de ces travailleurs en raison de la croissance des catégories de biens et de services haut de gamme et l'incapacité de l’intelligence artificielle générative à effectuer des tâches physiques. En fait, les professions les plus exposées à l'intelligence artificielle générative sont les professions libérales à haut salaire (illustrées par des barres jaunes) », soulignent les résultats de l’enquête.

    Nom : 2.png
Affichages : 13066
Taille : 87,6 Ko
    Nom : 3.png
Affichages : 12916
Taille : 17,8 Ko

    Nom : 4.png
Affichages : 12909
Taille : 13,6 Ko
    Nom : 5.png
Affichages : 12924
Taille : 30,8 Ko

    Les résultats de cette enquête font suite à la publication des résultats d’une étude de l’OIT sur la question et selon laquelle « Environ 21 millions d’emplois occupés par des femmes et 9 millions d’emplois occupés par des hommes sont susceptibles d’être remplacés par l’intelligence artificielle. » Ce dernier précise pour ce qui est de la filière des technologies de l’information les programmeurs d’applications font partie des professions menacées par l’automatisation.

    Nom : 6.png
Affichages : 13072
Taille : 241,3 Ko

    Le récent cas de la startup Magic AI est une illustration supplémentaire de ce que les entreprises visent une mise au rebut totale des développeurs humains

    La startup Magic AI, basée à San Francisco, a levé 117 millions de dollars en financement de série B pour poursuivre le développement de son système d'IA avancé visant à automatiser le développement de logiciels. La levée de fonds a été menée par NFDG Ventures de Nat Friedman et Daniel Gross, avec une participation supplémentaire de CapitalG et Elad Gil. Cela porte le financement total de Magic à ce jour à plus de 145 millions de dollars.

    Fondée en 2022 par Eric Steinberger et Sebastian De Ro, la startup se crée une niche en se concentrant sur le développement d'un ingénieur logiciel IA capable d'aider à des tâches de codage complexes et qui agira plus comme un collègue de travail que comme un simple outil de "copilotage".

    Les fondateurs estiment qu'en plus de stimuler la productivité pratique du codage, l'avancement des outils de génération de code intelligents peut également ouvrir la voie à une intelligence artificielle générale plus étendue. Leur vision s'étend même à la création de systèmes d'intelligence artificielle générale largement capables de s'aligner sur les valeurs humaines - des systèmes capables d'accélérer le progrès global en aidant l'humanité à relever les défis les plus complexes. La levée de fonds de 23 millions de dollars en série A l'été dernier a constitué une étape majeure dans la réalisation de cette mission ambitieuse.

    Le traitement de fenêtres contextuelles exceptionnellement grandes est au cœur de la stratégie technique de Magic. L'année dernière, l'entreprise a dévoilé son architecture de réseau de mémoire à long terme (LTM Net) et le modèle LTM-1 correspondant avec une fenêtre de contexte de 5 millions. À titre de comparaison, la plupart des modèles de langage fonctionnent sur des contextes beaucoup plus limités, généralement inférieurs à 32k tokens. Le puissant modèle GPT-4 Turbo d'OpenAI est de 128k tokens et Claude 2.1 d'Anthropic de 200k.

    Cependant, des modèles avec des fenêtres contextuelles beaucoup plus larges se profilent à l'horizon. Google a annoncé que son nouveau modèle Gemini 1.5 disposera d'une fenêtre de contexte d'un million de tokens et a précisé qu'il avait testé des longueurs de contexte allant jusqu'à 10 millions de tokens dans le cadre de ses recherches. Les capacités contextuelles nettement plus grandes permettent une compréhension plus nuancée du code, ce qui permet au modèle de Magic de raisonner sur des référentiels entiers et des arbres de dépendance afin d'accroître son utilité.


    Une récente étude arrive néanmoins à la conclusion que l’IA générative ne remplacera pas les développeurs de sitôt

    Des chercheurs de l'université de Princeton ont développé un cadre d'évaluation basé sur près de 2300 problèmes courants de génie logiciel montés à partir de rapports de bogues et de feature requests soumis sur GitHub afin de tester la performance de divers modèles de grands langages (LLM).

    Les chercheurs ont fourni à différents modèles de langage le problème à résoudre et le code du dépôt. Ils ont ensuite demandé au modèle de produire un correctif réalisable. Ce dernier a ensuite fait l’objet de tests pour s'assurer qu'il était correct. Mais le LLM n'a généré une solution efficace que dans 4 % des cas.

    Nom : 7.png
Affichages : 12970
Taille : 86,1 Ko

    Leur modèle spécialement entraîné, SWE-Llama, n'a pu résoudre que les problèmes d'ingénierie les plus simples présentés sur GitHub, alors que les LLM classiques tels que Claude 2 d'Anthropic et GPT-4 d'OpenAI n'ont pu résoudre que 4,8 % et 1,7 % des problèmes, de façon respective.

    Et l’équipe de recherche de conclure : « le génie logiciel n’est pas simple dans la pratique. La correction d'un bogue peut nécessiter de naviguer dans un grand référentiel, comprendre l'interaction entre des fonctions dans différents fichiers ou repérer une petite erreur dans du code alambiqué. Cela va bien au-delà des tâches de complétion de code. »

    C’est la raison pour laquelle Linux Torvalds a tenu à se désolidariser de tout le battage médiatique autour de l’intelligence artificielle. Il la considère comme un outil au stade actuel de son évolution. Il suggère d’ailleurs la révision de code comme domaine d’application de l’intelligence artificielle. La capacité de l’intelligence artificielle à « deviner » l’intention du développeur lui sera utile pour obtenir du code fiable en un temps réduit. Une condition demeurera toutefois nécessaire : le développeur devra à son tour examiner ce que l’intelligence artificielle lui propose.

    Source : Résultats de l’enquête

    Et vous ?

    Quelles évolutions du métier de développeur entrevoyez-vous dès 2024 au vu de l'adoption de l'intelligence artificielle dans la filière ?

    Voir aussi :

    « ChatGPT est appelé à changer l'éducation telle que nous la connaissons, pas la détruire comme certains le pensent », affirme Douglas Heaven du MIT Technology Review

    ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile

    51 % des enseignants déclarent utiliser ChatGPT dans le cadre de leur travail, de même que 33 % des élèves, et affirment que l'outil a eu un impact positif sur leur enseignement et leur apprentissage

    Un professeur surprend un étudiant en train de tricher avec le chatbot d'IA ChatGPT : « je suis terrorisé », il estime que ces outils pourraient aggraver la tricherie dans l'enseignement supérieur

  4. #4
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 137
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 137
    Points : 57 285
    Points
    57 285
    Par défaut « J'ai enregistré une vidéo d'une tâche et Gemini a généré du code pour la reproduire », selon une dev
    « J'ai enregistré une vidéo d'une tâche et Gemini a généré du code pour la reproduire », rapporte une développeuse de Google DeepMind :
    Vers une mise au rebut des développeurs humains par l’IA ?

    L’intelligence artificielle menace les emplois en col blanc dans divers secteurs. C’est ce qui ressort d’une enquête de The Burning Glass Institute qui liste le développement de logiciels parmi les métiers concernés. La publication des résultats de cette enquête fait suite à une autre de l’OIT qui liste la même catégorie de professionnels parmi ceux sous la menace de l’intelligence artificielle. Le tableau ravive les questionnements sur les perspectives de mise au rebut totale des développeurs humains. Cette perspective prend un coup de neuf avec la sortie d’une développeuse de Google Deepmind qui rapporte qu’elle a « enregistré une vidéo d’une tâche et Gemini a généré du code pour la reproduire. »

    La nécessité de vérifier les productions de l’intelligence artificielle refait surface avec cette publication

    En effet, la développeuse reconnait que le code produit par Gemini n’est pas totalement fonctionnel, ce qui remet en avant la nécessité de vérifier les productions de l’intelligence artificielle. En d’autres termes, au stade actuel de son évolution, cette intelligence artificielle est un outil qui nécessite l’intervention d’un professionnel de la filière du développement de logiciels pour obtenir un produit fini.

    Le tableau n’est pas sans faire penser au cas Air Canada en matière de mise à contribution de l’intelligence artificielle dans la filière du développement de logiciels. Le jour où la grand-mère de Jake Moffatt est décédée, ce dernier s'est à l’immédiat rendu sur le site Web d'Air Canada pour réserver un vol de Vancouver à Toronto. Ne sachant pas comment fonctionnent les tarifs d'Air Canada pour les personnes en deuil, Moffatt a demandé au chatbot d'Air Canada de lui expliquer. Ce dernier a fourni des informations inexactes, encourageant Jake Moffatt à réserver un vol à l’immédiat, puis à demander un remboursement dans les 90 jours. Une recommandation en contradiction avec la politique de la compagnie aérienne qui stipule qu’elle ne procède pas à des remboursements une fois que la réservation est effectuée.

    Jake Moffatt a donc porté plainte en joignant une capture d’écran de sa conversation avec le chatbot : « Si vous devez voyager à l’immédiat ou si vous avez déjà voyagé et que vous souhaitez soumettre votre billet pour bénéficier d'un tarif réduit pour les personnes en deuil, veuillez le faire dans les 90 jours suivant la date d'émission de votre billet en remplissant notre formulaire de demande de remboursement de billet. »

    Le tribunal a au final tranché que M. Moffatt a droit à un remboursement partiel de 650,88 dollars canadiens (environ 482 USD) sur le prix initial du billet qui était de 1 640,36 CAD (environ 1 216 USD), ainsi qu'à des dommages-intérêts supplémentaires pour couvrir les intérêts sur le billet d'avion et les frais de justice de M. Moffatt.

    Air Canada a décidé de se conformer à la décision et de considérer l'affaire comme close après avoir refusé d’endosser la responsabilité de l’erreur commise par le chatbot intégré à son site web. La compagnie aérienne a ensuite procédé à la désactivation de ce dernier.


    Les gains de productivité avec des outils de ce type sont néanmoins de nature à entraîner des pertes d’emplois dans la filière du développement de logiciels

    Une étude publiée au premier trimestre de l’année précédente par des économistes du MIT rapporte que l'IA générative, notamment le chatbot d'IA ChatGPT d'OpenAI, augmente la productivité de 40 % et la qualité de 20 %. C’est la raison pour laquelle des employeurs s’appuie pour licencier du personnel. L'étude des chercheurs du MIT met justement en garde les employeurs contre l'utilisation de l'IA générative pour augmenter les licenciements. De nombreux employés ont déjà signalé avoir été remplacés par une IA. Par le passé, une expérience menée par un chercheur de Microsoft a montré que des programmeurs utilisant GitHub Copilot, un outil d'assistance basé sur ChatGPT, ont réduit de plus de moitié le temps nécessaire à la programmation d'un serveur Web.

    Et vous ?

    Quelles évolutions du métier de développeur entrevoyez-vous dès 2024 au vu de l'adoption de l'intelligence artificielle dans la filière ?

    Voir aussi :

    « ChatGPT est appelé à changer l'éducation telle que nous la connaissons, pas la détruire comme certains le pensent », affirme Douglas Heaven du MIT Technology Review

    ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile

    51 % des enseignants déclarent utiliser ChatGPT dans le cadre de leur travail, de même que 33 % des élèves, et affirment que l'outil a eu un impact positif sur leur enseignement et leur apprentissage

    Un professeur surprend un étudiant en train de tricher avec le chatbot d'IA ChatGPT : « je suis terrorisé », il estime que ces outils pourraient aggraver la tricherie dans l'enseignement supérieur

  5. #5
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Mars 2011
    Messages
    143
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2011
    Messages : 143
    Points : 421
    Points
    421
    Par défaut
    Si les besoins en nombre de développeurs par projet va baisser cela veut dire que le cout du développement logiciel va baisser aussi, et les projets qui n'étaient pas entrepris jusqu'à maintenant pour des raisons de cout le seront peut-être à l'avenir. Donc bien malin qui pourrait dire quelle sera l'évolution à terme de l'emploi dans le développement.

  6. #6
    Membre du Club
    Homme Profil pro
    Architecte technique
    Inscrit en
    Novembre 2022
    Messages
    14
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 27
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 14
    Points : 53
    Points
    53
    Par défaut
    J’imagine qu’on disait pareil quand Microsoft a introduit les Macros enregistrables dans Excel.

  7. #7
    Expert confirmé
    Homme Profil pro
    ingénieur qualité
    Inscrit en
    Mars 2015
    Messages
    1 407
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : ingénieur qualité
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Mars 2015
    Messages : 1 407
    Points : 4 238
    Points
    4 238
    Par défaut
    J'ai hâte de voir un logiciel développé sur base de vidéos:
    1. Gagne-t-on vraiment du temps en faisant un vidéo plutôt qu'en écrivant un charte logiciel?
    2. Le résultat sera digne de nos plus grandes applications des années 90's qui ne fonctionnent que si on utilise la seule et unique séquence acceptée par le logiciel.

    Dans les 3/4 des logiciels que j'utilise (je suis un client) il existe plusieurs trajets pour aller d'un point A à un point B du logiciel (notamment parce qu'il y a plusieurs métiers différents qui font ce trajet).
    Quel financier est prêt à suivre le chemin du logisticien?
    Quel logisticien est prêt à suivre le chemin du manufacturier?
    Quel manufacturier est prêt à suivre le chemin du qualiticien?
    Quel qualiticien est prêt à suivre le chemin du financier?

    Cette logique est applicable à un projet de la taille d'une macro excel.
    Mais, dans ma jeunesse, j'ai passé quelques heures à rendre un système mécanique dessiné par un graphiste applicable à l'industrie.
    Pourquoi les vendeurs ne montrent que des powerpoint ou des vidéos de leurs outils? Parce qu'elle ne buggent jamais.
    Pourquoi les utilisateurs ne sont jamais satisfait à la fin? Parce que l'application n'est jamais conforme à la démo du vendeur.

  8. #8
    Membre averti
    Profil pro
    Inscrit en
    Février 2010
    Messages
    284
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 284
    Points : 390
    Points
    390
    Par défaut Echec du big data hadoop
    Seule amazone ou GoogleCloud servent pour les migrations sous cloud de solutions on premise (sur sites) des transactions propriétaires
    les PME et les grands groupes ne veulent que des solutions intégrées avec le support adhoc .
    les solutions no code low code seront bientôt dépréciées comme les solutions UML en leurs temps.

  9. #9
    Membre éclairé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    213
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 213
    Points : 709
    Points
    709
    Par défaut
    Vous n'avez peut-être pas tous regardé la démo.
    Il ne s'agit pas de reproduire une application mais de reproduire un comportement.
    Elle a fait une recherche d'appartement dans un navigateur, a donné la vidéo au bot et le bot a généré du code pour faire tourner une session Selenium qui reproduise le comportement de l'utilisateur dans le navigateur.

  10. #10
    Membre régulier
    Homme Profil pro
    Développeur Back-End
    Inscrit en
    Août 2021
    Messages
    53
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Développeur Back-End
    Secteur : Industrie

    Informations forums :
    Inscription : Août 2021
    Messages : 53
    Points : 122
    Points
    122
    Par défaut
    Combien de nouveaux projets pourrons être financé ?

  11. #11
    Membre averti
    Profil pro
    Inscrit en
    Février 2010
    Messages
    284
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 284
    Points : 390
    Points
    390
    Par défaut « J'ai enregistré une vidéo d'une tâche et Gemini a généré du code pour la reproduire », selon une dev.
    Citation Envoyé par _toma_ Voir le message
    Vous n'avez peut-être pas tous regardé la démo.
    Il ne s'agit pas de reproduire une application mais de reproduire un comportement.
    Elle a fait une recherche d'appartement dans un navigateur, a donné la vidéo au bot et le bot a généré du code pour faire tourner une session Selenium qui reproduise le comportement de l'utilisateur dans le navigateur.
    justement c'est déjà fait avec UFT point besoin de regarder la vidéo. RANOREX en son temps faisait mieux. Où en sont-ils aujourd'hui? Pourquoi HP a revendu UFT ?

  12. #12
    Membre éclairé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    213
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 213
    Points : 709
    Points
    709
    Par défaut
    J'ai pas dit que c'était pertinent comme démo, mes précisions allaient même dans le sens opposé.

  13. #13
    Membre expérimenté
    Homme Profil pro
    retraité
    Inscrit en
    Septembre 2014
    Messages
    643
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : Septembre 2014
    Messages : 643
    Points : 1 521
    Points
    1 521
    Par défaut
    Ne laissez pas vos codes sources être aspirés par cet ogre numérique.

  14. #14
    Membre du Club
    Homme Profil pro
    Développeur de jeux vidéo
    Inscrit en
    Mai 2014
    Messages
    28
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Madagascar

    Informations professionnelles :
    Activité : Développeur de jeux vidéo
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2014
    Messages : 28
    Points : 61
    Points
    61
    Par défaut
    La confiance du monde en l’IA de Google s’est effritée, par une cascade incessante d’erreurs factuelles et historiques. Chaque grosse erreur laissant derrière elle une marque indélébile.
    Encore cette année, leur générateur d’images, à peine sorti des bancs d’essai, a été précipité sur la scène publique. Un acte qui, à mon sens, témoigne d’une méconnaissance flagrante des implications et des responsabilités inhérentes à la maîtrise de l’IA.

    Les millions de tokens que Google ajoute ici et là à ses modèles d’IA semblent inefficaces.

    Bref Bard/Gemini se tient là, à l’ombre des géants que sont ChatGPT et DALL-E, MidJourney. Il tente de rivaliser, mais en vain.
    Face à ces titans de l’IA, Gemini apparaît comme un concurrent mineur, incapable de tenir tête à la puissance et à la sophistication de ses adversaires.

  15. #15
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 875
    Points : 130 690
    Points
    130 690
    Par défaut Google annonce des améliorations à Gemini 1.5 Pro et un nouveau modèle 1.5 Flash
    Google annonce des améliorations à Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel.

    Google annonce la mise à jour de Gemini 1.5 Pro et le lancement de 1.5 Flash et 2 nouveaux modèles Gemma. De plus, de nouvelles fonctionnalités sont désormais disponibles dans l'API Gemini et les développeurs peuvent s'inscrire pour essayer la toute première fenêtre contextuelle de 2 millions de jetons.

    Google a lancé un nouveau membre de la famille des modèles d'intelligence artificielle Gemini. Se situant entre le Nano sur appareil et le Pro basé sur le cloud, Gemini Flash est conçu pour le chat, les tâches complexes qui nécessitent une réponse rapide et le traitement des images, des vidéos et de la parole.

    Dévoilé lors de l'événement annuel Google I/O pour les développeurs, Gemini Flash 1.5 est un modèle multimodal natif similaire à GPT-4o, récemment dévoilé par OpenAI, et a été conçu pour la vitesse, ce qui le rend utile pour les conversations en temps réel.

    Le nouveau modèle est actuellement disponible dans le monde entier pour que les développeurs puissent l'utiliser dans leurs propres applications, de sorte que bientôt, on pourra voir un certain nombre d'applications tierces de chat en direct construites à l'aide de Gemini Flash 1.5.


    Google écrit pour l'annonce :

    En décembre dernier, nous avons publié Gemini 1.0 et rendu l'API Gemini disponible dans Google AI Studio et Vertex AI pour les entreprises. En février, nous avons publié Gemini 1.5 Pro, le premier modèle avec une fenêtre contextuelle de 1 million de jetons. Le mois dernier, nous avons ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.

    En parallèle, nous avons lancé Gemma, notre famille de modèles ouverts légers construits à partir de la même recherche et de la même technologie que celles utilisées pour créer les modèles Gemini. Depuis février, les modèles 2B et 7B ont été téléchargés des millions de fois, et nous avons ajouté le mois dernier des variantes pour les développeurs et les chercheurs, comme CodeGemma et RecurrentGemma.

    Aujourd'hui, Gemini et Gemma s'améliorent encore. Aujourd'hui, nous mettons à jour Gemini 1.5 Pro, introduisons 1.5 Flash, déployons de nouvelles fonctionnalités pour les développeurs et ajoutons deux nouveaux modèles Gemma.
    Nom : 1.jpg
Affichages : 6873
Taille : 12,2 Ko

    Améliorations de Gemini 1.5 Pro et nouveau modèle 1.5 Flash

    • Gemini 1.5 Pro: Google a apporté une série d'améliorations de la qualité dans des cas d'utilisation clés, tels que la traduction, le codage, le raisonnement, etc. Ces mises à jour devraient aider pour des tâches encore plus vastes et plus complexes.
    • Gemini 1.5 Flash : Ce modèle Gemini plus petit est optimisé pour les tâches plus restreintes ou à haute fréquence pour lesquelles la rapidité du temps de réponse du modèle est la plus importante.
    • Disponibilité : Les deux modèles sont disponibles dès aujourd'hui dans plus de 200 pays et territoires en avant-première et seront disponibles en juin.
    • Nativement multimodal avec un long contexte : Les versions 1.5 Pro et 1.5 Flash sont toutes deux dotées d'une fenêtre contextuelle d'un million de jetons et vous permettent d'intercaler du texte, des images, de l'audio et de la vidéo en tant qu'entrées. Pour accéder à la version 1.5 Pro avec une fenêtre contextuelle de 2 millions de jetons, il faut s'inscrire sur la liste d'attente dans Google AI Studio ou dans Vertex AI pour les clients de Google Cloud.


    Nom : 2.jpg
Affichages : 1310
Taille : 19,0 Ko

    Nouvelles fonctionnalités pour les développeurs et options de tarification pour l'API Gemini

    • Nouvelles fonctionnalités pour les développeurs : Google introduit deux nouvelles fonctionnalités de l'API : l'extraction d'images vidéo et l'appel de fonction parallèle, qui permet de renvoyer plus d'un appel de fonction à la fois. En juin, Google ajoutera la mise en cache du contexte à Gemini 1.5 Pro, afin que vous n'ayez à envoyer qu'une seule fois au modèle les parties de votre message, y compris les fichiers volumineux. Cela devrait rendre le contexte long encore plus utile et plus abordable.
    • Prix : Outre l'accès gratuit à l'API Gemini dans les régions éligibles via Google AI Studio, Google augmente les limites tarifaires prises en charge par son nouveau service de paiement à l'utilisation. Consultez les derniers tarifs de Google AI Studio et de Vertex AI.


    Ajouts à la famille Gemma

    • PaliGemma : Google annonce que son premier modèle ouvert de langage de vision est disponible et optimisé pour le sous-titrage d'images, les questions-réponses visuelles et d'autres tâches d'étiquetage d'images. PaliGemma rejoint les autres variantes pré-entraînées de Gemma, CodeGemma et RecurrentGemma.
    • Gemma 2 : La nouvelle génération de Gemma sera lancée en juin. Elle est conçue pour offrir les meilleures performances de l'industrie aux tailles les plus utiles pour les développeurs. Les développeurs et les chercheurs ont demandé un modèle plus grand qui reste dans une taille facile à utiliser. Le nouveau modèle Gemma 27B devrait répondre à cette demande : il surpasse certains modèles qui font plus de deux fois sa taille et fonctionnera efficacement sur les GPU ou sur un hôte TPU unique dans Vertex AI.


    Nom : 3.jpg
Affichages : 1339
Taille : 23,5 Ko

    Google annonce aussi un concours pour les développeurs de l'API Gemini :

    Aujourd'hui, nous donnons le coup d'envoi de notre tout premier concours des développeurs de l'API Gemini. Nous voulons voir vos applications les plus créatives et les plus percutantes construites avec des modèles Gemini.1 Soumettez vos projets d'ici le 12 août (et préparez-vous à recevoir le grand prix).
    Source : Google

    Et vous ?

    Quel est votre avis sur cette annonce ?

    Voir aussi :

    Gemini 1.5 pro en passe de changer le développement de logiciels ? Cette IA peut comprendre une base de code entière et proposer des correctifs : Vers une mise au rebut des développeurs humains ?

    Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins

    Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb

  16. #16
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 365
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 365
    Points : 22 512
    Points
    22 512
    Par défaut Google vient de déployer son application IA mobile Gemini en France et dans le reste de l’Europe
    Google vient de déployer son application IA mobile Gemini en France et dans le reste de l’Europe, l’application n’était jusqu’à présent disponible qu’aux USA

    Google a déployé son application mobile Gemini dans plus de pays à travers le monde, y compris en France et en Europe, pour permettre aux utilisateurs du monde entier de booster leur créativité, leur productivité et créer, collaborer, ainsi que donner vie à leurs idées.

    Google Gemini est une intelligence artificielle (IA), générative et multimodale, de type transformeur, créée par Google, annoncée lors de la conférence I/O destinée aux développeurs en juin 2023, puis présentée au public le 7 décembre 2023. Gemini signifie ici Generalized Multimodal Intelligence Network.


    Aujourd'hui 5 juin 2024, Google a déployé son application mobile Gemini dans plus de pays et territoires, afin que vous puissiez compter sur Gemini où que vous soyez.

    Avec l'application Gemini sur votre téléphone, vous pouvez obtenir de l’aide par écrit, à l’oral ou à partir d’une image : par exemple, vous pouvez prendre une photo de votre pneu crevé et demander des instructions pour le changer, ou obtenir de l'aide pour écrire un mot de remerciement.

    C'est une première étape importante dans la création d'un véritable assistant IA - un assistant conversationnel, multimodal et utile.

    Pour accéder à Gemini sur Android, téléchargez l'application Gemini ou activez-la via l’Assistant Google, et vous pourrez utiliser Gemini en glissant depuis le coin de l'écran, en appuyant sur le bouton d'alimentation sur certains téléphones ou en disant "Hey Google". Cela ouvrira une nouvelle interface offrant un accès facile à Gemini, ainsi qu'une aide contextuelle directement sur votre écran. De nombreuses fonctionnalités vocales que vous aimiez dans Google Assistant seront disponibles via l'application Gemini - y compris configurer des minuteurs, passer des appels et enregistrer des rappels - et Google travaille pour en intégrer davantage à l'avenir.

    Sur iOS, Google déploie l'accès à Gemini directement depuis l'application Google au cours des prochaines semaines. Il suffit d'appuyer sur le bouton Gemini et d’échanger avec Gemini pour booster votre créativité, obtenir de l'aide pour rédiger des contenus sur les réseaux sociaux ou même planifier une soirée en amoureux.

    Google est déterminé à rendre Gemini accessible au plus grand nombre. En élargissant sa prise en charge linguistique et en ouvrant l’accès à de nouveaux pays, l'entreprise assure que davantage de personnes puissent booster leurs idées avec Gemini.

    Source : Google

    Et vous ?

    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel

    Google introduit le chatbot d'IA Gemini dans les modèles Chromebook Plus, améliorant ainsi des fonctionnalités telles que la réécriture de texte, l'édition d'images et le contrôle mains libres

  17. #17
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 365
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 365
    Points : 22 512
    Points
    22 512
    Par défaut Google propose désormais aux développeurs une fenêtre contextuelle de 2 millions de jetons dans Gemini 1.5 Pro
    Google permet désormais aux développeurs d'accéder à une fenêtre contextuelle de 2 millions de jetons dans Gemini 1.5 Pro, au modèle d'IA Gemma 2 dans Google AI Studio et à des capacités d'exécution de code

    Google offre désormais aux développeurs l'accès à une fenêtre de contexte de 2 millions de jetons pour Gemini 1.5 Pro, aux capacités d'exécution de code dans l'API Gemini et à l'ajout de Gemma 2 dans Google AI Studio.

    Google Gemini est une famille de grands modèles de langage multimodaux développés par Google DeepMind, servant de successeur à LaMDA et PaLM 2. Composé de Gemini Ultra, Gemini Pro, Gemini Flash, et Gemini Nano, cette famille de modèle d'IA a été annoncée le 6 décembre 2023, se positionnant comme un concurrent du GPT-4 d'OpenAI. Gemini alimente le chatbot du même nom.


    Contexte long et mise en cache du contexte

    Lors de la conférence I/O, Google a annoncé derrière une liste d'attente la plus longue fenêtre de contexte existante avec 2 millions de tokens dans Gemini 1.5 Pro. Aujourd'hui, Google ouvre l'accès à la fenêtre de contexte de 2 millions de jetons sur Gemini 1.5 Pro à tous les développeurs.

    Plus la fenêtre de contexte s'agrandit, plus les coûts d'entrée risquent d'augmenter. Pour aider les développeurs à réduire les coûts des tâches qui utilisent les mêmes jetons dans plusieurs invites, Google a lancé la mise en cache du contexte dans l'API Gemini pour Gemini 1.5 Pro et 1.5 Flash.

    Exécution du code

    Les LLM ont toujours eu du mal à résoudre les problèmes de raisonnement mathématique ou de données. La génération et l'exécution de code capable de raisonner sur de tels problèmes contribuent à la précision.

    Pour permettre aux développeurs d'exploiter ces capacités, Google a activé l'exécution de code pour Gemini 1.5 Pro et 1.5 Flash. Une fois activée, la fonction d'exécution de code peut être dynamiquement exploitée par le modèle pour générer et exécuter du code Python et apprendre de manière itérative à partir des résultats jusqu'à ce qu'il parvienne à un résultat final souhaité. Le bac à sable d'exécution n'est pas connecté à l'internet, il est livré en standard avec quelques bibliothèques numériques, et les développeurs sont simplement facturés sur la base des jetons de sortie du modèle.

    Il s'agit de la première avancée de Google en matière d'exécution de code en tant que capacité de modèle. Elle est disponible dès aujourd'hui via l'API Gemini et dans Google AI Studio, sous "paramètres avancés".

    Gemma 2 dans Google AI Studio

    Google a souhaité rendre l'IA accessible à tous les développeurs, qu'il s'agisse d'intégrer ses modèles Gemini via une clé API ou d'utiliser ses modèles ouverts tels que Gemma 2.

    Pour aider les développeurs à se familiariser avec le modèle Gemma 2, Google le met à leur disposition dans Google AI Studio à des fins d'expérimentation.

    Gemini 1.5 Flash en production

    Gemini 1.5 Flash a été conçu pour répondre à la demande des développeurs en matière de rapidité et d'accessibilité. Google continue d'être enthousiasmé par la façon dont les développeurs innovent avec Gemini 1.5 Flash et utilisent le modèle en production :

    • Envision permet aux personnes aveugles ou malvoyantes de mieux comprendre leur environnement immédiat grâce à une application ou à des lunettes intelligentes et de poser des questions spécifiques. Grâce à la vitesse de Gemini 1.5 Flash, les utilisateurs d'Envision peuvent obtenir des descriptions en temps réel de leur environnement, ce qui est essentiel pour leur permettre de s'orienter dans le monde.
    • Plural, une plateforme automatisée d'analyse et de suivi des politiques, utilise Gemini 1.5 Flash pour résumer et raisonner avec des documents législatifs complexes pour les ONG et les citoyens intéressés par la politique, afin qu'ils puissent avoir un impact sur la façon dont les projets de loi sont adoptés.
    • Zapier exploite les capacités de raisonnement vidéo de Gemini 1.5 Flash pour extraire des détails spécifiques de séquences vidéo brutes dans des tables Zapier, offrant ainsi de nouvelles possibilités d'automatisation pour l'édition vidéo.
    • Dot, une IA conçue pour évoluer avec l'utilisateur et devenir de plus en plus personnalisée au fil du temps, a exploité Gemini 1.5 Flash pour un certain nombre de tâches de compression de l'information qui sont essentielles à son système de mémoire à long terme agentique. Pour Dot, 1.5 Flash offre des performances similaires à celles de modèles plus onéreux à moins d'un dixième du coût pour des tâches telles que la création de résumés, le filtrage et le reclassement.

    Conformément à l'annonce faite par Google le mois dernier, l'entreprise travaille d'arrache-pied pour mettre le réglage de Gemini 1.5 Flash à la disposition de tous les développeurs, afin de permettre de nouveaux cas d'utilisation, d'accroître la robustesse de la production et d'améliorer la fiabilité.

    L'optimisation de texte dans 1.5 Flash est maintenant prête pour le red-teaming et sera déployée progressivement pour les développeurs à partir d'aujourd'hui. Tous les développeurs pourront accéder à l'optimisation de Gemini 1.5 Flash via l'API Gemini et dans Google AI Studio d'ici la mi-juillet.

    Source : Google

    Et vous ?

    Quel est votre avis sur le sujet ?

    Voir aussi :

    Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb

    Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel

  18. #18
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 365
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 365
    Points : 22 512
    Points
    22 512
    Par défaut Google DeepMind lance le modèle Gemma 2 à 2 milliards de paramètres
    Google DeepMind lance le modèle Gemma 2 à 2 milliards de paramètres, un modèle texte-à-texte ouvert et léger conçu pour les développeurs et les chercheurs, et construit sur la technologie de Google Gemini

    Google DeepMind a annoncé le 31 juillet la sortie de la version à 2 milliards (2B) de paramètres de Gemma 2, la deuxième génération de ses modèles d'IA Gemma.

    Lancé pour la première fois en février de cette année, Gemma est une famille de modèles ouverts légers, texte à texte, conçus pour les développeurs et les chercheurs - et construits sur la technologie qui alimente Google Gemini.

    DeepMind a lancé Gemma 2 en juin, en deux tailles différentes : 9 milliards (9B) et 27 milliards (27) de paramètres.

    Le nouveau modèle 2B apprend à partir de modèles plus grands par distillation et produit des résultats surdimensionnés, selon DeepMind. L'entreprise affirme également qu'il surpasse tous les modèles GPT-3.5 sur le tableau de classement LMSYS Chatbot Arena.

    Gemma 2 2B peut fonctionner sur une large gamme de matériel, des ordinateurs portables aux appareils périphériques et aux déploiements dans le cloud avec Vertex AI et Google Kubernetes Engine (GKE). En outre, il est suffisamment petit pour fonctionner sur le niveau gratuit de l'accélérateur d'apprentissage profond NVIDIA T4.


    DeepMind présente également un ensemble de deux autres ajouts à la famille de modèles : ShieldGemma et Gemma Scope.

    ShieldGemma est une série de classificateurs de sécurité conçus pour détecter et modérer les contenus nuisibles dans les entrées et sorties des modèles d'IA. Il existe en différentes tailles et cible les discours haineux, le harcèlement, les contenus sexuellement explicites et les contenus dangereux.

    GemmaScope met l'accent sur la transparence. L'outil comprend une collection d'auto-encodeurs épars (SAE). Il s'agit de réseaux neuronaux spécialisés qui décomposent le fonctionnement interne complexe des modèles Gemma 2 et fournissent un format plus facile à comprendre sur la manière dont ils traitent les informations et prennent des décisions.

    Il existe plus de 400 SAE disponibles gratuitement, couvrant toutes les couches de Gemma 2 2B et 9B. L'objectif est de permettre aux chercheurs de créer des systèmes d'IA plus transparents et plus fiables.

    Les développeurs et les chercheurs peuvent télécharger Gemma 2 2B sur Kaggle, Hugging Face et Vertex AI Model Garden, ou l'essayer dans Google AI Studio.

    Dans un billet de blog, Google a donné plus de détails sur son modèle Gemma 2.

    L'IA a le potentiel de résoudre certains des problèmes les plus urgents de l'humanité, mais seulement si tout le monde dispose des outils nécessaires pour construire avec elle. C'est pourquoi, au début de l'année, Google a présenté Gemma, une famille de modèles ouverts, légers et à la pointe de la technologie, issus des mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini. Google a continué à développer la famille Gemma avec CodeGemma, RecurrentGemma et PaliGemma - chacun offrant des capacités uniques pour différentes tâches d'IA et facilement accessibles grâce à des intégrations avec des partenaires tels que Hugging Face, NVIDIA et Ollama.

    Aujourd'hui, Google met officiellement Gemma 2 à la disposition des chercheurs et des développeurs du monde entier. Disponible en 9 milliards (9B) et 27 milliards (27B) de paramètres, Gemma 2 est plus performant et plus efficace en matière d'inférence que la première génération, avec des avancées notables en matière de sécurité. En fait, à 27B, Gemma 2 offre des alternatives compétitives à des modèles plus de deux fois plus grands, offrant le type de performance qui n'était possible qu'avec des modèles propriétaires jusqu'en décembre dernier. Et cela est désormais réalisable sur un seul GPU NVIDIA H100 Tensor Core ou un hôte TPU, ce qui réduit considérablement les coûts de déploiement.

    Une nouvelle norme de modèle ouvert pour l'efficacité et la performance

    Google a construit Gemma 2 sur une architecture repensée, conçue pour offrir des performances et une efficacité d'inférence optimales. Voici ce qui le distingue :

    • Des performances surdimensionnées : Avec une capacité de 27 Go, Gemma 2 offre les meilleures performances dans sa catégorie de taille, et propose même des alternatives compétitives à des modèles plus de deux fois plus grands. Le modèle 9B Gemma 2 offre également des performances inégalées dans sa catégorie, surpassant le Llama 3 8B et d'autres modèles ouverts dans sa catégorie de taille.
    • Une efficacité et des économies inégalées : Le modèle 27B Gemma 2 est conçu pour exécuter efficacement l'inférence à pleine précision sur un seul hôte Google Cloud TPU, un GPU NVIDIA A100 80GB Tensor Core ou un GPU NVIDIA H100 Tensor Core, ce qui réduit considérablement les coûts tout en maintenant des performances élevées. Cela permet des déploiements d'IA plus accessibles et plus économiques.
    • Inférence ultrarapide sur tout le matériel : Gemma 2 est optimisé pour fonctionner à une vitesse inégalée sur toute une gamme de matériels, des puissants ordinateurs portables de jeu aux ordinateurs de bureau haut de gamme, en passant par les configurations basées sur le cloud. Essayez Gemma 2 avec une précision maximale dans Google AI Studio, débloquez les performances locales avec la version quantifiée avec Gemma.cpp sur votre CPU, ou essayez-le sur votre ordinateur personnel avec une NVIDIA RTX ou GeForce RTX via Hugging Face Transformers.


    Nom : Gemma 2 fig 1.PNG
Affichages : 5287
Taille : 71,0 Ko

    Conçu pour les développeurs et les chercheurs

    Gemma 2 n'est pas seulement puissant, il est conçu pour s'intégrer plus facilement dans vos flux de travail :

    • Ouvert et accessible : Tout comme les modèles Gemma originaux, Gemma 2 est disponible sous la licence Gemma de Google, qui permet aux développeurs et aux chercheurs de partager et de commercialiser leurs innovations.
    • Large compatibilité avec les cadres de travail : Utilisez facilement Gemma 2 avec vos outils et flux de travail préférés grâce à sa compatibilité avec les principaux frameworks d'IA tels que Hugging Face Transformers, JAX, PyTorch et TensorFlow via Keras 3.0, vLLM, Gemma.cpp, Llama.cpp et Ollama. De plus, Gemma est optimisé avec NVIDIA TensorRT-LLM pour fonctionner sur une infrastructure accélérée par NVIDIA ou en tant que microservice d'inférence NVIDIA NIM, avec une optimisation pour NVIDIA NeMo à venir. Vous pouvez effectuer des réglages fins avec Keras et Hugging Face. Google travaille activement à la mise en place d'autres options de réglage fin efficaces en termes de paramètres.
    • Un déploiement sans effort : À partir du mois prochain, les clients de Google Cloud pourront facilement déployer et gérer Gemma 2 sur Vertex AI.

    Explorez le nouveau Gemma Cookbook, une collection d'exemples pratiques et de recettes pour vous guider dans la création de vos propres applications et le réglage fin des modèles Gemma 2 pour des tâches spécifiques. Découvrez comment utiliser facilement Gemma avec l'outil de votre choix, y compris pour des tâches courantes telles que la génération augmentée de récupération.

    Développement responsable de l'IA

    Google s'est engagé à fournir aux développeurs et aux chercheurs les ressources dont ils ont besoin pour développer et déployer l'IA de manière responsable, notamment grâce à sa boîte à outils pour une IA générative responsable. Le comparateur LLM, récemment mis en libre accès, aide les développeurs et les chercheurs à évaluer en profondeur les modèles de langage. Vous pouvez utiliser la bibliothèque Python qui l'accompagne pour effectuer des évaluations comparatives avec votre modèle et vos données, et visualiser les résultats dans l'application. En outre, Google travaille activement à l'ouverture de sa technologie de tatouage de texte, SynthID, pour les modèles Gemma.

    Lors de la formation de Gemma 2, Google a suivi ses processus robustes de sécurité interne, en filtrant les données de préformation et en effectuant des tests et des évaluations rigoureux par rapport à un ensemble complet de mesures afin d'identifier et d'atténuer les biais et les risques potentiels. Google publie ses résultats sur un large éventail de critères publics relatifs à la sécurité et aux préjudices liés à la représentation.

    Nom : Gemma 2 fig 2.PNG
Affichages : 800
Taille : 110,4 Ko

    Projets réalisés avec Gemma

    Le premier lancement de Gemma par Google a donné lieu à plus de 10 millions de téléchargements et à d'innombrables projets inspirants. Navarasa, par exemple, a utilisé Gemma pour créer un modèle ancré dans la diversité linguistique de l'Inde.


    Désormais, Gemma 2 aidera les développeurs à mettre en œuvre des projets encore plus ambitieux, en permettant à leurs créations d'IA d'atteindre des niveaux de performance et de potentiel encore plus élevés. Google continuera à explorer de nouvelles architectures et à développer des variantes spécialisées de Gemma pour s'attaquer à un plus large éventail de tâches et de défis en matière d'IA. Cela inclut un prochain modèle Gemma 2 de 2,6 milliards de paramètres, conçu pour combler le fossé entre l'accessibilité légère et les performances puissantes.

    Pour commencer

    Gemma 2 est disponible dans Google AI Studio, ce qui vous permet de tester toutes ses capacités de performance à 27B sans exigences matérielles. Vous pouvez également télécharger les poids des modèles de Gemma 2 à partir de Kaggle et Hugging Face Models, et Vertex AI Model Garden sera bientôt disponible.

    Pour faciliter l'accès à la recherche et au développement, Gemma 2 est également disponible gratuitement sur Kaggle ou via un niveau de gratuité pour les ordinateurs portables Colab. Les nouveaux clients de Google Cloud peuvent bénéficier d'un crédit de 300 dollars. Les chercheurs universitaires peuvent s'inscrire au programme de recherche universitaire Gemma 2 pour recevoir des crédits Google Cloud afin d'accélérer leurs recherches avec Gemma 2. Les candidatures sont ouvertes jusqu'au 9 août.

    Sources : Google, "Gemma-2 (2B) : Google's New SMALL Model is GOOD OR REALLY BAD?" (https://youtu.be/DTx3ioAWkbM)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous les résultats des tests de Gemma 2 crédibles ou pertinents ?
    Avez-vous eu l'occasion de tester les modèles Gemma 2, qu'en pensez-vous ? Trouvez-vous que leurs performances sont à la hauteur des autres modèles de taille similaire ?

    Voir aussi :

    Google permet désormais aux développeurs d'accéder à une fenêtre contextuelle de 2 millions de jetons dans Gemini 1.5 Pro, au modèle d'IA Gemma 2 dans Google AI Studio et à des capacités d'exécution de code

    Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins

    Google publie Gemma, une famille de modèles d'IA ouverts et optimisés pour Google Cloud, que les développeurs extérieurs peuvent façonner comme les leurs, emboitant ainsi le pas à Meta Platforms

  19. #19
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 875
    Points : 130 690
    Points
    130 690
    Par défaut Gemini 1.5 Pro de Google détrône GPT-4o sur le LMSYS Chatbot Arena
    Gemini 1.5 Pro de Google détrône GPT-4o sur le LMSYS Chatbot Arena, l'un des benchmarks les plus reconnus dans la communauté de l'IA.

    Dans le classement LMSYS Chatbot Arena, l'un des benchmarks les plus reconnus dans la communauté de l'IA, Gemini 1.5 Pro de Google détrône GPT-4o. Même si Gemini 1.5 Pro 001 n'est qu'une version préliminaire, les résultats montrent la course à la suprématie de l'IA que se livrent les géants de la technologie.

    Récemment, Google a annoncé la mise à jour de Gemini 1.5 Pro et le lancement de 1.5 Flash et 2 nouveaux modèles Gemma. Avec Gemini 1.5, Google a apporté une série d'améliorations de la qualité dans des cas d'utilisation clés, tels que la traduction, le codage, le raisonnement, etc. Les mises à jour ont été conçu pour des tâches encore plus vastes et plus complexes, et surtout la vitesse, pour les conversations en temps réel.

    Si GPT-4o d'OpenAI et Claude-3 d'Anthropic ont dominé le paysage pour l'instant, la dernière version de Gemini 1.5 Pro semble avoir pris le dessus. L'un des critères de référence les plus reconnus dans la communauté de l'IA est le LMSYS Chatbot Arena, qui évalue les modèles sur diverses tâches et leur attribue une note de compétence globale.

    Dans ce classement, GPT-4o a obtenu un score de 1 286, tandis que Claude-3 a obtenu un score louable de 1 271. Une itération précédente de Gemini 1.5 Pro avait obtenu un score de 1 261. La version expérimentale de Gemini 1.5 Pro (désignée sous le nom de Gemini 1.5 Pro 0801) a dépassé ses concurrents les plus proches avec un score impressionnant de 1 300. Cette amélioration significative suggère que le dernier modèle de Google possède des capacités globales supérieures à celles de ses concurrents.

    Nom : 0.jpg
Affichages : 3961
Taille : 100,5 Ko

    Il convient de noter que si les tests de référence fournissent des informations précieuses sur les performances d'un modèle d'IA, ils ne représentent pas toujours avec précision l'ensemble de ses capacités ou de ses limites dans des applications réelles.

    Malgré la disponibilité actuelle de Gemini 1.5 Pro, le fait qu'il s'agisse d'une version préliminaire ou d'une phase de test suggère que Google peut encore procéder à des ajustements ou même retirer le modèle pour des raisons de sécurité ou d'alignement. Ce développement marque une étape importante dans la course à la suprématie de l'IA que se livrent les géants de la technologie.

    La capacité de Google à dépasser OpenAI et Anthropic dans les scores de référence démontre le rythme rapide de l'innovation dans le domaine et la concurrence intense qui alimente ces progrès. Alors que le paysage de l'IA continue d'évoluer, il sera intéressant de voir comment OpenAI et Anthropic répondront à ce défi lancé par Google. Seront-ils en mesure de reprendre leur place au sommet du classement, ou Google a-t-il établi une nouvelle norme pour les performances de l'IA générative ?


    Et vous ?

    Pensez-vous que ces résultats sont crédibles ou pertinents ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur

  20. #20
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 875
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 875
    Points : 130 690
    Points
    130 690
    Par défaut Google dévoile les Gems, des IA experts personnalisables, pour Gemini
    Google dévoile les Gems, des IA expertes personnalisables, pour Gemini, les Gems sont adaptées à des tâches spécifiques et seraient meilleures que les GPTs personnalisés.

    Google vient de dévoiler des IA expertes personnalisables, appelées Gems, pour ses modèles Gemini. Présentées en avant-première au Google I/O, les utilisateurs Advanced, Business, and Enterprise peuvent désormais créer des IA expertes personnalisables et adaptées à des tâches spécifiques. Google affirme que ces IA expertes seraient meilleures que les GPTs personnalisés.

    La course à l'IA des géants technologiques bat son plein. En réponse à GPT-4o d'OpenAI, Google avait annoncé des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash. Se situant entre le Nano sur appareil et le Pro basé sur le cloud, Gemini Flash 1.5 est un modèle multimodal conçu pour le chat, les tâches complexes qui nécessitent une réponse rapide et le traitement des images, des vidéos et de la parole.

    Google a introduit plusieurs nouvelles fonctionnalités pour sa plateforme Gemini, visant à améliorer l'expérience de l'utilisateur avec des IA expertes personnalisables, connus sous le nom de Gems. Présentée en avant-première au Google I/O, cette fonctionnalité est désormais disponible pour les utilisateurs de Gemini Advanced, Business et Enterprise et est conçue pour améliorer la productivité et la créativité dans diverses applications.


    Les abonnés de Gemini Advanced, Business et Enterprise peuvent désormais créer et interagir avec des Gems, qui sont des IA expertes personnalisables et adaptés à des tâches ou des sujets spécifiques. Les utilisateurs peuvent créer des Gems en fournissant des instructions, en leur donnant un nom, puis en les utilisant pour diverses tâches, notamment pour trouver des idées ou aider à la rédaction.

    Les Gems sont conçues pour offrir un soutien dans des domaines tels que la simplification de sujets complexes, l'inspiration créative, l'orientation professionnelle, la rétroaction sur l'écriture et l'aide aux projets de codage. Ces IA expertes sont accessibles sur les ordinateurs de bureau et les appareils mobiles dans plus de 150 pays et prennent en charge un large éventail de langues.

    Ces mises à jour s'inscrivent dans le cadre d'une initiative plus large de Google visant à améliorer les capacités de la plateforme Gemini, afin d'en faire un outil plus polyvalent pour un usage personnel et professionnel. Au fur et à mesure du déploiement de ces fonctionnalités, Google encourage les utilisateurs à lui faire part de leurs commentaires afin de l'aider à affiner et à améliorer la plateforme.

    Nom : 2.jpg
Affichages : 4611
Taille : 26,3 Ko

    Voici l'annonce de Google :

    Créer des Gems pour une aide personnalisée : du codage aux conseils de carrière

    Dans les prochains jours, les abonnés de Gemini Advanced, Business et Enterprise pourront commencer à créer et à discuter avec des Gems, les versions personnalisées de Gemini présentées en avant-première à l'I/O. Vous pouvez personnaliser les Gems pour agir en tant qu'expert sur des sujets ou les affiner en fonction de vos objectifs spécifiques. Il vous suffit de rédiger des instructions pour votre Gem, de lui donner un nom et de discuter avec lui quand vous le souhaitez.

    Avec les Gems, vous pouvez créer une équipe d'experts pour vous aider à réfléchir à un projet difficile, à trouver des idées pour un événement à venir ou à rédiger la légende parfaite pour un message sur les réseaux sociaux. Votre Gem peut également mémoriser un ensemble d'instructions détaillées pour vous aider à gagner du temps sur des tâches fastidieuses, répétitives ou difficiles.

    Pour vous aider à démarrer, nous lançons une série de Gems pré-entrainées pour différents scénarios :

    • Le coach d'apprentissage vous aide à décomposer des sujets complexes pour les rendre plus faciles à comprendre.
    • Brainstormer vous permet de trouver facilement l'inspiration, qu'il s'agisse d'idées fraîches pour une fête à thème ou du cadeau idéal pour un prochain anniversaire.
    • Le guide de carrière vous permet d'exploiter votre potentiel professionnel grâce à des plans détaillés pour affiner vos compétences et atteindre vos objectifs de carrière.
    • Le rédacteur peut améliorer votre écriture grâce à des commentaires clairs et constructifs sur tous les aspects, de la grammaire à la structure.
    • Le partenaire de codage améliore vos compétences en codage et peut vous aider à construire des projets et à apprendre au fur et à mesure.


    Les Gemmes sont maintenant déployées sur les ordinateurs de bureau et les appareils mobiles pour les utilisateurs de Gemini Advanced, Gemini Business et Gemini Enterprise dans plus de 150 pays et dans la plupart des langues.
    Source : Google

    Et vous ?

    Avez-vous utilisé cet outil ou un outil similaire, et si oui qu'en pensez-vous ?

    Voir aussi :

    Gemini 1.5 Pro de Google détrône GPT-4o sur le LMSYS Chatbot Arena, l'un des benchmarks les plus reconnus dans la communauté de l'IA

    Les agents de Mistral AI, des systèmes autonomes alimentés par des LLM, peuvent planifier, utiliser des outils, effectuer des étapes de traitement, pour atteindre des objectifs spécifiques

    Anthropic vous permet désormais de créer des agents d'IA pour que son chatbot Claude travaille pour vous : assistant de messagerie, bot d'achat, ou autres solutions personnalisées, avec n'importe quelle API

    OpenAI introduit des assistants d'IA personnalisés appelés « GPT » qui jouent différents rôles selon vos besoins et prévoit de rémunérer les créateurs dont les GPT seront utilisés

Discussions similaires

  1. Réponses: 0
    Dernier message: 29/05/2024, 21h02
  2. Réponses: 2
    Dernier message: 29/08/2017, 19h38
  3. Réponses: 8
    Dernier message: 05/11/2010, 22h29
  4. Exp direct=y
    Par Yorglaa dans le forum Import/Export
    Réponses: 9
    Dernier message: 18/11/2004, 16h05
  5. WebService Google sur builder 5?
    Par billuh dans le forum C++Builder
    Réponses: 3
    Dernier message: 19/11/2002, 20h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo