IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Google annonce la sortie officielle de Gemma 3n, son modèle d'IA ouvert capable de fonctionner sur un seul GPU


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 686
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 686
    Par défaut Google annonce la sortie officielle de Gemma 3n, son modèle d'IA ouvert capable de fonctionner sur un seul GPU
    Google lance Gemma 3 : "le modèle d'IA le plus puissant que vous pouvez faire tourner sur un GPU", une IA open source avec un contexte de 128K optimisée pour fonctionner sur presque tout, du GPU au smartphone

    Google présente Gemma 3, une collection de modèles ouverts légers et à la pointe de la technologie, conçus à partir des mêmes recherches et de la même technologie que les modèles Gemini 2.0. Il s'agit des modèles ouverts de Google les plus avancés, les plus portables et les plus développés de manière responsable. Ils sont conçus pour fonctionner rapidement, directement sur les appareils - des téléphones et ordinateurs portables aux stations de travail - aidant les développeurs à créer des applications IA, là où les gens en ont besoin.

    La famille de modèles ouverts Gemma est fondatrice de l'engagement de Google à rendre accessible la technologie utile de l'IA. Le mois de février dernier, Google a célébré le premier anniversaire de Gemma, une étape importante marquée par une adoption incroyable - plus de 100 millions de téléchargements - et une communauté dynamique qui a créé plus de 60 000 variantes de Gemma.

    La famille Gemma 3 est disponible en plusieurs tailles (1B, 4B, 12B et 27B), ce qui permet aux utilisateurs de choisir le modèle le mieux adapté à leurs besoins spécifiques en termes de matériel et de performances.


    Les nouvelles fonctionnalités que les développeurs peuvent utiliser avec Gemma 3

    • Construire avec le meilleur modèle d'accélérateur unique au monde : Gemma 3 offre des performances de pointe pour sa taille, surpassant Llama-405B, DeepSeek-V3 et o3-mini dans les évaluations préliminaires des préférences humaines sur le leaderboard de LMArena. Cela vous aide à créer des expériences utilisateur attrayantes qui peuvent tenir sur un seul hôte GPU ou TPU.
    • Une dimension internationale en 140 langues : Créez des applications qui parlent la langue de vos clients. Gemma 3 offre une prise en charge prête à l'emploi de plus de 35 langues et une prise en charge pré-entraînée de plus de 140 langues.
    • Créer une IA avec des capacités avancées de raisonnement textuel et visuel : Créez facilement des applications qui analysent des images, du texte et de courtes vidéos, ouvrant ainsi de nouvelles possibilités pour des applications interactives et intelligentes.
    • Traiter des tâches complexes avec une fenêtre contextuelle élargie : Gemma 3 offre une fenêtre contextuelle de 128 000 jetons pour permettre à vos applications de traiter et de comprendre de grandes quantités d'informations.
    • Créer des flux de travail pilotés par l'IA à l'aide de l'appel de fonction : Gemma 3 prend en charge l'appel de fonction et la sortie structurée pour vous aider à automatiser les tâches et à créer des expériences agentiques.
    • Des performances élevées et plus rapides grâce aux modèles quantifiés : Gemma 3 introduit des versions quantifiées officielles, réduisant la taille des modèles et les besoins de calcul tout en conservant une grande précision.

    Des protocoles de sécurité rigoureux pour construire Gemma 3 de manière responsable

    Google estime que les modèles ouverts doivent faire l'objet d'une évaluation minutieuse des risques, et son approche concilie innovation et sécurité, en adaptant l'intensité des tests aux capacités des modèles. Le développement de Gemma 3 s'est accompagné d'une gouvernance étendue des données, d'un alignement sur les politiques de sécurité de l'entreprise par le biais d'une mise au point et d'évaluations de référence solides.

    Alors que les tests approfondis des modèles les plus performants éclairent souvent l'évaluation des modèles moins performants, l'amélioration des performances STEM de Gemma 3 a donné lieu à des évaluations spécifiques par Google axées sur le potentiel d'utilisation abusive du modèle dans la création de substances nocives ; les résultats indiquent un faible niveau de risque.

    À mesure que l'industrie développe des modèles plus puissants, il sera essentiel de développer collectivement des approches de la sécurité proportionnelles aux risques. Ainsi, Google a indique qu'elle continuera d'apprendre et d'affiner ses pratiques de sécurité pour les modèles ouverts au fil du temps.

    Nom : Google Gemma 3 2.PNG
Affichages : 6702
Taille : 74,0 Ko

    Sécurité intégrée pour les applications d'imagerie avec ShieldGemma 2

    Parallèlement à Gemma 3, Google a également lancé ShieldGemma 2, un puissant vérificateur de sécurité des images 4B construit sur la base de Gemma 3. ShieldGemma 2 fournit une solution prête à l'emploi pour la sécurité des images, en produisant des étiquettes de sécurité dans trois catégories de sécurité : contenu dangereux, sexuellement explicite et violence.

    Les développeurs peuvent personnaliser ShieldGemma en fonction de leurs besoins en matière de sécurité et de leurs utilisateurs. ShieldGemma 2 est ouvert et construit pour donner de la flexibilité et du contrôle, en tirant parti de la performance et de l'efficacité de l'architecture Gemma 3 pour promouvoir un développement responsable de l'IA.

    Prêt pour une intégration avec les outils que vous utilisez déjà

    Gemma 3 et ShieldGemma 2 s'intègrent parfaitement à vos flux de travail existants :

    • Développez avec vos outils préférés : Avec la prise en charge de Hugging Face Transformers, Ollama, JAX, Keras, PyTorch, Google AI Edge, UnSloth, vLLM et Gemma.cpp, vous avez la possibilité de choisir les meilleurs outils pour votre projet.
    • Commencez à expérimenter en quelques secondes : Accédez instantanément à Gemma 3 et commencez à construire immédiatement. Explorez tout son potentiel dans Google AI Studio, ou téléchargez les modèles via Kaggle ou Hugging Face.
    • Personnalisez Gemma 3 en fonction de vos besoins spécifiques : Gemma 3 est livré avec une base de code remaniée qui comprend des recettes pour un réglage fin et une inférence efficaces. Entraînez et adaptez le modèle en utilisant votre plateforme préférée, comme Google Colab, Vertex AI ou même votre GPU de jeu.
    • Déployez à votre guise : Gemma 3 offre de multiples options de déploiement, notamment Vertex AI, Cloud Run, l'API Google GenAI, les environnements Iocal et d'autres plateformes, ce qui vous donne la flexibilité de choisir ce qui convient le mieux à votre application et à votre infrastructure.
    • Bénéficiez de performances optimisées sur les GPU NVIDIA : NVIDIA a directement optimisé les modèles Gemma 3 pour garantir des performances maximales sur les GPU de toutes tailles, des Jetson Nano aux dernières puces Blackwell. Gemma 3 figure désormais dans le catalogue d'API de NVIDIA, ce qui permet un prototypage rapide par un simple appel d'API.
    • Accélérez votre développement IA sur de nombreuses plateformes matérielles : Gemma 3 est également optimisé pour les TPU de Google Cloud et s'intègre aux GPU AMD via la pile open-source ROCm. Pour l'exécution sur processeur, Gemma.cpp offre une solution directe.

    Nom : Google Gemma 3 1.PNG
Affichages : 1597
Taille : 74,9 Ko

    Un « Gemmaverse » de modèles et d'outils

    Le Gemmaverse est un vaste écosystème de modèles et d'outils Gemma créés par la communauté, prêts à alimenter et à inspirer l'innovation. Par exemple, SEA-LION v3 d'IA Singapour fait tomber les barrières linguistiques et favorise la communication dans toute l'Asie du Sud-Est ; BgGPT d'INSIAT est un grand modèle de langage pionnier en langue bulgare qui démontre la puissance de Gemma pour prendre en charge diverses langues ; et OmniAudio de Nexa IA présente le potentiel de l'IA sur appareil, en apportant des capacités de traitement audio avancées aux appareils de tous les jours.

    Afin de promouvoir davantage les avancées de la recherche universitaire, Google lance également le programme académique Gemma 3. Les chercheurs universitaires peuvent demander des crédits Google Cloud (d'une valeur de 10 000 dollars par prix) pour accélérer leurs recherches basées sur Gemma 3.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous cette initiative de Google crédible ou pertinente ?

    Voir aussi :

    Google publie Gemma, une famille de modèles d'IA ouverts et optimisés pour Google Cloud, que les développeurs extérieurs peuvent façonner comme les leurs, emboitant ainsi le pas à Meta Platforms

    Google DeepMind lance le modèle Gemma 2 à 2 milliards de paramètres, un modèle texte-à-texte ouvert et léger conçu pour les développeurs et les chercheurs, et construit sur la technologie de Google Gemini
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 336
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 336
    Par défaut Google lance de nouvelles versions des modèles QAT Gemma 3
    Google lance de nouveaux modèles QAT Gemma 3, optimisés avec Quantization-Aware Training (QAT) qui réduirait considérablement les besoins en mémoire tout en maintenant une haute qualité.

    Après son lancement de Gemma 3, Google a publié une version de Gemma 3 optimisée pour l'apprentissage par quantification (QAT), qui réduit considérablement les besoins en mémoire tout en préservant la qualité du modèle. Plus précisément, la demande en VRAM du modèle Gemma3 27B optimisé par QAT a considérablement diminué, passant de 54 Go à 14,1 Go, ce qui signifie que les utilisateurs peuvent désormais faire tourner ce grand modèle localement sur des GPU grand public comme la NVIDIA RTX 3090.

    En mars 2025, Google a lancé Gemma 3, sa dernière génération de modèles ouverts. Offrant des performances de pointe, Gemma 3 s'est imposé comme un modèle de premier plan capable de fonctionner sur un seul GPU haut de gamme comme le NVIDIA H100 en utilisant sa précision native BFloat16 (BF16).

    Pour rendre Gemma 3 encore plus accessible, Google annonce de nouvelles versions optimisées avec Quantization-Aware Training (QAT) qui réduirait considérablement les besoins en mémoire tout en maintenant une haute qualité. Cela vous permettrait d'exécuter localement des modèles puissants comme Gemma 3 27B sur des GPU grand public comme la NVIDIA RTX 3090.

    Nom : 1.jpg
Affichages : 5687
Taille : 24,9 Ko

    Comprendre les performances, la précision et la quantification

    Le graphique ci-dessus montre les performances (score Elo) des grands modèles de langues récemment publiés. Les barres plus hautes indiquent une meilleure performance dans les comparaisons évaluées par des humains regardant côte à côte les réponses de deux modèles anonymes. Sous chaque barre, il est indiqué le nombre estimé de GPU NVIDIA H100 nécessaires pour exécuter ce modèle en utilisant le type de données BF16.

    Pourquoi utiliser BFloat16 pour cette comparaison ? BF16 est un format numérique couramment utilisé lors de l'inférence de nombreux modèles de grande taille. Cela signifie que les paramètres du modèle sont représentés avec 16 bits de précision. L'utilisation de BF16 pour tous les modèles permet de comparer les modèles dans une configuration d'inférence commune. Cela permet de comparer les capacités inhérentes aux modèles eux-mêmes, en éliminant les variables telles que les différents matériels ou les techniques d'optimisation telles que la quantification.

    Il est important de noter que si ce graphique utilise BF16 pour une comparaison équitable, le déploiement des modèles les plus importants implique souvent l'utilisation de formats de précision inférieure comme FP8 comme une nécessité pratique pour réduire les exigences matérielles immenses (comme le nombre de GPU), en acceptant potentiellement un compromis de performance pour la faisabilité.


    Les modèles QAT Gemma 3 pour plus d'accessibilité

    Bien que les performances de pointe sur du matériel haut de gamme soient excellentes pour les déploiements dans le cloud et la recherche, Google souhaite rendre l'IA puissante plus accessible, ce qui signifie permettre des performances efficaces sur les GPU grand public que l'on trouve dans les ordinateurs de bureau, les ordinateurs portables et même les téléphones.

    C'est là que la quantification entre en jeu. Dans les modèles d'IA, la quantification réduit la précision des nombres (les paramètres du modèle) qu'il stocke et utilise pour calculer les réponses. La quantification est comparable à la compression d'une image en réduisant le nombre de couleurs qu'elle utilise. Au lieu d'utiliser 16 bits par nombre (BFloat16), on peut utiliser moins de bits, comme 8 (int8) ou même 4 (int4).

    L'utilisation de int4 signifie que chaque nombre est représenté en utilisant seulement 4 bits - une réduction de 4 fois la taille des données par rapport à BF16. La quantification peut souvent entraîner une dégradation des performances, mais Google affirme que les modèles Gemma 3 sont robustes à la quantification. Googla a publié plusieurs variantes quantifiées pour chaque modèle Gemma 3 afin de permettre l'inférence avec votre moteur d'inférence préféré, comme Q4_0 (un format de quantification courant) pour Ollama, llama.cpp et MLX.

    Google déclare :

    Comment maintenons-nous la qualité ? Nous utilisons QAT. Au lieu de quantifier le modèle une fois qu'il a été entièrement entraîné, QAT incorpore le processus de quantification pendant l'entraînement. QAT simule des opérations de faible précision pendant la formation afin de permettre une quantification avec moins de dégradation par la suite pour des modèles plus petits et plus rapides tout en maintenant la précision. En approfondissant, nous avons appliqué QAT sur ~5 000 étapes en utilisant les probabilités du point de contrôle non quantifié comme cibles. Nous avons réduit la chute de perplexité de 54% (en utilisant l'évaluation de perplexité de llama.cpp) lors de la quantification jusqu'à Q4_0.
    Voici les résultats publiés par Google :

    Nom : 2.jpg
Affichages : 984
Taille : 35,3 Ko

    Le graphique montre la VRAM (mémoire du GPU) requise juste pour charger les poids du modèle :

    • Gemma 3 27B : passe de 54 Go (BF16) à seulement 14,1 Go (int4)

    • Gemma 3 12B : passe de 24 Go (BF16) à seulement 6,6 Go (int4)

    • Gemma 3 4B : Passe de 8 Go (BF16) à 2,6 Go (int4)

    • Gemma 3 1B : Passe de 2 Go (BF16) à un minuscule 0,5 Go (int4)

    Ces réductions devraient permettre d'exécuter des modèles plus grands et plus puissants sur du matériel grand public largement disponible :

    • Gemma 3 27B (int4) : Tient désormais sur une carte NVIDIA RTX 3090 (24 Go de VRAM) ou une carte similaire, ce qui vous permet de faire tourner localement la plus grande variante de Gemma 3.

    • Gemma 3 12B (int4) : Fonctionne sur les GPU d'ordinateurs portables tels que le GPU NVIDIA RTX 4060 (8 Go de VRAM), apportant de puissantes capacités d'IA aux machines portables.

    • Modèles plus petits (4B, 1B) : Offrent une accessibilité encore plus grande aux systèmes dont les ressources sont plus limitées, y compris les téléphones.

    En outre, Google annonce la disponibilité des modèles QAT dans plusieurs cadre. Les modèles officiels int4 et Q4_0 non quantifiés sont disponibles sur Hugging Face et Kaggle. Google annonce égalelment le partenariat avec des outils de développement populaires :

    • Ollama : Soyez rapidement opérationnel - tous les modèles QAT Gemma 3 sont nativement pris en charge.

    • LM Studio : Téléchargez et exécutez facilement les modèles QAT de Gemma 3 sur votre bureau grâce à son interface.

    • MLX : Exploitez MLX pour une inférence efficace et optimisée des modèles QAT de Gemma 3 sur Apple Silicon.

    • Gemma.cpp : Utilisez l'implémentation C++ dédiée pour une inférence hautement efficace directement sur le CPU.

    • llama.cpp : S'intègre facilement dans les flux de travail existants grâce à la prise en charge native des modèles QAT au format GGUF.



    Google conclut son annonce :

    Nos modèles officiels QAT (Quantization Aware Trained) fournissent une base de haute qualité, mais le vibrant Gemmaverse offre de nombreuses alternatives. Celles-ci utilisent souvent la quantification post-entraînement (PTQ), avec des contributions significatives de membres tels que Bartowski, Unsloth, et GGML facilement disponibles sur Hugging Face. L'exploration de ces options communautaires offre un plus large éventail de compromis en termes de taille, de vitesse et de qualité pour répondre à des besoins spécifiques.

    Source : Google

    Et vous ?

    Pensez-vous que ces modèles QAT sont crédibles ou pertinents ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google DeepMind lance le modèle Gemma 2 à 2 milliards de paramètres, un modèle texte-à-texte ouvert et léger conçu pour les développeurs et les chercheurs et construit sur la technologie de Google Gemini

    Les organisations utiliseront trois fois plus de petits modèles d'IA spécifiques à une tâche que de grands LLM à usage général, pour des réponses plus rapides et moins de puissance de calcul, d'après Gartner

    Les entreprises d'IA s'inspirent de l'exemple de DeepSeek et créent des modèles performants et moins coûteux grâce à la « distillation », mais les experts préviennent qu'ils sont plus limités
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 336
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 336
    Par défaut Google annonce en avant-première Gemma 3n : une IA puissante, efficace et mobile-first
    Google annonce en avant-première Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU, Gemma 3n serait une IA puissante, efficace et mobile-first

    Google a dévoilé Gemma 3n, une nouvelle addition à sa famille de modèles d'IA "ouverts" conçue pour fonctionner efficacement sur les smartphones, ordinateurs portables et tablettes avec seulement un seul GPU. Gemma 3n serait capable de traiter du texte, des images et, à terme, de l'audio et de la vidéo directement sur les appareils sans nécessiter du cloud computing.

    En mars 2025, Google a lancé Gemma 3, une famille de modèles ouverts capables de fonctionner sur un seul accélérateur de cloud ou de bureau. Puis en avril, Google a annoncé Gemma 3 QAT qui réduit les besoins en mémoire tout en préservant la qualité du modèle. L'objectif de Google est que Gemma 3 fournisse de "puissantes capacités" aux développeurs tout en étant une "IA en temps réel hautement performante", fonctionnant directement sur les appareils tel que les téléphones, les tablettes et les ordinateurs portables.

    Pour alimenter la prochaine génération d'IA sur les appareils et prendre en charge une gamme variée d'applications, y compris l'amélioration des capacités de Gemini Nano, Google rapporte avoir conçu une nouvelle architecture de pointe. Créée en collaboration avec des leaders du matériel mobile tels que Qualcomm Technologies, MediaTek et Samsung System LSI, Google affirme que cette nouvelle architecture est optimisée pour une IA multimodale rapide comme l'éclair, "permettant des expériences véritablement personnelles et privées directement sur votre appareil".

    Avec cette nouvelle découverte, Google a récemment annoncé Gemma 3n en avant-première, son premier modèle ouvert construit sur cette architecture, qui arrivera sur Android et Chrome. Google annonce également que cette même architecture serait à la base de la prochaine génération de Gemini Nano, qui sera disponible dans le courant de l'année.

    Nom : 1.jpg
Affichages : 29390
Taille : 36,6 Ko

    Gemma 3n exploite l'architecture de Google DeepMind appelée Per-Layer Embeddings (PLE) qui permet de réduire l'utilisation de la RAM. Alors que le nombre de paramètres bruts est de 5B et 8B, cette innovation permettrait d'exécuter des modèles plus importants sur des appareils mobiles ou de les diffuser en direct depuis le cloud, avec une surcharge de mémoire comparable à un modèle de 2B et 4B, ce qui signifie que les modèles peuvent fonctionner avec une empreinte mémoire dynamique de seulement 2GB et 3GB.

    En explorant Gemma 3n, les développeurs peuvent avoir un premier aperçu des capacités principales du modèle ouvert et des innovations architecturales mobiles qui seront disponibles sur Android et Chrome avec Gemini Nano.


    Présentation des capacités de Gemma 3n

    Conçu pour des expériences d'IA rapides et peu encombrantes fonctionnant localement, Gemma 3n offrirait :

    • Des performances et une efficacité optimisées sur l'appareil : Gemma 3n commence à répondre environ 1,5 fois plus vite sur mobile avec une qualité supérieure par rapport à Gemma 3 4B et une empreinte mémoire réduite grâce à l'intégration par couche, le partage KVC et la quantification d'activation avancée.

    • Flexibilité multiple en 1 : Un modèle avec une empreinte mémoire active de 4B qui inclut nativement un sous-modèle imbriqué avec une empreinte mémoire active de 2B (grâce à la formation MatFormer). Cela permet d'arbitrer dynamiquement entre performance et qualité sans avoir à héberger des modèles distincts. Gemma 3n introduit une capacité de mix'n'match pour créer dynamiquement des sous-modèles à partir du modèle 4B qui peuvent s'adapter de manière optimale à un cas d'utilisation spécifique, ainsi qu'au compromis qualité/latence qui en découle.

    • Privilégier la confidentialité et être prêt à fonctionner hors ligne : L'exécution locale permet des fonctionnalités qui respectent la vie privée de l'utilisateur et fonctionnent de manière fiable, même sans connexion internet.

    • Compréhension multimodale élargie avec l'audio : Gemma 3n peut comprendre et traiter de l'audio, du texte et des images, et offrirait une compréhension vidéo. Ses capacités audio permettent au modèle d'effectuer une reconnaissance automatique de la parole (transcription) et une traduction (de la parole au texte traduit) de qualité. En outre, le modèle accepte des entrées entrelacées entre les modalités, ce qui permet de comprendre des interactions multimodales complexes. (Mise en œuvre publique à venir)

    • Amélioration des capacités multi-langues : Amélioration des performances multilingues, en particulier en japonais, allemand, coréen, espagnol et français. De solides performances se reflètent dans les tests de référence multilingues tels que 50,1 % pour WMT24++ (ChrF).

    Nom : 2.jpg
Affichages : 7161
Taille : 62,2 Ko

    Disponibilité

    • Exploration basée sur le cloud avec Google AI Studio : Essayez Gemma 3n directement dans votre navigateur sur Google AI Studio - aucune configuration n'est nécessaire. Explorez ses capacités de saisie de texte instantanément.

    • Développement sur appareil avec Google AI Edge : pour les développeurs qui souhaitent intégrer Gemma 3n localement, Google AI Edge fournit des outils et des bibliothèques. Vous pouvez commencer à utiliser les capacités de compréhension/génération de texte et d'image.



    Source : Google

    Et vous ?

    Pensez-vous que ce modèle est crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google lance de nouveaux modèles QAT Gemma 3, optimisés avec Quantization-Aware Training (QAT) qui réduirait considérablement les besoins en mémoire tout en maintenant une haute qualité

    Google affirme que le fonctionnement de modèles d'IA sur les téléphones consomme énormément de mémoire vive. La disponibilité de Gemini Nano sur le Pixel 8 pose des questions sur la transparence

    Google I/O 2025 : toutes les annonces majeures qu'il faut retenir de la conférence centrée sur l'IA. Google présente une architecture numérique tournée vers l'IA générative avec Gemini comme OS invisible
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  4. #4
    Communiqués de presse

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Avril 2025
    Messages
    77
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Avril 2025
    Messages : 77
    Par défaut Google annonce la sortie officielle de Gemma 3n, son modèle d'IA ouvert capable de fonctionner sur un seul GPU
    Google a annoncé la sortie complète de Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU, "Gemma 3n représente une avancée majeure pour l'IA sur appareil"

    Google a annoncé la sortie complète de Gemma 3n. Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière." Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.

    Le premier modèle Gemma a été lancé au début de l'année dernière et s'est depuis développé pour former un Gemmaverse avec plus de 160 millions de téléchargements cumulés. Cet écosystème comprend une famille de plus d'une douzaine de modèles spécialisés pour différents types d'applications. Par exemple, Roboflow a utilisé le modèle pour développer une vision par ordinateur pour les entreprises.

    En mai 2025, Google a annoncé en avant-première Gemma 3n, la dernière version de son modèle d'IA ouvert capable de fonctionner sur un seul GPU. Selon Google, Gemma 3n est conçue pour fonctionner efficacement sur les smartphones, ordinateurs portables et tablettes avec seulement un seul GPU. Gemma 3n serait capable de traiter du texte, des images et, à terme, de l'audio et de la vidéo directement sur les appareils sans nécessiter du cloud computing.

    Récemment, Google a annoncé la sortie complète de Gemma 3n. Si l'aperçu a donné un avant-goût du modèle, c'est maintenant que Google dévoile toute la performance de cette architecture axée sur les appareils mobiles. Gemma 3n est prise en charge par les outils tels que Hugging Face Transformers, llama.cpp, Google AI Edge, Ollama, MLX et bien d'autres, ce qui vous permet de l'ajuster et de la déployer pour vos applications spécifiques sur appareil.

    Nom : 5.jpg
Affichages : 6120
Taille : 19,7 Ko

    Google affirme : "Gemma 3n représente une avancée majeure pour l'IA sur appareil, apportant de puissantes capacités multimodales aux appareils périphériques avec des performances qui n'étaient auparavant disponibles que dans les modèles de pointe basés sur le cloud de l'année dernière."

    Voici les nouveautés qu'apporteraient Gemma 3n :

    • Multimodal de par sa conception : Gemma 3n prend en charge nativement les entrées image, audio, vidéo et texte, ainsi que les sorties texte.

    • Optimisé pour les appareils : conçus dans un souci d'efficacité, les modèles Gemma 3n sont disponibles en deux tailles en fonction des paramètres effectifs : E2B et E4B. Bien que leur nombre de paramètres bruts soit respectivement de 5B et 8B, des innovations architecturales leur permettent de fonctionner avec une empreinte mémoire comparable à celle des modèles traditionnels 2B et 4B, avec seulement 2 Go (E2B) et 3 Go (E4B) de mémoire.

    • Nouvelle architecture : Gemma 3n intègre des composants novateurs tels que l'architecture MatFormer pour la flexibilité de calcul, Per Layer Embeddings (PLE) pour l'efficacité de la mémoire, LAuReL et AltUp pour l'efficacité architecturale, ainsi que de nouveaux encodeurs audio et de vision basés sur MobileNet-v5 optimisés pour les cas d'utilisation sur appareil.

    • Qualité améliorée : Gemma 3n offre des améliorations de qualité dans les domaines du multilinguisme (prise en charge de 140 langues pour le texte et la compréhension multimodale de 35 langues), des mathématiques, du codage et du raisonnement. La version E4B atteint un score LMArena supérieur à 1300, ce qui en fait le premier modèle de moins de 10 milliards de paramètres à atteindre ce niveau de référence.


    Nom : 1.jpg
Affichages : 996
Taille : 48,6 Ko

    Pour rappel, un récent rapport a révélé que Google a détrôné IBM pour devenir l'acteur dominant des brevets liés à l'IA générative et est désormais en tête dans le domaine émergent de l'IA agentique. En effet, dans le classement américain des brevets liés aux agents d'IA, Google et Nvidia occupent les premières places, et pour les brevets d'IA générative au niveau mondial, Google conserve sa position de leader.

    Si les dépôts de brevets ne mesurent pas directement la qualité de l'innovation, ils constituent des indicateurs précieux des priorités de recherche et des investissements stratégiques. L'ascension de Google dans ces classements s'aligne sur ses initiatives plus larges en matière d'IA, y compris des investissements substantiels dans les technologies d'IA générative et agentique. Les améliorations et nouveautés de Gemma 3n semblent être parmi les résultats de ces initiatives.


    Présentation des nouveautés de Gemma 3n

    MatFormer : un modèle, plusieurs tailles

    Au cœur de Gemma 3n se trouve l'architecture MatFormer (Matryoshka Transformer), un nouveau transformateur imbriqué conçu pour l'inférence élastique. Considérez-le comme des poupées russes : un modèle plus grand contient des versions plus petites et entièrement fonctionnelles de lui-même. Cette approche étend le concept d'apprentissage de la représentation Matryoshka des simples intégrations à tous les composants du transformateur.

    Nom : 2.jpg
Affichages : 922
Taille : 67,6 Ko

    Pendant l'entraînement MatFormer du modèle à 4 milliards de paramètres effectifs (E4B), un sous-modèle à 2 milliards de paramètres effectifs (E2B) est simultanément optimisé en son sein, comme le montre la figure ci-dessus. Cela offre aujourd'hui aux développeurs deux fonctionnalités et cas d'utilisation puissants :

    1 : Modèles pré-extraits : vous pouvez télécharger et utiliser directement soit le modèle E4B principal pour bénéficier des capacités les plus élevées, soit le sous-modèle E2B autonome offrant une inférence jusqu'à deux fois plus rapide.

    2 : Tailles personnalisées avec Mix-n-Match : pour un contrôle plus granulaire adapté aux contraintes matérielles spécifiques, vous pouvez créer une gamme de modèles de taille personnalisée entre E2B et E4B à l'aide d'une méthode appelée Mix-n-Match. Cette technique vous permet de découper précisément les paramètres du modèle E4B, principalement en ajustant la dimension cachée du réseau feed forward par couche (de 8192 à 16384) et en sautant sélectivement certaines couches. Google lance MatFormer Lab, un outil qui montre comment récupérer ces modèles optimaux, qui ont été identifiés en évaluant divers paramètres sur des benchmarks tels que MMLU.

    Nom : 3.jpg
Affichages : 921
Taille : 62,1 Ko

    À l'avenir, l'architecture MatFormer ouvrira également la voie à l'exécution élastique. Bien qu'elle ne fasse pas partie des implémentations lancées aujourd'hui, cette fonctionnalité permet à un seul modèle E4B déployé de basculer dynamiquement entre les chemins d'inférence E4B et E2B à la volée, ce qui permet d'optimiser en temps réel les performances et l'utilisation de la mémoire en fonction de la tâche en cours et de la charge du dispositif.


    Intégrations par couche (PLE) : pour une meilleure efficacité mémoire

    Les modèles Gemma 3n intègrent des intégrations par couche (PLE). Cette innovation est conçue pour le déploiement sur appareil, car elle améliore considérablement la qualité du modèle sans augmenter l'empreinte mémoire haute vitesse requise sur l'accélérateur de votre appareil (GPU/TPU).

    Alors que les modèles Gemma 3n E2B et E4B ont respectivement un nombre total de paramètres de 5B et 8B, PLE permet à une partie importante de ces paramètres (les intégrations associées à chaque couche) d'être chargés et calculés efficacement sur le CPU. Cela signifie que seuls les poids du transformateur central (environ 2 milliards pour E2B et 4 milliards pour E4B) doivent être stockés dans la mémoire de l'accélérateur (VRAM), généralement plus limitée.

    Nom : 4.jpg
Affichages : 922
Taille : 68,9 Ko


    Partage du cache KV : traitement plus rapide des contextes longs

    Le traitement d'entrées longues, telles que les séquences dérivées de flux audio et vidéo, est essentiel pour de nombreuses applications multimodales avancées sur appareil. Gemma 3n introduit le partage de cache KV, une fonctionnalité conçue pour accélérer considérablement le temps de réponse des applications de streaming.

    Le partage de cache KV optimise la manière dont le modèle gère la phase initiale de traitement des entrées (souvent appelée phase de « préremplissage »). Les clés et les valeurs de la couche intermédiaire provenant de l'attention locale et globale sont directement partagées avec toutes les couches supérieures, ce qui permet d'améliorer de manière notable les performances de préremplissage par rapport à Gemma 3 4B. Cela signifie que le modèle peut ingérer et comprendre des séquences de prompt longues beaucoup plus rapidement qu'auparavant.


    Compréhension audio : introduction de la reconnaissance vocale et de la traduction

    Gemma 3n utilise un encodeur audio avancé basé sur le modèle Universal Speech Model (USM). L'encodeur génère un jeton toutes les 160 ms d'audio (environ 6 jetons par seconde), qui sont ensuite intégrés comme entrée au modèle linguistique, fournissant une représentation granulaire du contexte sonore.

    Cette capacité audio intégrée débloque des fonctionnalités clés pour le développement sur appareil, notamment :

    • Reconnaissance vocale automatique (ASR) : permet une transcription haute qualité de la parole en texte directement sur l'appareil.
    • Traduction automatique de la parole (AST) : traduit la langue parlée en texte dans une autre langue.

    Google annonce des résultats AST particulièrement bons pour la traduction entre l'anglais et l'espagnol, le français, l'italien et le portugais, ce qui offre un grand potentiel pour les développeurs qui ciblent des applications dans ces langues. Pour des tâches telles que la traduction de la parole, l'utilisation de la chaîne de pensée peut améliorer considérablement les résultats. Voici un exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    <bos><start_of_turn>user
    Transcribe the following speech segment in Spanish, then translate it into English: 
    <start_of_audio><end_of_turn>
    <start_of_turn>model


    Au moment de son lancement, l'encodeur Gemma 3n est implémenté pour traiter des clips audio d'une durée maximale de 30 secondes. Cependant, il ne s'agit pas d'une limitation fondamentale. L'encodeur audio sous-jacent est un encodeur de streaming, capable de traiter des fichiers audio de longueur arbitraire grâce à une formation audio supplémentaire de longue durée. Les implémentations ultérieures permettront de débloquer des applications de streaming longue durée à faible latence.


    MobileNet-V5 : nouveau codeur de vision

    Outre ses capacités audio intégrées, Gemma 3n dispose d'un nouveau codeur de vision hautement efficace, MobileNet-V5-300M, qui offre des performances de pointe pour les tâches multimodales sur les appareils périphériques.

    Conçu pour offrir flexibilité et puissance sur du matériel limité, MobileNet-V5 offre aux développeurs :

    • Plusieurs résolutions d'entrée : prend en charge nativement les résolutions 256x256, 512x512 et 768x768 pixels, ce qui vous permet d'équilibrer les performances et les détails pour vos applications spécifiques.
    • Une compréhension visuelle étendue : co-entraîné sur des ensembles de données multimodales exhaustifs, il excelle dans un large éventail de tâches de compréhension d'images et de vidéos.
    • Un débit élevé : traite jusqu'à 60 images par seconde sur un Google Pixel, permettant une analyse vidéo en temps réel sur l'appareil et des expériences interactives.

    Ce niveau de performance est atteint grâce à de multiples améliorations architecturales, notamment :

    • Une base avancée de blocs MobileNet-V4 (y compris Universal Inverted Bottlenecks et Mobile MQA).
    • Une architecture considérablement améliorée, avec un modèle pyramidal profond hybride 10 fois plus grand que la plus grande variante MobileNet-V4.
    • Un nouvel adaptateur Multi-Scale Fusion VLM qui améliore la qualité des jetons pour une meilleure précision et efficacité.

    Bénéficiant de conceptions architecturales novatrices et de techniques de distillation avancées, MobileNet-V5-300M surpasse la base de référence SoViT dans Gemma 3 (entraînée avec SigLip, sans distillation). Sur un Google Pixel Edge TPU, il offre une accélération de 13 fois avec quantification (6,5 fois sans), nécessite 46 % de paramètres en moins et occupe 4 fois moins de mémoire, tout en offrant une précision nettement supérieure pour les tâches de vision-langage.


    Pour le lancement de Gemma 3n, Google commente :

    Rendre Gemma 3n accessible dès le premier jour a été une priorité. Nous sommes fiers de nous associer à de nombreux développeurs open source exceptionnels afin d'assurer une large prise en charge des outils et plateformes populaires, notamment grâce aux contributions des équipes derrière AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth et vLLM.

    Mais cet écosystème n'est qu'un début. La véritable puissance de cette technologie réside dans ce que vous allez créer avec elle. C'est pourquoi nous lançons le Gemma 3n Impact Challenge. Votre mission : utiliser les capacités uniques de Gemma 3n en matière de multimodalité, hors ligne et sur appareil, pour créer un produit qui contribuera à un monde meilleur. Avec 150 000 dollars de prix à la clé, nous recherchons une vidéo captivante et une démonstration impressionnante qui montrent un impact réel. Rejoignez le défi et contribuez à construire un avenir meilleur.

    Source : Google

    Et vous ?

    Pensez-vous que ces améliorations sont crédibles ou pertinentes ?
    Quel est votre avis sur ce nouveau modèle ?

    Voir aussi :

    Google lance Gemma 3 : "le modèle d'IA le plus puissant que vous pouvez faire tourner sur un GPU", une IA open source avec un contexte de 128K optimisée pour fonctionner sur presque tout, du GPU au smartphone

    Google affirme que le fonctionnement de modèles d'IA sur les téléphones consomme énormément de mémoire vive. La disponibilité de Gemini Nano sur le Pixel 8 pose des questions sur la transparence

    Google I/O 2025 : toutes les annonces majeures qu'il faut retenir de la conférence centrée sur l'IA. Google présente une architecture numérique tournée vers l'IA générative avec Gemini comme OS invisible
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  5. #5
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    320
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 320
    Par défaut
    Google annonce des résultats AST particulièrement bons pour la traduction entre l'anglais et l'espagnol, le français, l'italien et le portugais, ce qui offre un grand potentiel pour les développeurs qui ciblent des applications dans ces langues.
    Quand je vois le nombre de traductions ratées* sur lesquelles je tombe depuis l'apparition des LLM, j'ai quand même envie d'émettre de gros doutes.
    Un exemple parmi tant d'autres.
    JBL semble avoir fait refaire son site par des humains mais il y a quelques mois, sur leur site on pouvait acheter des JBL retournée. Je vous laisse deviner de quel produit il s'agissait ;-). C'est rigolo mais v'là comment c'est la honte pour une marque de cette envergure.


    *: façon polie de dire "nulles à chier et carrément à l'ouest"

Discussions similaires

  1. Réponses: 0
    Dernier message: 19/10/2018, 04h14
  2. Oracle annonce la sortie officielle de Java 11
    Par Victor Vincent dans le forum Général Java
    Réponses: 32
    Dernier message: 01/10/2018, 18h51
  3. Oracle annonce la sortie officielle de Java 10
    Par Michael Guilloux dans le forum Général Java
    Réponses: 38
    Dernier message: 14/05/2018, 19h22
  4. Réponses: 0
    Dernier message: 06/09/2016, 16h29
  5. Réponses: 0
    Dernier message: 14/10/2015, 21h34

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo