Google dévoile deux nouveaux TPU conçus pour « l’ère des agents » : cette nouvelle génération de puces d’IA Tensor se compose de deux puces distinctes, l’une dédiée à l’inférence et l’autre à l’entraînement

Lors de sa conférence annuelle Cloud Next 26, Google Cloud a officiellement annoncé le début de « l’ère des agents ». En tête de cette initiative se trouvent les Tensor Processing Units (TPU) de huitième génération de Google et une nouvelle plateforme complète pour la création d’agents IA autonomes. Google a présenté deux puces spécialisées de 8e génération pour répondre aux besoins de calcul massifs des agents autonomes : TPU 8t (entraînement) : Conçue pour la création de modèles à grande vitesse, et TPU 8i (Inference) : Optimisée pour l'exécution d'agents IA en temps réel.Google affirme : « Ensemble, ces TPU de 8e génération offriront évolutivité, efficacité et capacités pour les charges de travail de formation, de service et d’agents. »

Une unité de traitement tensoriel (TPU) est un circuit intégré spécifique à une application (ASIC) de type unité de traitement neuronal (NPU) développé par Google pour l'apprentissage automatique basé sur les réseaux neuronaux. TensorFlow, Jax et PyTorch sont des frameworks pris en charge par les TPU. Google a commencé à utiliser les TPU en interne en 2015, puis les a mises à la disposition de tiers en 2018, à la fois dans le cadre de son infrastructure cloud et en proposant à la vente une version plus petite de la puce.

Lors de sa conférence annuelle Cloud Next 26, Google Cloud a officiellement annoncé le début de « l’ère des agents », dévoilant une vaste gamme de solutions matérielles et logicielles destinées à transformer les entreprises en « entreprises agentiques ». En tête de cette initiative se trouvent les Tensor Processing Units (TPU) de huitième génération de Google et une nouvelle plateforme complète pour la création d’agents IA autonomes. L’équipe Cloud a présenté une vision dans laquelle l’IA ne se contente pas de répondre à des questions, mais accomplit de manière proactive des processus métier complexes.

Le PDG de Google, Sundar Pichai, a félicité l’équipe Cloud qui a travaillé sur cette innovation au cours de l’année écoulée. Il a déclaré : « Google Cloud connaît une dynamique incroyable : nos modèles traitent désormais plus de 16 milliards de jetons par minute via l'utilisation directe de l'API par nos clients (contre 10 milliards au trimestre dernier). Cette semaine, lors de Cloud Next, nous dévoilons une gamme extraordinaire de nouveaux partenariats et d'innovations, notamment notre nouvelle plateforme Gemini Enterprise Agent, le nouveau centre de contrôle permettant de créer, de faire évoluer, de gérer et d'optimiser les agents. Nous lançons également nos TPU de 8e génération pour prendre en charge les charges de travail agentiques les plus exigeantes. Félicitations à notre équipe Google Cloud, et un immense merci à nos partenaires qui construisent l'avenir avec nous. »

Au cœur de la « révolution de l’IA agentique » se trouve la nouvelle infrastructure d’hyperordinateur IA de Google. Google a présenté deux puces spécialisées de 8e génération pour répondre aux besoins de calcul massifs des agents autonomes :

- TPU 8t (entraînement) : Conçue pour la création de modèles à grande vitesse, cette puce peut être déployée jusqu’à 9 600 TPU dans un seul superpod. Elle offre trois fois la puissance de traitement de la génération précédente et deux fois les performances par watt.

- TPU 8i (Inference) : Optimisée pour l'exécution d'agents IA en temps réel, la puce 8i offre des performances par dollar supérieures de 80 %. Elle est conçue pour une « latence quasi nulle », garantissant que les agents IA peuvent réagir et exécuter des tâches instantanément.

Google a également annoncé qu'il serait parmi les premiers à proposer les systèmes Vera Rubin NVL72 de Nvidia, offrant ainsi aux clients la flexibilité de choisir la meilleure architecture pour leurs besoins spécifiques.


Au-delà du matériel, Google a lancé la plateforme Gemini Enterprise Agent. Il s'agit d'un « guichet unique » permettant aux équipes techniques de créer, de faire évoluer et de gérer des agents IA. La plateforme comprend un « Agent Studio » pour le développement low-code et une « orchestration d'agent à agent », qui permet à différents agents IA de se déléguer des tâches entre eux de manière transparente.

Google a souligné que l'ère des agents nécessite une nouvelle approche des données et de la sécurité. Le nouveau Agentic Data Cloud s'éloigne des archives réactives pour s'orienter vers des « systèmes d'action », permettant aux agents de raisonner en temps réel sur l'ensemble du patrimoine de données d'une entreprise. Pour protéger ces systèmes autonomes, Google a lancé Agentic Defense. Cette plateforme de cybersécurité combine les informations sur les menaces de Google avec la plateforme de sécurité de Wiz afin de détecter de manière proactive les « dérives de raisonnement » ou les comportements suspects des agents avant qu'ils n'aient un impact sur l'activité.

Cette annonce confirme les efforts de Google dans la course à l'IA. Elle intervient quelque mois après que Geoffrey Hinton, le « parrain de l'IA », a estimé que Google est en train de rattraper OpenAI dans la course à l'IA. Hinton s'est également dit surpris que Google ait mis autant de temps à dépasser ses concurrents. Il a déclaré : « Je pense qu'il est en fait plus surprenant que Google ait mis autant de temps à dépasser OpenAI. Je pense qu'à l'heure actuelle, ils commencent à le dépasser ».

Geoffrey Hinton avait également affirmé que Google dispose d'un avantage en matière de puces IA. Outre le lancement réussi de son modèle d'IA, la création de ses propres puces est un « avantage considérable » pour Google, a fait remarquer Hinton. Il a déclaré : « Google dispose de nombreux chercheurs très compétents et, bien sûr, d'une grande quantité de données et de nombreux centres de données. Je pense que Google va gagner. »

Voici l'annonce de Google :

Nos TPU de huitième génération : deux puces pour l'ère de l'agentique

Aujourd’hui, lors de la conférence Google Cloud Next, nous présentons la huitième génération de Tensor Processor Unit (TPU) sur mesure de Google, qui sera bientôt disponible avec deux architectures distinctes et spécialement conçues pour l’entraînement et l’inférence : le TPU 8t et le TPU 8i. Ces deux puces sont conçues pour alimenter nos supercalculateurs sur mesure, afin de prendre en charge tout, de l’entraînement de modèles de pointe et du développement d’agents aux charges de travail d’inférence massives. Les TPU alimentent depuis des années les principaux modèles de base, notamment Gemini. Ensemble, ces TPU de 8e génération offriront évolutivité, efficacité et capacités pour les charges de travail de formation, de service et d’agents.

À l’ère des agents IA, les modèles doivent raisonner pour résoudre des problèmes, exécuter des workflows en plusieurs étapes et apprendre de leurs propres actions dans des boucles continues. Cela impose de nouvelles exigences à l'infrastructure, et les TPU 8t et TPU 8i ont été conçus en partenariat avec Google DeepMind pour prendre en charge les charges de travail d'IA les plus exigeantes et s'adapter à l'évolution des architectures de modèles à grande échelle.

Les TPU ont établi la norme pour un certain nombre de composants de supercalcul ML, notamment les calculs numériques sur mesure, le refroidissement par liquide, les interconnexions sur mesure et bien plus encore, et nos TPU de huitième génération sont l'aboutissement de plus d'une décennie de développement. Le principe clé à l'origine de la conception des TPU d'origine reste d'actualité : en personnalisant et en co-concevant le silicium avec le matériel, les réseaux et les logiciels, y compris l'architecture des modèles et les exigences des applications, nous pouvons offrir une efficacité énergétique et des performances absolues nettement supérieures.

Nom : 1.jpg
Affichages : 4259
Taille : 93,7 Ko

Deux puces pour répondre aux enjeux actuels

Les cycles de développement matériel sont bien plus longs que ceux des logiciels. À chaque nouvelle génération de TPU, nous devons anticiper les technologies et les besoins qui existeront au moment de leur mise sur le marché. Il y a plusieurs années, nous avions anticipé une demande croissante en matière d’inférence de la part des clients, à mesure que des modèles d’IA de pointe seraient déployés en production et à grande échelle. Et avec l’essor des agents IA, nous avons estimé que la communauté bénéficierait de puces spécialisées individuellement pour les besoins de l’entraînement et du service.

Le TPU 8t excelle dans les charges de travail d'entraînement massives et gourmandes en calcul, grâce à un débit de calcul plus élevé et une bande passante évolutive accrue. Le TPU 8i est conçu avec une bande passante mémoire plus importante pour prendre en charge les charges de travail d'inférence les plus sensibles à la latence, ce qui est essentiel car les interactions entre agents à grande échelle amplifient même les plus petites inefficacités.

Il est important de noter que les deux puces peuvent exécuter diverses charges de travail, mais la spécialisation permet de dégager des gains d'efficacité significatifs.

TPU 8t : la puissance de l'entraînement

Le TPU 8t est conçu pour réduire le cycle de développement des modèles de pointe de plusieurs mois à quelques semaines. En équilibrant le débit de calcul, la mémoire partagée et la bande passante inter-puces les plus élevés possibles avec la meilleure efficacité énergétique et le meilleur temps de calcul productif possibles, nous avons conçu un système qui offre près de trois fois les performances de calcul par pod par rapport à la génération précédente, permettant une innovation plus rapide pour garantir que nos clients continuent de donner le ton dans le secteur.

- Échelle massive : un seul superpod TPU 8t peut désormais s'étendre jusqu'à 9 600 puces et deux pétaoctets de mémoire partagée à haut débit, avec une bande passante inter-puces deux fois supérieure à celle de la génération précédente. Cette architecture offre une puissance de calcul de 121 exaflops et permet aux modèles les plus complexes de tirer parti d'un pool de mémoire unique et massif.

- Utilisation maximale : en intégrant également un accès au stockage 10 fois plus rapide, combiné à TPUDirect pour extraire les données directement dans le TPU, le TPU 8t contribue à garantir une utilisation maximale du système de bout en bout.

- Évolutivité quasi linéaire : notre nouveau réseau Virgo, associé à JAX et à notre logiciel Pathways, permet au TPU 8t d’offrir une évolutivité quasi linéaire pouvant atteindre un million de puces dans un seul cluster logique.

Au-delà de ses performances brutes, le TPU 8t est conçu pour atteindre un « goodput » supérieur à 97 % — une mesure du temps de calcul utile et productif — grâce à un ensemble complet de fonctionnalités de fiabilité, de disponibilité et de maintenabilité (RAS). Celles-ci comprennent la télémétrie en temps réel sur des dizaines de milliers de puces, la détection automatique et le réacheminement autour des liaisons ICI défectueuses sans interrompre une tâche, ainsi que la commutation optique de circuits (OCS) qui reconfigure le matériel en cas de défaillance sans intervention humaine.

Chaque défaillance matérielle, blocage du réseau ou redémarrage d’un point de contrôle représente du temps pendant lequel le cluster ne s’entraîne pas, et à l’échelle de l’entraînement de pointe, chaque point de pourcentage peut se traduire par des jours de temps d’entraînement actif.

Nom : 2.jpg
Affichages : 178
Taille : 29,7 Ko

TPU 8i : le moteur de raisonnement

À l'ère des agents, les utilisateurs s'attendent à pouvoir poser des questions, déléguer des tâches et obtenir des résultats. Le TPU 8i est conçu pour gérer le travail complexe, collaboratif et itératif de nombreux agents spécialisés, qui « essaimant » souvent ensemble au sein de flux complexes pour fournir des solutions et des informations pertinentes face aux tâches les plus difficiles. Nous avons repensé la pile pour éliminer l’effet « salle d’attente » grâce à quatre innovations clés :

- Briser le « mur de la mémoire » : pour empêcher les processeurs de rester inactifs, le TPU 8i associe 288 Go de mémoire à haut débit à 384 Mo de SRAM intégrée — soit trois fois plus que la génération précédente —, ce qui permet de conserver l’ensemble du jeu de travail actif d’un modèle entièrement sur la puce.

- Efficacité optimisée par Axion : nous avons doublé le nombre d’hôtes CPU physiques par serveur, en adoptant nos CPU Axion personnalisés basés sur Arm. En utilisant une architecture de mémoire non uniforme (NUMA) pour l’isolation, nous avons optimisé l’ensemble du système pour des performances supérieures.

- Mise à l'échelle des modèles MoE : pour les modèles modernes de type « Mixture of Experts » (MoE), nous avons doublé la bande passante de l'interconnexion (ICI) pour atteindre 19,2 Tb/s. Notre nouvelle architecture Boardfly réduit le diamètre maximal du réseau de plus de 50 %, garantissant ainsi que le système fonctionne comme une unité cohérente à faible latence.

- Élimination du décalage : notre nouveau moteur d'accélération collective (CAE) intégré décharge les opérations globales, réduisant ainsi la latence sur puce jusqu'à 5 fois et minimisant le décalage.

Ces innovations offrent un rapport performances/coût amélioré de 80 % par rapport à la génération précédente, permettant aux entreprises de servir près de deux fois plus de clients pour un coût identique.

Nom : 3.jpg
Affichages : 175
Taille : 29,0 Ko
Nom : 4.jpg
Affichages : 178
Taille : 60,3 Ko

Conçu en collaboration pour Gemini, accessible à tous

Ce TPU de huitième génération est également la dernière incarnation de notre philosophie de co-conception, où chaque spécification est conçue pour surmonter les plus grands obstacles de l'IA.

- La topologie Boardfly a été spécialement conçue pour répondre aux exigences de communication des modèles de raisonnement les plus performants d'aujourd'hui.

- La capacité de la SRAM du TPU 8i a été dimensionnée pour l'empreinte du cache KV des modèles de raisonnement à l'échelle de production.

- Les objectifs de bande passante de la structure de réseau Virgo ont été dérivés des exigences de parallélisme de l'entraînement à l'échelle du milliers de milliards de paramètres.

Et pour la première fois, les deux puces fonctionnent sur l’hôte CPU Axion basé sur ARM de Google, ce qui nous permet d’optimiser l’ensemble du système, et pas seulement la puce, en termes de performances et d’efficacité.

Les deux plateformes prennent en charge JAX, MaxText, PyTorch, SGLang et vLLM en natif — les frameworks que les développeurs utilisent déjà — et offrent un accès bare metal, permettant aux clients d’accéder directement au matériel sans la surcharge liée à la virtualisation. Les contributions open source, notamment les implémentations de référence MaxText et Tunix pour l’apprentissage par renforcement, facilitent le passage entre la phase de développement et le déploiement en production.

Conception axée sur l’efficacité énergétique à grande échelle

Dans les centres de données actuels, l’alimentation électrique, et pas seulement l’approvisionnement en puces, constitue une contrainte majeure. Pour y remédier, nous avons optimisé l’efficacité sur l’ensemble de la pile, grâce à une gestion intégrée de l’alimentation qui ajuste dynamiquement la consommation en fonction de la demande en temps réel. Les TPU 8t et TPU 8i offrent des performances par watt jusqu’à deux fois supérieures à celles de la génération précédente, Ironwood.

Mais chez Google, l’efficacité ne se limite pas à une simple mesure au niveau des puces ; c’est aussi un engagement au niveau du système qui s’étend du silicium au centre de données. Par exemple, nous intégrons la connectivité réseau et le calcul sur la même puce, ce qui réduit considérablement les coûts énergétiques liés au transfert de données au sein du pod TPU. Même nos centres de données sont conçus en parallèle avec nos TPU. Nous avons innové tant au niveau matériel que logiciel pour permettre à nos centres de données de fournir six fois plus de puissance de calcul par unité d’électricité qu’il y a seulement cinq ans.

Les TPU 8t et TPU 8i s’inscrivent dans cette trajectoire. Tous deux sont soutenus par notre technologie de refroidissement liquide de quatrième génération, qui maintient des densités de performance que le refroidissement par air ne peut pas atteindre. En maîtrisant l'ensemble de la pile, de l'hôte Axion à l'accélérateur, nous pouvons optimiser l'efficacité énergétique au niveau du système d'une manière tout simplement impossible à atteindre lorsque l'hôte et la puce sont conçus indépendamment.

Nom : 5.jpg
Affichages : 185
Taille : 115,2 Ko

Une infrastructure pour l'ère des agents

Chaque transition informatique majeure a nécessité des avancées en matière d'infrastructure, et l'ère des agents ne fait pas exception. L'infrastructure doit évoluer pour répondre aux exigences des agents autonomes fonctionnant en boucles continues de raisonnement, de planification, d'exécution et d'apprentissage.

Les TPU 8t et TPU 8i sont notre réponse à ce défi : deux architectures spécialisées conçues pour redéfinir les limites du possible en matière d'IA, qu'il s'agisse de créer les modèles d'IA les plus performants, de coordonner à la perfection des essaims d'agents ou de gérer les tâches de raisonnement les plus complexes. Ces deux puces seront commercialisées dans le courant de l'année et pourront être utilisées dans le cadre de l'hyperordinateur IA de Google, qui rassemble du matériel dédié (calcul, stockage, réseau), des logiciels ouverts (frameworks, moteurs d'inférence) et des modèles de consommation flexibles (orchestration, gestion de clusters et modèles de déploiement) au sein d'une pile unifiée.

L'informatique agentique va redéfinir ce qui est possible. Nous sommes ravis d'annoncer la dernière incarnation de notre innovation sans relâche pour alimenter cette transformation : les TPU 8i et 8t. Les clients intéressés peuvent demander plus d'informations.

Source : Annonce de Google

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Google lance le nouveau processeur TPU Ironwood pour accélérer les applications d'IA telles que ChatGPT. L'inférence effectue des calculs rapides pour fournir des réponses à un chatbot

NVIDIA lance le processeur Vera, le premier processeur spécialement conçu pour les charges de travail d'IA agentique, offrant une efficacité deux fois supérieure et des performances 50 % plus rapides

Intel annonce Panther Lake, sa nouvelle puce IA 18A Core Ultra Series 3 pour ordinateurs portables, la puce la plus importante qu'Intel ait faite depuis des années, censée l'aider à reconquérir sa position