NVIDIA dévoile une nouvelle puce d'IA, la NVIDIA DGX GH200

**Jade Emy** · 05/07/2023, 21h39

Inflection AI développe un superordinateur équipé de 22 000 GPU NVIDIA H100 AI

Inflection a annoncé la construction d'un des plus puissant superordinateurs au monde basé sur l'IA, et il semble que nous ayons enfin un aperçu de ce qu'il serait. Le superordinateur d'Inflection serait équipé de 22 000 GPU H100 et, d'après les analyses, il contiendrait près de 700 racks à quatre nœuds de CPU Intel Xeon. Le superordinateur consommera une puissance stupéfiante de 31 mégawatts.

Inflection AI, une startup spécialisée dans l'IA, a construit un superordinateur de pointe équipé de 22 000 GPU NVIDIA H100, un nombre phénoménal qui lui confère d'énormes performances de calcul.

Le superordinateur d'Inflection AI devrait être l'un des plus puissant de l'industrie, juste derrière le Frontier d'AMD.

Nom : NVIDIA-Supercomputer-GPUs-_2-g-very_compressed-scale-4_00x-Custom-728x317.png
Affichages : 1590
Taille : 255,0 Ko

Pour ceux qui ne connaissent pas Inflection AI, il s'agit d'une entreprise dont l'objectif est de créer une "IA personnelle pour tous". L'entreprise est largement connue pour son modèle d'IA Inflection-1 récemment introduit, qui alimente le chatbot Pi. Bien que le modèle d'IA n'ait pas encore atteint le niveau de ChatGPT ou des modèles LaMDA de Google, des rapports suggèrent qu'Inflection-1 est performant dans les tâches de "bon sens", ce qui le rend beaucoup plus adapté à des applications telles que l'assistance personnelle.

Le fait surprenant concernant le superordinateur est l'acquisition de 22 000 GPU NVIDIA H100. Nous savons tous que, ces derniers temps, il a été difficile d'acquérir ne serait-ce qu'une seule unité de H100, car elles sont très demandées et NVIDIA ne peut pas faire face à l'afflux de commandes. Dans le cas d'Inflection AI, NVIDIA envisage d'être un investisseur dans la société, c'est pourquoi dans leur cas, il est plus facile de mettre la main sur un nombre aussi important de GPU.

Inflection AI a levé environ 1,5 milliard de dollars d'investissements et la société est actuellement évaluée à 4 milliards de dollars. Grâce à ce superordinateur, le modèle d'IA "Inflection 1" devrait s'améliorer considérablement, en particulier dans les tâches de codage, car l'entreprise a du retard dans ce domaine.

Source : HardwareLuxx

Et vous ?

Que pensez-vous de cette annonce ?

Que pensez-vous de cette volonté de créer une IA plus personnelle ?

Voir aussi :

Google sera très différent en 2033, la recherche classique en ligne sera remplacée par la conversation
Selon Mustafa Suleymant, cofondateur de DeepMind

Une étude affirme qu'une poignée d'individus et d'entreprises privées contrôlent désormais la recherche en IA,
Les auteurs mettent en garde contre les conséquences négatives de cette domination

Les nouvelles GPU NVIDIA pour l'intelligence artificielle seraient jusqu'à 4,5 fois plus rapides que les précédentes
Selon NVIDIA

**Bruno** · 13/08/2023, 14h12

Nvidia dévoile une nouvelle puce d'IA, la NVIDIA DGX GH200,
et affirme que les coûts d'exploitation des LLM vont « baisser de manière significative »

Nvidia a présenté une nouvelle puce d’IA, la GH200, qui combine une GPU puissante avec une grande mémoire et un processeur ARM. La puce vise à réduire les coûts et le temps nécessaires pour entraîner et exécuter des modèles d’IA générative, comme ceux utilisés par Google et OpenAI. La puce sera disponible l’année prochaine et devrait renforcer la position de Nvidia sur le marché des puces d’IA.

Nvidia a dévoilé mardi sa nouvelle puce, la GH200, qui est conçue pour accélérer le développement et le déploiement des modèles d’IA générative. Ces modèles sont capables de créer du contenu original, comme du texte, des images ou de la musique, à partir de données. Des exemples de ces modèles sont Bard de Google, qui peut générer des poèmes ou des articles, et ChatGPT d’OpenAI, qui peut converser avec les utilisateurs.

Les cas d'utilisation de l'IA étant de plus en plus élaborés, la taille et la complexité des modèles d'IA montent en flèche. Alors que la plupart des organisations ont besoin de traiter de nombreuses charges de travail d'IA en parallèle, un certain nombre d'utilisateurs ont des besoins massifs en mémoire pour une seule charge de travail qui dépasse les limites d'une GPU ou même d'un grand système multi-GPU.

Nom : dgx.jpg
Affichages : 1393
Taille : 29,2 Ko

Actuellement, Nvidia domine le marché des puces d'IA avec plus de 80 % de parts de marché, selon certaines estimations. La société est spécialisée dans les unités de traitement graphique, ou GPU, qui sont devenues les puces préférées pour les grands modèles d'IA qui sous-tendent les logiciels d'IA générative, tels que Bard de Google et ChatGPT d'OpenAI. Mais les puces de Nvidia se font rares, car les géants de la technologie, les fournisseurs de cloud et les startups se disputent la capacité des GPU pour développer leurs propres modèles d'IA.

La nouvelle puce de Nvidia, la GH200, possède la même GPU que la puce d'IA la plus haut de gamme de l'entreprise, la H100. Mais le GH200 associe cette GPU à 141 gigaoctets de mémoire de pointe, ainsi qu'à un processeur central ARM à 72 cœurs. « Nous donnons un coup de pouce à ce processeur », a déclaré Jensen Huang, PDG de Nvidia, lors d'une conférence. Il a ajouté : « Ce processeur est conçu pour la mise à l'échelle des centres de données du monde entier ».

La nouvelle puce sera disponible auprès des distributeurs de Nvidia au cours du deuxième trimestre de l'année prochaine, a déclaré Huang, et devrait être disponible pour échantillonnage d'ici la fin de l'année.

Nvidia combine mémoire, processeur et GPU pour l’IA générative

La GH200 est basée sur la même GPU que la puce haut de gamme de Nvidia, la H100, qui offre une performance de calcul élevée pour l’entraînement et l’inférence des modèles d’IA. Mais la GH200 se distingue par sa mémoire de 141 gigaoctets, qui permet de stocker davantage de données et de modèles dans la puce, ainsi que par son processeur ARM à 72 cœurs, qui gère les tâches annexes comme la communication réseau ou la gestion des données.

Contrairement aux supercalculateurs d'IA existants, conçus pour prendre en charge des charges de travail qui tiennent dans la mémoire d'un seul système, NVIDIA DGX GH200 est le seul supercalculateur d'IA qui offre un espace mémoire partagé allant jusqu'à 144 To sur 256 Superchips Grace Hopper, ce qui permet aux développeurs d'être près de 500 fois plus rapides pour construire des modèles massifs.

Le DGX GH200 est le premier supercalculateur à associer les superpuces Grace Hopper à l'architecture de l'IA avec le système de commutation NVIDIA NVLink, qui permet d'unir jusqu'à 256 GPU pour former une seule GPU de la taille d'un centre de données. Cette architecture fournit 48 fois plus de bande passante que la génération précédente, apportant la puissance d'un supercalculateur d'IA massif avec la simplicité de programmation d'une seule GPU.

Pour ces organisations, qui comprennent des fournisseurs de services cloud (CSP), des hyperscalers, de recherche et d'autres entreprises de pointe qui repoussent les limites de l'IA, NVIDIA DGX GH200 fournit un nouveau modèle pour les grands systèmes de modélisation. Grâce à la puce NVIDIA Grace Hopper Superchip intégrant la 4e génération NVIDIA NVLink intégrée qui assure une évolutivité linéaire et une grande mémoire partagée pour toutes les GPU. Les capacités nécessaires pour développer les plus grands réseaux neuronaux graphiques, les graphes, de recommandeurs, de modèles de simulation et d'applications d'IA générative les plus vastes au monde.

Un modèle est formé à l'aide de grandes quantités de données, un processus qui peut prendre des mois et qui nécessite parfois des milliers de GPU, comme, dans le cas de Nvidia, ses puces H100 et A100. Le modèle est ensuite utilisé dans un logiciel pour faire des prédictions ou générer du contenu, selon un processus appelé inférence. Tout comme la formation, l'inférence est coûteuse en termes de calcul et nécessite une grande puissance de traitement à chaque fois que le logiciel s'exécute, par exemple lorsqu'il s'agit de générer un texte ou une image.

Mais à la différence de la formation, l'inférence a lieu presque en permanence, alors que la formation n'est nécessaire que lorsque le modèle a besoin d'être mis à jour. « Vous pouvez prendre à peu près n'importe quel grand modèle de langage que vous voulez et le mettre dans ce système, et il fera de l'inférence comme un fou », a déclaré Huang. « Le coût d'inférence des grands modèles de langage diminuera considérablement. »

Selon Jensen Huang, PDG de Nvidia, la GH200 va réduire de manière significative les coûts d’exploitation des centres de données qui utilisent des modèles d’IA générative. Il a affirmé que la puce pourrait entraîner un modèle comme Bard en quelques jours au lieu de plusieurs mois, et réduire le coût par heure de 90 %. Il a également déclaré que la puce pourrait exécuter un modèle comme ChatGPT avec une latence inférieure à 10 millisecondes.

La complexité des modèles d'IA s'étant accrue, la technologie permettant de les développer et de les déployer est devenue plus gourmande en ressources. Cependant, grâce à l'architecture Grace Hopper de NVIDIA, le DGX GH200 offre une excellente efficacité énergétique. Chaque Superchip NVIDIA Grace Hopper est à la fois une CPU et une GPU dans une seule unité, connectée avec la technologie NVIDIA NVLink-C2C.

Le CPU Grace utilise la mémoire LPDDR5X, qui consomme un huitième de la puissance de la mémoire système DDR5 traditionnelle tout en fournissant 50 pour cent de bande passante en plus que la DDR5 à huit canaux. Et se trouvant sur le même boîtier, le processeur Grace et l'interconnexion Hopper GPU consomment 5 fois moins d'énergie et fournissent 7 fois plus de bande passante par rapport à la dernière technologie PCIe d'Intel utilisée dans d'autres systèmes.

Le NVIDIA DGX GH200 et la concurrence

Les nouvelles normes PCIe offrent une connexion plus large aux GPU, aux SSD et aux autres périphériques. Les systèmes de 12ᵉ génération prennent en charge la norme PCIe 5.0 tandis que ceux de 11ᵉ génération prennent en charge la norme PCIe 4.0. Toutes les générations de PCIe sont rétrocompatibles.

L'un des principaux avantages des processeurs Intel Core de 12ᵉ et 11ᵉ générations est l'ajout de voies PCIe du processeur conformément aux nouvelles normes. Les processeurs Intel Core de 12ᵉ génération offrent jusqu'à 16 voies PCIe 5.0 et quatre voies PCIe 4.0 du processeur, tandis que les processeurs Intel Core de 11ᵉ génération, comme le processeur Intel Core i9-11900K, offrent jusqu'à 20 voies PCIe 4.0 du processeur.

Toutes les voies PCIe ne fonctionnent pas de la même manière. Les voies PCIe du processeur se connectent directement au processeur, tandis que les voies du chipset (ou « voies PCH ») passent par le chipset de la carte mère, qui se connecte au processeur via une liaison DMI (Direct Media Interface).

Nom : Chip.jpg
Affichages : 1026
Taille : 34,2 Ko

Le PCH gère généralement les fonctionnalités de votre carte mère, telles que les périphériques USB, les réseaux Wi-Fi et Ethernet et le son intégré. Le lien entre le processeur et le chipset étant limité à une bande passante totale de 8 fois le 3.0, il est possible de saturer le lien si vous branchez plusieurs périphériques de stockage et utilisez d'autres ressources. La connexion directe au processeur permet de contourner ce goulot d'étranglement.

Grâce aux 20 voies PCIe du processeur fournies par les processeurs Intel Core de 11ᵉ génération, les constructeurs de PC peuvent donner à un processeur graphique et à une unité de stockage SSD NVMe le chemin optimal vers leur processeur en même temps. Les processeurs Intel Core de 12ᵉ génération offrent la même option avec une bande passante encore plus élevée, car leurs 16 voies PCIe 5.0 du processeur sont deux fois plus rapides que le 4.0.

Dans le passé, les utilisateurs disposant de 16 voies PCIe 3.0 ne pouvaient profiter de ce chemin optimal vers leur processeur qu'en réduisant de moitié la bande passante de leur processeur graphique, créant ainsi un autre goulot d'étranglement potentiel.

Les unités de stockage SSD PCIe m.2 et les SSD NVMe utilisant des cartes riser bénéficient déjà d'avantages en termes de vitesse par rapport aux disques qui se connectent via un câble de données SATA. Le débit plus élevé de PCIe permet au stockage NVMe de mettre rapidement en file d'attente davantage de données, et la connexion directe à la carte mère réduit la latence. La connexion aux voies PCIe du processeur permet de réduire davantage la latence en éliminant la distance que les données doivent parcourir dans le chipset.

Le DGX GH200 de NVIDIA est un superordinateur d’IA qui se distingue par sa capacité à gérer des modèles d’IA de très grande taille, grâce à sa mémoire partagée de 144 TB et à ses 256 puces Grace Hopper. Il s’agit d’une avancée majeure pour les applications d’IA générative, qui nécessitent de manipuler de grandes quantités de données et de créer du contenu original. Le DGX GH200 promet de réduire le temps et le coût d’entraînement et d’inférence de ces modèles, ainsi que d’améliorer leur performance et leur qualité.

Il sera disponible pour les clients de Nvidia au cours du deuxième trimestre 2023, et pourra être testée d'ici à la fin 2022. La puce devrait renforcer l’avance de Nvidia sur ses concurrents dans le domaine des puces d’IA, tels qu’AMD, Google et Amazon, qui développent également leurs propres puces pour leurs besoins en IA.
Toutefois, le DGX GH200 présente par ailleurs des limites et des défis. D’une part, son prix n’a pas été révélé, mais il est probable qu’il soit très élevé, ce qui le rend inaccessible pour la plupart des utilisateurs. D’autre part, son utilisation implique des problèmes éthiques et sociaux, liés à la fiabilité, à la sécurité et à la responsabilité des modèles d’IA générative.

In fine, le DGX GH200 de NVIDIA est un produit innovant et impressionnant, qui ouvre de nouvelles possibilités pour le développement de l’IA générative. Mais il pose aussi des questions importantes sur les implications et les conséquences de cette technologie, qui doivent être prises en compte par les concepteurs, les utilisateurs et les régulateurs.

Source : NVIDIA

Et vous ?

Quels sont selon vous, les avantages et les inconvénients du DGX GH200 par rapport aux autres solutions de puces d’IA du marché ?

À votre avis, quels sont les domaines d’application les plus prometteurs et les plus risqués pour l’IA générative ?

Quelles mesures et normes proposez-vous pour assurer l’éthique, la sécurité et la transparence de l’IA générative ?

Quel peut être l’impact environnemental du DGX GH200 et comment le réduire ou le compenser ?

Voir aussi :

NVIDIA franchit temporairement la barre des 1 000 milliards de dollars de capitalisation boursière grâce à la forte demande en IA, devenant le premier fabriquant de puces à rejoindre les GAFA

Nvidia dévoile GPU Ampere A100, une puce d'intelligence artificielle, avec 54 milliards de transistors et peut exécuter 5 pétaflops de performances

Intel s'apprête à commercialiser un processeur quantique à 12 qubits, l'optimisation, la chimie, la physique, la cryptographie et l'intelligence artificielle sont ses domaines d'application

NVIDIA dévoile une nouvelle puce d'IA, la NVIDIA DGX GH200

Programmation parallèle, calcul scientifique et de haute performance (HPC)

Discussions similaires

Partager

Partager