La vision de Meta sur les matériels d'IA ouverts : engagement en faveur de l'IA open source avec Llama et introduction de Catalina, une architecture ouverte pour l'infrastructure de l'IA.
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a présenté les dernières conceptions de matériel d'IA ouvert à la communauté OCP. Ces innovations comprennent une nouvelle plateforme d'IA, des conceptions de racks ouverts de pointe et des tissus et composants de réseau avancés. En partageant ses conceptions, Meta souhaite inspirer la collaboration et favoriser l'innovation.
L'IA est au cœur des expériences qu'elle veut offrir aux personnes et aux entreprises, selon Meta. Cela comprend les innovations en matière de modélisation de l'IA pour optimiser et améliorer des fonctionnalités telles que Feed et son système de publicité. Avec le développement et la publication de nouveaux modèles d'IA avancés, cela nécessite de faire progresser l'infrastructure pour supporter less charges de travail d'IA nouvelles et émergentes.
Par exemple, Llama 3.1 405B, le plus grand modèle de Meta, est un transformateur dense avec 405B paramètres et une fenêtre de contexte allant jusqu'à 128k tokens. Pour entraîner un grand modèle de langage (LLM) de cette ampleur, avec plus de 15 trillions de tokens, Meta a dû procéder à des optimisations substantielles de l'ensemble de sa pile d'entraînement. L'infrastructure a fonctionné sur plus de 16 000 GPU NVIDIA H100, faisant de Llama 3.1 405B le premier modèle de la série Llama à être entraîné à une échelle aussi massive.
D'après Meta, les plus gros travaux d'IA avant Llama s'exécutaient sur 128 GPU NVIDIA A100. Mais les choses se sont rapidement accélérées. Au cours de l'année 2023, Meta a donc fait passer ses grappes d'entraînement de 1 000, 2 000, 4 000 à 16 000 GPU pour prendre en charge les charges de travail d'IA. Aujourd'hui, Meta entraînerait ses modèles sur deux grappes de 24 000 GPU.
La création de clusters d'IA ne se limite pas aux GPU. Le réseau et la bande passante jouent un rôle important pour garantir les performances des clusters. Les systèmes se composent d'un système de calcul HPC étroitement intégré et d'un réseau de calcul isolé à large bande passante qui relie tous les GPU et accélérateurs spécifiques à un domaine. Cette conception est nécessaire pour répondre aux besoins d'injection et relever les défis posés par le besoin de bande passante de bissection.Envoyé par Meta
Pour soutenir cette croissance, il faut une structure de réseau haute performance, multi-niveaux, non bloquante, capable d'utiliser un contrôle de congestion moderne pour se comporter de manière prévisible en cas de forte charge. Cela permettra d'exploiter pleinement la puissance dess clusters d'IA et de garantir qu'ils continuent à fonctionner de manière optimale à mesure que les limites de l'IA sont repoussées.Envoyé par Meta
Envoyé par Meta
Présentation de Catalina : Architecture ouverte pour l'infrastructure de l'IA
Lors de l'Open Compute Project (OCP) Global Summit 2024, Meta a annoncé la sortie prochaine de Catalina, son nouveau rack haute puissance conçu pour les charges de travail d'IA. Catalina est basée sur la solution complète de rack de la plateforme NVIDIA Blackwell, en mettant l'accent sur la modularité et la flexibilité. Elle est conçue pour prendre en charge la dernière puce NVIDIA GB200 Grace Blackwell Superchip, ce qui lui permet de répondre aux exigences croissantes des infrastructures modernes d'IA.
Les besoins croissants en puissance des GPU signifient que les solutions de rack ouvertes doivent prendre en charge une capacité de puissance plus élevée. Avec Catalina, Meta introduit l'Orv3, un rack haute puissance (HPR) capable de supporter jusqu'à 140 kW.
La solution complète est refroidie par liquide et se compose d'une étagère d'alimentation qui supporte un plateau de calcul, un plateau de commutation, l'Orv3 HPR, le commutateur de tissu Wedge 400, un commutateur de gestion, une unité de sauvegarde de la batterie et un contrôleur de gestion de rack.
Envoyé par Meta
La plateforme Grand Teton prend désormais en charge les accélérateurs AMD
En 2022, Meta a annoncé Grand Teton, sa plateforme d'IA de nouvelle génération (la suite de la plateforme Zion-EX). Grand Teton est conçue avec une capacité de calcul pour répondre aux exigences des charges de travail liées à la mémoire et à la bande passante, telles que les modèles de recommandation d'apprentissage profond (DLRM) de Meta, ainsi qu'aux charges de travail liées au calcul, comme la compréhension de contenu.
Lors de l'OCP Global Summit 2024, Meta a également annoncé étendre la plateforme Grand Teton pour supporter l'AMD Instinct MI300X et contribuer à cette nouvelle version à l'OCP. Comme ses prédécesseurs, cette nouvelle version de Grand Teton présente une conception de système monolithique avec des interfaces d'alimentation, de contrôle, de calcul et de structure entièrement intégrées. Ce haut niveau d'intégration simplifie le déploiement du système, permettant une mise à l'échelle rapide avec une fiabilité accrue pour les charges de travail d'inférence d'IA à grande échelle.
Outre la prise en charge d'une gamme de conceptions d'accélérateurs, incluant désormais l'AMD Instinct MI300x, Grand Teton offre une capacité de calcul nettement plus importante, permettant une convergence plus rapide sur un ensemble plus large de poids. Cette capacité est complétée par une mémoire élargie permettant de stocker et d'exécuter localement des modèles plus importants, ainsi que par une bande passante réseau accrue permettant d'augmenter efficacement la taille des grappes d'entraînement.
Réseau ouvert, désagrégé et programmé
Le développement d'un backend réseau ouvert et indépendant des fournisseurs jouera un rôle important à l'avenir, selon Meta, à mesure qu'ils continuent à améliorer les performances des clusters d'apprentissage de l'IA. La désagrégation du réseau permettrait de travailler avec des fournisseurs de toute l'industrie pour concevoir des systèmes innovants, évolutifs, flexibles et efficaces.
Envoyé par Meta
Meta et Microsoft : collaborer ensemble pour l'innovation ouverte
Meta et Microsoft ont un partenariat de longue date au sein de l'OCP, qui a commencé avec le développement de l'interface d'abstraction de commutateur (SAI) pour les centres de données en 2018. Au fil des ans, ils ont contribué ensemble à des initiatives telles que la norme Open Accelerator Module (OAM) et la normalisation des disques SSD, mettant en évidence l'engagement commun à faire progresser l'innovation ouverte.
Meta annonce poursuivre sa collaboration avec Microsoft en se concentrant sur Mount Diablo, une nouvelle baie d'alimentation désagrégée. Il s'agit d'une solution de pointe comprenant une unité évolutive de 400 VDC qui améliore l'efficacité et l'évolutivité. Cette conception innovante permet d'augmenter le nombre d'accélérateurs d'IA par rack informatique, ce qui fait progresser de manière significative l'infrastructure d'IA.
L'avenir ouvert pour l'infrastructure de l'IA
Meta partage sa vision du futur pour l'infrastructure de l'IA :
Source : MetaEnvoyé par Meta
Et vous ?
Pensez-vous que ces initiatives sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?
Voir aussi :
Pour aspirer massivement vos données, comment Meta a créé l'une des plus grandes infrastructures d'exploitation IA au monde, avec une croissance exponentielle
Construire l'infrastructure GenAI de Meta : la société partage les détails sur deux nouveaux clusters de 24 000 GPU qui ont été conçus pour soutenir la recherche et le développement en matière d'IA
Meta utilise vos photos Instagram et Facebook pour entraîner son « incroyable » générateur d'images par IA, l'énorme ensemble de données derrière l'IA de Meta
L'IA open source est la voie à suivre, car elle permet à un plus grand nombre de personnes dans le monde d'avoir accès aux avantages et aux opportunités de l'IA, par Mark Zuckerberg, fondateur et PDG de Meta
Partager