Les Intel Gaudi 2 surpassent les NVIDIA H100 pour les transformateurs de diffusion d'un supercalculateur d'IA

**Anthony** · 11/03/2024, 18h37

Les puces Intel Gaudi 2 surpassent les Nvidia H100 pour les transformateurs de diffusion sur un supercalculateur d'IA, d'après Stability AI

Stability AI a mené une analyse de performance en comparant les accélérateurs Intel Gaudi 2 aux accélérateurs Nvidia A100 et H100 pour l'entraînement de deux de ses modèles avancés, à savoir Stable Diffusion 3 et Stable Beluga 2.5. L'analyse a permis de mettre en évidence les capacités impressionnantes des puces Gaudi 2 en termes de vitesse d'apprentissage pour les modèles texte-image et de langage, soulignant ainsi le potentiel de ces solutions pour traiter efficacement diverses tâches d'IA.

L'engagement de Stability AI à développer des modèles ouverts de pointe dans de multiples modalités nécessite une solution de calcul capable de traiter diverses tâches avec efficacité. À cette fin, l'entreprise a procédé à une analyse des performances, en entraînant deux de ses modèles, dont le très attendu Stable Diffusion 3.

Dans son analyse, Stability AI a comparé la vitesse d'entraînement des accélérateurs Intel Gaudi 2 à celle des accélérateurs Nvidia A100 et H100, deux des choix les plus courants pour les startups et les développeurs qui entraînent des LLM.

Modèle 1 : Stable Diffusion 3

Stable Diffusion 3 est le modèle texte-image le plus performant de Stability AI, qui sera bientôt disponible en avant-première.

Dès sa sortie publique, Stable Diffusion 3 sera disponible dans des tailles allant de 800M à 8B paramètres. L'analyse effectuée a utilisé la version à 2B paramètres et a donné des résultats agréablement surprenants.

Le débit d'apprentissage a été mesuré pour le modèle d'architecture 2B Multimodal Diffusion Transformer (MMDiT) avec d=24, une précision BFloat16mixte, une attention optimisée (xFormers pour A100 et le FusedSDPA pour Intel Gaudi). Ce modèle est appelé MMDiT-ps2-d24.

Tout d'abord, examinons les résultats du benchmark d'entraînement sur 2 nœuds, soit un total de 16 accélérateurs (Gaudi/GPU). Voici un extrait des données brutes :

Nom : Gaudi T1.PNG
Affichages : 9472
Taille : 33,1 Ko

En maintenant la taille des lots constante à 16 par accélérateur, ce système Gaudi 2 a traité 927 images d'apprentissage par seconde, soit 1,5 fois plus vite que le H100-80GB. Mieux encore, il a été possible d'adapter une taille de lot de 32 par accélérateur dans les 96 Go de mémoire à large bande passante (HBM2E) du système Gaudi 2 pour augmenter encore le taux d'entraînement à 1 254 images/seconde.

Lorsque la formation distribuée a été étendue à 32 nœuds Gaudi 2 (soit un total de 256 accélérateurs), des performances très compétitives ont encore été obtenues :

Nom : Gaudi T2.PNG
Affichages : 2209
Taille : 22,9 Ko

Dans cette configuration, le cluster Gaudi 2 a traité trois fois plus d'images par seconde que les GPU A100-80GB. Ce résultat est particulièrement impressionnant si l'on considère que les A100 ont une pile logicielle très optimisée.

Lors des tests d'inférence avec le modèle de paramètres Stable Diffusion 3 8B, les puces Gaudi 2 offrent une vitesse d'inférence similaire à celle des puces Nvidia A100 en utilisant la base PyTorch. Cependant, avec l'optimisation TensorRT, les puces A100 produisent des images 40 % plus rapidement que Gaudi 2. Stability prévoit qu'avec une optimisation plus poussée, Gaudi 2 dépassera bientôt les puces A100 sur ce modèle. Lors de tests antérieurs sur le modèle SDXL avec PyTorch de base, Gaudi 2 a généré une image 1024x1024 en 30 étapes en 3,2 secondes, contre 3,6 secondes pour PyTorch sur les A100 et 2,7 secondes pour une génération avec TensorRT sur un A100.

La mémoire plus élevée et l'interconnexion rapide de Gaudi 2, ainsi que d'autres considérations de conception, le rendent compétitif pour faire fonctionner l'architecture Diffusion Transformer qui est à la base de cette nouvelle génération de modèles de médias.

Modèle 2 : Stable Beluga 2.5 70B

Stable Beluga 2.5 70B est la version affinée de Stability du LLaMA 2 70B, basée sur le modèle Stable Beluga 2 qui a été le premier modèle ouvert à battre ChatGPT 3.5 dans des benchmarks sélectionnés. Ce benchmark d'entraînement a été exécuté sur 256 accélérateurs Gaudi 2. En exécutant le code PyTorch tel quel, sans optimisations supplémentaires, un débit moyen total impressionnant de 116 777 jetons/seconde a été mesuré. Plus précisément, cela implique l'utilisation d'un type de données FP16, d'une taille de lot globale de 1024, d'étapes d'accumulation de gradient de 2 et d'une taille de micro lot de 2.

Lors des tests d'inférence avec le modèle de langage 70B de Stability sur Gaudi 2, celui-ci a généré 673 tokens/seconde par accélérateur, en utilisant une taille de token en entrée de 128 et une taille de token en sortie de 2048. Par rapport à TensorRT-LLM, Gaudi 2 semble être 28 % plus rapide que les 525 tokens/seconde pour l'A100. L'équipe prévoit également d'autres améliorations de la vitesse avec le FP8.

Stability AI est confrontée à une demande croissante de solutions informatiques plus puissantes et plus efficaces. Ces résultats soulignent la nécessité d'alternatives telles que le Gaudi 2, qui offre non seulement des performances supérieures à celles des autres puces de 7 nm, mais qui répond également à des besoins essentiels du marché tels que l'accessibilité financière, la réduction des délais de livraison et l'amélioration du rapport prix/performance. En fin de compte, la possibilité de choisir des options informatiques élargit la participation et l'innovation, rendant ainsi les technologies d'IA avancées plus accessibles à tous.

Source : "Behind the Compute: Benchmarking Compute Solutions" (Stability AI)

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que les processeurs Intel Gaudi 2 sont une alternative intéressante aux Nvidia H100 pour les charges d'IA ?

Voir aussi :

Stable Diffusion 3.0 présente une nouvelle architecture de transformateur de diffusion pour réinventer l'IA de conversion texte-image, afin d'offrir une qualité d'image et des performances améliorées

Intel dévoile des puces d'IA pour concurrencer Nvidia et AMD, dont Gaudi 3, une puce d'IA pour les logiciels d'IA générative, Gaudi 3 sera lancé l'année prochaine

Les Intel Gaudi 2 surpassent les NVIDIA H100 pour les transformateurs de diffusion d'un supercalculateur d'IA

Intelligence artificielle

Discussions similaires

Partager

Partager