IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Amazon se lance dans la construction de l'un des plus grands clusters de calcul pour l'IA


Sujet :

Intelligence artificielle

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 601
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 601
    Par défaut Amazon se lance dans la construction de l'un des plus grands clusters de calcul pour l'IA
    Project Rainier : Amazon construit un gigantesque cluster de supercalculateurs qui comprend des « centaines de milliers » de ses puces Trainium2 et est dédié à la formation des modèles d'IA d'Anthropic

    Amazon se lance dans la construction de l'un des plus grands clusters de supercalculateurs pour l'IA au monde avec le projet Rainier. Cette infrastructure comprendra un immense cluster composé de centaines de milliers d'accélérateurs et devrait être opérationnelle dans le courant de l'année dans divers sites aux États-Unis. Un site dans l'Indiana comprendra trente centres de données, chacun d'une superficie de 18 580 mètres carrés et consommant collectivement environ 2,2 gigawatts d'électricité. Mais Rainier et les projets comme Stargate d'OpenAI et Colossus de xAI suscitent de sérieuses inquiétudes quant à leur impact environnemental.

    Amazon est désormais en bonne voie pour créer et déployer ce qu'il présente comme l'ordinateur le plus puissant au monde pour l'entraînement de modèles d'IA. Le projet Rainier a été annoncé pour la première fois lors de l'événement Re:Invent à Las Vegas à la fin de l'année dernière. Il est développé avec Anthropic, soutenu par le géant du cloud computing. En mars 2024, Amazon a annoncé un investissement de 4 milliards de dollars dans Anthropic.

    Il s'agit d'un projet multisite semblable à Stargate d'OpenAI et non d'une installation unique comme le supercalculateur Colossus de la startup xAI d'Elon Musk. Cela signifie que le projet Rainier pourrait ne pas avoir de limites supérieures. Dans un billet de blogue, Amazon a présenté les détails du projet Rainier.

    Quelques caractéristiques importantes du projet Rainier d'Amazon

    Rainier s'articule autour d'un immense UltraCluster EC2 composé d'UltraServers Trainium2, propulsé par des centaines de milliers de puces d'IA Trainium2. Ces puces de deuxième génération intègrent du silicium personnalisé développé par Annapurna Labs et sont spécialement conçues pour l'entraînement de modèles d'IA à grande échelle. (Annapurna Labs est une filiale d'Amazon. Le géant du commerce électronique a acquis la startup pour sa division AWS.)

    Nom : 1.png
Affichages : 5343
Taille : 744,3 Ko

    Selon les informations rendues publiques, chaque UltraServer abrite 64 accélérateurs d'IA Trainium2 et offre environ 332 pétaflops de performances de calcul FP8 clairsemées. Mais au-delà de la puissance de calcul brute, ce qui distingue véritablement cette initiative, c'est son architecture distribuée.

    Plutôt que d'être concentré en un seul endroit, Rainier s'étend sur plusieurs centres de données AWS à travers le pays, ce qui permet d'optimiser la puissance et la température, tout en restant étroitement intégré grâce au réseau EFA (Elastic Fabric Adapter) d'AWS, qui fournit une interconnexion à très faible latence. Cette architecture permet à une infrastructure géographiquement dispersée de fonctionner comme un système d'entraînement unifié.

    Citation Envoyé par Gadi Hutt, directeur de l'ingénierie produit et client chez Annapurna Labs

    Rainier fournira une puissance de calcul cinq fois supérieure à celle du plus grand cluster d'entraînement utilisé actuellement par Anthropic. Pour un modèle de pointe comme Claude, plus vous consacrez de ressources informatiques à sa formation, plus il sera intelligent et précis. Nous développons une puissance de calcul à une échelle jamais vue auparavant, et ce à une vitesse et avec une agilité sans précédent.
    Rainier s'inscrit dans le cadre d'un investissement plus large de 100 milliards de dollars d'AWS dans l'infrastructure d'IA. Le projet fait progresser la stratégie à long terme d'AWS en matière d'intégration verticale profonde, permettant à l'entreprise de réduire sa dépendance vis-à-vis des GPU de Nvidia en développant son propre matériel de formation, en réduisant les coûts et en accélérant la mise sur le marché de grands modèles de langage (LLM).

    Au cœur de l'architecture UltraServer piloté par Trainium2 d'AWS

    Le cœur de Rainier est l'accélérateur Trainium2, un nœud d'entraînement haute performance conçu par AWS. En dépit de ce que son nom pourrait suggérer, la puce peut être utilisée pour les charges de travail d'entraînement et d'inférence, ce qui sera pratique pour les clients qui utilisent l'apprentissage par renforcement (RL), comme nous l'avons vu avec les modèles DeepSeek-R1 et o1 d'OpenAI, afin d'imprégner leurs IA de capacités de raisonnement.

    Nom : 2.png
Affichages : 781
Taille : 458,2 Ko

    La puce elle-même est composée d'une paire de puces de calcul de 5 nm collées ensemble grâce à la technologie d'emballage CoWoS (chip-on-wafer-on-substrate) de TSMC. Combinée, chaque puce Trainium2 offre 1,3 pétaflops de performance dense FP8, 96 Go de HBM (high-bandwidth memory) et 2,9 To/s de bande passante mémoire. En comparaison, B200 de Nvidia affiche 4,5 pétaflops de FP8 dense, 192 Go de HBM3e et 8 To/s de bande passante mémoire.

    La prise en charge de la sparsité 4x, qui peut accélérer considérablement les charges de travail d'entraînement de l'IA, aide le Tranium2 à combler l'écart, en augmentant les performances FP8 à 5,2 pétaflops, mais il reste derrière la puce B200 de Nvidia avec 9 pétaflops de calcul sparse à la même précision. Si le Tranium2 semble un peu anémique dans une comparaison puce à puce avec les derniers accélérateurs de Nvidia, ce n'est pas tout à fait le cas.

    L'architecture UltraServer résout l'un des principaux goulots d'étranglement de l'entraînement de l'IA : la latence. Chaque serveur intègre 64 puces Trainium2 et exploite Amazon NeuronLink v2, l'interconnexion puce à puce et serveur à serveur propriétaire de l'entreprise. Les principales améliorations sont :

    • deux fois plus de bande passante que la génération précédente ;
    • optimisation de la latence adaptée aux étapes du pipeline de formation de l'IA ;
    • évolutivité vers des clusters de plus de 100 000 puces interconnectées.


    AWS compare NeuronLink v2 à NVLink de Nvidia, mais avec une intégration plus étroite dans la pile logicielle et infrastructurelle d'AWS, ce qui permet d'optimiser les performances à tous les niveaux du système. Chaque UltraServer est une plateforme de calcul partagée à haut débit, conçue avec une fiabilité de niveau entreprise et un système de refroidissement liquide qui permet de fournir en continu jusqu'à 332 pétaflops de performances FP8 clairsemées.

    Le châssis comprend 8 To de mémoire à bande passante élevée et deux alimentations redondantes, ce qui souligne la fiabilité à grande échelle. En concevant et en fabriquant ses propres puces, serveurs et infrastructures de soutien, AWS s'offre un contrôle de bout en bout de la pile IA, depuis le niveau silicium jusqu'à la pile logicielle, la topologie réseau et même la disposition physique et l'architecture électrique des centres de données qui les hébergent.

    Rami Sinno, directeur de l'ingénierie chez Annapurna Lab, explique à propos de ce contrôle : « lorsque vous avez une vue d'ensemble complète, depuis la puce jusqu'au logiciel, en passant par les serveurs eux-mêmes, vous pouvez alors procéder à des optimisations là où elles sont les plus pertinentes. Parfois, la meilleure solution consiste à repenser la manière dont l'alimentation est fournie aux serveurs ou à réécrire le logiciel qui coordonne l'ensemble ».

    « Comme nous avons une vue d'ensemble de tout, à tous les niveaux, nous pouvons résoudre les problèmes rapidement et innover beaucoup plus vite », a ajouté Rami Sinno. Anthropic utilisera ce tout nouveau cluster de calcul d'IA pour construire et déployer les futures versions de son modèle d'IA Claude.

    Rainier : une des installations d'IA les plus énergivores au monde

    Amazon construit ce qui sera à terme l'une des infrastructures d'IA les plus énergivores au monde. Le site de l'Indiana pourrait consommer jusqu'à 2,2 gigawatts d’électricité. C’est plus que ce que consomme une ville moyenne. Si cette énergie provient majoritairement de centrales à charbon (comme c’est souvent le cas en Indiana), les émissions seront énormes. Pour l’instant, Amazon ne garantit pas une alimentation 100 % renouvelable pour le projet Rainier.


    Le projet Rainier pourrait induire une nouvelle pression sur la ressource en eau dans les régions qui abriteront les différents sites. En effet, les centres de données chauffent beaucoup et nécessitent un refroidissement intensif. Certaines entreprises utilisent des systèmes à eau, très gourmands. Résultat : des millions de litres d’eau pourraient être pompés chaque jour. Dans une région sujette à la sécheresse ou au stress hydrique, c’est une vraie source de tension.

    En outre, il y a l’impact de la construction elle-même. Rainier implique la fabrication de centaines de milliers de puces Trainium, la construction de dizaines de centres de données et de serveurs géants. Tout ça, c’est du béton, de l’acier, de l’électronique, des transports : une empreinte carbone massive en amont.

    Dans son billet de blogue, Gadi Hutt note : « nos équipes d'ingénieurs chargées des centres de données, qu'il s'agisse de la disposition des racks, de la distribution électrique ou des techniques de refroidissement, innovent en permanence pour améliorer l'efficacité énergétique. Quelle que soit l'échelle à laquelle AWS opère, nous gardons toujours à l'esprit nos objectifs de durabilité ». Pour l'heure, Amazon ne donne pas de détails sur l'origine de l’énergie.

    Les efforts de compensation carbone ou les stratégies d’économie d’eau ne sont pas connus. Selon Amazon, l'entreprise a couvert 100 % de sa consommation d'énergie avec des énergies renouvelables en 2023, atteignant ainsi son objectif de 100 % d'énergies renouvelables d'ici 2030 avec sept ans d'avance. Mais un groupe d'employés d'Amazon a souligné l'année dernière qu'il s'agit plutôt de 22 % et a accusé l'entreprise de déclarations trompeuses.

    Le groupe a examiné l'emplacement de chaque centre de données et la répartition de l'énergie sur les réseaux régionaux (la part du charbon, du gaz ou du pétrole par rapport à l'énergie solaire ou éolienne). Amazon et d'autres Big Tech achètent des crédits d'énergie renouvelable pour une certaine quantité d'énergie propre produite par une centrale solaire ou un parc éolien. En théorie, cela est censé encourager la construction de nouvelles énergies renouvelables.

    Stargate et Rainier : des projets surdimensionnés pour l'ère de l'IA

    Avec le projet Rainier, AWS marque un tournant décisif dans la course effrénée à la domination de l'hyperscale. Grâce à sa puce Trainium2, ses interconnexions propriétaires et son architecture de centre de données verticalement intégrée, Amazon rejoint le trio des géants technologiques, aux côtés du projet Stargate de Microsoft (OpenAI) et des clusters TPUv5 de Google, qui redéfinissent rapidement l'avenir des infrastructures d'IA.

    Mais Rainier représente bien plus qu'un simple cluster haute performance. Il arrive à un moment où la taille, la vitesse et l'ambition des projets d'infrastructure d'IA ont atteint des niveaux sans précédent. Selon certains analystes, le développement des centres de données a officiellement atteint son apogée. Autrefois concept ambitieux, le campus à l'échelle du gigawatt est désormais en train de se concrétiser, mais ces projets suscitent plusieurs inquiétudes.

    À l'instar du projet Stargate d'OpenAI dans l'Iowa ou des SuperClusters de recherche en IA de Meta, AWS est en train de tout repenser, des puces et interconnexions aux systèmes de refroidissement et à la distribution électrique, afin d'optimiser l'entraînement à grande échelle des modèles d'IA.

    Amazon est resté assez vague quant à la taille finale du projet Rainier. Il a déjà affirmé que le système contiendrait plusieurs centaines de milliers de puces Trainium2. Dans son dernier billet de blogue, le géant de Seattle a déclaré que « lorsque vous connectez des dizaines de milliers de ces UltraServers et que vous les dirigez tous vers le même problème, vous obtenez le projet Rainier ». Mais elle n'a pas partagé d'autres informations à ce sujet.

    Amazon n'a pas précisé la quantité d'énergie consommée par ses puces. Le billet de blogue ne fournit pas d'information à ce sujet. Mais en supposant que la quantité d'énergie consommée soit d'environ 500 watts, un cluster d'environ 256 000 puces Tranium2 pourrait nécessiter entre 250 et 300 mégawatts d'énergie. À titre de référence, cela correspond à peu près au supercalculateur Colossus de xAI d'Elon Musk, qui contient 200 000 GPU Hopper de Nvidia.

    Conclusion

    En fin de compte, le projet Rainier confirme une vérité plus large : la frontière de l'IA n'est plus définie uniquement par les algorithmes, mais par l'infrastructure qui les rend possibles. Et sur le marché actuel, cette infrastructure est spécialement conçue à très grande échelle. Le coût du projet Rainier reste inconnu, mais cette infrastructure pourrait permettre à Amazon de concurrencer directement l'infrastructure Stargate de 500 milliards de dollars d'OpenAI.

    Avec Stargate, OpenAI vise à investir 500 milliards de dollars sur les quatre prochaines années pour construire « la plus grande infrastructure de formation de l'IA au monde ». Stargate est une collaboration entre OpenAI, SoftBank, Oracle et d'autres partenaires tels que Microsoft. Cependant, des rapports récents font état d'obstacles majeurs pour l'ambitieux projet, en grande partie attribués aux politiques mises en place par la présidence de Donald Trump.

    Les entreprises font preuve d'un manque de transparence concernant la consommation énergétique de ces projets et l'impact sur leurs engagements climatiques. Il y a peu d’informations sur les sources d’énergie exactes utilisées et très peu de détails publics sur les mesures de compensation carbone, s’il y en a.

    De son côté, xAI vient d'obtenir un permis d'émission atmosphérique à Memphis. Le centre de données qui abrite le supercalculateur Colossus de xAI est autorisé à exploiter 15 turbines à méthane. Le permis impose à xAI le respect d'une série de restrictions destinées à minimiser la pollution, mais cette décision suscite l'indignation des communautés locales et des responsables environnementaux qui affirment que les générateurs polluent leurs quartiers.

    Selon les plaintes, l'installation de xAI libère une panoplie de gaz toxiques pour l'homme, dont le formaldéhyde, un agent cancérigène connu. Alors que xAI a obtenu un permis d'exploitation pour 15 turbines, une plainte allègue qu'au moins 24 turbines sont encore installées sur le site de xAI.

    Source : Amazon

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de l'immense cluster de supercalculateurs d'IA en cours de construction par Amazon ?
    Que pensez-vous de la consommation d'énergie estimée du site du projet Rainier basé dans l'Indiana ?
    Quid des préoccupations liées à impact environnemental de ce projet ?

    Voir aussi

    Le projet Stargate d'OpenAI, 500 milliards de $ sur les quatre prochaines années pour construire de nouvelles infrastructures d'IA aux USA, peine à décoller en raison des droits de douane de Donald Trump

    Amazon investit 4 milliards de dollars dans Anthropic et se lance dans une guerre de l'IA avec Microsoft et Google
    De Claude à Claude-Next, le pari audacieux d'Amazon sur l'IA d'Anthropic


    Amazon affirme que l'entreprise fonctionne désormais à 100 % avec de l'énergie propre, mais les employés disent qu'il s'agit plutôt de 22 % et accusent l'entreprise de déclarations trompeuses

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 552
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 552
    Par défaut AWS lance un superordinateur IA qui alimente Claude d'Anthropic
    AWS lance un superordinateur IA qui alimente Claude d'Anthropic : AWS met en service le projet Rainier, l'un des plus grands clusters informatiques d'IA au monde avec près d'un demi-million de puces Trainium2

    AWS a lancé l'un des plus grands centres de données IA opérationnels au monde, avec son complexe de superordinateurs Project Rainier dans l'Indiana. Le site situé près du lac Michigan sera utilisé pour former le modèle d'IA Claude d'Anthropic, à l'aide de près d'un demi-million de puces Trainium2 développées en interne par AWS, avec l'intention de passer à plus d'un million d'ici la fin de l'année.

    Amazon Web Services (AWS) est une division du groupe américain de commerce électronique Amazon, spécialisée dans les services de cloud computing à la demande pour les entreprises et particuliers. En septembre 2023, AWS a annoncé qu'il deviendrait le principal fournisseur de services cloud de la start-up Anthropic, spécialisée dans l'intelligence artificielle. Amazon s'est engagé à investir jusqu'à 4 milliards de dollars dans Anthropic et détiendra une participation minoritaire dans la société.

    Anthropic a été créée en 2021 par d'anciens chercheurs d'OpenAI après avoir obtenu un financement initial de 124 millions de dollars. Les fondateurs ont été motivés par les préoccupations concernant la sécurité et l'éthique des systèmes d'IA avancés. Ainsi, Anthropic vise à développer l'intelligence artificielle générale (AGI) avec des pratiques de sécurité rigoureuses. Anthropic a notamment développé la série de grands modèles de langage Claude. C'est aussi le nom de l'agent conversationnel (chatbot) utilisant ce modèle pour dialoguer avec les utilisateurs.

    Pour améliorer les performances de l'IA et l'infrastructure des données, Amazon a annoncé en novembre 2024 développer ses propres puces d'IA sous la direction de son laboratoire Annapurna Labs pour concurrencer Nvidia. Amazon a acheté Annapurna Labs en 2015 pour 350 millions de dollars, et le laboratoire a testé Trainium 2, un kit destiné à consolider la position d'Amazon dans la sphère de l'IA. En supprimant Nvidia de l'équation, l'entreprise vise à réduire non seulement les dépenses liées à la production, mais aussi celles liées à l'exploitation des puces.

    Puis en juillet 2025, Amazon s'est lancé dans la construction de l'un des plus grands clusters de supercalculateurs pour l'IA au monde avec le projet Rainier. Cette infrastructure comprendra un immense cluster composé de centaines de milliers d'accélérateurs et devrait être opérationnelle dans le courant de l'année dans divers sites aux États-Unis. Un site dans l'Indiana comprendra trente centres de données, chacun d'une superficie de 18 580 mètres carrés et consommant collectivement environ 2,2 gigawatts d'électricité. Mais Rainier et les projets comme Stargate d'OpenAI et Colossus de xAI suscitent de sérieuses inquiétudes quant à leur impact environnemental.

    Récemment, AWS a lancé l'un des plus grands centres de données IA opérationnels au monde, avec son complexe de superordinateurs Project Rainier dans l'Indiana. Le site situé près du lac Michigan sera utilisé pour former le modèle d'IA Claude d'Anthropic, à l'aide de près d'un demi-million de puces Trainium2 développées en interne par AWS, avec l'intention de passer à plus d'un million d'ici la fin de l'année.


    Contrairement aux puces à usage général, AWS affirme que Trainium2 est spécialement conçu pour traiter « les énormes quantités de données » nécessaires à la formation des modèles d'IA dans le cadre de tâches complexes. Avec le projet Rainier, AWS a déjà mis en place une infrastructure Trainium 2 qui est 70 % plus grande que toute autre plateforme informatique d'IA dans l'histoire d'AWS et qui offre plus de cinq fois la puissance de calcul utilisée par Anthropic pour former ses précédents modèles d'IA.

    Les plans du projet ont été annoncés pour la première fois l'année dernière, lorsque AWS a déclaré qu'il allait construire un cluster informatique d'IA réparti sur plusieurs centres de données aux États-Unis. Le projet Rainier, d'un montant de 11 milliards de dollars, représente la première étape de cette initiative et une étape importante dans l'engagement d'AWS à développer rapidement son infrastructure d'IA.

    « Le projet Rainier est l'une des entreprises les plus ambitieuses d'AWS à ce jour », a déclaré Ron Diamant, architecte en chef de Trainium. « Il s'agit d'un projet d'infrastructure gigantesque et unique en son genre qui ouvrira la voie à la prochaine génération de modèles d'intelligence artificielle. » Bien que l'étendue totale du projet n'ait pas été dévoilée, AWS devrait construire 23 bâtiments supplémentaires à l'avenir, ce qui porterait la capacité du centre de données du site à plus de 2,2 gigawatts.

    Cette nouvelle intervient alors que les géants de la technologie se livrent une course effrénée pour prendre l'avantage dans le domaine des puces IA. La semaine dernière, Anthropic a annoncé qu'elle utiliserait 1 million de puces personnalisées de Google, dans le cadre d'un partenariat estimé à « plusieurs dizaines de milliards » de dollars selon Anthropic. Le 15 octobre, Nvidia, Microsoft, xAI et BlackRock ont conclu un accord de 40 milliards de dollars pour racheter Aligned Data Centers, tandis qu'en septembre, Nvidia a investi 100 milliards de dollars dans OpenAI, rival d'Anthropic et créateur de ChatGPT.

    Cette annonce vise à supporter la charge de travail de l'IA d'Anthropic. En effet, depuis août 2025, l’éditeur du modèle Claude, jusqu’ici réputée pour son approche prudente et orientée « sécurité », a révisé ses Conditions générales et sa Politique de confidentialité. Désormais, les données issues des conversations des utilisateurs de Claude pourront être utilisées pour entraîner les modèles — sauf en cas de refus explicite. Pour beaucoup d’observateurs, il s’agit d’un tournant stratégique, dicté à la fois par la nécessité de rester compétitif et par les exigences financières colossales que représente l’entraînement des modèles de nouvelle génération.


    AWS active le projet Rainier : l'un des plus grands clusters informatiques d'IA au monde est mis en service

    Le projet Rainier, qui tire son nom du stratovolcan de 4 392 mètres d'altitude visible depuis Seattle par temps clair, est une entreprise aussi monumentale que son homonyme. Réparti sur plusieurs centres de données aux États-Unis, l'ampleur du projet est sans précédent dans l'histoire d'AWS. « Le projet Rainier est l'une des entreprises les plus ambitieuses d'AWS à ce jour », a déclaré Ron Diamant, ingénieur émérite chez AWS et architecte en chef de Trainium. « Il s'agit d'un projet d'infrastructure gigantesque et unique en son genre qui ouvrira la voie à la prochaine génération de modèles d'intelligence artificielle. »

    Pour concrétiser cette vision audacieuse, le projet Rainier est conçu comme un gigantesque « EC2 UltraCluster of Trainium2 UltraServers ». La première partie fait référence à Amazon Elastic Compute Cloud (EC2), un service AWS qui permet aux clients de louer des ordinateurs virtuels dans le cloud plutôt que d'acheter et de maintenir leurs propres serveurs physiques. Le plus intéressant est Trainium2, une puce IA AWS conçue sur mesure spécialement pour l'entraînement des systèmes d'intelligence artificielle. Contrairement aux puces à usage général de votre ordinateur portable ou de votre téléphone, Trainium2 est spécialisée dans le traitement des énormes quantités de données nécessaires pour apprendre aux modèles d'IA à accomplir rapidement toutes sortes de tâches différentes et de plus en plus complexes.

    Nom : 1.jpg
Affichages : 13945
Taille : 67,4 Ko

    Avec le projet Rainier, AWS a déjà construit une infrastructure Trainium2 qui est 70 % plus grande que toute autre plateforme informatique IA dans l'histoire d'AWS. Pour mettre en perspective la puissance de Trainium2, une seule puce est capable d'effectuer des trillions de calculs par seconde. Si cela est difficile à visualiser, ce qui est compréhensible, imaginez qu'il faudrait plus de 31 700 ans à une personne pour compter jusqu'à un trillion. Une tâche qui prendrait des millénaires à un être humain peut être accomplie en un clin d'œil avec Trainium2.

    Le projet Rainier n'utilise pas seulement une ou quelques puces. C'est là qu'interviennent les UltraServers et les UltraClusters. Traditionnellement, les serveurs d'un centre de données fonctionnent de manière indépendante. Lorsqu'ils ont besoin de partager des informations, ces données doivent transiter par des commutateurs réseau externes. Cela introduit une latence, ce qui n'est pas idéal à une telle échelle.

    La réponse d'AWS à ce problème est l'UltraServer. Nouvellement conçu, l'UltraServer combine quatre serveurs physiques Trainium2, chacun doté de 16 puces Trainium2. Ils communiquent via des connexions haut débit spécialisées appelées « NeuronLinks ». Reconnaissables à leurs câbles bleus distinctifs, les NeuronLinks sont comme des voies rapides dédiées, permettant aux données de circuler beaucoup plus rapidement au sein du système et d'accélérer considérablement les calculs complexes sur les 64 puces. Lorsque vous connectez des dizaines de milliers de ces UltraServers et que vous les orientez tous vers le même problème, vous obtenez le projet Rainier, un méga « UltraCluster ».


    Contrôle de la pile

    La communication entre les composants s'effectue à deux niveaux critiques : les NeuronLinks fournissent des connexions à haut débit au sein des UltraServers, tandis que la technologie de mise en réseau Elastic Fabric Adapter (EFA) (identifiée par ses câbles jaunes) relie les UltraServers à l'intérieur et entre les centres de données. Cette approche à deux niveaux maximise la vitesse là où elle est le plus nécessaire tout en conservant la flexibilité nécessaire pour s'adapter à plusieurs bâtiments de centres de données.

    Jusqu'ici, tout va bien, mais l'exploitation et la maintenance d'un cluster de calcul aussi énorme ne sont pas sans difficultés. Pour garantir que toute cette capacité gigantesque soit disponible pour les clients, la fiabilité est primordiale. C'est là que l'approche de l'entreprise en matière de développement matériel et logiciel prend tout son sens. Contrairement à la plupart des autres fournisseurs de cloud, AWS construit son propre matériel et peut ainsi contrôler tous les aspects de la pile technologique, des plus petits composants d'une puce au logiciel qui y est exécuté, en passant par la conception complète du centre de données lui-même.

    Cette intégration verticale confère à AWS un avantage pour accélérer l'apprentissage automatique et réduire les obstacles financiers à l'accessibilité de l'IA. Grâce à sa visibilité sur l'ensemble de la pile, de la conception des puces à la mise en œuvre des logiciels en passant par l'architecture des serveurs, AWS peut optimiser le système à des endroits précis. Parfois, la solution consiste à repenser les systèmes d'alimentation électrique, parfois à réécrire le logiciel qui coordonne l'ensemble des opérations, et souvent à mettre en œuvre toutes ces solutions simultanément. En conservant une vue d'ensemble de chaque composant et de chaque niveau du système, AWS peut résoudre les problèmes et innover à un rythme soutenu.

    Nom : 2.jpg
Affichages : 3888
Taille : 138,4 Ko

    Durabilité à grande échelle

    Les équipes qui gèrent les centres de données d'AWS innovent rapidement, mais elles se concentrent également sur l'amélioration de l'efficacité énergétique, qu'il s'agisse de la disposition des racks, de la distribution électrique ou des techniques de refroidissement. En ce qui concerne l'utilisation d'énergie sans carbone dans les centres de données, toute l'électricité consommée par les opérations d'Amazon, y compris ses centres de données, provenait à 100 % de ressources énergétiques renouvelables en 2023 et 2024.

    L'entreprise investit des milliards de dollars dans l'énergie nucléaire et le stockage par batterie, ainsi que dans le financement de projets d'énergie renouvelable à grande échelle à travers le monde pour alimenter ses activités. Depuis cinq ans, Amazon est le plus grand acheteur d'énergie renouvelable au monde. L'entreprise est toujours en passe d'atteindre la neutralité carbone d'ici 2040. Cet objectif reste inchangé malgré l'ajout du projet Rainier et sa croissance mondiale continue en général.

    L'année dernière, AWS a annoncé le déploiement de nouveaux composants pour ses centres de données, combinant des avancées en matière d'alimentation, de refroidissement et de matériel, non seulement pour les centres de données en cours de construction, mais aussi pour les installations existantes. Les nouveaux composants des centres de données devraient permettre de réduire la consommation d'énergie mécanique jusqu'à 46 % et le carbone incorporé dans le béton utilisé de 35 %. Les nouveaux sites que l'entreprise construit pour soutenir le projet Rainier et au-delà comprendront diverses améliorations en matière d'efficacité énergétique et de durabilité.

    Nom : 3.jpg
Affichages : 3887
Taille : 99,9 Ko

    Certaines d'entre elles seront fortement axées sur la gestion de l'eau. AWS conçoit ses installations de manière à utiliser le moins d'eau possible, voire pas du tout lorsque cela est possible. Pour ce faire, l'entreprise élimine l'utilisation d'eau de refroidissement dans bon nombre de ses installations pendant la majeure partie de l'année, en s'appuyant plutôt sur l'air extérieur. Par exemple, les centres de données du comté de St. Joseph, dans l'Indiana, l'un des sites du projet Rainier, maximiseront l'utilisation de l'air extérieur pour le refroidissement. D'octobre à mars, les centres de données n'utiliseront aucune eau pour le refroidissement, tandis que d'avril à septembre, ils n'utiliseront de l'eau de refroidissement que quelques heures par jour en moyenne.

    Grâce à des innovations techniques comme celle-ci, AWS est leader du secteur en matière d'efficacité hydrique. D'après les conclusions d'un rapport du Lawrence Berkeley National Laboratory (LBNL) sur l'efficacité hydrique (WUE) du secteur des centres de données, la mesure standard de l'efficacité de l'utilisation de l'eau dans les centres de données est de 0,375 litre d'eau par kilowattheure. Avec 0,15 litre d'eau par kilowattheure, la WUE d'AWS est plus de deux fois supérieure à la moyenne du secteur. Elle représente également une amélioration de 40 % depuis 2021.

    Conclusion

    Le projet Rainier est désormais opérationnel et comprend l'un des plus grands clusters de calcul IA au monde, avec près d'un demi-million de puces Trainium2. AWS a déployé cet immense projet d'infrastructure d'IA moins d'un an après son annonce, son partenaire Anthropic exécutant déjà des charges de travail. Anthropic utilise activement le projet Rainier pour créer et déployer son modèle d'IA de pointe, Claude, qui, selon AWS, devrait être installé sur plus d'un million de puces Trainium2 d'ici la fin 2025.

    Source : Amazon Web Services (AWS)

    Et vous ?

    Pensez-vous que cette annonce est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Amazon consacre 2,75 milliards de dollars supplémentaires à la startup d'IA Anthropic, portant son investissement total à 4 milliards de dollars, son plus gros investissement en capital-risque

    xAI, la startup d'Elon Musk, prévoit d'agrandir son supercalculateur d'IA à Memphis pour qu'il abrite au moins un million de GPU, alors que xAI s'efforce de rivaliser avec des concurrents comme OpenAI

    Stargate : Quel est ce nouveau projet de 500 milliards de dollars annoncé par Donald Trump en matière d'IA ? OpenAI et d'autres s'associent en une coentreprise pour développer la technologie aux États-Unis
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Amazon se lance dans l'offre de produits imprimés en 3D
    Par Stéphane le calme dans le forum Actualités
    Réponses: 5
    Dernier message: 30/07/2014, 10h22
  2. Réponses: 4
    Dernier message: 16/04/2013, 17h43
  3. Réponses: 18
    Dernier message: 15/02/2013, 17h22
  4. Réponses: 4
    Dernier message: 05/11/2012, 16h09
  5. Réponses: 0
    Dernier message: 18/02/2010, 11h23

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo