Un centre de données Amazon AWS Cloud a connu une surchauffe dans une zone de disponibilité en Virginie, provoquant une interruption de service de près de 7 heures pour Coinbase et d'autres clients

Amazon Web Services a déclaré que l'un de ses centres de données du nord de la Virginie avait atteint une température suffisamment élevée pour perturber les charges de travail des clients, et que les ingénieurs étaient encore en train de remettre le site entièrement en ligne alors que la plupart des utilisateurs s'étaient déjà couchés. La cause était banale : une hausse des températures à l'intérieur d'un seul centre de données, attribuée à une défaillance du système de refroidissement. Selon la société, une capacité de refroidissement supplémentaire a commencé à être mise en service quelques heures après les premiers rapports d'incident, et des « premiers signes de rétablissement » sont apparus peu après.

Amazon Web Services (AWS) est une division du groupe américain de commerce électronique Amazon, spécialisée dans les services de cloud computing à la demande pour les entreprises et particuliers. AWS met à disposition de ses clients un cluster virtuel de machines, disponible à tout moment, via Internet. Les machines virtuelles proposées émulent les caractéristiques d'un ordinateur réel, y compris le matériel physique (processeurs et carte graphiques pour le traitement, mémoire locale ou vive, stockage sur disque dur ou SSD) ; un choix de systèmes d'exploitation ; du réseau ; des applications pré-chargées telles que des serveurs web, des bases de données, des outils de gestion de la relation client, etc. AWS opère à partir de plusieurs « régions géographiques » dont six en Amérique du Nord.

Récemment, Amazon Web Services a déclaré que l'un de ses centres de données du nord de la Virginie avait atteint une température suffisamment élevée pour perturber les charges de travail des clients, et que les ingénieurs étaient encore en train de remettre le site entièrement en ligne alors que la plupart des utilisateurs s'étaient déjà couchés. La cause était banale : une hausse des températures à l'intérieur d'un seul centre de données, attribuée à une défaillance du système de refroidissement, a contraint AWS à limiter le débit puis à rediriger partiellement le trafic hors de la zone de disponibilité affectée.

Selon la société, une capacité de refroidissement supplémentaire a commencé à être mise en service quelques heures après les premiers rapports d'incident, et des « premiers signes de rétablissement » sont apparus peu après. Une mise à jour ultérieure s'est avérée moins rassurante : la mise en place d'une capacité de refroidissement supplémentaire suffisante pour redémarrer en toute sécurité les systèmes restants prenait plus de temps que prévu, et AWS ne souhaitait pas donner de délai pour le rétablissement complet.

Coinbase a confirmé que les problèmes rencontrés sur sa plateforme de trading étaient dus à l'incident AWS. Après plusieurs heures de fonctionnement dégradé des marchés, la bourse a déclaré que tous les marchés avaient été réactivés et que les transactions étaient revenues à la normale. CME Group, la plus grande place de marché de produits dérivés au monde, a également signalé des problèmes avec sa plateforme CME Direct pendant la même période, bien qu’elle ait simplement qualifié la cause de « maintenance essentielle » sans préciser si l’incident AWS avait joué un rôle. Les deux sociétés ont refusé de faire d’autres commentaires en dehors des heures de bureau.

Nom : 1.jpg
Affichages : 3310
Taille : 18,8 Ko

Le cluster de Virginie du Nord, appelé US-East-1 dans la terminologie AWS, est la région la plus ancienne, la plus active et la plus concentrée de l’entreprise. Une zone de disponibilité dans cette région regroupe un ou plusieurs centres de données physiques conçus pour fonctionner de manière indépendante, et les consignes officielles d’AWS pendant la reprise étaient la recommandation standard : les clients opérant dans la zone touchée devaient basculer vers l’une des autres. Cela fonctionne bien pour les équipes d’ingénieurs qui ont prévu cette éventualité. Cela fonctionne moins bien pour celles qui ne l’ont pas fait.

Le scénario devient familier. AWS a subi une panne bien plus importante en octobre dernier lorsqu’une défaillance de résolution DNS dans DynamoDB s’est propagée en cascade à plus d’une centaine de services et a mis hors ligne des plateformes allant de Snapchat et Reddit à United Airlines et Coinbase. Cet incident a duré environ quatorze heures et a constitué la plus grande perturbation à l’échelle d’Internet depuis le dysfonctionnement du logiciel CrowdStrike en 2024. Un mois plus tard, le CME a subi l’une de ses plus longues pannes de trading depuis des années, attribuée à une défaillance du système de refroidissement dans un centre de données CyrusOne de la région de Chicago.

La répétition de ces incidents est significative. Les défaillances de refroidissement, les erreurs de configuration et les dysfonctionnements DNS sont des événements techniques distincts, mais ils partagent une conséquence commune : un seul site physique ou logique devient le goulot d’étranglement pour une part disproportionnée du trafic public. La région de Virginie du Nord supporte cette charge davantage par accident historique que par conception. AWS a lancé cette région en 2006 et, depuis lors, US-East-1 a accumulé des charges de travail, des dépendances réglementaires et une inertie des clients. Les hyperscalers dépensent des dizaines de milliards pour développer d’autres régions, mais la concentration des clients dans US-East-1 ne devrait pas évoluer rapidement.

L'exposition de Coinbase au cloud s'inscrit dans une perspective à plus long terme. La panne provoquée par Cloudflare qui a mis hors service Coinbase et d'autres bourses en 2019 était un mode de défaillance différent, mais la leçon à en tirer est la même, et c'est en partie pour cette raison que les bourses de cryptomonnaies ont passé ces dernières années à mettre en place une architecture de basculement multirégional. L'incident de démontre que même avec ces efforts, une simple coupure dans une salle de serveurs a encore des répercussions sur un marché censé fonctionner 24 heures sur 24.

La situation du CME est plus délicate. Les marchés dérivés reposent sur des pipelines complexes de marge et de compensation qui ne se dégradent pas facilement ; une panne aux heures de pointe en Asie, comme celle de jeudi, affecte les délais du cycle de compensation qui permettent de transférer les fonds le lendemain matin. Le fait que le problème du CME soit directement lié à l’incident AWS déterminera la manière dont le débat sur la résilience des transactions sera perçu par les régulateurs.

AWS n’a pas estimé le nombre de charges de travail affectées, et Amazon n’a pas encore expliqué pourquoi le système de refroidissement a pris du retard, ni si le problème était lié à l’équipement, aux conditions ambiantes ou à une combinaison des deux. La région du nord de la Virginie a passé l'année écoulée à intégrer une vague de nouvelles capacités de formation et d'inférence en IA, qui génèrent davantage de chaleur et sont plus denses que les charges de travail cloud traditionnelles ; la question de savoir si cela a un lien fortuit avec la panne récente ou s'il s'agit d'un facteur déterminant devra être abordée dans le rapport post-incident.

Pour la plupart des clients, la solution est celle recommandée par AWS dans sa première mise à jour : cesser d'exécuter toutes les applications dans une seule zone de disponibilité d'une même région. Ce conseil figure depuis des années sur la page d'AWS consacrée aux meilleures pratiques en matière d'architecture. Chaque panne de ce type augmente le coût de l'avoir ignoré.

Il est surprenant que l'activité cloud d'AWS ne suscite pas plus d'attention de l'entreprise pourtant elle est productive. En 2025, Amazon Web Services (AWS) a annoncé un chiffre d'affaires de 29,3 milliards de dollars au premier trimestre 2025. Il s'agit d'une augmentation de 17 % d'une année sur l'autre. D'autre part, Microsoft a déclaré que les revenus du segment Intelligent Cloud au premier trimestre 2025 s'élevaient à 26,8 milliards de dollars, soit une augmentation de 21 %. Ce chiffre comprend une augmentation de 22 % des revenus des produits serveurs et des services cloud, avec une croissance de 33 % d'Azure et d'autres services cloud. Un rapport qui confirme que AWS est un acteur majeur du marché des services cloud.

Sources : Amazon, Coinbase

Et vous ?

Pensez-vous que ce rapport est crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Suite à des pannes, Amazon exigera la validation des modifications assistées par l'IA par ses ingénieurs seniors : AWS a subi au moins deux incidents liés à l'utilisation d'assistants de codage IA

Amazon confrontée à des mois de réparations après des attaques de drones contre ses centres de données : AWS suspend la facturation de ses clients cloud du Moyen-Orient

Amazon, Microsoft et Google ont renoncé à la construction de centres de données de plusieurs milliards $ en raison de l'opposition locale et font face à des pressions concernant leur impact environnemental