La foudre malmène les Cloud d'Amazon et Microsoft en Irlande
La lenteur du rétablissement des instances Amazon critiquée
Un puissant coup de foudre a frappé Dublin dimanche passé, provoquant une coupure de courant étendue ayant touché des Datacenters appartenant à Microsoft et Amazon, avec comme conséquence une indisponibilité relativement prolongée de leurs services Cloud respectifs.
Les redondances en sources électriques n'ont pas résisté à la puissance de la décharge électrique provenant du ciel irlandais. La foudre s'est abattue pile sur un transformateur électrique provoquant une explosion gigantesque et la propagation d'incendie ayant touché les générateurs électriques censés prendre le relais.
D'après le tableau de bord public de l'état de service, Amazon s'est expliqué quelques minutes après l'incident : « Vu l'étendue de la coupure électrique, un grand nombre de serveurs EBS [Blocks de stockages élastiques] ont perdu leur alimentation électrique et nécessitent des opérations manuelles pour que les volumes puissent être restaurés »
Si la survenue d'une telle « minicatastrophe naturelle » est un risque encouru par tous les fournisseurs et clients des services Cloud, l'architecture complexe d'Amazon et la nécessité de l'intervention manuelle ont empêché le rétablissement rapide de toutes les instances affectées.
Une partie a été rétablie quelques heures après l’incident, mais d'autres client et services n'ont pu retrouver leurs fichiers, bases de données et unités de calculs qu'après 24 à 48 heures.
Heureusement, aucune perte définitive de données n'est à déplorer cette fois, contrairement au dernier grand incident passé ayant emporté 0.07 % des données de toute la région est des états unis. Pour rappel, ce premier grand couac du Cloud d’Amazon a été dû à une erreur humaine doublée d'une défaillance technique, et compliqué par la complexité de la plateforme.
De son côté, Microsoft a fait savoir sur son compte Twitter, environ trois heures après l'incident que tout était rentré dans l'ordre pour ses services BPOS (Business Productivity Online Standard Suite)
Source : Amazon, compte Twitter de Microsoft
Et vous ?
Que pensez-vous de cet incident ?
De la fiabilité des plateformes Cloud ? Et de la lenteur de la récupération par Amazon notamment ?
Partager