1 pièce(s) jointe(s)
Panne OVH : l'hébergeur revient sur le dernier incident qu'il a connu
Une mégapanne frappe à nouveau l'hébergeur Internet OVH
Suite à la perte d'alimentation électrique, des milliers de sites ont été mis hors ligne
Ce matin, l’hébergeur Roubaix OVH a connu une panne de grande envergure suite à une coupure électrique géante qui a affecté deux de ses datacenters à Strasbourg. En conséquence, plusieurs sites Internet hébergés par l’entreprise sont devenus inaccessibles.
Octave Klaba , PDG d’OVH a annoncé sur Twitter que les deux datacenters strasbourgeois (SGB1 et SGB4) sont tombés en panne après que leurs deux arrivées électriques sont tombées. Apparemment, les deux groupes électrogènes censés pallier ce genre d’ennuis n’ont pas fonctionné puisqu’ils « se sont mis en défaut ». En conséquence, l’alimentation a été coupée sur la salle de routage.
De plus, le réseau optique qui relie deux autres datacenters et par lequel transite un très grand nombre de données a également fait défaut, a informé Klaba sans toutefois indiquer les raisons d'une telle panne, ni si les deux événements étaient liés. Le PDG de l’entreprise a fait savoir également que tous les points optiques 100 Gb/s dans la région Europe ont cessé de fonctionner. Le réseau optique qui se charge de transporter les données entre les différents centres de données de l'entreprise a été donc down, affectant plusieurs liaisons et paralysant les connexions.
Sur Twitter, plusieurs personnes ont rapporté avoir été affectées par cette panne, à savoir que même le site web de l'hébergeur a été inaccessible cette matinée.
Ocatave Klaba à travers une série de tweets a informé que ses équipes travaillent pour rétablir la situation à la normale, notamment en essayant de redémarrer ses deux groupes électrogènes le temps que la panne électrique soit réparée et les liens en fibre optique partant de Roubaix soient restaurés.
OVH est le premier hébergeur européen spécialisé dans l’hébergement de site et d’autres services de cloud. La société qui revendique plus d’un million de clients dans le monde a dû faire face en juin dernier à une autre panne qui a paralysé des serveurs dans l’un de ses datacenters pendant plusieurs heures.
Source : Le Figaro
Et vous ?
:fleche: Avez-vous été affectés par cette panne ?
Voir aussi :
:fleche: Panne OVH : l'hébergeur Web revient sur le dernier incident avec plus de détails
C'est difficile mais faut relativiser
C'est vrai que c'est potentiellement très impactant pour certains (des clients à nous ont choisis d'être hébergés, tout leur SI était indisponible).
Mais malheureusement, se sont des choses qui peuvent arriver. Je pense que le niveau de qualification chez OVH est plutôt élevé, et des enchainements de défaillances ca peut arriver même aux meilleurs, n'en déplaise à toutwd. Faut être de mauvaise fois pour dire le contraire.
Malheureusement beaucoup de personnes partent du principe que ces infrastructures sont infaillibles. Si c'est un système critique que vous hébergez dans le cloud, il faut calculer si l'indisponibilité de votre SI pendant une journée ou deux et "plus rentable" que de payer une redondance chez un autre hébergeur, ou en local en dégradé par exemple.
Drolls, je ne sais pas si votre usine est "grosse" et productive, mai_s certains de nos clients préfèrent subir une indispo temporaire, qui a peu de chance d'arriver sur une grande durée et régulièrement, que de voir leurs contrats doublés.
Pas une catastrophe nationale
Bonjour. J'ai 5 sites hébergés chez OVH, plus un Cloud perso. J'ai été assez énervé par cette panne, ne sachant pas, au départ, que c'était une panne chez OVH. Lorsque j'ai vu que même leurs sites étaient inaccessibles, je me suis bien douté que ça venait de chez eux et j'ai pris mon mal en patience. Je me suis informé et, au vu de l'étendue du désastre, j'ai trouvé que le rétablissement a été assez rapide. Bien sûr, j'aurais préféré qu'il n'y ait pas de panne, mais j'ai eu une pensée pour Octave Klaba et son équipe qui ont du avoir des sueurs ...
Panne OVH : l'hébergeur revient sur le dernier incident qu'il a connu
Panne OVH : l'hébergeur revient sur le dernier incident qu'il a connu
avec plus de détails
Le 9 novembre dernier, l’hébergeur OVH a connu une panne de grande envergure suite à une coupure électrique qui a affecté deux de ses datacenters à Strasbourg. En conséquence, plusieurs sites Internet hébergés par l’entreprise sont devenus inaccessibles.
Dans un premier temps, Octave Klaba , PDG d’OVH a annoncé sur Twitter que les deux datacenters strasbourgeois (SGB1 et SGB4) sont tombés en panne après que leurs deux arrivées électriques sont tombées. Apparemment, les deux groupes électrogènes censés pallier ce genre d’ennuis n’ont pas fonctionné puisqu’ils « se sont mis en défaut ». En conséquence, l’alimentation a été coupée sur la salle de routage.
Par la suite, l’entreprise a mené son enquête et Klaba a partagé les résultats de celle-ci. Il a commencé par parler de l’architecture du site SBG. « Le site SBG est alimenté par une ligne de 20 kV composée de deux câbles délivrant chacun 10 MVA. Les deux câbles fonctionnent ensemble, et sont connectés à la même source et sur le même disjoncteur chez ELD (Strasbourg Electricity Networks). Ce matin, l'un des deux câbles a été endommagé et le disjoncteur a coupé l'alimentation du centre de données.
« Le site SBG est conçu pour fonctionner, sans limites de temps, sur les générateurs. Pour SBG1 et SBG4, nous avons mis en place un premier système de sauvegarde de deux générateurs de 2 MVA chacun, configurés en N + 1 et 20 kV. Pour SBG2, nous avons mis en place trois groupes en configuration N + 1 de 1,4 MVA chacun. En cas de coupure de courant externe, les cellules haute tension sont automatiquement reconfigurées par un système de basculement motorisé. En moins de 30 secondes, les datacenters SBG1, SBG2 et SBG4 peuvent être restaurés avec 20 KV. Pour effectuer ce basculement sans couper l'alimentation des serveurs, nous avons mis en place des alimentations sans interruption (UPS) qui peuvent maintenir l'alimentation jusqu'à huit minutes. »
Malgré toutes ces précautions, le système de basculement motorisé n’a pas fonctionné comme prévu ce matin-là. Pour être plus précis, la commande de démarrage des générateurs de secours n'a pas été donnée par l'automate. Raison pour laquelle OVH s’est tourné vers le fabricant pour comprendre l’origine de ce problème. L’hébergeur reconnaît toutefois qu’il s’agit là d’un défaut qui aurait dû être détecté lors de tests de simulation de pannes périodiques sur la source externe.
« Le dernier test de récupération de sauvegarde de SBG a eu lieu fin mai 2017. Lors de ce dernier test, nous avons alimenté SBG uniquement depuis les générateurs pendant huit heures sans aucun problème et chaque mois, nous testons les générateurs de secours vides. Et malgré tout, ce système n'était pas suffisant pour éviter la panne », a regretté Klaba.
La commande automatique n’ayant pas été passée à l’automate, OVH a été obligé de procéder manuellement pour alimenter le centre de données à partir de générateurs. L’hébergeur a ensuite contacté ELD pour lui demander de déconnecter le câble défectueux des cellules haute tension et de remettre en marche le disjoncteur avec seulement un des deux câbles, et donc limité à 10 MVA. « Cette action a été effectuée par ELD et le courant a été rétabli vers 10 h 30. Les routeurs de SBG étaient de retour en ligne à partir de 10 h 58 », a-t-il assuré.
« Afin d'éviter des scénarios catastrophiques comme celui-ci, OVH a développé au cours des 18 dernières années des architectures électriques capables de résister à toutes sortes de pannes de courant. Chaque test, chaque défaut, chaque nouvelle idée ont enrichi notre expérience nous permettant de construire des datacentres fiables aujourd'hui.
« Alors pourquoi cet échec? Pourquoi SBG n'a-t-il pas supporté une simple coupure de courant ? Pourquoi toute l'intelligence que nous avons développée chez OVH ne pourrait-elle pas empêcher cette catastrophe ?
« La réponse courte : le réseau électrique de SBG a hérité de tous les défauts de conception qui étaient le résultat des petites ambitions initialement prévues pour cet endroit. »
Donnant plus de détails, Klaba a rappelé qu’en 2011, OVH a planifié le déploiement de nouveaux centres de données en Europe. « Afin de tester l'appétit pour chaque marché, avec de nouvelles villes et de nouveaux pays, nous avons inventé une nouvelle technologie de déploiement de centres de données. Avec l'aide de cette technologie développée en interne, nous espérions obtenir la flexibilité nécessaire pour déployer un datacenter sans les contraintes de temps associées aux permis de construire. À l'origine, nous voulions avoir la possibilité de valider nos hypothèses avant de faire des investissements substantiels dans un endroit particulier. »
« C'est ainsi que début 2012, nous avons lancé le datacenter SBG1 constitué de conteneurs maritimes. Nous avons déployé huit conteneurs maritimes et SBG1 était opérationnel en moins de deux mois. Grâce à ce déploiement ultrarapide qui a pris moins de six mois, nous avons pu confirmer que SBG est bien un emplacement stratégique pour OVH. À la fin de 2012, nous avons décidé. »
Le problème était que, en déployant SBG1 avec la technologie basée sur les conteneurs maritimes, OVH était incapable de préparer le site pour un projet à grande échelle.
Aussi, Klaba a reconnu que son entreprise a fait deux erreurs :
- Nous n'avons pas rendu le site SBG conforme aux normes internes qui requièrent deux alimentations électriques séparées de 20 KV, comme tous nos sites DC, qui sont équipés de deux alimentations électriques. C'est un investissement majeur d'environ 2 à 3 millions d'euros par alimentation électrique, mais nous pensons que cela fait partie de notre standard interne ;
- Nous avons construit le réseau électrique de SBG2 en le plaçant sur le réseau électrique de SBG1 au lieu de les rendre indépendants l'un de l'autre, comme dans tous nos centres de données. Chez OVH, chaque numéro de centre de données indique que la grille d'alimentation est indépendante des autres centres de données. Partout sauf sur le site SBG.
La technologie basée sur les conteneurs maritimes n'a été utilisée que pour construire SBG1 et SBG4. « En fait, nous avons réalisé que le datacenter de conteneur ne correspond pas aux exigences de notre métier. Sur la base du taux de croissance de SBG, la taille minimale d'un site doit être égale à celle de plusieurs centres de données, et donc avoir une capacité totale de 200 000 serveurs. C'est pourquoi, pour déployer un nouveau centre de données aujourd'hui, nous n'utilisons que deux types de conceptions qui ont été largement testés et planifiés pour des projets de grande envergure et de fiabilité :
- La construction de tours de cinq à six étages (RBX4, SBG2-3, BHS1-2), pour 40 000 serveurs ;
- L'achat de bâtiments (RBX1-3,5-7, P19, GRA1-2, LIM1, ERI1, WAW1, BHS3-7, VIH1, HIL1) pour 40 000 ou 80 000 serveurs. »
Raison pour laquelle, même si l'incident qui a frappé OVH a été causé par un automate tiers, l’hébergeur assure qu’il ne peut pas nier sa propre responsabilité pour la panne. « Nous avons un peu de travail à faire sur SBG pour atteindre le même niveau de qualité que les autres sites OVH », a reconnu Klaba.
Un plan d’action à hauteur de 4 à 5 millions d’euros a été adopté pour « nous permettre de redonner confiance à SBG et à OVH ». Il s’agit notamment :
- De l'installation d'une deuxième alimentation électrique 20 MVA complètement séparée ;
- De séparer le réseau électrique SBG2 de SBG1/SBG4, ainsi que la séparation du futur SBG3 de SBG2 et SBG1/SBG4 ;
- D’effectuer une migration des clients SBG1/SBG4 vers SBG3 ;
- de fermer SBG1/SBG4 et de désinstaller des conteneurs maritimes.
Source : message d'Octave Klaba
La définition d'un (bon) hébergeur.
Quand on cherche un hébergeur pour son site, on prend en compte le prix, l'espace alloué, la qualité du support etc ...
Il faudra aussi se souvenir qu'une panne totale est possible et que si elle survient, comme chez OVH, l'hébergeur explique le comment du pourquoi de sa panne au lieu de proposer une contre-partie financière aux sites victimes.
Après tout, les hébergés payent pour obtenir un service de qualité. Couper le site c'est une rupture du service mais surtout une rupture dans la confiance dans le service.:oops:
Rester chez OVH c'est accepter ce genre de situation, les quitter c'est leur faire bien comprendre leur faute. C'est ce que nous faisons tous quand un opérateur (téléphonie, ADSL) ne nous convient pas, soit il est bon, soit il est mauvais.