Panne GitLab : la société indique les mesures prises pour éviter que ce type de scénario se reproduise

Version imprimable

Voir 40 message(s) de cette discussion en une page

01/02/2017, 19h48
Olivier Famien

Panne GitLab : la société indique les mesures prises pour éviter que ce type de scénario se reproduise

Un administrateur système de GitLab supprime accidentellement 310 Go de données de production
et rend le site indisponible depuis plusieurs heures

La plateforme de gestion des développements collaboratifs GitLab est indisponible depuis hier 31 janvier. Sur son portail, on peut lire ouvertement que « GitLab.com est actuellement hors ligne en raison de problèmes avec notre base de données de production. Nous travaillons dur pour résoudre le problème rapidement. Suivez GitLabStatus pour les dernières mises à jour ».

Ce problème est survenu alors qu’un administrateur système de GitLab a entamé une procédure de réplication des données de production pour les utiliser à d'autres fins. Après avoir entamé la procédure de réplication, l’administrateur a dû l’interrompre pour régler un problème de spam et de surcharge de la base de données. Lorsque ce dernier a pu rétablir à la normale le chargement de la base de données PostgreSQL et est revenu sur la réplication de sa base de données, il a reçu une alerte du système qui refusait de répliquer la base de données. Après avoir essayé plusieurs solutions sans succès, l’administrateur s’est dit que le système doit certainement détecter un répertoire vide et décide de supprimer ce répertoire. Malheureusement pour ce dernier, après une ou deux secondes, il remarque qu’il a exécuté la requête sur la base de données de production. Il tente désespérément d’annuler la requête, mais sur les 310 Go de données contenues dans le répertoire, il ne reste plus que 4,5 Go de données.

Comme conséquences de ce fâcheux accident, l’entreprise indique qu’elle a perdu plus de 06 heures de données qui ont atterri sur sa plateforme, ce qui signifie qu’environ 4613 projets réguliers, 74 forks, et 350 importations sont effacés. L’entreprise ajoute que 707 utilisateurs sont affectés par cette perte et l’on peut également envisager une perte de tous les webhooks (fonctionnalités d’une application permettant de fournir des données en temps à une autre application), même si l’information reste encore non confirmée.

Depuis cet accident, l’entreprise se bat avec ses équipements pour récupérer les données perdues. La grosse difficulté pour GitLab est que les instantanés du gestionnaire des volumes logiques sont effectués par défaut une fois toutes les 24 heures. De même, les sauvegardes régulières sont également faites une fois toutes les 24 heures. Du côté d’Azure, ce sont les mêmes difficultés. Les instantanés de disque dans Azure sont activés pour le serveur NFS, mais pas pour les serveurs de base de données. En plus de ces problèmes répertoriés, GitLab souligne que « le processus de synchronisation supprime les webhooks une fois qu’il a synchronisé les données à la simulation. À moins que nous puissions les retirer d’une sauvegarde régulière des dernières 24 heures, elles seront perdues ». En envisageant de passer par la réplication, l’équipe de GitLab estime que « la procédure de réplication est super fragile, encline à l’erreur, repose sur une poignée de scripts de shell aléatoires et est mal documentée ». À ces maux, il faut adjoindre le fait que les sauvegardes sur le cloud Amazon S3 ne fonctionnent pas du tout, bucket, l’unité de logique de stockage sur Amazon Web Services (AWS) est vide. Les ingénieurs de GitLab expliquent qu’ils n’ont pas un système solide d’alerte et de pagination lorsque les sauvegardes échouent.

En fin de compte « sur les cinq techniques de sauvegarde/réplication déployées, aucune ne fonctionne correctement ni n’est configurée en premier lieu ». Le pire dans cette histoire est que l’entreprise a annoncé vers la fin de l’année dernière qu’elle abandonnait le cloud pour migrer vers Ceph FS, le nouveau système de fichiers utilisant des groupes de serveurs pour stocker ses données sur la plateforme Ceph afin d’améliorer les performances de l’accès aux données. Malheureusement, en privilégiant cette plateforme pour ses performances et la haute disponibilité des données, GitLab a négligé d’autres aspects ce qui lui coûte cher aujourd’hui.

Actuellement, l’entreprise essaye de restaurer la sauvegarde qui a été faite six heures avant la perte de données. Sur Tweeter, GitLab affirme qu’elle a pu restaurer ces données. Cela signifie donc que si les données sont restaurées avec cette sauvegarde, il y aura certainement des pertes de données qui se feront ressentir. Pour l’administrateur qui a occasionné cette perte, il retient « qu’il est préférable pour lui de ne plus rien exécuter aujourd’hui avec sudo ». Mais au-delà de cet incident, l’on peut également noter que GitLab a été véritablement transparent dans cet incident en communiquant énormément sur les différentes étapes des actions entreprises.

http://youtu.be/nc0hPGerSd4
Gitlab Live Stream: working on restoring gitlab.com

Source : GitLab, GitLab Google docs détails sur l’incident, Tweeter

Et vous ?

:fleche: Que pensez-vous de cet incident ?

:fleche: Erreur, négligence ou incident inévitable ?

Voir aussi

:fleche: GitHub : des utilisateurs de la plateforme se disent « frustrés » et « complètement ignorés » sur une pétition signée par des centaines d'entre eux
01/02/2017, 21h40
Narann

Plus que transparent. C’était un live en continue dans les locaux de GitLab ou les différentes personnes intervenaient et expliquaient en détails les problèmes et solutions.
01/02/2017, 22h49
mverhaeghe

Jolie communication, effectivement !
Au dela du fait que sur les cinq procédés de sauvegardes, aucune ne fonctionnait réellement (les bras m'en tombent ceci dit), je ne comprends pas trop la problématique de sauvegarde de base sur Azure. Je pensais, pour l'avoir vu, que les bases de données étaient sauvegardés en automatiques quasiment toutes les 15 minutes ? A moins que ce ne soit que pour certains types de base ?
01/02/2017, 23h15
tmcuh

Y'a pas un mec qui a vu que les backup fonctionnait pas ou mal ? Hallucinant.
Au moins vérifier une fois par mois que les backup fonctionnent bien, qu'on peut les restaurer, etc. Mais là sur 5 plateformes à la fois LOL
Le pauvre administrateur, j'espère qu'il sera pas mis à la porte pour autant.
ça m'est déjà arrivé sur une grosse base de production client, heureusement que les backup m'ont sauvé la vie, je crois que j'aurais dûe revendre ma maison si j'avais pas eu ça :aie:
01/02/2017, 23h40
Pierre Louis Chevalier

Le coup des backups qui sont faits sans que personne n'ai jamais essayé de faire un recovery pour vérifier que tout est ok jusqu'au jour ou... c'est un grand classique, c'est très courant mais les gens évitent de crier ça sur les toits :mouarf:

Ceci combiné à la croissance des ransomwares ou autres catastrophes sécuritaires ca promets qu'on continue à avoir régulièrement des millions d'euros de dommages partis en fumée et des dépôts de bilans...
02/02/2017, 01h13
tchize_

Bah c'est du Git, les devs des projet au pire peuvent repousser tout ce qu'ils ont en local, c'est bien comme ça qu'on vends toujours git? Tout est local :mouarf:

Pour le reste, sans blamer qui que ce soit, les bourdes ça arrive. C'est bien facile de dire qu'il faut tester ses backup, mais c'est toujours face au désastre qu'on se rend compte qu'il y a un petit détails qui avait été oublié dans les scénarios testé, et qui fait qu'il faut tout improviser.

Genre le serveur LDAP mort et les backups inaccessible car impossible de s'authentifier sur le serveur distant qui a cloné le ldap foireux et qui s'en sert pour l'authentification
Les bandes hors site qu'on rapatrie en urgence et qui finissent dans un crash auto
Le backup accessible, testé régulièrement par sondage et qui, une fois lancé pour un full restore t'annonce joyeusement "do not stop process, restoring, estimated time: 120h"
02/02/2017, 09h35
Aurelien.Regat-Barrel

Gitlab est un bon produit (pour lequel je fais pas mal de promo) mais malheureusement cette histoire me surprend moyennement. Je ne pense pas que ce soit un simple accident mais symptomatique d'une rigueur / qualité perfectible. Entre autre, ils ont près de 6000 tickets ouverts sur leur produit...

Pour moi cette histoire est plutôt une bonne chose (pas de dégât vraiment sérieux) car c'est l'opportunité d'envoyer un signal aux responsables pour revoir leurs priorités et se focaliser un peu plus sur la finalisation de l'existant plutôt que la course à l’échalote en terme de nouvelles fonctionnalités. En tous cas c'est comme ça que je perçois l'ambiance vu de l'extérieur.
02/02/2017, 09h35
MikeRowSoft

Normalement, c'est des copies. BitTorrent a la rescousse ? Encore faut-il que l' "E.D.I." soit du "Git I.D.E."...

Oui, sa se ressemble non ? "On regarde bien developpez.com a cette instant". Pourtant Labview et les autres, donc les outils d'émulation et simulation de circuits, y sont aussi parfois cité...

Bon courage à l'administrateur fautif, tous n'est pas perdu comme pour les "astronautes" en difficultés dans le film Gravity, il y aura peut-être des pertes (en avion, c'est pas pareil)...
02/02/2017, 10h41
grunk

Ce moment de solitude quand tu te rend compte que la commande de suppression est lancée l'environnement de prod :mouarf:
02/02/2017, 12h29
Narann

Les backups c'est quantique, ça existe jusqu’à ce que tu regarde ce qu'il y a dedans. :D
02/02/2017, 13h19
ddoumeche

Citation:

Envoyé par tmcuh

Y'a pas un mec qui a vu que les backup fonctionnait pas ou mal ? Hallucinant.
Au moins vérifier une fois par mois que les backup fonctionnent bien, qu'on peut les restaurer, etc. Mais là sur 5 plateformes à la fois LOL
Le pauvre administrateur, j'espère qu'il sera pas mis à la porte pour autant.
ça m'est déjà arrivé sur une grosse base de production client, heureusement que les backup m'ont sauvé la vie, je crois que j'aurais dûe revendre ma maison si j'avais pas eu ça :aie:

Il faut espérer au contraire qu'il soit mis à la porte ou lourdement sanctionné, la sauvegarde doit rester l'alpha et l'oméga du travail de tout administrateurs système ou DBA.

Il n'y a pas de journaux de transaction dans Postgresql, qui puisse être rejoués depuis la dernière sauvegarde ?
02/02/2017, 15h23
JackJnr

Citation:

Les ingénieurs de GitLab expliquent qu’ils n’ont pas un système solide d’alerte et de pagination lorsque les sauvegardes échouent

Petit rire car je connais ça. Et d'un point de vue extérieur je trouve que ça pue, surtout quand on a des données client.

Mais même si la faute n'est pas négligeable je ne suis pas pour qu'on vire l'admin. Pour m'être déjà fait quelques petites frayeurs sur ce sujet j'imagine à quel point le type doit se sentir mal.
02/02/2017, 15h52
Paul TOTH

ça me rappelle un de mes premiers programme GAP sur AS/400 j'ai fait une boucle sans condition de sortie, la CPU est partie en vrille et le système a rebooté :)

comme je débutais sur ce système j'étais bien incapable de faire un "appel système 2" pour tuer mon process .. ou même de me rendre compte que ma bourde pouvais pénaliser tout le monde :)
02/02/2017, 16h55
RyzenOC

Moi j'utilise le sgbd Cassandra, si un serveur lâche ou si on supprime toutes les datas sont répliqués au minium sur 2 autres cluster (qui ne sont pas au même endroit).
Il faut attendre 1 semaine pour tous perdre définitivement.

Je trouve étrange de postgres n'est un mécanisme de réplication des datas ?
02/02/2017, 17h35
ddoumeche

C'est récent, cela n'existe que depuis la version 9.0 (donc 2010).

A mon avis, c'est surtout que les administrateurs systèmes sont incompétents où qu'on lance des startups en amateur de nos jours.
02/02/2017, 20h04
el_slapper

Citation:

Envoyé par ddoumeche

C'est récent, cela n'existe que depuis la version 9.0 (donc 2010).

A mon avis, c'est surtout que les administrateurs systèmes sont incompétents où qu'on lance des startups en amateur de nos jours.

Ben oui, personne ne veut faire le boulot, vu que c'est payé au lance-pierres. Et au final, ça coute bien plus cher. Comme d'habitude.
03/02/2017, 04h40
Olivier Famien

GitLab parvient à restaurer certaines données supprimées accidentellement et se remet en ligne

GitLab parvient à restaurer certaines données supprimées accidentellement et se remet en ligne,
mais 6 heures de données n’ont pas pu être récupérées

Le 31 janvier dernier aux environs de 18 h GMT, un administrateur chez GitLab a accidentellement supprimé plus de 300 Go de données de production. À la suite de cette erreur humaine, le site fut indisponible depuis cet incident jusqu’au lendemain aux environs de 18 h GMT.

Généralement, les entreprises qui stockent des données sensibles assurent leur résilience en faisant des sauvegardes régulières de leurs données et cela dans différents endroits. Par ailleurs, elles s’efforcent de suivre des codes de bonnes pratiques en testant de manière régulière l’intégrité de leurs sauvegardes afin de ne pas avoir de mauvaises surprises en cas de soucis. Toutefois, l’incident qui a frappé la plateforme GitLab a démontré que l’entreprise ne s’était pas préparée à tout cela. Toutes les tentatives de restauration de la base de données supprimée à partir des sauvegardes ont échoué.

Fort heureusement, les données supprimées ne concernaient que celles des utilisateurs, des commentaires, des snippets, des bogues, des demandes d’intégration de changements, etc. Les dépôts Git et Wiki des développeurs ainsi que les installations hébergées par l’entreprise n’ont pas été affectés par cet accident. Par ailleurs, GitLab souligne que seul 1 % des utilisateurs (707 en tout) sont concernés par ces données supprimées.

En fin de compte, GitLab a pu récupérer un instantané des données disponibles sur un serveur de tests afin de restaurer les données supprimées et est de retour sur la toile. Toutefois, GitLab explique que ces données restaurées proviennent d’une sauvegarde vieille de 6 heures. Ce qui signifie que toutes les données de projets, de problèmes, de demandes de fusion d’utilisateurs, de commentaires, de snippets comprises entre 17 h 20 et 23 h 25 GMT du 31 janvier sont perdues.

Consciente que la perte de données de production sans possibilité de les restaurer en totalité est inacceptable, GitLab entend publier dans les jours à venir les causes de l’occurrence d’un tel accident et la liste des mesures qu’elle a implémentées pour éviter que pareilles erreurs ne surviennent à nouveau.

Source : GitLab

Et vous ?

:fleche: Quelles leçons tirez-vous de l’accident qui a frappé GitLab ?

:fleche: Quels conseils pouvez-vous donner afin de permettre aux autres entreprises de mieux gérer de tels incidents ?

Voir aussi

:fleche: Un administrateur système de GitLab supprime accidentellement 310 Go de données de production et rend le site indisponible depuis plusieurs heures
:fleche: GitHub : des utilisateurs de la plateforme se disent « frustrés » et « complètement ignorés » sur une pétition signée par des centaines d'entre eux

:fleche: Forum Actualités, Wiki Developpez.com, Débats Best of, FAQ Developpez.com
03/02/2017, 09h54
kedare

Citation:

Envoyé par ddoumeche

Il faut espérer au contraire qu'il soit mis à la porte ou lourdement sanctionné, la sauvegarde doit rester l'alpha et l'oméga du travail de tout administrateurs système ou DBA.

Il n'y a pas de journaux de transaction dans Postgresql, qui puisse être rejoués depuis la dernière sauvegarde ?

Si, mais le soucis c'est qu'il faut faire un full restore avant, et ils ont payés des virtual disks cheap donc super lent pour copier et restaurer le full backup (5MBps je crois..), du coup ca a mis super longtemps.
Aussi ils ont commencé en voulant faire une réparation sur le serveur secondaire (Qui aurait pu failover), donc le secondaire était H.S et il a voulu tout effacer pour le refaire clean sauf qu'il était connecté sur le primaire a ce moment la, du coup... secondaire H.S et primaire H.A aussi... Pas de chance la dessus.
03/02/2017, 10h07
MikeRowSoft

Comment ça ?

Selon les cours d'administrateur de bases de données il restait encore des traces dans les logs et sur le disque dur (fichier de bases de données). Bien plus que se qu'il peut y avoir sur les partitions après suppression normalement (table d'allocation) dans quelques cas.

Tout aurait dû être récupéré. A moins que se soit du spécifique Oracle chose très probable... (le seul que je connais autant :oops:)
03/02/2017, 12h36
xarkam

Citation:

Envoyé par grunk

Ce moment de solitude quand tu te rend compte que la commande de suppression est lancée l'environnement de prod :mouarf:

Oui, enfin, le minimum requis c'est d'avoir un prompt bien distinct avec coloration différente selon que tu es sur prod ou réplication, voir même carrément le background xterm en rouge sur la/les machine(s) de prod.

Voir 40 message(s) de cette discussion en une page