Twitter dévoile son framework de simulation des pannes matérielles,
pour prévenir d'éventuelles pertes de puissance ou pertes de réseau

La société américaine Twitter a levé un coin de voile sur son framework de simulation de pannes matérielles permettant aux responsables de data centers d’être à l’abri de toute surprise due à une panne matérielle. Les ingénieurs de Twitter avancent que le système qu’ils ont mis en place est capable non seulement de simuler des pannes matérielles, mais aussi de révéler leurs impacts sur les logiciels qui tournent dessus.

Ce modèle a déjà été mis au point il y’a des années par des ingénieurs de Netflix qui ont alors développé un logiciel nommé Chaos Monkey qui était en mesure de créer des bogues artificiels dans la plateforme cloud d’Amazon Web Services dont dépend une grande partie des applications de Netflix. Ces systèmes visent à permettre aux ingénieurs de comprendre et de prévoir les problèmes que pourraient rencontrer leurs plateformes matérielles, mais aussi de déterminer si ces dernières sont en mesure de résister à ces menaces éventuelles. Dans un billet de blog, Mazdak Hashemi, responsable de l’infrastructure et des opérations chez Twitter écrit : « cela permet de découvrir les vulnérabilités afin de mieux se préparer à gérer un incident sur l’ensemble du site ». Il ajoute : « en provoquant des pannes sur notre système, nous sommes en mesure de développer des services plus souples ».

Twitter a souvent développé des logiciels et autres outils open source tels que Scalding, Summingbird ou encore Diffy pour répondre à ses propres besoins. En ce qui concerne ce framework de simulation de panne, Hashemi n’a rien précisé sur la possibilité qu’elle soit publiée un jour sous licence open source. Le framework est composé de trois modules à savoir :
  • « mischief modules » permettant de créer des pannes artificielles et de les annuler ;
  • « monitors modules » permettant de vérifier que les tests ne créent pas de problèmes réels dans la plateforme de Twitter, si tel est le cas, il met fin aux tests ;
  • « notifiers modules » permettant de faire des rapports sur les tests aux équipes de Twitter.

Le framework permet notamment à Twitter d’avoir une idée sur les pertes de puissance, de réseau ou encore de savoir si un logiciel de Twitter tournant sur le cluster Mesos répond ou non. Le responsable de l’infrastructure et des opérations de Twitter confie que le framework a servi à exécuter tous les tests de Twitter pour déceler des pannes au cours des derniers six mois et a permis de détecter à temps beaucoup de vulnérabilités. Hashemi poursuit en disant que le framework leur a donné confiance sur la résilience de plusieurs des systèmes qu’ils utilisent tels que Apache Mesos, Apache Aurora. Ces derniers ont été largement testés sans révéler d’éventuelles vulnérabilités pouvant affecter négativement leurs utilisateurs.

Nom : twitter.PNG
Affichages : 2231
Taille : 360,5 Ko

Source : Blog Twitter

Et vous ?

Que pensez-vous de ce nouveau framework de Twitter ?

Voir aussi

la rubrique Solutions d'entreprise