Des services Azure cloud de Microsoft inaccessibles en Europe, Asie et Amérique pendant 14 heures,
à cause de trois bogues dans le service d’authentification MFA d’Azure AD

Le 19 novembre dernier, Microsoft, le fournisseur de services cloud a connu de sérieux problèmes dans la délivrance des services cloud à ses clients. Pendant environ 14 heures (de 4 h 39 UTC à 18 h 38 UTC), la firme de Redmond a connu des bogues sur ses services d’accès cloud empêchant les utilisateurs de se connecter aux services Office 365, Azure, Dynamics et d’autres services en utilisant Azure Active Directory (Azure AD). Le problème a commencé lorsque l’équipe de gestion de l’authentification multifacteurs (Multi-Factor Authentication abrégé MFA en anglais) a effectué des changements dans Azure Active Directory afin de gérer plus efficacement les connexions aux services de mise en cache d’Azure AD, le service de gestion des identités et des accès du service cloud.

Ces services de mise en cache sont généralement utilisés pour améliorer la fiabilité et les performances d’Azure AD. Malheureusement, cette modification a introduit une latence accrue dans la communication de l’interface MFA avec ses services de cache. Ce problème a démarré avec une charge élevée une fois qu’un certain seuil de trafic est atteint. À la suite de ce premier problème, une situation de concurrence critique s’est créée lors du traitement des réponses par le serveur principal MFA, ce qui a déclenché une recirculation des processus du serveur frontal MFA entrainant par la même occasion une latence supplémentaire. En conséquence, le service MFA a commencé à ralentir le traitement des demandes, ce qui a dans un premier temps eu un impact sur les pays en développement d’Europe de l’Ouest (qui desservent le trafic dans les régions d’APAC et EMEA).

Après avoir sans succès tenté plusieurs mesures d’atténuation, l’équipe MFA d’Azure AD s’est résolue à rediriger le trafic vers les États-Unis. Cependant, le même problème de latence dans la communication de l’interface MFA avec ses services de cache s’est également posé une fois qu’un certain seuil de trafic a été dépassé. Les demandes d’authentification ont finalement commencé à expirer également avec les serveurs des États-Unis. Les ingénieurs ont donc redirigé le trafic vers les pays en développement d’Europe occidentale et poursuivi l’enquête.

À la suite de ce deuxième problème, un troisième problème résultant du second est survenu dans le back-end Azure MFA. Il a été provoqué par la situation de concurrence critique dans le serveur frontal et a entrainé une accumulation de processus. Les limites des ressources de back-end Azure MFA étant épuisées, la livraison des messages MFA aux clients a été empêchée.

Microsoft précise que le diagnostic de ces problèmes a été difficile à faire assez tôt, car les divers évènements ayant une incidence sur le service se chevauchaient et ne se manifestaient pas séparément. Cela a par ailleurs été accentué par les insuffisances de la télémétrie permettant d’identifier le problème du serveur principal. En effet, en l’absence de signaux/télémétries pour indiquer d’autres problèmes, l’équipe technique continuait de s’atteler à atténuer le problème de latence dans les serveurs frontaux MFA. Pendant ce temps, les pays en développement d’Europe de l’Ouest connaissaient encore des délais de traitement des demandes.

Nom : Azure-panne.png
Affichages : 2295
Taille : 63,0 Ko

Après avoir recherché et identifié les problèmes des serveurs principaux MFA, les ingénieurs de Microsoft ont intégralement restauré l’intégrité du service et maintenu l’incident ouvert pendant environ 48 heures afin de s’assurer que tous les services sont opérationnels dans leur intégralité.

À la suite de cet incident, Microsoft présente ses excuses à ses clients et promet de passer en revue ses procédures de mises à jour, ses outils de surveillance pour détecter les problèmes de publication immédiatement ainsi que ses services de surveillance pour assurer une résilience plus rapide en cas d’occurrence d’un éventuel problème.

Source : Microsoft Azure

Et vous ?

Quel est votre avis sur la gestion de cet incident par Microsoft ?

Cet incident pourrait-il vous faire douter des services cloud de Microsoft ?

Ou plutôt, estimez-vous que cela ne remettra aucunement en cause les compétences et services de l’entreprise ?

Voir aussi

Microsoft Azure prend en charge NVIDIA GPU Cloud pour les projets de Deep Learning et HPC, une solution qui permet d’exploiter la puissance des GPU
Microsoft annonce la disponibilité générale d’Azure IoT Edge, son service cloud entièrement géré qui a été en beta pendant près d’un an
Microsoft Azure : une stratégie axée sur l’innovation, l’accompagnement et l’ouverture, un entretien avec les responsables de Microsoft France
Microsoft Azure s’enrichit de nouveaux services : Premium Storage, RemoteApp, Live Media Streaming, mise à jour de SQL Database et bien plus
Microsoft dévoile Windows Azure for Research, sa nouvelle initiative destinée à séduire les enseignants, étudiants et chercheurs