IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Actualités Discussion :

Première panne mondiale de 11 heures pour Microsoft Azure

  1. #21
    Expert confirmé Avatar de AoCannaille
    Inscrit en
    Juin 2009
    Messages
    1 420
    Détails du profil
    Informations forums :
    Inscription : Juin 2009
    Messages : 1 420
    Points : 4 765
    Points
    4 765
    Par défaut
    Citation Envoyé par Matthieu Vergne Voir le message
    DVP c'est pas People à ce que je sache. Le sujet peu intéresser, mais faites un minimum d'effort pour trouver des questions intelligentes.{'-_-}
    Je t'en prie, fait un article, tu en a le droit et les capacités

  2. #22
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 914
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 914
    Points : 206 636
    Points
    206 636
    Par défaut Microsoft a achevé son enquête sur la panne qu'a connu son service Cloud en novembre dernier
    Microsoft a achevé son enquête sur la panne qu'a connu son service Cloud en novembre dernier,
    l'erreur serait humaine

    Microsoft a publié les détails sur son analyse de la cause de la panne rencontrée par Azure en novembre dernier qui a débuté le 18 novembre et a duré pendant deux jours dans certaines régions, interrompant ainsi la quasi-totalité des services. C’est le vice-président de l’équipe responsable d’Azure, Jason Zander, qui va apporter des éclaircissements au public : « le 18 novembre 2014, nombreux sont les utilisateurs Microsoft Azure qui ont été confrontés à une interruption des services qui a eu un impact sur Azure Storage et de nombreux autres services, parmi lesquels Virtual Machines ».

    « Aujourd’hui nous partageons notre dernière RCA (Route Cause Analysis), qui comporte un aperçu complet des mesures que nous avons prises pour atténuer cette situation dans le cas où elle devrait se reproduire, ainsi que les mesures que nous prenons pour améliorer nos communications et les réponses du support [technique]. Nous nous excusons sincèrement et nous reconnaissons l'impact significatif que cette interruption de service a pu avoir sur vos applications et services ».

    Qu’a donc révélé la RCA ? Tout d’abord il faut savoir comment est effectué le déploiement Microsoft Azure Storage. « Il existe deux types de déploiements d’Azure Storage : les déploiements de logiciels (c’est-à-dire la publication de code) et les déploiements de configuration (c‘est à dire le changement des paramètres). Les déploiements logiciels et de configuration exigent tous les deux de multiples étapes de validation et sont progressivement déployés dans l'infrastructure Azure en petits lots. Cette approche de déploiement progressif est appelée ‘flighting’. Quand ils sont en cours, nous opérons des contrôles de près. Comme l'utilisation continue et les tests ont apporté des résultats satisfaisants, nous avons déployé le changement dans une tranche supplémentaire dans l'infrastructure Azure Storage ».

    Mais d’où est venu le problème ? Comme Zander l’a expliqué, Microsoft procède habituellement à un test avant chaque mise à jour de ses services Cloud sur quelques serveurs, de façon à repérer les éventuels problèmes de changement de configuration. Pourtant, cette fois-ci, l’ingénieur responsable de la résolution des problèmes de performances du stockage Azure Table a cru que parce que le changement était déjà passé par un ‘flighting’ sur une portion de la production pendant plusieurs semaines, l’activer à l’échelle de l’infrastructure représentait un faible risque. Malheureusement, l'outillage de configuration n'a pas eu une bonne application de cette politique de déployer progressivement le changement à travers l'infrastructure. Il s'avère que cette configuration contenait un bug ayant eu pour effet de faire entrer le service de stockage dans une boucle sans fin, empêchant toute communication avec les autres composants du système. Rapidement identifié, le problème a été résolu par la publication de correctifs.

    « Microsoft Azure a des directives opérationnelles claires, mais il y avait une lacune dans l'outillage de déploiement dépendant de décisions humaines », a indiqué Jason Zander. Ce n'est pas la première fois que le service Cloud de Microsoft est perturbé par une erreur humaine : en février 2013, un certificat de sécurité expiré avait notamment provoqué une panne majeure d'Azure. Quoi qu’il en soit, pour s’assurer que ce type d’incident ne se reproduise pas, Microsoft a déclaré avoir « sorti une mise à jour à notre outillage de système de déploiement pour faire respecter le test ci-dessus et les politiques sur le Flighting des mises à jour standards qu’il s’agisse d’un déploiement logiciel ou de configuration ».

    Source : Azure

  3. #23
    Membre éprouvé
    Avatar de Gecko
    Homme Profil pro
    Développeur décisionnel
    Inscrit en
    Décembre 2008
    Messages
    499
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Développeur décisionnel

    Informations forums :
    Inscription : Décembre 2008
    Messages : 499
    Points : 1 277
    Points
    1 277
    Par défaut
    Ce serait bien d'avoir des news, des vrais et pas un pavé passé sur google translate et corrigé à l'arrache...

    La qualité des news sur DVP est de plus en plus décevante, c'est triste pour la première communauté de dev fancophones.

  4. #24
    Membre éprouvé

    Profil pro
    Inscrit en
    Novembre 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Novembre 2009
    Messages : 506
    Points : 1 291
    Points
    1 291
    Par défaut
    Citation Envoyé par Gecko Voir le message
    ...pas un pavé passé sur google translate et corrigé à l'arrache...
    Oui cela fait mal aux yeux

  5. #25
    Rédacteur
    Avatar de imikado
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Décembre 2006
    Messages
    5 239
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Finance

    Informations forums :
    Inscription : Décembre 2006
    Messages : 5 239
    Points : 19 098
    Points
    19 098
    Billets dans le blog
    17
    Par défaut
    Effectivement:
    Pourtant, cette fois-ci, l’ingénieur responsable de la résolution des problèmes de performances du stockage Azure Table a cru que parce que le changement était déjà passé par un ‘flighting’ sur une portion de la production pendant plusieurs semaines, l’activer à l’échelle de l’infrastructure représentait un faible risque.
    C'est une erreur humaine, mais le plus grave, c'est l'exhaustivité des tests qui ont laissé passer le bug

  6. #26
    Expert confirmé

    Homme Profil pro
    Développeur .NET
    Inscrit en
    Novembre 2010
    Messages
    2 066
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Novembre 2010
    Messages : 2 066
    Points : 4 233
    Points
    4 233
    Par défaut
    Quoiqu’il en soit, pour s’assurer que ce type d’incident ne se reproduise pas, Microsoft a déclaré avoir « sorti une mise à jour à notre outillage de système de déploiement pour faire respecter le test ci-dessus et les politiques sur le Flighting des mises à jour standards, qu’il s’agisse d’un déploiement logiciel ou de configuration
    Et licencié le technicien n'effectuant pas les tests Nom : 0032003202400992-c1-photo-maitre-capello.jpg
Affichages : 649
Taille : 1,4 Ko

  7. #27
    Expert éminent
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2007
    Messages
    2 161
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2007
    Messages : 2 161
    Points : 7 952
    Points
    7 952
    Par défaut
    Citation Envoyé par youtpout978 Voir le message
    Et licencié le technicien n'effectuant pas les tests Nom : 0032003202400992-c1-photo-maitre-capello.jpg
Affichages : 649
Taille : 1,4 Ko
    Suivant le principe de Peter, il n'est pas impossible qu'il ait été promu

  8. #28
    Membre éprouvé

    Homme Profil pro
    Développeur PHP/Symfony // Mentor OpenClassrooms
    Inscrit en
    Octobre 2014
    Messages
    203
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Hautes Alpes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur PHP/Symfony // Mentor OpenClassrooms
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Octobre 2014
    Messages : 203
    Points : 1 264
    Points
    1 264
    Billets dans le blog
    3
    Par défaut
    Je suis vraiment sur le c** de voir que tout les problèmes rencontrés suite à ce bug lancé par un tech en mousse soit passé inaperçu pendant autant de temps ... Si une promotion est donnée à cet incompétent, je vote pour un latage de g***** en règle

  9. #29
    Expert confirmé Avatar de AoCannaille
    Inscrit en
    Juin 2009
    Messages
    1 420
    Détails du profil
    Informations forums :
    Inscription : Juin 2009
    Messages : 1 420
    Points : 4 765
    Points
    4 765
    Par défaut
    Moi cette histoire de faute humaine me fait doucement rire...

    Les logiciels ne se codant pas tout seul l'erreur est forcément humaine in fine.

    Comme dans ces accidents d'avions où l'ont déclare les pilotes responsables (même si c'est probablement vrai) pour pas entacher la confiance générale envers les voyages en Avions. Ils ont bon dos les pilotes, à 3000m sous la mer...

  10. #30
    Rédacteur
    Avatar de imikado
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Décembre 2006
    Messages
    5 239
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 42
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Finance

    Informations forums :
    Inscription : Décembre 2006
    Messages : 5 239
    Points : 19 098
    Points
    19 098
    Billets dans le blog
    17
    Par défaut
    Attention, ils ne rejettent pas l'erreur sur l'humain pour le bug, ce qui est forcément humain mais sur l'initiative de la mise en production sans réel test

  11. #31
    Expert éminent

    Homme Profil pro
    Retraité
    Inscrit en
    Septembre 2002
    Messages
    2 174
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 73
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Septembre 2002
    Messages : 2 174
    Points : 6 490
    Points
    6 490
    Billets dans le blog
    2
    Par défaut
    Maintenant, j'ai connu un peu la même chose chez FT/Orange : la mise à niveau d'un Serveur IBM AIX.

    Tout avait été testé, les patchs avaient été déposé à l'endroit habituel. J'ai suivi toute la procédure de A à Z. Mais comme les tests s'étaient bien passés, ils ont supprimés certains contrôles de sécurité ... dommage.

    Résultat, les patchs se sont mal copiés sur le serveur de patch et l'un d'entre eux était vérolé. Résultat, il a fallu 6 heures (quasiment tout le reste de la nuit) pour tout remettre en ordre de marche sur une application indispensable pour tout le grand-ouest de la France.

    Faute humaine, certes (suppression des procédures de sécurité pour gagner du temps) + une dose de Murphy. Ça s'est bien terminé, mais l'expert de l'application + un expert AIX ont été obligés de revenir en urgence (en dehors des heures ouvrées ... forcément).

    La différence avec Azure est que, même dans les heures ouvrées, ça n'aurait touché qu'un cinquième de France Télécom. Ça a été transparent pour l'utilisateur, mais on a quand même eu chaud.

  12. #32
    Expert confirmé Avatar de AoCannaille
    Inscrit en
    Juin 2009
    Messages
    1 420
    Détails du profil
    Informations forums :
    Inscription : Juin 2009
    Messages : 1 420
    Points : 4 765
    Points
    4 765
    Par défaut
    Citation Envoyé par imikado Voir le message
    mais sur l'initiative de la mise en production sans réel test
    C'est ce qu'ils annoncent. ça a peut être été testé selon le cahier des charges de 'crosoft et c'est passé quand même. la clef de l'info est : "Microsoft a publié les détails sur son analyse "
    C'est microsoft qui communique sur les résultat de leur propre analyse, ce n'est pas une société d'audit externe. Bref, je ne vois aucune raison pour ne pas remettre en cause l'origine du bug, C'est de la propagande classique finalement "Oui oui, on a fait une erreur, mais ça n'aurait pas du se produire, ça ne se reproduira plus"... Enfin, c'est déjà mieux que la politique Apple qui par défaut nie tout en bloc

  13. #33
    Membre émérite
    Avatar de fiftytwo
    Homme Profil pro
    DevOps
    Inscrit en
    Novembre 2009
    Messages
    713
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Pologne

    Informations professionnelles :
    Activité : DevOps

    Informations forums :
    Inscription : Novembre 2009
    Messages : 713
    Points : 2 662
    Points
    2 662
    Par défaut
    Bon au final autant jadore aws et azure , autant je vois que les boites nont rien compris au cloud ! Tu veux un systeme avec des SLA de 99.99% et de la redondance etc ... le tout sans payer trop cher (services + humains) pour faire tourner des applications critiques !

Discussions similaires

  1. Réponses: 23
    Dernier message: 06/09/2009, 22h21
  2. Champ heure pour fermeture
    Par Renardo dans le forum Access
    Réponses: 8
    Dernier message: 21/08/2006, 09h35
  3. [COM] PHP et COM pour Microsoft Word
    Par lhulard dans le forum Bibliothèques et frameworks
    Réponses: 1
    Dernier message: 16/05/2006, 20h02
  4. Critère sur l'heure pour Sql
    Par samlepiratepaddy dans le forum Requêtes et SQL.
    Réponses: 3
    Dernier message: 30/11/2005, 15h33
  5. Réponses: 2
    Dernier message: 04/11/2005, 08h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo