Microsoft a révélé ses premières conclusions sur ce qui, selon lui, a causé une panne majeure récente qui a affecté certaines de ses offres logicielles les plus populaires.
La panne a vu les travailleurs à travers l’Europe et l’Asie incapables de se connecter aux services Microsoft 365 pendant plusieurs heures, avec Microsoft Teams, Outlook, OneDrive for Business, Exchange Online et SharePoint tous affectés.
Après avoir initialement identifié « un changement de routage de réseau étendu (WAN) » comme le coupable, Microsoft a maintenant publié les résultats (s’ouvre dans un nouvel onglet) de son enquête initiale sur la panne, révélant que les choses étaient en fait un peu compliquées que cela.
La panne de Microsoft Teams expliquée
« Entre 07 h 05 UTC et 12 h 43 UTC le 25 janvier 2023, les clients ont rencontré des problèmes de connectivité réseau, se manifestant par une longue latence du réseau et/ou des délais d’attente lorsqu’ils tentaient de se connecter à des ressources hébergées dans des régions Azure, ainsi qu’à d’autres services Microsoft, notamment Microsoft 365 et Power Platform », note le rapport de la société.
« Nous avons déterminé qu’une modification apportée au réseau étendu (WAN) de Microsoft avait un impact sur la connectivité entre les clients sur Internet vers Azure, la connectivité entre les régions, ainsi que la connectivité inter-sites via ExpressRoute. »
« Dans le cadre d’un changement prévu pour mettre à jour l’adresse IP sur un routeur WAN, une commande donnée au routeur l’a amené à envoyer des messages à tous les autres routeurs du WAN, ce qui les a tous amenés à recalculer leurs tables de contiguïté et de transfert. Pendant ce processus de recalcul, les routeurs n’ont pas été en mesure de transférer correctement les paquets qui les traversent. La commande à l’origine du problème a des comportements différents sur différents périphériques réseau et la commande n’a pas été vérifiée à l’aide de notre processus de qualification complet sur le routeur sur lequel elle était réalisé. »
Microsoft a déclaré que dans l’ensemble, il avait été en mesure d’identifier le problème en une heure et que tous ses équipements de réseau interne étaient revenus à la normale en deux heures et demie.
Afin d’éviter que le même problème ne se reproduise à l’avenir, Microsoft affirme avoir « bloqué l’exécution de commandes très percutantes sur les appareils ». La société travaille également sur l’ajout d’une nouvelle exigence pour que toutes les exécutions de commandes sur ses appareils suivent les directives de changement en toute sécurité.