Google a révélé plus d’informations sur ce qui s’est passé lorsqu’il a été contraint de fermer l’un de ses centres de données de Londres le jour le plus chaud de l’année au Royaume-Uni jusqu’à présent.
La panne de la zone « europe-west2-a » le mois dernier était, selon Google, due au non maintien d’une température de fonctionnement sûre en raison d’une panne simultanée de plusieurs systèmes de refroidissement redondants combinée à des températures extérieures « extraordinairement élevées ».
L’échec a affecté de nombreux services Google, notamment Google Compute Engine, Persistent Disk (PD) et Google Cloud Storage, entraînant des arrêts d’instance, une dégradation des services et des problèmes de mise en réseau.
Que s’est-il réellement passé ?
Les ingénieurs de Google ont mis hors tension le centre de données qui hébergeait une partie de la zone impactée Europe-ouest2-a pendant que le système de refroidissement était réparé
L’impact total sur les services cloud a été estimé à 18 heures et 23 minutes.
C’est une nouvelle assez inquiétante, en particulier compte tenu de la façon dont Google affirme que ces services régionaux sont « conçus pour survivre à l’échec d’une seule zone ».
Google a attribué l’erreur à la modification par inadvertance du routage du trafic pour les services internes afin d’éviter les trois zones de la région « europe-west2 », plutôt que la zone « europe-west2-a » impactée.
L’incident de routage a empêché les clients d’accéder aux données des services de stockage régionaux, y compris GCS et BigQuery, sur plusieurs zones.
Cela se reproduira-t-il ?
Des nouvelles comme celle-ci sont naturellement assez effrayantes si vous êtes préoccupé par le réchauffement climatique, car le Royaume-Uni pourrait bien connaître quelques jours encore plus chauds à l’avenir.
Heureusement, Google s’est engagé à empêcher que ces types de défaillances n’affectent à nouveau son hébergement cloud.
Celles-ci comprenaient la réparation et le nouveau test de son automatisation du basculement dans le but d’assurer une plus grande résilience dans ses protocoles de basculement lors d’événements à grande échelle tels que celui-ci.
Le géant du cloud s’est également engagé à étudier et à développer des « méthodes plus avancées » pour réduire progressivement la charge thermique dans un seul espace de centre de données, réduisant ainsi la probabilité qu’un arrêt complet soit nécessaire.
En outre, Google est censé examiner ses procédures, ses outils et ses systèmes de récupération automatisés pour détecter les lacunes et effectuera un audit de l’équipement et des normes du système de refroidissement dans les centres de données qui hébergent Google Cloud dans le monde.
- Vous souhaitez déplacer votre stockage loin des centres de données externes ? Consultez notre guide du meilleur stockage en métal nu