Plus tôt ce mois-ci, Google Cloud a connu l’une de ses plus grosses erreurs lorsque UniSuper, un fonds de pension australien de 135 milliards de dollars, a vu son compte Google Cloud effacé en raison d’une erreur de la part de Google. À l’époque, UniSuper avait indiqué avoir perdu tout ce qu’il avait stocké chez Google, même ses sauvegardes, ce qui avait provoqué deux semaines d’arrêt pour ses 647 000 membres. Il y a eu des déclarations conjointes du PDG de Google Cloud et du PDG d’UniSuper à ce sujet, de nombreuses excuses et probablement beaucoup de clients inquiets qui se demandaient si leur fonds de retraite avait disparu.
Immédiatement après, l’explication que nous avons obtenue était que « la perturbation résultait d’une séquence d’événements sans précédent au cours de laquelle une mauvaise configuration par inadvertance lors de la fourniture des services de cloud privé d’UniSuper a finalement entraîné la suppression de l’abonnement au cloud privé d’UniSuper ». Deux semaines plus tard, l’examen interne du problème par Google Cloud est terminé et la société publie un article de blog détaillant ce qui s’est passé.
Google a un « TL;DR » en haut du message, et il semble qu’un employé de Google ait fait une mauvaise saisie.
Lors du déploiement initial d’un cloud privé Google Cloud VMware Engine (GCVE) pour le client à l’aide d’un outil interne, une mauvaise configuration par inadvertance du service GCVE par les opérateurs de Google s’est produite en raison du fait de laisser un paramètre vide. Cela a eu pour conséquence involontaire et alors inconnue de mettre par défaut le GCVE Private Cloud du client pour une durée déterminée, avec suppression automatique à la fin de cette période. Le déclencheur de l’incident et le comportement du système en aval ont tous deux été corrigés pour garantir que cela ne se reproduise plus.
La chose la plus choquante dans la bévue de Google a été la suppression soudaine et irréversible d’un compte client. Ne devrait-il pas y avoir des protections, des notifications et des confirmations en place pour ne jamais supprimer accidentellement quelque chose ? Google dit qu’il y en a, mais ces avertissements concernent un « suppression initiée par le client » et n’a pas fonctionné lors de l’utilisation de l’outil d’administration. Google déclare : » Aucune notification client n’a été envoyée car la suppression a été déclenchée suite à un paramètre laissé vide par les opérateurs de Google utilisant l’outil interne, et non à cause d’une suppression de client. demande. Toute suppression initiée par le client aurait été précédée d’une notification au client. »
Au cours de ses nombreuses mises à jour pendant les temps d’arrêt, UniSuper a indiqué qu’il n’avait pas accès aux sauvegardes Google Cloud et qu’il devait accéder à un magasin tiers (vraisemblablement moins à jour) pour être à nouveau opérationnel. Dans la frénésie de la période de reprise, UniSuper a déclaré que « UniSuper avait une duplication dans deux zones géographiques pour se protéger contre les pannes et les pertes. Cependant, lorsque la suppression de l’abonnement au cloud privé d’UniSuper s’est produite, cela a provoqué la suppression dans ces deux zones géographiques… UniSuper des sauvegardes ont été mises en place auprès d’un fournisseur de services supplémentaire. Ces sauvegardes ont minimisé la perte de données et amélioré considérablement la capacité d’UniSuper et de Google Cloud à terminer la restauration.
Dans son autopsie, Google déclare désormais : « Les sauvegardes de données stockées dans Google Cloud Storage dans la même région n’ont pas été affectées par la suppression et, avec les logiciels de sauvegarde tiers, ont joué un rôle déterminant dans la restauration rapide. » Il est difficile de concilier ces deux affirmations, surtout avec la période de récupération de deux semaines. Le but d’une sauvegarde est d’être restaurée rapidement ; Ainsi, soit les sauvegardes d’UniSuper n’ont pas été supprimées et n’ont pas été efficaces, entraînant deux semaines de temps d’arrêt, soit elles auraient été efficaces si elles n’avaient pas été partiellement ou complètement effacées.
Google a souligné à plusieurs reprises dans son message que ce problème affectait un seul client, ne s’était jamais produit auparavant, ne devrait plus jamais se reproduire et ne constituait pas un problème systémique avec Google Cloud. Voici l’intégralité de la section « remédiation » de l’article de blog :
Google Cloud a depuis pris plusieurs mesures pour garantir que cet incident ne se reproduise plus, notamment :
- Nous avons déprécié l’outil interne qui a déclenché cette séquence d’événements. Cet aspect est désormais entièrement automatisé et contrôlé par les clients via l’interface utilisateur, même lorsqu’une gestion spécifique des capacités est requise.
- Nous avons nettoyé la base de données système et examiné manuellement tous les cloud privés GCVE pour nous assurer qu’aucun autre déploiement GCVE n’est menacé.
- Nous avons corrigé le comportement du système qui définit les cloud privés GCVE pour la suppression pour de tels workflows de déploiement.
Google dit que Cloud a toujours « des garanties en place avec une combinaison de suppression logicielle, de notification préalable et d’intervention humaine, le cas échéant, » et cela a confirmé que ces garanties fonctionnent toujours.