Pour la troisième fois ce mois-ci, AWS a subi aujourd’hui une panne dans l’un de ses centres de données. Ce matin, une panne de courant dans sa région US-EST-1 a affecté des services comme Slack, Asana, Epic Games et d’autres.
Les problèmes ont commencé vers 7 h 30 HE et l’effet d’entraînement de ces problèmes continue d’affecter le service à partir de 13 h HE, car AWS continue de signaler des problèmes avec un certain nombre de services dans cette région, en particulier son service de calcul EC2 et fonctions de mise en réseau connexes. Plus récemment, le service d’authentification unique dans cette région a également commencé à enregistrer des taux d’erreur accrus.
« Nous pouvons confirmer une perte de puissance dans un seul centre de données dans une seule zone de disponibilité (USE1-AZ4) dans la région US-EAST-1 », a expliqué la société dans une mise à jour à 8 h HE. « Cela affecte la disponibilité et la connectivité aux instances EC2 qui font partie du centre de données affecté dans la zone de disponibilité affectée. Nous rencontrons également des taux d’erreur d’API RunInstance élevés pour les lancements dans la zone de disponibilité affectée. La connectivité et l’alimentation d’autres centres de données dans la zone de disponibilité affectée, ou d’autres zones de disponibilité dans la région US-EAST-1 ne sont pas affectées par ce problème, mais nous vous recommandons de ne pas vous éloigner de la zone de disponibilité affectée (USE1-AZ4) si vous sont capables de le faire.
Si cela avait été la seule panne d’AWS ces dernières semaines, cela aurait été à peine notable. Compte tenu de la complexité des hyper clouds modernes, des pannes sont inévitables de temps en temps. Mais les pannes sont actuellement une occurrence hebdomadaire pour AWS. Le 7 décembre, la même région US-EAST-1 est tombée en panne pendant des heures en raison d’un problème de réseau. Puis, le 17 décembre, une panne qui a affecté la connectivité entre deux de ses régions de la côte ouest a interrompu des services comme Netflix, Slack et le propre Ring d’Amazon. Pour ajouter l’insulte à l’injure, toutes ces pannes se sont produites peu de temps après qu’AWS ait vanté la résilience de son cloud lors de sa conférence re:Invent plus tôt ce mois-ci.
Idéalement, bien sûr, aucune de ces pannes ne se produirait jamais et il existe des moyens pour les utilisateurs AWS de s’en protéger en concevant leurs systèmes pour basculer vers une région géographiquement séparée – mais cela peut ajouter des coûts importants, donc certains décident que le le compromis entre temps d’arrêt et coût n’en vaut pas la peine. En fin de compte, c’est sur AWS de fournir une plate-forme stable. Et bien qu’il soit difficile de dire si l’entreprise n’a qu’une série de malchance ou s’il y a des problèmes systématiques qui ont conduit à ces problèmes, si j’hébergeais un service dans la région US-EST-1 en ce moment, je probablement au moins envisager de le déplacer ailleurs.