Gremlin, la startup de tests de fiabilité la plus connue pour ses outils d’ingénierie du chaos, a annoncé aujourd’hui le lancement de sa fonctionnalité Risques détectés. Grâce à cela, Gremlin peut désormais identifier automatiquement les problèmes de fiabilité hautement prioritaires comme une mauvaise configuration ou de mauvaises valeurs par défaut dans les services basés sur Kubernetes, puis les classer en fonction de la gravité du risque qu’ils présentent. Le service suggérera également des correctifs potentiels.
« La fiabilité continue de gagner en importance », a déclaré Kolton Andrus, directeur technique et fondateur de Gremlin. « Notre infrastructure numérique est aussi importante que notre infrastructure physique. Le gouvernement, la santé, les transports, la communication et la finance dépendent tous de ce fondement numérique, et cela comporte des risques. Heureusement, bon nombre de ces risques sont simples à atténuer – s’ils sont connus. C’est pourquoi nous sommes ravis d’annoncer nos nouveaux risques détectés. Nous avons travaillé dur pour exposer rapidement les problèmes graves au sein des systèmes de nos clients, risques qu’ils peuvent ensuite atténuer pour améliorer qualitativement la situation de leurs systèmes.
Alors que les outils d’ingénierie du chaos de Gremlin recherchent des situations inhabituelles susceptibles de pousser l’infrastructure d’une entreprise à ses limites, Detected Risks utilise un ensemble de tests préconfigurés, et 20 autres seront prévus plus tard cette année. Ces tests vérifient les problèmes courants qui peuvent affecter la fiabilité et la résilience réelle de l’infrastructure d’une entreprise. Les risques détectés fonctionnent sans avoir à effectuer d’expériences d’ingénierie du chaos ou de tests de fiabilité.
Dans une large mesure, ces tests sont assez simples et résument les meilleures pratiques, comme s’assurer qu’un déploiement est configuré pour s’exécuter dans plusieurs zones de disponibilité afin de garantir la redondance. Cela peut sembler du bon sens, mais en examinant les milliers de déploiements exécutés par ses clients, Gremlin a constaté que 26 % n’avaient aucune redondance et que 80 % des déploiements n’avaient pas deux redondances. La société note que le système recherche également les erreurs de configuration courantes de Kubernetes qui pourraient affecter la mise à l’échelle automatique, par exemple.
« Notre secteur compte de nombreux SRE brillants qui travaillent dur pour atténuer personnellement ces problèmes, mais cette approche n’est pas applicable à l’échelle », a déclaré Andrus. « Nous résolvons ce problème en créant quelque chose de facile à utiliser qui fournit des informations précieuses sur des milliers d’applications du monde réel. Fournir aux dirigeants de l’ingénierie une visibilité sur les risques existants les aide à prioriser et à accomplir ce travail important afin qu’ils puissent continuer à protéger l’expérience client et à créer des logiciels de haute qualité.