CrowdStrike a publié un rapport post-incident (PIR) de la mise à jour buggée qu’il a publiée et qui a fait tomber 8,5 millions de machines Windows la semaine dernière. Le post détaillé accuse un bug CrowdStrike a été accusé de ne pas avoir correctement validé la mise à jour de contenu qui a été déployée sur des millions de machines vendredi. CrowdStrike promet de tester plus en profondeur ses mises à jour de contenu, d’améliorer sa gestion des erreurs et de mettre en œuvre un déploiement échelonné pour éviter que ce désastre ne se reproduise.
Le logiciel Falcon de CrowdStrike est utilisé par des entreprises du monde entier pour lutter contre les logiciels malveillants et les failles de sécurité sur des millions de machines Windows. Vendredi, CrowdStrike a publié une mise à jour de configuration du contenu de son logiciel qui était censée « recueillir des données télémétriques sur d’éventuelles nouvelles techniques de menace ». Ces mises à jour sont diffusées régulièrement, mais cette mise à jour de configuration particulière a provoqué le blocage de Windows.
CrowdStrike publie généralement les mises à jour de configuration de deux manières différentes. Il existe ce qu’on appelle le contenu du capteur qui met directement à jour le capteur Falcon de CrowdStrike qui s’exécute au niveau du noyau dans Windows, et séparément, il existe le contenu de réponse rapide qui met à jour le comportement de ce capteur pour détecter les logiciels malveillants. Un petit fichier de contenu de réponse rapide de 40 Ko est à l’origine du problème de vendredi.
Les mises à jour du capteur réel ne proviennent pas du cloud et incluent généralement des modèles d’IA et d’apprentissage automatique qui permettront à CrowdStrike d’améliorer ses capacités de détection sur le long terme. Certaines de ces fonctionnalités incluent ce que l’on appelle les types de modèles, qui sont un code permettant une nouvelle détection et qui est configuré en fonction du type de contenu de réponse rapide distinct qui a été livré vendredi.
Du côté du cloud, CrowdStrike gère son propre système qui effectue des contrôles de validation sur le contenu avant sa publication afin d’éviter qu’un incident comme celui de vendredi ne se produise. CrowdStrike a publié deux mises à jour de contenu à réponse rapide la semaine dernière, ou ce qu’il appelle également des instances de modèle. « En raison d’un bug dans le validateur de contenu, l’une des deux instances de modèle a réussi la validation malgré le fait qu’elle contenait des données de contenu problématiques », explique CrowdStrike.
Bien que CrowdStrike effectue des tests automatisés et manuels sur le contenu des capteurs et les types de modèles, il ne semble pas effectuer autant de tests approfondis sur le contenu de réponse rapide qui a été livré vendredi. Un déploiement en mars de nouveaux types de modèles a donné « confiance aux contrôles effectués dans le validateur de contenu », de sorte que CrowdStrike semble avoir supposé que le déploiement du contenu de réponse rapide ne poserait pas de problèmes.
Cette hypothèse a conduit le capteur à charger le contenu problématique de Rapid Response dans son interpréteur de contenu et à déclencher une exception de mémoire hors limites. « Cette exception inattendue n’a pas pu être gérée correctement, ce qui a entraîné un blocage du système d’exploitation Windows (BSOD) », explique CrowdStrike.
Pour éviter que cela ne se reproduise, CrowdStrike promet d’améliorer ses tests de contenu à réponse rapide en utilisant des tests de développeurs locaux, des tests de mise à jour et de restauration du contenu, ainsi que des tests de stress, du fuzzing et de l’injection de pannes. CrowdStrike effectuera également des tests de stabilité et des tests d’interface de contenu sur Rapid Response Content.
CrowdStrike met également à jour son outil de validation de contenu basé sur le cloud pour mieux vérifier les versions de contenu à réponse rapide. « Une nouvelle vérification est en cours pour empêcher que ce type de contenu problématique ne soit déployé à l’avenir », déclare CrowdStrike.
Du côté des pilotes, CrowdStrike va « améliorer la gestion des erreurs existantes dans l’interpréteur de contenu », qui fait partie du capteur Falcon. CrowdStrike va également mettre en œuvre un déploiement échelonné de Rapid Response Content, garantissant que les mises à jour sont déployées progressivement sur des portions plus larges de sa base d’installation au lieu d’une diffusion immédiate sur tous les systèmes. Les améliorations des pilotes et les déploiements échelonnés ont été recommandés par les experts en sécurité ces derniers jours.