CrowdStrike attribue le bug à l’origine de la panne mondiale à un logiciel de test défectueux

CrowdStrike a imputé à un logiciel de test défectueux une mise à jour boguée qui a fait planter 8,5 millions de machines Windows dans le monde, a-t-il écrit dans un rapport post-incident (PIR). « En raison d’un bug dans le validateur de contenu, l’un des deux [updates] « Le système a passé la validation malgré le fait qu’il contenait des données problématiques », a déclaré l’entreprise. Elle a promis une série de nouvelles mesures pour éviter que le problème ne se reproduise.

La panne massive de l’écran bleu de la mort (BSOD) a touché de nombreuses entreprises dans le monde, notamment des compagnies aériennes, des diffuseurs, la Bourse de Londres et bien d’autres. Le problème a forcé les machines Windows à démarrer en boucle, les techniciens ayant besoin d’un accès local aux machines pour récupérer (les machines Apple et Linux n’ont pas été affectées). De nombreuses entreprises, comme Delta Airlines, sont toujours en train de récupérer.

Pour prévenir les attaques DDoS et autres types d’attaques, CrowdStrike dispose d’un outil appelé Falcon Sensor. Il est livré avec un contenu qui fonctionne au niveau du noyau (appelé Contenu du capteur) qui utilise un « Type de modèle » pour définir la manière dont il se défend contre les menaces. Si quelque chose de nouveau arrive, il fournit un « Contenu de réponse rapide » sous la forme d’« Instances de modèle ».

Un type de modèle pour un nouveau capteur a été publié le 5 mars 2024 et a fonctionné comme prévu. Cependant, le 19 juillet, deux nouvelles instances de modèle ont été publiées et l’une d’elles (d’une taille de seulement 40 Ko) a réussi la validation malgré des « données problématiques », a déclaré CrowdStrike. « Une fois reçues par le capteur et chargées dans l’interpréteur de contenu, [this] a entraîné une lecture de mémoire hors limites déclenchant une exception. Cette exception inattendue n’a pas pu être gérée correctement, ce qui a entraîné un blocage du système d’exploitation Windows (BSOD). »

Pour éviter que l’incident ne se reproduise, CrowdStrike a promis de prendre plusieurs mesures. La première consiste à tester plus en profondeur le contenu de Rapid Response, notamment les tests des développeurs locaux, les tests de mise à jour et de restauration du contenu, les tests de stress, les tests de stabilité, etc. CrowdStrike ajoute également des contrôles de validation et améliore la gestion des erreurs.

En outre, l’entreprise va commencer à utiliser une stratégie de déploiement échelonnée pour le contenu de réponse rapide afin d’éviter une répétition de la panne mondiale. Elle offrira également aux clients un meilleur contrôle sur la diffusion de ce contenu et fournira des notes de publication pour les mises à jour.

Certains analystes et ingénieurs estiment cependant que l’entreprise aurait dû mettre en place de telles mesures dès le départ. « CrowdStrike devait savoir que ces mises à jour sont interprétées par les pilotes et pourraient entraîner des problèmes », explique l’ingénieur Florian Roth. posté sur X« Ils auraient dû mettre en œuvre une stratégie de déploiement échelonné pour le contenu de réponse rapide dès le début. »

Source-145