CrowdStrike accuse des bugs de test d’être à l’origine de la mise à jour de sécurité qui a mis hors service 8,5 millions de PC Windows

Agrandir / Le logiciel de sécurité Falcon de CrowdStrike a fait tomber jusqu’à 8,5 millions de PC Windows au cours du week-end.

Grève de foule

L’entreprise de sécurité CrowdStrike a publié un rapport préliminaire post-incident sur la mise à jour ratée de son logiciel de sécurité Falcon qui a provoqué le crash de pas moins de 8,5 millions de PC Windows au cours du week-end, retardant les vols, perturbant les systèmes d’intervention d’urgence et provoquant généralement des ravages.

L’article détaillé explique exactement ce qui s’est passé : juste après minuit, heure de l’Est, CrowdStrike a déployé « une mise à jour de configuration de contenu » pour permettre à son logiciel de « collecter des données de télémétrie sur d’éventuelles nouvelles techniques de menace ». CrowdStrike indique que ces mises à jour de contenu à réponse rapide sont testées avant d’être déployées, et l’une des étapes consiste à vérifier les mises à jour à l’aide d’un outil appelé Content Validator. Dans ce cas, « un bug dans le Content Validator » n’a pas réussi à détecter les « données de contenu problématiques » dans la mise à jour responsable du plantage des systèmes.

CrowdStrike a annoncé qu’elle modifiait ses processus de test et de déploiement pour éviter qu’une telle situation ne se reproduise. L’entreprise prévoit notamment d’ajouter des « contrôles de validation supplémentaires au Content Validator » et d’ajouter des niveaux de test supplémentaires à son processus.

Le plus grand changement sera probablement « une stratégie de déploiement échelonnée pour le contenu à réponse rapide » à l’avenir. Dans un système de déploiement échelonné, les mises à jour sont initialement publiées sur un petit groupe de PC, puis la disponibilité est progressivement étendue une fois qu’il devient clair que la mise à jour ne cause pas de problèmes majeurs. Microsoft utilise un déploiement échelonné pour les mises à jour de sécurité et de fonctionnalités Windows après quelques problèmes majeurs pendant l’ère Windows 10. À cette fin, CrowdStrike « améliorera la surveillance des performances des capteurs et du système » pour aider à « guider un déploiement échelonné ».

CrowdStrike indique qu’il offrira également à ses clients davantage de contrôle sur le moment où les mises à jour de Rapid Response Content sont déployées, afin que les mises à jour qui mettent hors service des millions de systèmes ne soient pas déployées à minuit (par exemple), lorsque moins de personnes sont présentes pour remarquer ou réparer les problèmes. Les clients pourront également s’abonner aux notes de publication concernant ces mises à jour.

La récupération des systèmes affectés est en cours. Redémarrer les systèmes plusieurs fois (jusqu’à 15 fois, selon Microsoft) peut leur donner suffisamment de temps pour récupérer un nouveau fichier de mise à jour non endommagé avant qu’ils ne plantent, résolvant ainsi le problème. Microsoft a également créé des outils qui peuvent démarrer les systèmes via USB ou un réseau afin que le fichier de mise à jour défectueux puisse être supprimé, ce qui permet aux systèmes de redémarrer normalement.

En plus de ce rapport d’incident préliminaire, CrowdStrike indique qu’il publiera « l’analyse complète des causes profondes » une fois l’enquête sur le problème terminée.

Source-147