Intel a publié hier un nouveau pilote Linux qui a fait apparaître une nouvelle fonctionnalité intéressante pour les processeurs de serveur Sapphire Rapids. Cette fonctionnalité fait passer les contrôles d’intégrité et de fiabilité du silicium à un niveau supérieur et s’appelle In-Field Scan. Phoronix a repéré le nouveau pilote Linux et a souligné l’importance de la détection des défauts dans les processeurs de serveur avant le déploiement ou avant de travailler sur des tâches critiques.
Les serveurs proposent déjà des contrôles de parité ou ECC en tant que fonctionnalités standard pour la RAM, et il existe des contrôles similaires sur les données entrant et sortant du stockage, sur les réseaux, etc. Cependant, la nouvelle fonctionnalité In-Field Scan cible spécifiquement le processeur. Pour que le nouveau système In-Field Scan fonctionne, les processeurs Intel Sapphire Rapids Xeon auront des fonctions de vérification intégrées, et le pilote du noyau In-Field Scan fournira une interface utilisateur pour les vérifications.
Après avoir approfondi le logiciel, la publication source indique que le pilote Intel In-Field Scan peut lancer des tests complets du processeur. Il existe également un niveau de contrôle plus granulaire disponible, permettant de tester chaque cœur de processeur séparé. Ces résultats d’analyse sont ensuite enregistrés dans des fichiers journaux.
Lorsque In-Field Scan devient disponible, les constructeurs de systèmes ou les administrateurs peuvent l’exécuter avant de mettre en service un serveur, avant que des tâches critiques spécifiques ne soient exécutées sur le serveur, ou simplement selon un calendrier donné. Le pilote Linux est maintenant disponible, mais les fichiers de test spécifiques au processeur qui en révèlent plus sur les vérifications et les caractéristiques du processeur ne sont actuellement pas disponibles.
Pourquoi avons-nous besoin d’une analyse sur le terrain maintenant ?
Avec la croissance des centres de données massifs grâce à l’économie Internet, au streaming vidéo/jeux et au cloud computing, la gérabilité est de plus en plus importante pour le bon fonctionnement des serveurs. Par exemple, si des processeurs ou des cœurs spécifiques peuvent signaler eux-mêmes des erreurs, ils peuvent être facilement trouvés et échangés.
Un autre mouvement technologique qui pourrait faire de In-Field Scan un outil important est la course à l’ère Angstrom. À mesure que les caractéristiques des puces deviennent plus petites dans la recherche d’une densité, de performances et d’une efficacité plus élevées, elles deviennent plus sensibles aux erreurs connues et aux erreurs inexpliquées – parfois appelées erreurs logicielles.
Les erreurs logicielles peuvent se produire plus souvent dans nos puces les plus avancées en raison de la poussée de la physique et de la taille physique des transistors à leurs extrêmes.
Certains pensent que les erreurs ne proviennent peut-être pas des nouveaux processus de puces plus petites, mais simplement de la sensibilité de ces minuscules structures à la nature de l’univers (c’est-à-dire aux rayons cosmiques).
Il y a un an, la nouvelle a révélé que le véhicule d’exploration spatiale de pointe de la NASA, Mars Perseverance, exécutait le même processeur Power PC monocœur qui alimentait l’iMac Bondi Blue en 1998. En bref, la raison de cette technologie apparente L’inadéquation était que le RAD 750 (basé sur le PowerPC 750) était renforcé pour résister jusqu’à 1 000 000 Rads et des températures extrêmes. De plus, ses portes logiques de processus plus grandes étaient beaucoup moins sensibles aux interférences des rayons cosmiques que les processeurs modernes. Bien sûr, notre atmosphère réduit le rayonnement cosmique sur terre, mais il est toujours là.
Fait intéressant, Intel interpole la sensibilité aux erreurs de ses puces et circuits intégrés concernant les interférences des rayons cosmiques à l’aide d’un accélérateur de particules au Los Alamos Neutron Science Center.