Un bug oblige Intel à interrompre certaines expéditions de Xeon Sapphire Rapids

Intel a confirmé avoir suspendu les livraisons de certains de ses processeurs Xeon Sapphire Rapids de quatrième génération en raison d’un bogue récemment découvert. Nous avons reçu un conseil indiquant qu’Intel avait suspendu les expéditions, et suite à cela, nous avons appris plusieurs détails sur le problème de Dylan Patel, analyste en chef chez SemiAnalysis, qui affirme que les expéditions ont été interrompues pour certains SKU depuis la mi-juin. Nous avons également suivi Intel à ce sujet, et la société a publié la déclaration suivante pour Le matériel de Tom:

« Nous avons pris connaissance d’un problème sur un sous-ensemble de processeurs Intel Xeon Medium Core Count (SPR-MCC) de 4e génération qui pourrait interrompre le fonctionnement du système dans certaines conditions et nous enquêtons activement. Ce problème n’a pas été observé lors de l’exécution de logiciels disponibles dans le commerce, et d’autres Les références de processeurs Intel Xeon de 4e génération (c’est-à-dire XCC et HBM) n’ont pas présenté le problème. Par prudence, nous avons temporairement interrompu certaines expéditions de SPR MCC pendant que nous gagnions confiance dans l’atténuation attendue du micrologiciel et prévoyons de publier les expéditions restantes sous peu. . » — Porte-parole d’Intel à Matériel de Tom.

En réponse à une question de suivi, Intel nous a également dit qu’il ne s’attend pas à ce que l’atténuation du micrologiciel ait un impact sur les performances.

Les processeurs Sapphire Rapids d’Intel, souvent retardés, sont créés à l’aide de deux types de conceptions sous-jacentes : le package XCC, qui utilise quatre tuiles de calcul (puce) pour créer une seule puce, et le package MCC, qui utilise une seule puce monolithique. Comme le montrent les diapositives ci-dessus, la conception MCC est utilisée pour les puces jusqu’à 32 cœurs, qui sont la source de gros volumes de ventes pour Intel, tandis que les variantes XCC sont utilisées pour les puces halo entre 36 et 60 cœurs.

« Intel a été confronté à une autre série de problèmes de conception liés à Sapphire Rapids MCC, la version la plus volumineuse de Sapphire Rapids. Les SKU à 2 et 4 sockets ont interrompu les livraisons en raison d’un problème de calendrier depuis la mi-juin », a déclaré Patel.

Intel n’a pas confirmé que le problème se limite aux SKU à double et quadruple socket, classant plutôt ce problème comme limité à un « sous-ensemble » des SKU, et n’a pas indiqué quand la pause dans les livraisons a commencé. Intel n’a pas non plus confirmé les affirmations de Patel selon lesquelles le bogue est lié au timing, ni nous a donné des éclaircissements sur la nature du problème.

Un problème de synchronisation peut consister en un certain nombre de possibilités allant de l’interconnexion UPI aux problèmes de synchronisation des instructions, de sorte que la véritable nature du bogue reste nébuleuse pour l’instant. Nous savons qu’Intel peut corriger le problème avec un correctif de micrologiciel qui reste apparemment en cours de validation pour le moment, de sorte que le problème ne nécessitera pas de refonte ou de nouvelle révision/pas à pas pour le résoudre. De plus, étant donné que le nouveau micrologiciel est une solution adéquate, Intel pourrait ne pas être tenu de remplacer les processeurs déjà sur le terrain, bien que cela puisse poser un casse-tête de validation à ses clients.

Intel a reçu de nombreuses critiques non seulement pour ses faux pas sur la technologie des nœuds de processus pour les Sapphire Rapids souvent retardés, mais aussi pour les problèmes de sa méthodologie de conception et de validation qui ont entraîné de nouveaux retards et de nombreuses nouvelles étapes (une refonte généralement mineure qui nécessite une nouvelle version de silicium pour corriger un problème). Les Sapphire Rapids d’Intel ont été en proie à des rumeurs selon lesquelles ses erreurs de conception/vérification ont conduit à 12 étapes pour certaines configurations (un nombre anormalement élevé – la plupart des puces voient trois étapes au maximum). Naturellement, cela a entraîné de graves retards de production et des dates de lancement manquées.

La société a depuis annoncé qu’elle prévoyait d’adopter une approche différente de son flux de conception, de simulation et de validation qui corrigera ces problèmes. Intel affirme que ces ajustements entreront pleinement en vigueur dans la prochaine génération de processeurs Emerald Rapids Xeon.

Intel affirme que ce nouveau bogue Sapphire Rapids n’a pas été rencontré lors de « l’exécution d’un logiciel disponible dans le commerce » (il s’agissait peut-être d’une application personnalisée d’un hyperscaler), et il n’a évidemment pas été détecté lors de la validation. Ce type de situation n’est pas totalement inconnu ; presque toutes les puces complexes ont des errata et des bogues connus et inconnus qui sont résolus avec des solutions de contournement de micrologiciel, de pilote et de logiciel qui peuvent réduire ou éliminer ces problèmes, et elles sont livrées de cette façon – c’est la nature même de la conception et de la production de semi-conducteurs modernes.

Par exemple, la génération de processeurs Skylake d’Intel a été livrée avec 53 errata connus, et six mois plus tard, Intel a répertorié 40 autres errata. Un autre exemple est la découverte récente que les puces EPYC Rome d’AMD se bloquent après 1 044 jours de disponibilité. Certains bogues ne sont tout simplement pas corrigés, car ils ne sont pas jugés suffisamment critiques pour être corrigés, ou ils sont corrigés avec une combinaison de micrologiciel et de logiciel. Les bugs les plus critiques nécessitent parfois une nouvelle étape pour être corrigés, ce qui est le pire des cas. Heureusement pour Intel, cela ne semble pas être le cas ici.

Cependant, bien que les bogues ne soient pas rares, il est il est rare que ces types de bogues entraînent un arrêt des expéditions, ce qui implique qu’il s’agit de plus qu’un errata de variété de jardin. Intel n’a pas précisé quand il prévoyait de reprendre les livraisons de ses puces Sapphire Rapids MCC, mais nous mettrons à jour notre couverture au fur et à mesure que nous en apprendrons davantage.

Source-138