Lors du salon international des supercalculateurs (ISC 2022), HPE a présenté des systèmes lames qui alimenteront deux supercalculateurs exascale qui devraient être mis en ligne cette année : Frontier et Aurora. Malheureusement, HPE a dû utiliser du matériel sophistiqué et gourmand en énergie pour obtenir des performances informatiques sans précédent. Par conséquent, les deux machines utilisent un refroidissement liquide, mais même les blocs d’eau massifs ne peuvent pas cacher certaines particularités de conception intéressantes que les pales présentent.
Les supercalculateurs Frontier et Aurora sont construits par HPE à l’aide de son architecture Cray EX. Alors que les machines exploitaient respectivement le matériel AMD et Intel, elles utilisent des processeurs x86 hautes performances pour exécuter des tâches générales et des accélérateurs de calcul basés sur GPU pour exécuter des charges de travail de supercalcul et d’IA hautement parallèles.
Le supercalculateur Frontier s’appuie sur HPE Nœuds Cray EX235a (s’ouvre dans un nouvel onglet) alimenté par deux processeurs EPYC ‘Trento’ à 64 cœurs d’AMD dotés de la microarchitecture Zen 3 de la société améliorée avec 3D V-Cache et optimisée pour les horloges élevées. Les Frontier Blades sont également livrés avec huit des accélérateurs Instinct MI250X d’AMD (s’ouvre dans un nouvel onglet) avec 14 080 processeurs de flux et 128 Go de mémoire HBM2E. Chaque nœud offre des performances vectorielles maximales FP64/FP32 d’environ 383 TFLOPS et des performances maximales de matrice 765 FP64/FP32 d’environ 765 TFLOPS. Les processeurs et les GPU de calcul utilisés par la lame Frontier de HPE utilisent un système de refroidissement liquide unifié avec deux buses à l’avant du nœud.
La Lame aurore (s’ouvre dans un nouvel onglet) est actuellement appelé comme ça, porte un badge Intel et n’a pas encore le numéro de modèle Cray Ex de HPE, peut-être parce qu’il a encore besoin d’être peaufiné. Les lames Aurora de HPE utilisent deux processeurs Intel Xeon Scalable « Sapphire Rapids » avec plus de 40 cœurs et 64 Go de mémoire HBM2E par socket (en plus de la mémoire DDR5). Les nœuds comportent également six des Ponte Vecchio d’Intel (s’ouvre dans un nouvel onglet) accélérateurs, mais Intel est silencieux sur les spécifications exactes de ces bêtes qui contiennent plus de 100 milliards de transistors chacune (s’ouvre dans un nouvel onglet).
Une chose qui attire l’attention avec le jeu de lames Aurora à utiliser avec les 2 supercalculateurs ExaFLOPS Aurora (s’ouvre dans un nouvel onglet) est de mystérieuses boîtes noires avec un signe triangulaire « surface chaude » situé à côté des processeurs Sapphire Rapids et des GPU de calcul Ponte Vecchio. Nous ne savons pas ce qu’ils sont, mais il peut s’agir de circuits d’alimentation modulaires sophistiqués pour une flexibilité supplémentaire. Après tout, à l’époque, les VRM étaient amovibles (s’ouvre dans un nouvel onglet)donc les utiliser pour des composants très gourmands en énergie peut avoir du sens même aujourd’hui (en supposant que les tolérances de tension correctes sont respectées), en particulier avec du matériel de pré-production.
Encore une fois, la lame Aurora utilise un refroidissement liquide pour ses CPU et ses GPU, bien que ce système de refroidissement soit entièrement différent de celui utilisé par les lames Frontier. Curieusement, il semble que les GPU de calcul Ponte Vecchio de la lame Aurora utilisent des blocs d’eau différents de ceux démontrés par Intel (s’ouvre dans un nouvel onglet) il y a quelques semaines, mais nous ne pouvons que nous interroger sur les raisons possibles à cela.
Fait intéressant, les modules de mémoire DDR5 utilisés par les lames Intel sont livrés avec des dissipateurs de chaleur plutôt redoutables qui semblent plus gros que ceux utilisés sur les modules de mémoire de niveau passionné. En gardant à l’esprit que les RDIMM DDR5 comportent également un circuit intégré de gestion de l’alimentation et un module de régulation de tension, ils ont naturellement besoin d’un meilleur refroidissement que les bâtons DDR4, en particulier dans les environnements à espace restreint comme les serveurs lames.