D’Opteron à Milan : le supercalculateur Crusher est mis en ligne avec de nouveaux processeurs AMD et des GPU MI250X

(Crédit image : AMD)

Aujourd’hui, l’Oak Ridge Leadership Computing Facility (OLCF) a annoncé que Crusher, une petite itération du supercalculateur Frontier de 600 millions de dollars qui sera la première machine exascale des États-Unis, est désormais en ligne et génère des résultats impressionnants. Les 192 lames HPE Cray EX de Crusher sont entassées dans 1,5 armoires qui consomment 1/100e de la taille de l’ancien supercalculateur Titan de 4 352 pieds carrés, mais le nouveau système offre des performances globales plus rapides.

Crusher présente les mêmes composants architecturaux que le supercalculateur Frontier de 1,5 exaflop, dont chaque lame HPE Cray EX contient un processeur AMD EPYC « Trento » 7A53 à 64 cœurs et quatre GPU AMD « Aldebaran » MI250X, mais Frontier ne sera pas disponible pour les chercheurs jusqu’au 1er janvier 2023.

Cependant, les chercheurs utilisent maintenant Crusher pour préparer leur code scientifique pour Frontier aujourd’hui, et avec des résultats impressionnants. Les points forts incluent une accélération de 15 fois par rapport au supercalculateur Summit alimenté par Nvidia et IBM avec le code d’astrophysique Cholla qui a été réécrit pour Frontier, avec 3 fois l’amélioration attribuée aux améliorations matérielles tandis qu’une autre quintuple de l’amélioration provient du logiciel optimisations. Pendant ce temps, le code de physique nucléaire NuCCOR a été multiplié par 8 avec les GPU MI250X par rapport aux GPU Nvidia V100 utilisés dans Summit. De plus, l’OLCF a annoncé que le code des matériaux LSMS qui effectue des simulations à grande échelle jusqu’à 100 000 atomes a également été exécuté avec succès sur Crusher et évoluera pour fonctionner sur le système Frontier complet. L’OLCF vante également une augmentation de 80 % par rapport aux systèmes précédents non spécifiés avec les charges de travail du modèle d’apprentissage en profondeur Transformer.

Il n’est pas surprenant que le nouveau matériel de Crusher surpasse le supercalculateur Titan – cet ancien supercalculateur tentaculaire a été mis en ligne en 2013 avec 200 armoires qui abritaient 18 688 processeurs AMD Opteron 6274 à 16 cœurs, 18 688 GPU Nvidia Tesla K20X et l’interconnexion Gemini, qui consommé au total 8,2 MW d’électricité. Le système était réparti sur 4 352 pieds carrés et a fourni 17,6 pétaFLOPS de performances soutenues en Linpack et un pic théorique de 27 pétaFLOPS.

(Crédit image : OLCF)

En revanche, Crusher ne couvre que 1,5 armoires, l’une avec 128 nœuds et l’autre avec 64, pour un total de 192 nœuds qui consomment 44 pieds carrés d’espace. Chaque nœud refroidi à l’eau est livré avec une seule puce Zen 3 personnalisée à 64 cœurs, le processeur « Trento » EPYC 7A53 sur lequel AMD n’a pas partagé beaucoup de détails, bien que nous sachions qu’il s’agit d’un dérivé EPYC Milan. Selon les rumeurs, la matrice d’E / S de la puce utiliserait Infinity Fabric 3.0 pour permettre une interface mémoire cohérente avec les GPU.

La puce Trento est associée à 512 Go de mémoire DDR4 (205 Go/s) et à quatre accélérateurs AMD MI250X, chacun étant équipé de deux matrices de calcul graphique (GCD) d’environ 790 mm ^ 2 qui utilisent l’architecture CDNA2 et communiquent sur un réseau de 200 Go. /s autobus. En effet, ces quatre GPU de 550 W servent d’équivalent à huit GPU dans chaque nœud.

Chaque processeur Trento est divisé en quatre domaines NUMA. Chaque domaine (et ses deux banques affiliées de cache L3) se connecte à deux GCD (un GPU) avec une interface mémoire cohérente à 36+36 Go/s sur Infinity Fabric, ce qui donne 288 Go/s de bande passante CPU à GPU totale répartis entre les huit GCD du nœud.

Pendant ce temps, chaque GPU MI250X héberge une carte réseau Ethernet HPE Slingshot 200 Go/s (25 Go/s) (via un complexe racine PCIe) qui se connecte au réseau HPE Slingshot, pour 100 Go/s de bande passante réseau par nœud. Toute cette puissance de calcul est connectée à une appliance de stockage de 250 Po qui offre un débit maximal de 2,5 To/s et utilise le système de fichiers IBM Spectrum Scale.

(Crédit image : AMD)

L’OLCF n’a pas encore publié de chiffres de consommation d’énergie ou de performances de pointe en Linpack pour le système Crusher. Cependant, nous savons que chaque 768 MI250X délivre un pic de 53 TFLOPS de double précision, ce qui signifie un pic théorique d’environ 40 PetaFLOPS (en supposant une mise à l’échelle linéaire).

Source-138