Construire un supercalculateur est toujours un défi, mais créer le premier système de classe exascale de l’industrie est une rencontre avec quelque chose de totalement inattendu et nécessite beaucoup de travail avec le matériel et les logiciels. Malheureusement, cela pourrait se produire avec le supercalculateur Frontier du Oak Ridge National Laboratory, qui peut à peine durer une journée sans de nombreuses pannes matérielles.
Le Frontier d’ORNL est le premier système de l’industrie conçu pour fournir des performances de pointe jusqu’à 1,685 FP64 ExaFLOPS en utilisant les processeurs EPYC Trento à 64 cœurs d’AMD, les GPU de calcul Instinct MI250X et les interconnexions Slingshot de HPE à 21 MW de puissance. HPE a construit le système et utilisé le Cray EX (s’ouvre dans un nouvel onglet) architecture conçue pour les applications scale-out, principalement pour les supercalculateurs ultra-rapides.
Alors que sur le papier, le supercalculateur Frontier semble exceptionnellement bon et que des pièces matérielles du système de la machine ont été livrées, il semble que des problèmes matériels empêchent la machine d’être mise en ligne et d’être disponible pour les chercheurs nécessitant des performances d’environ 1 FP64 ExaFLOPS.
« Nous travaillons sur les problèmes de matériel et nous nous assurons que nous comprenons (ce qu’ils sont) », a déclaré Justin Whitt, directeur de programme pour l’Oak Ridge Leadership Computing Facility (OLCF), dans une interview avec InsideHPC. (s’ouvre dans un nouvel onglet). « Vous allez avoir des échecs à cette échelle. Le temps moyen entre les pannes sur un système de cette taille est de quelques heures, pas de jours.
Des rumeurs sur des pannes matérielles potentielles de Frontier circulent depuis un certain temps maintenant. Certains ont déclaré que le système rencontrait des problèmes avec l’interconnexion Slingshot, selon un autre InsideHPC (s’ouvre dans un nouvel onglet) histoire. En outre, d’autres ont indiqué que les GPU de calcul Instinct MI250X d’AMD n’étaient pas aussi fiables que prévu cette année. N’oubliez pas que la version X, avec un nombre plus élevé de processeurs de flux et des horloges élevées, n’est disponible que pour certains clients.
M. Whitt n’a pas confirmé que le système rencontrait des problèmes particuliers avec Instinct ou Slingshot, mais il a insisté sur le fait que la machine souffrait de nombreux problèmes matériels.
« Beaucoup de défis se concentrent autour de ces [GPUs], mais ce n’est pas la majorité des défis auxquels nous sommes confrontés », a déclaré le chef de l’OLCF. « C’est une assez bonne répartition parmi les coupables courants de défaillances de pièces qui en ont été une grande partie. Je ne pense pas qu’à ce stade nous ayons beaucoup d’inquiétudes concernant les produits AMD.
Le supercalculateur Frontier d’Oak Ridge National Laboratory n’est de loin pas le seul système à utiliser l’architecture Cray EX de HPE avec des interconnexions Slingshot, les processeurs EPYC d’AMD et les GPU de calcul Instinct d’AMD. Par exemple, le supercalculateur finlandais Lumi (Cray EX, EPYC Milan, GPU de calcul Instinct MI250X) offre des performances de pointe de 550 PetaFLOPS et est officiellement classé comme le troisième supercalculateur le plus puissant au monde. Peut-être que le problème est valable avec l’échelle de la machine qui utilise 60 millions de pièces au total.
Seul le temps dira si le supercalculateur Frontier dont la mise en ligne était initialement promise en 2022 sera disponible pour les chercheurs à partir de 2023, étant donné qu’il n’est toujours pas officiellement déployé.