Au cours des décennies qui se sont écoulées depuis que Seymour Cray a développé ce qui est largement considéré comme le premier supercalculateur au monde, le CDC 6600 (s’ouvre dans un nouvel onglet), une course aux armements a été menée dans la communauté du calcul haute performance (HPC). L’objectif : améliorer la performance, par tous les moyens, à tout prix.
Propulsées par les avancées dans les domaines du calcul, du stockage, de la mise en réseau et des logiciels, les performances des principaux systèmes ont été multipliées par un billion depuis le dévoilement du CDC 6600 en 1964, des millions d’opérations en virgule flottante par seconde (mégaFLOPS) aux quintillions (exaFLOPS).
Le détenteur actuel de la couronne, un supercalculateur colossal basé aux États-Unis appelé Frontière, est capable d’atteindre 1,102 exaFLOPS selon le benchmark High Performance Linpack (HPL). Mais des machines encore plus puissantes sont soupçonnées d’être en activité ailleursderrière des portes closes.
L’arrivée des soi-disant supercalculateurs exascale devrait profiter à pratiquement tous les secteurs – de la science à la cybersécurité, de la santé à la finance – et ouvrir la voie à de puissants nouveaux modèles d’IA qui auraient autrement mis des années à s’entraîner.
Cependant, une augmentation des vitesses de cette ampleur a un coût : la consommation d’énergie. À plein régime, Frontier consomme jusqu’à 40MW (s’ouvre dans un nouvel onglet) de puissance, à peu près la même chose que 40 millions ordinateurs de bureau.
Le supercalcul a toujours consisté à repousser les limites du possible. Mais alors que la nécessité de minimiser les émissions devient de plus en plus évidente et que les prix de l’énergie continuent de monter en flèche, l’industrie HPC devra réévaluer si son principe directeur d’origine vaut toujours la peine d’être suivi.
Performance vs efficacité
Une organisation opérant à l’avant-garde de ce problème est l’Université de Cambridge, qui, en partenariat avec Dell Technologies, a développé plusieurs supercalculateurs avec une efficacité énergétique à la pointe de la conception.
La Wilkes3 (s’ouvre dans un nouvel onglet)par exemple, n’est positionné que 100e dans le tableaux de performances globales (s’ouvre dans un nouvel onglet)mais occupe la troisième place du classement Vert500 (s’ouvre dans un nouvel onglet)un classement des systèmes HPC basé sur les performances par watt d’énergie consommée.
En conversation avec Tech Radar Prole Dr Paul Calleja, directeur des services informatiques de recherche à l’Université de Cambridge, a expliqué que l’institution est beaucoup plus soucieuse de construire des machines hautement productives et efficaces que des machines extrêmement puissantes.
« Nous ne sommes pas vraiment intéressés par les grands systèmes, car ce sont des solutions ponctuelles très spécifiques. Mais les technologies déployées à l’intérieur sont beaucoup plus largement applicables et permettront à des systèmes d’un ordre de grandeur plus lent de fonctionner de manière beaucoup plus économique et économe en énergie », explique le Dr Calleja.
« Ce faisant, vous démocratisez l’accès à l’informatique pour beaucoup plus de personnes. Nous sommes intéressés par l’utilisation de technologies conçues pour ces grands systèmes d’époque afin de créer des supercalculateurs beaucoup plus durables, pour un public plus large.
Dans les années à venir, le Dr Calleja prédit également une poussée de plus en plus féroce en faveur de l’efficacité énergétique dans le secteur HPC et dans la communauté des centres de données au sens large, où la consommation d’énergie représente plus de 90 % des coûts, nous dit-on.
Les récentes fluctuations du prix de l’énergie liées à la guerre en Ukraine auront également rendu le fonctionnement des supercalculateurs considérablement plus coûteux, en particulier dans le contexte de l’informatique exascale, illustrant davantage l’importance de la performance par watt.
Dans le contexte de Wilkes3, l’université a constaté qu’il y avait un certain nombre d’optimisations qui aidaient à améliorer le niveau d’efficacité. Par exemple, en diminuant la vitesse d’horloge à laquelle certains composants fonctionnaient, en fonction de la charge de travail, l’équipe a pu réaliser des réductions de consommation d’énergie de l’ordre de 20 à 30 %.
« Au sein d’une famille architecturale particulière, la vitesse d’horloge a une relation linéaire avec les performances, mais une relation au carré avec la consommation d’énergie. C’est le tueur », a expliqué le Dr Calleja.
« La réduction de la vitesse d’horloge réduit la consommation d’énergie à un rythme beaucoup plus rapide que les performances, mais prolonge également le temps nécessaire pour terminer un travail. Donc, ce que nous devrions regarder n’est pas la consommation d’énergie pendant une course, mais vraiment l’énergie consommée par travail. Il y a un endroit idéal.
Le logiciel est roi
Au-delà du réglage fin des configurations matérielles pour des charges de travail spécifiques, il existe également un certain nombre d’optimisations à effectuer ailleurs, dans le contexte du stockage et de la mise en réseau, et dans des disciplines connectées telles que le refroidissement et la conception de racks.
Cependant, lorsqu’on lui a demandé où spécifiquement il aimerait voir des ressources allouées dans la quête pour améliorer l’efficacité énergétique, le Dr Calleja a expliqué que l’accent devrait être mis sur les logiciels, d’abord et avant tout.
« Le matériel n’est pas le problème, c’est une question d’efficacité des applications. Ce sera le principal goulot d’étranglement pour aller de l’avant », a-t-il déclaré. « Les systèmes exascale d’aujourd’hui sont basés sur GPU architectures et le nombre d’applications pouvant s’exécuter efficacement à grande échelle dans les systèmes GPU est faible. »
« Pour vraiment tirer parti de la technologie d’aujourd’hui, nous devons nous concentrer sur le développement d’applications. Le cycle de vie du développement s’étend sur des décennies ; les logiciels utilisés aujourd’hui ont été développés il y a 20 à 30 ans et c’est difficile quand vous avez un code aussi long qui doit être repensé.
Le problème, cependant, est que l’industrie HPC n’a pas pris l’habitude de penser d’abord aux logiciels. Historiquement, beaucoup plus d’attention a été accordée au matériel, car, selon les mots du Dr Calleja, « c’est facile ; vous venez d’acheter une puce plus rapide. Vous n’avez pas besoin de penser intelligemment ».
« Alors que nous avions la loi de Moore, avec un doublement des performances du processeur tous les dix-huit mois, vous n’aviez rien à faire [on a software level] pour augmenter les performances. Mais cette époque est révolue. Maintenant, si nous voulons des progrès, nous devons revenir en arrière et restructurer le logiciel. »
Le Dr Calleja a réservé quelques éloges à Intel, à cet égard. Comme le serveur l’espace matériel devient plus diversifié du point de vue du fournisseur (à bien des égards, une évolution positive), la compatibilité des applications a le potentiel de devenir un problème, mais Intel travaille sur une solution.
« Un élément de différenciation que je vois pour Intel est qu’il investit énormément [of both funds and time] dans le une API écosystème, pour développer la portabilité du code entre les types de silicium. C’est de ce type de chaînes d’outils dont nous avons besoin pour permettre aux applications de demain de tirer parti du silicium émergent », note-t-il.
Par ailleurs, le Dr Calleja a appelé à une concentration plus étroite sur le « besoin scientifique ». Trop souvent, les choses « tournent mal dans la traduction », créant un décalage entre les architectures matérielles et logicielles et les besoins réels de l’utilisateur final.
Une approche plus énergique de la collaboration intersectorielle, dit-il, créerait un «cercle vertueux» composé d’utilisateurs, de fournisseurs de services et de fournisseurs, qui se traduirait par des avantages à la fois d’une performance et optique d’efficacité.
Un avenir à l’échelle zetta
De manière typique, avec la chute du jalon symbolique de l’exascale, l’attention se tournera désormais vers le suivant : zettascale.
« Zettascale n’est que le prochain drapeau dans le sol », a déclaré le Dr Calleja, « un totem qui met en évidence les technologies nécessaires pour atteindre la prochaine étape des progrès informatiques, qui sont aujourd’hui impossibles à obtenir. »
« Les systèmes les plus rapides au monde sont extrêmement coûteux pour ce que vous en retirez, en termes de production scientifique. Mais ils sont importants, car ils démontrent l’art du possible et ils font avancer l’industrie.
Que des systèmes capables d’atteindre un zettaFLOPS de performance, mille fois plus puissants que la récolte actuelle, puissent être développés d’une manière qui s’aligne sur les objectifs de durabilité dépendra de la capacité d’invention de l’industrie.
Il n’y a pas de relation binaire entre les performances et l’efficacité énergétique, mais une bonne dose d’artisanat sera nécessaire dans chaque sous-discipline pour fournir l’augmentation de performances nécessaire dans une enveloppe de puissance appropriée.
En théorie, il existe un ratio d’or entre la performance et la consommation d’énergie, selon lequel les avantages pour la société apportés par le HPC peuvent être considérés comme justifiant la dépense d’émissions de carbone.
Le chiffre précis restera insaisissable dans la pratique, bien sûr, mais la poursuite de l’idée est elle-même par définition un pas dans la bonne direction.