Lorsque Tachyum a dévoilé le concept de son processeur universel Prodigy à Hot Chips 18, il a fait sensation avec une puce conçue pour exécuter n’importe quel code à l’aide d’un traducteur binaire dynamique. Il a démontré de hautes performances lors de l’exécution de code natif et traduit. Il a fallu un certain temps à l’entreprise pour concevoir le matériel réel, prenant des précommandes sur les kits d’évaluation (s’ouvre dans un nouvel onglet); la société divulgue également les spécifications exactes de son Prodigy. Ils ont certainement l’air impressionnants, mais ils sont aussi effrayants avec une puissance de conception thermique de 950 W par puce.
Des performances formidables à une puissance formidable
Chaque processeur Tachyum Prodigy possède jusqu’à 128 cœurs propriétaires couplés à 16 canaux de mémoire DDR5 (pour une interface de 1 024 bits) prenant en charge un taux de transfert de données allant jusqu’à 7200 MT/s (et fournissant ainsi jusqu’à 921,6 Gbit/s de bande passante) ainsi que 64 canaux PCIe 5.0 voies. De plus, la puce prend en charge jusqu’à 8 To de mémoire DDR5 au total, ce qui correspond à ce que nous verrons avec les prochains processeurs de serveur d’autres fabricants. En ce qui concerne les fréquences d’horloge, le Prodigy de Tachyum est conçu pour fonctionner jusqu’à 5,7 GHz et est un produit de la technologie de processus N5P optimisée en termes de performances de TSMC.
En matière de performances, Tachyum attend son processeur phare Prodigy T16128-AIX (s’ouvre dans un nouvel onglet) pour offrir jusqu’à 90 FP64 TFLOPS pour HPC ainsi que jusqu’à 12 ‘AI PetaFLOPS’ pour l’inférence et la formation, vraisemblablement lors de l’exécution de code natif et consommant jusqu’à 950 W (et en utilisant le refroidissement liquide), selon les spécifications publiées (s’ouvre dans un nouvel onglet) par l’entreprise et chez Golem.de (s’ouvre dans un nouvel onglet). Pendant ce temps, les processeurs Prodigy de Tachyum peuvent fonctionner dans des configurations à 2 et 4 voies. Pour mettre les chiffres en contexte, l’Instinct MI250X d’AMD a un débit maximal de 96 FP64 TFLOPS pour HPC à environ 560 W. En revanche, le H100 SXM5 de Nvidia peut fournir jusqu’à 20 INT8/FP8 PetaOPS/PetaFLOPS pour l’IA (jusqu’à 40 PetaOPS/PetaFLOPS avec parcimonie) à 700W. Pourtant, aucun des GPU de calcul ne fonctionne pour les charges de travail à usage général. Et c’est exactement là que ça devient intéressant.
Un nouveau processeur est né
Le Prodigy de Tachyum est un processeur homogène universel contenant jusqu’à 128 cœurs VLIW 64 bits propriétaires qui comportent deux unités vectorielles 1024 bits par cœur et une unité matricielle 4096 bits par cœur. De plus, chaque cœur dispose d’un cache d’instructions de 64 Ko, d’un cache de données de 64 Ko, d’un cache L2 de 1 Mo et peut utiliser les caches L2 inutilisés d’autres cœurs comme cache L3 victime.
Les cœurs VLIW de Tachyum sont des cœurs dans l’ordre, mais lorsque le compilateur fait des optimisations appropriées, ils peuvent prendre en charge les problèmes de panne à 4 voies, selon Radoslav Danilak, directeur général et co-fondateur de Tachuym, qui s’est entretenu avec Golem.de (s’ouvre dans un nouvel onglet). Il a également souligné à nouveau que l’architecture du jeu d’instructions Prodigy peut atteindre un parallélisme de niveau d’instruction très élevé avec des logiciels utilisant ce que l’on appelle des bits poison.
Ces cœurs exécutent du code natif écrit et explicitement optimisé pour Prodigy (où l’architecture VLIW promet de briller) ainsi que des binaires x86, Arm et RISC-V utilisant une émulation logicielle et sans dégradation des performances, selon la société. Historiquement, toutes les tentatives pour faire en sorte que les processeurs VLIW exécutent du code x86 ont échoué (par exemple, Crusoe de Transmeta, Itanium d’Intel) principalement en raison d’architectures CPU particulières et d’inefficacités d’émulation. Le responsable de Tachyum admet que la traduction binaire de Qemu dégrade les performances de 30 % à 40 % (sans divulguer de valeurs de référence), mais espère que les performances dans le monde réel seront toujours suffisamment élevées pour être compétitives. Pendant ce temps, certains programmes sont déjà pris en charge nativement.
« Nous prenons en charge GCC et Linux de manière native, et FreeBSD fonctionne désormais également [on Prodigy] », a déclaré Danilak. « Apache, MongoDB ou Python fonctionnent déjà en mode natif, les frameworks Pytorch et Tensorflow sont également disponibles. »
Tachyum souligne que Prodigy n’est pas un accélérateur mais un véritable processeur qui concurrencera AMD, Intel et d’autres. Pour s’assurer que le processeur peut offrir des performances compétitives sur les charges de travail à usage général et d’IA, la société a apporté de nombreuses modifications à sa mise en œuvre de conception depuis sa première introduction en 2018.
« Nous sommes un remplacement de CPU et non une société d’accélérateurs d’IA, nous ciblons les cloud/hyperscalers et les opérateurs de télécommunications », a déclaré Danilak. « Au fil du temps, nous prévoyons de gagner des clients de superordinateurs, nous avons donc doublé la largeur des unités vectorielles/MAC de 512 bits à 1 024 bits [which also brings in necessary data paths for the 4,096-bit matrix operations for artificial intelligence]. »
En effet, un avantage particulier que Tachyum’s Prodigy promet est sa capacité à exécuter un type de code différent. En supposant qu’il peut fournir des performances décentes à une puissance décente tout en exécutant des charges de travail à usage général (instances), cela peut donner une flexibilité supplémentaire à AWS, Microsoft Azure et autres, car ils pourront utiliser les mêmes machines pour AI, HPC, et des instances à usage général si nécessaire. Cela nécessitera, bien sûr, un travail logiciel réel de la part de différentes parties, mais cela pourrait fonctionner, du moins en théorie.
Toujours pas ici
Il convient de noter que Tachyum n’a toujours pas de silicium Prodigy. En conséquence, toutes les projections de performances sont le produit de simulations, et la seule chose dont dispose actuellement la société est un prototype FPGA de son processeur.
Pendant ce temps, la société a récemment commencé à prendre des précommandes sur la plate-forme d’évaluation Prodigy de Tachyum, qui sera utilisée sur certains silicium Prodigy. Les entreprises doivent passer des commandes avant le 31 juillet 2022 et la livraison du matériel réel est d’environ « six à neuf mois après réception de la commande ».
Tachyum s’attend à enregistrer le premier silicium Prodigy (qui pourrait être inférieur à 500 mm ^ 2) à la mi-août si tout se passe comme prévu. Après cela, la société s’attend à obtenir les premiers échantillons de sa puce vers décembre, et si la puce fonctionne correctement, la société prévoit de commencer l’échantillonnage (c’est-à-dire d’envoyer des kits d’évaluation). En règle générale, la mise au point du silicium prend environ un an après le retour de la puce initiale de l’usine. Pourtant, Tachyum espère que son premier processeur fonctionnera comme prévu et qu’il pourra lancer la production de masse réelle au cours du premier semestre 2023.
À l’avenir, Danilak envisage un processeur Prodigy 2 fabriqué à l’aide de l’un des nœuds N3 de TSMC qui offrira des performances deux fois plus élevées à la même puissance avec la prise en charge PCIe Gen6.