samedi, novembre 23, 2024

Tachyum taquine le processeur 128 cœurs : 5,7 GHz, 950 W, 16 canaux DDR5

Lorsque Tachyum a dévoilé le concept de son processeur universel Prodigy à Hot Chips 18, il a fait sensation avec une puce conçue pour exécuter n’importe quel code à l’aide d’un traducteur binaire dynamique. Il a démontré de hautes performances lors de l’exécution de code natif et traduit. Il a fallu un certain temps à l’entreprise pour concevoir le matériel réel, prenant des précommandes sur les kits d’évaluation (s’ouvre dans un nouvel onglet); la société divulgue également les spécifications exactes de son Prodigy. Ils ont certainement l’air impressionnants, mais ils sont aussi effrayants avec une puissance de conception thermique de 950 W par puce.

Des performances formidables à une puissance formidable

Chaque processeur Tachyum Prodigy possède jusqu’à 128 cœurs propriétaires couplés à 16 canaux de mémoire DDR5 (pour une interface de 1 024 bits) prenant en charge un taux de transfert de données allant jusqu’à 7200 MT/s (et fournissant ainsi jusqu’à 921,6 Gbit/s de bande passante) ainsi que 64 canaux PCIe 5.0 voies. De plus, la puce prend en charge jusqu’à 8 To de mémoire DDR5 au total, ce qui correspond à ce que nous verrons avec les prochains processeurs de serveur d’autres fabricants. En ce qui concerne les fréquences d’horloge, le Prodigy de Tachyum est conçu pour fonctionner jusqu’à 5,7 GHz et est un produit de la technologie de processus N5P optimisée en termes de performances de TSMC.

(Crédit image : Golem.de)

En matière de performances, Tachyum attend son processeur phare Prodigy T16128-AIX (s’ouvre dans un nouvel onglet) pour offrir jusqu’à 90 FP64 TFLOPS pour HPC ainsi que jusqu’à 12 ‘AI PetaFLOPS’ pour l’inférence et la formation, vraisemblablement lors de l’exécution de code natif et consommant jusqu’à 950 W (et en utilisant le refroidissement liquide), selon les spécifications publiées (s’ouvre dans un nouvel onglet) par l’entreprise et chez Golem.de (s’ouvre dans un nouvel onglet). Pendant ce temps, les processeurs Prodigy de Tachyum peuvent fonctionner dans des configurations à 2 et 4 voies. Pour mettre les chiffres en contexte, l’Instinct MI250X d’AMD a un débit maximal de 96 FP64 TFLOPS pour HPC à environ 560 W. En revanche, le H100 SXM5 de Nvidia peut fournir jusqu’à 20 INT8/FP8 PetaOPS/PetaFLOPS pour l’IA (jusqu’à 40 PetaOPS/PetaFLOPS avec parcimonie) à 700W. Pourtant, aucun des GPU de calcul ne fonctionne pour les charges de travail à usage général. Et c’est exactement là que ça devient intéressant.

Un nouveau processeur est né

Le Prodigy de Tachyum est un processeur homogène universel contenant jusqu’à 128 cœurs VLIW 64 bits propriétaires qui comportent deux unités vectorielles 1024 bits par cœur et une unité matricielle 4096 bits par cœur. De plus, chaque cœur dispose d’un cache d’instructions de 64 Ko, d’un cache de données de 64 Ko, d’un cache L2 de 1 Mo et peut utiliser les caches L2 inutilisés d’autres cœurs comme cache L3 victime.

(Crédit image : Tachyum)

Les cœurs VLIW de Tachyum sont des cœurs dans l’ordre, mais lorsque le compilateur fait des optimisations appropriées, ils peuvent prendre en charge les problèmes de panne à 4 voies, selon Radoslav Danilak, directeur général et co-fondateur de Tachuym, qui s’est entretenu avec Golem.de (s’ouvre dans un nouvel onglet). Il a également souligné à nouveau que l’architecture du jeu d’instructions Prodigy peut atteindre un parallélisme de niveau d’instruction très élevé avec des logiciels utilisant ce que l’on appelle des bits poison.

Source-138

- Advertisement -

Latest