Cette semaine, Tachyum a déclaré qu’en utilisant les derniers outils d’automatisation de la conception électronique (EDA), il avait réussi à insérer 50 % de cœurs supplémentaires dans son processeur Prodigy tout en augmentant la taille de la matrice de seulement 20 %. La puce à 192 cœurs ne semble pas exister en silicium pour le moment et la société n’a pas précisé quand elle prévoyait de commencer son échantillonnage ou d’expédier ces processeurs aux parties intéressées.
L’année dernière, Tachyum a poursuivi Cadence pour avoir fourni une IP qui ne répondait pas à ses attentes et a dû passer à l’IP d’un ou de plusieurs autres fournisseurs. Pour cette raison, il a également dû changer les outils de simulation et de mise en page RTL. La société n’a pas divulgué les outils EDA qu’elle utilise pour le développement de Prodigy, mais elle affirme que le nouvel ensemble de programmes lui a permis de modifier divers paramètres, ce qui a entraîné une augmentation de 50 % du nombre de cœurs (de 128 à 192), une augmentation de L2/L3 cache de 128 Mo à 192 Mo, et un saut dans SERDES de 64 à 96 par puce. La taille de la matrice du processeur est passée de 500 mm2 à 600 mm2, soit d’environ 20 %.
Tachyum affirme qu’il pourrait comprimer davantage de ses cœurs universels dans la limite du réticule de 858 mm2, les performances de tous les cœurs seraient limitées par la bande passante de la mémoire, même lorsqu’ils sont associés à 16 canaux DDR5 fonctionnant à un taux de transfert de données de 7200 MT/s.
« Nous avons obtenu de meilleurs résultats et un meilleur timing avec nos nouveaux outils de conception physique EDA », a déclaré le Dr Radoslav Danilak, fondateur et PDG de Tachyum. « […] alors que nous n’avions pas d’autre choix que de changer d’outils EDA, notre équipe de conception physique (PD) a travaillé dur pour refaire la conception physique et les optimisations avec le nouvel ensemble d’outils PD, alors que nous approchons de la production au niveau du volume. »
Tachyum’s Prodigy est un processeur polyvalent avec jusqu’à 192 cœurs VLIW 64 bits uniques dotés de deux unités vectorielles 1024 bits, une unité matricielle 4096 bits, un cache d’instructions de 64 Ko, un cache de données de 64 Ko et un cache L2 de 1 Mo. Fait intéressant, les caches L2 inutilisés d’autres cœurs peuvent être réutilisés comme cache L3 supplémentaire.
Lorsque Prodigy exécute du code natif, des optimisations appropriées du compilateur peuvent permettre un traitement dans le désordre à 4 voies (malgré le fait que VLIW est censé être dans l’ordre). De plus, l’architecture du jeu d’instructions de Prodigy permet un parallélisme amélioré grâce à des « bits empoisonnés » spécialisés.
Selon Tachyum, la particularité la plus intéressante du processeur Prodigy est peut-être qu’il peut émuler les binaires x86, Arm, CUDA et RISC-V sans compromettre les performances. Malgré les défis passés rencontrés par les processeurs VLIW émulant le code x86, Tachyum est optimiste quant à ses performances, même si certaines traductions pourraient entraîner une baisse de 30 à 40 %.