Une histoire plutôt brève sur la demande écrasante de matériel informatique hautes performances de Nvidia en Chine a révélé les performances du mystérieux GPU de calcul A800 de Nvidia, conçu pour le marché chinois. Selon MyDrivers, l’A800 fonctionne à 70% de la vitesse des GPU A100 tout en respectant les normes d’exportation américaines strictes qui limitent la puissance de traitement que Nvidia peut vendre.
Ayant maintenant trois ans, l’A100 de Nvidia est assez performant : il offre 9,7 FP64/19,5 FP64 Tensor TFLOPS pour HPC et jusqu’à 624 BF16/FP16 TFLOPS (avec parcimonie) pour les charges de travail AI. Même réduits d’environ 30 %, ces chiffres auront toujours l’air formidables : 6,8 FP64/13,7 FP64 Tensor TFLOPS ainsi que 437 BF16/FP16 (avec parcimonie).
Malgré la » castration » (plafonds de performances) comme le dit MyDrivers, l’A800 de Nvidia est tout à fait un rival des GPU de calcul BR104 et BR100 de Biren, basés en Chine, en termes de capacités de calcul. Pendant ce temps, les GPU de calcul de Nvidia et son architecture CUDA sont largement pris en charge par les applications exécutées par ses clients, alors que les processeurs de Biren doivent encore être adoptés. Et même Biren ne peut pas expédier ses GPU de calcul à part entière en Chine en raison des dernières réglementations.
Ligne 0 – Cellule 0 | Biren BR104 | Nvidia A800 | Nvidia A100 | Nvidia H100 |
Facteur de forme | Carte FHFL | Carte FHFL (?) | SXM4 | SXM5 |
Nombre de transistors | ? | 54,2 milliards | 54,2 milliards | 80 milliards |
Nœud | N7 | N7 | N7 | 4N |
Pouvoir | 300W | ? | 400W | 700W |
FP32 TFLOPS | 128 | 13,7 (?) | 19.5 | 60 |
TF32+ TFLOPS | 256 | ? | ? | ? |
TF32 TFLOPS | ? | 109/218* (?) | 156/312* | 500/1000* |
FP16 TFLOPS | ? | 56 (?) | 78 | 120 |
Tenseur TFLOPS FP16 | ? | 218/437* | 312/624* | 1000/2000* |
BF16 TFLOPS | 512 | 27 | 39 | 120 |
Tenseur BF16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
INT8 | 1024 | ? | ? | ? |
Tenseur INT8 TFLOPS | ? | 437/874* | 624/1248* | 2000/4000* |
* Avec parcimonie
Les règles d’exportation imposées par les États-Unis en octobre 2021 interdisent l’exportation de technologies américaines qui permettent des supercalculateurs avec des performances supérieures à 100 FP64 PetaFLOPS ou 200 FP32 PetaFLOPS dans un espace de 41 600 pieds cubes (1 178 mètres cubes) ou moins vers la Chine. Bien que les restrictions à l’exportation ne limitent pas spécifiquement les performances de chaque GPU de calcul vendu à une entité basée en Chine, elles limitent leur débit et leur évolutivité.
Après l’entrée en vigueur des nouvelles règles, Nvidia a perdu la possibilité de vendre ses GPU de calcul ultra haut de gamme A100 et H100 à des clients basés en Chine sans licence d’exportation, ce qui est difficile à obtenir. Dans le but de satisfaire la demande de performances requises par les hyperscalers chinois, la société a présenté une version réduite de son GPU A100 baptisée A800. Jusqu’à présent, les capacités de ce GPU n’étaient pas claires.
Alors que l’utilisation de l’intelligence artificielle augmente à la fois chez les consommateurs et les entreprises, la popularité du matériel haute performance capable de gérer les charges de travail appropriées est en plein essor. Nvidia est l’un des principaux bénéficiaires de la mégatendance de l’IA, c’est pourquoi ses GPU sont si demandés que même l’A800 réduit est épuisé en Chine.
Le BR100 de Biren sera disponible dans un facteur de forme OAM et consommera jusqu’à 550 W de puissance. La puce prend en charge la technologie propriétaire BLink à 8 voies de la société qui permet l’installation de jusqu’à huit GPU BR100 par système. En revanche, le BR104 de 300 W sera livré dans un facteur de forme de carte PCIe double largeur FHFL et prendra en charge une configuration multi-GPU jusqu’à 3 voies. Les deux puces utilisent une interface PCIe 5.0 x16 avec le protocole CXL pour les accélérateurs en haut, rapporte EETrend (via VideoCardz).
Biren dit que ses deux puces sont fabriquées à l’aide du processus de fabrication de classe 7 nm de TSMC (sans préciser s’il utilise N7, N7+ ou N7P). Le plus grand BR100 contient 77 milliards de transistors, dépassant les 54,2 milliards avec le Nvidia A100 qui est également fabriqué à l’aide de l’un des nœuds N7 de TSMC. La société affirme également que pour surmonter les limitations imposées par la taille du réticule de TSMC, elle a dû utiliser la conception de puces et la technologie CoWoS 2.5D de la fonderie, ce qui est tout à fait logique car l’A100 de Nvidia approchait la taille d’un réticule et le BR100 est censé être encore plus grand compte tenu de son nombre de transistors plus élevé.
Compte tenu des spécifications, nous pouvons supposer que le BR100 utilise essentiellement deux BR104, bien que le développeur ne l’ait pas officiellement confirmé.
Pour commercialiser son accélérateur BR100 OAM, Biren a travaillé avec Inspur sur un serveur d’IA à 8 voies qui sera échantillonné à partir du quatrième trimestre 2022. Baidu et China Mobile seront parmi les premiers clients à utiliser les GPU de calcul de Biren.