Biren Technology a officiellement présenté ses premiers GPU conçus principalement pour l’intelligence artificielle (IA) et le calcul haute performance (HPC). Selon la société, le GPU BR100 haut de gamme peut défier les puces A100 et même H100 de Nvidia dans certaines charges de travail, mais sa complexité est comparable à celle du GPU de calcul H100 de Nvidia.
La famille initiale de GPU de calcul de Biren comprend deux puces. Le BR100 promet jusqu’à 256 FP32 TFLOPS ou 2 INT8 PetaFLOPS, tandis que le BR104 est conçu pour jusqu’à 128 FP32 TFLOPS ou 1 INT8 PetaFLOPS.
Le BR100 haut de gamme est livré avec 64 Go de mémoire HBM2E avec une interface 4096 bits (1,64 To/s), tandis que le BR104 milieu de gamme avec 32 Go de mémoire HBM2E avec une interface 2048 bits (819 Go/s).
Biren BR104 | Biren BR100 | Nvidia A100 | Nvidia H100 | |
Facteur de forme | Carte FHFL | Module OAM | SXM4 | SXM5 |
Nombre de transistors | ? | 77 milliards | 54,2 milliards | 80 milliards |
Nœud | N7 | N7 | N7 | 4N |
Du pouvoir | 300W | 550W | 400W | 700W |
FP32 TFLOPS | 128 | 256 | 19.5 | 60 |
TF32+ TFLOPS | 256 | 512 | ? | ? |
TF32 TFLOPS | ? | ? | 156/312* | 500/1000* |
FP16 TFLOPS | ? | ? | 78 | 120 |
Tenseur TFLOPS FP16 | ? | ? | 312/624* | 1000/2000* |
BF16 TFLOPS | 512 | 1024 | 39 | 120 |
Tenseur BF16 TFLOPS | ? | ? | 312/624* | 1000/2000* |
INT8 | 1024 | 2048 | ? | ? |
Tenseur INT8 TFLOPS | ? | ? | 624/1248* | 2000/4000* |
* Avec parcimonie
Les deux puces prennent en charge les formats de données INT8, FP16, BF16, FP32 et TF32 +, nous ne parlons donc pas de formats de supercalcul (par exemple, FP64) même si Biren dit que son format TF32 + offre une précision de données supérieure à celle du TF32 traditionnel. Pendant ce temps, les BR100 et BR104 offrent des performances de pointe plutôt formidables. En fait, si l’entreprise avait intégré des fonctionnalités spécifiques au GPU (unités de texture, rendus principaux, etc.) dans ses GPU de calcul et avait conçu des pilotes appropriés, ces puces auraient été des GPU plutôt incroyables (au moins BR104, qui est vraisemblablement un configuration monopuce).
En plus des capacités de calcul, les GPU de Biren peuvent également prendre en charge l’encodage et le décodage vidéo H.264.
Le BR100 de Biren sera disponible dans un facteur de forme OAM et consommera jusqu’à 550 W de puissance. La puce prend en charge la technologie propriétaire BLink à 8 voies de la société qui permet l’installation de jusqu’à huit GPU BR100 par système. En revanche, le BR104 de 300 W sera livré dans un facteur de forme de carte PCIe double largeur FHFL et prendra en charge une configuration multi-GPU jusqu’à 3 voies. Les deux puces utilisent une interface PCIe 5.0 x16 avec le protocole CXL pour les accélérateurs en haut, rapporte EETrend (via VideoCardz).
Biren dit que ses deux puces sont fabriquées à l’aide du processus de fabrication de classe 7 nm de TSMC (sans préciser s’il utilise N7, N7+ ou N7P). Le plus grand BR100 contient 77 milliards de transistors, dépassant les 54,2 milliards avec le Nvidia A100 qui est également fabriqué à l’aide de l’un des nœuds N7 de TSMC. La société affirme également que pour surmonter les limitations imposées par la taille du réticule de TSMC, elle a dû utiliser la conception de puces et la technologie CoWoS 2.5D de la fonderie, ce qui est tout à fait logique car l’A100 de Nvidia approchait la taille d’un réticule et le BR100 est censé être encore plus grand compte tenu de son nombre de transistors plus élevé.
Compte tenu des spécifications, nous pouvons supposer que le BR100 utilise essentiellement deux BR104, bien que le développeur ne l’ait pas officiellement confirmé.
Pour commercialiser son accélérateur OAM BR100, Biren a travaillé avec Inspur sur un serveur d’IA à 8 voies qui sera échantillonné à partir du quatrième trimestre 2022. Baidu et China Mobile seront parmi les premiers clients à utiliser les GPU de calcul de Biren.