Tesla a renforcé son supercalculateur AI interne avec des milliers de GPU Nvidia A100 supplémentaires. Le supercalculateur Tesla disposait de 5 760 GPU A100 il y a environ un an, et ce nombre est depuis passé à 7 360 GPU A100, soit 1 600 GPU supplémentaires, soit une augmentation d’environ 28 %.
Selon le directeur de l’ingénierie de Tesla, Tim Zaman, cette mise à niveau fait du système d’intelligence artificielle de l’entreprise l’un des 7 meilleurs supercalculateurs au monde en nombre de GPU.
Un GPU Nvidia A100 est une puissante solution d’architecture Ampere destinée aux centres de données. Oui, il utilise la même architecture GPU que les GPU GeForce RTX série 30, qui comptent parmi les meilleures cartes graphiques actuellement disponibles. Cependant, il n’y a pas de relation client étroite avec l’A100, qui est livré avec 80 Go de mémoire HBM2e intégrée, offre jusqu’à 2 To/s de bande passante et nécessite jusqu’à 400 W de puissance. L’architecture de l’A100 a également été modifiée pour accélérer les tâches courantes dans les applications d’IA, d’analyse de données et de calcul haute performance (HPC).
Le premier système que Nvidia a montré avec l’A100 était le Nvidia DGX A100, qui comportait huit GPU A100 reliés via six NVSwitch avec 4,8 To/s de bande passante bidirectionnelle pour jusqu’à 10 PetaOPS de performances INT8, 5 PFLOPS de FP16, 2,5 TFLOPS de TF32 , et 156 TFLOPS de FP64 dans un seul nœud.
C’était huit GPU A100 – le supercalculateur AI de Tesla en a maintenant 7 360. Tesla n’a pas publiquement évalué son supercalculateur IA, mais le NERSC Perlmutter basé sur un GPU équipé de la même manière, qui dispose de 6 144 GPU Nvidia A100, atteint 70,87 pétaflops Linpack. En utilisant cela et les données d’autres supercalculateurs GPU A100 comme points de référence de performance, HPC Wire estime que le supercalculateur Tesla AI est capable d’atteindre environ 100 pétaflops Linpack.
Tesla n’a pas l’intention de continuer sur la voie de l’architecture GPU Nvidia pour ses supercalculateurs IA internes à long terme. Le top 7 mondial des machines en nombre de GPU n’est qu’un précurseur du prochain supercalculateur Dojo, qui a été le premier annoncé par Elon Musk en 2020. Il y a un an, nous avons jeté un coup d’œil à la puce Tesla D1 Dojo, qui est conçue pour supplanter les GPU de Nvidia pour « des performances, un débit et une bande passante maximaux à chaque granularité ».
Le Tesla Dojo D1 est une conception ASIC (circuit intégré spécifique à l’application) personnalisée, destinée à la formation à l’IA, et c’est l’un des premiers ASIC dans ce domaine. Les puces de test D1 actuelles sont fabriquées sur TSMC N7 et contiennent environ 50 millions de transistors.
Plus d’informations sur la puce Dojo D1 et le système Dojo pourraient être révélées lors du symposium Hot Chips de la semaine prochaine – trois présentations Tesla sont prévues mardi prochain, traitant de l’architecture de la puce Dojo D1, de la formation Dojo et ML et de l’activation de l’IA via l’intégration du système.