Intel Habana Gaudi2 surpasse prétendument l’A100 de Nvidia

Intel a publié mercredi les résultats de performance de son processeur d’apprentissage en profondeur Habana Labs Gaudi2 dans MLPerf, une référence DL de premier plan. Le processeur Gaudi de 2e génération surpasse son principal concurrent actuellement disponible – le GPU de calcul A100 de Nvidia avec 80 Go de mémoire HBM2E – jusqu’à 3 fois en termes de mesures de temps d’entraînement. Bien que la publication d’Intel ne montre pas les performances du Gaudi2 par rapport au GPU H100 de Nvidia, elle décrit certains des objectifs de performances d’Intel pour la prochaine génération de puces.

« Pour ResNet-50, Gaudi 2 montre une réduction spectaculaire du temps de formation de 36 % par rapport à la soumission de Nvidia pour A100-80 Go et une réduction de 45 % par rapport à la soumission de Dell citée pour un serveur A100-40 Go à 8 accélérateurs qui a été soumis pour à la fois les résultats ResNet-50 et BERT », lit-on dans une déclaration d’Intel.

Amélioration des performances 3X vs Gaudi

Avant de sauter directement aux résultats de performance de Habana Gaudi2 d’Intel, reprenons rapidement ce qu’est réellement Gaudi. Le processeur Gaudi est un système sur puce hétérogène qui contient un moteur de multiplication matricielle (MME) et un noyau de processeur de tenseur programmable (TPC, chaque noyau est essentiellement un processeur à usage général VLIW SIMD 256 bits) capable de traiter des données dans Formats FP32, TF32, BF16, FP16 et FP8 (FP8 n’est pris en charge que sur Gaudi2). De plus, Gaudi possède ses propres moteurs multimédias pour traiter à la fois les données vidéo et audio, ce qui est d’une importance cruciale pour la procession de la vision.

(Crédit image : Intel)

Alors que le Habana Gaudi original a été fabriqué à l’aide de l’un des processus de fabrication N16 de TSMC, le nouveau Gaudi2 est produit sur un nœud N7, ce qui a permis à Intel d’augmenter le nombre de TPC de 8 à 24 et d’ajouter la prise en charge du format de données FP8. L’augmentation du nombre d’unités d’exécution et des performances de la mémoire peut tripler les performances par rapport à celles du Gaudi d’origine, mais il peut y avoir d’autres sources d’augmentation de la puissance. D’autre part, il peut y avoir d’autres limitations (par exemple, répartiteur de threads pour les cœurs VLIW, bande passante du sous-système de mémoire, évolutivité logicielle, etc.)

Source-138