Intel a publié mercredi les résultats de performance de son processeur d’apprentissage en profondeur Habana Labs Gaudi2 dans MLPerf, une référence DL de premier plan. Le processeur Gaudi de 2e génération surpasse son principal concurrent actuellement disponible – le GPU de calcul A100 de Nvidia avec 80 Go de mémoire HBM2E – jusqu’à 3 fois en termes de mesures de temps d’entraînement. Bien que la publication d’Intel ne montre pas les performances du Gaudi2 par rapport au GPU H100 de Nvidia, elle décrit certains des objectifs de performances d’Intel pour la prochaine génération de puces.
« Pour ResNet-50, Gaudi 2 montre une réduction spectaculaire du temps de formation de 36 % par rapport à la soumission de Nvidia pour A100-80 Go et une réduction de 45 % par rapport à la soumission de Dell citée pour un serveur A100-40 Go à 8 accélérateurs qui a été soumis pour à la fois les résultats ResNet-50 et BERT », lit-on dans une déclaration d’Intel.
Amélioration des performances 3X vs Gaudi
Avant de sauter directement aux résultats de performance de Habana Gaudi2 d’Intel, reprenons rapidement ce qu’est réellement Gaudi. Le processeur Gaudi est un système sur puce hétérogène qui contient un moteur de multiplication matricielle (MME) et un noyau de processeur de tenseur programmable (TPC, chaque noyau est essentiellement un processeur à usage général VLIW SIMD 256 bits) capable de traiter des données dans Formats FP32, TF32, BF16, FP16 et FP8 (FP8 n’est pris en charge que sur Gaudi2). De plus, Gaudi possède ses propres moteurs multimédias pour traiter à la fois les données vidéo et audio, ce qui est d’une importance cruciale pour la procession de la vision.
Alors que le Habana Gaudi original a été fabriqué à l’aide de l’un des processus de fabrication N16 de TSMC, le nouveau Gaudi2 est produit sur un nœud N7, ce qui a permis à Intel d’augmenter le nombre de TPC de 8 à 24 et d’ajouter la prise en charge du format de données FP8. L’augmentation du nombre d’unités d’exécution et des performances de la mémoire peut tripler les performances par rapport à celles du Gaudi d’origine, mais il peut y avoir d’autres sources d’augmentation de la puissance. D’autre part, il peut y avoir d’autres limitations (par exemple, répartiteur de threads pour les cœurs VLIW, bande passante du sous-système de mémoire, évolutivité logicielle, etc.)
Les cœurs de calcul du processeur Gaudi2 sont équipés de 48 Mo de SRAM au total et le sous-système de mémoire comprend 96 Go de mémoire HBM2E offrant une bande passante maximale de 2,45 To/s (ce qui est l’un des quelques chiffres que nous pourrions lier au prochain H100 de Nvidia, qui offre une bande passante mémoire d’environ 3 To/s sous sa forme SXM à 700W (s’ouvre dans un nouvel onglet)). Pour rendre la puce encore plus polyvalente, elle dispose de 24 ports 100GbE RDMA sur Ethernet convergé (RoCE2).
Les seules choses qui manquent dans les spécifications sont les FLOPS et la puissance (puisqu’il s’agit de cartes Mezzanine OAP, nous supposons qu’il s’agit de 560 W maximum).
Amélioration des performances 2X par rapport à A100
Pour comparer son nouveau processeur d’apprentissage en profondeur Gaudi2, Intel a utilisé des modèles de vision par ordinateur (ResNet-50) et de traitement du langage naturel (BERT) du benchmark MLPerf. La société a comparé la machine de Habana avec deux processeurs Xeon Scalable 8380 et huit processeurs Gaudi2 (en tant que cartes Mezzanine) à des serveurs disponibles dans le commerce alimentés par la 1ère génération Gaudi ainsi qu’aux serveurs alimentés par Nvidia A100 80 Go/40 Go (avec huit GPU) de Dell et Nvidia. . Les résultats sont actuellement présentés dans la base de données de ML Common (détails, code).
Intel souligne que les performances des systèmes alimentés par Nvidia A100 ont été obtenues via des machines prêtes à l’emploi et que les performances des serveurs alimentés par Gaudi ont été obtenues « sans manipulations logicielles spéciales », ce qui diffère « de la publicité prête à l’emploi ». pile logicielle disponible pour les clients de Habana. »
« Le débit de formation a été dérivé avec les dockers TensorFlow de NGC et des référentiels publics de Habana, en utilisant les meilleurs paramètres de performance recommandés par les fournisseurs (précision mixte utilisée dans les deux) », indique la description. « Le débit de temps de formation est un facteur clé affectant la convergence du temps de formation qui en résulte. »
Bien que nous devions garder à l’esprit que nous avons affaire à des chiffres de performances obtenus par les laboratoires Habana d’Intel (qui doivent toujours être pris avec un grain de sel), nous devons également apprécier le fait qu’Intel a publié réel (c’est-à-dire éventuellement vérifiables) des performances de son propre processeur d’apprentissage en profondeur Habana Gaudi2 et de ses concurrents.
En effet, en ce qui concerne le modèle de vision par ordinateur (ResNet-50), le Gaudi2 d’Intel surpasse de deux fois un système Nvidia A100 en termes de mesures de temps d’apprentissage. Il existe bien sûr des paramètres logiciels quelque peu différents (ce qui est naturel compte tenu des architectures différentes), mais comme nous avons affaire à un modèle, Intel affirme qu’il s’agit d’une comparaison équitable.
En ce qui concerne le traitement du langage naturel, nous parlons d’améliorations des performances de 1,8 à 3,0 fois par rapport aux machines A100. Une partie de cet avantage peut être attribuée aux moteurs de traitement multimédia de pointe d’Intel intégrés à Gaudi2. Mais il semble que la bande passante interne et les capacités de calcul ainsi que les avantages du logiciel SynapseAI (gardez à l’esprit les avantages qu’Intel a apportés à son support PyTorch et TensorFlow au cours des derniers trimestres) fournis avec Gaudi2 font la partie importante du travail ici.
Mise à l’échelle
Parmi les éléments qu’Intel a soumis à la base de données de ML Common (qui n’ont pas encore été publiés), figuraient les résultats de performances des configurations à 128 et 256 accélérateurs démontrant la capacité d’évolution parallèle de la plate-forme Gaudi2 disponible pour la pile logicielle commerciale disponible pour les clients de Habana (gardez à l’esprit , cette puce possède 24 ports RDMA 100GbE et peut évoluer de différentes manières).
Parmi les éléments qu’Intel a soumis à la base de données de ML Common (qui n’ont pas encore été publiés), figuraient les résultats de performances des configurations à 128 et 256 accélérateurs démontrant la capacité d’évolution parallèle de la plate-forme Gaudi2 disponible pour la pile logicielle commerciale disponible pour les clients de Habana (gardez à l’esprit , cette puce possède 24 ports RDMA 100GbE et peut évoluer de différentes manières).
La loi d’Amdahl stipule que la mise à l’échelle des performances au sein d’une puce au-delà d’un cœur d’exécution dépend de nombreux facteurs, tels que la latence au sein de la puce ainsi que les vitesses logicielles et d’interconnexion. Les développeurs de GPU ont longtemps découragé cette loi. En ce qui concerne les capacités d’évolution, le Gaudi2 d’Intel surpasse tous les modèles d’IA existants compte tenu de ses vastes E/S. Pendant ce temps, Intel ne divulgue pas comment les solutions basées sur AMD et Nvidia fonctionnent dans les mêmes cas (nous devrions supposer qu’elles évoluent mieux avec les opérations de tenseur, n’est-ce pas ?).
« Gaudi2 offre des performances claires en matière de formation au leadership, comme le prouvent nos derniers résultats MLPerf, »| a déclaré Eitan Medina, directeur de l’exploitation chez Habana Labs. « Et nous continuons d’innover sur notre architecture et nos logiciels de formation en profondeur pour fournir les solutions de formation en IA les plus compétitives. »
Quelques idées
Sans aucun doute, les performances de la machine d’apprentissage en profondeur Intel Habana 8 voies Gaudi2 96 Go sont tout simplement impressionnantes par rapport au système A100 DL 8 voies de Nvidia. Battre un concurrent deux fois sur le même nœud de processus est pour le moins spectaculaire. Mais ce concurrent a deux ans.
Pourtant, c’est sans tenir compte de la consommation électrique, que nous ne connaissons pas. Nous ne pouvons que supposer que les Gaudi2 d’Intel sont des cartes OAM d’une puissance nominale de 560 W maximum (en tant que spaked) par carte. Mais c’est à peine une métrique pour ceux qui déploient des choses comme Gaudi2.
Les partenaires du système Gaudi2 d’Intel incluent actuellement Ddn et Supermicro. Compte tenu de la nature de ddn, nous parlons ici d’une solution de stockage compatible avec l’IA (gardez à l’esprit qu’il s’agit d’un Intel PDF). Supermicro est seulement mentionné.