La puce d’accélération d’IA « Gaudi 3 » d’Intel pourrait donner du fil à retordre au H100 de Nvidia

Agrandir / Une photo distribuée par Intel de l’accélérateur d’IA Gaudi 3.

Mardi, Intel a dévoilé une nouvelle puce accélératrice d’IA appelée Gaudi 3 lors de son événement Vision 2024 à Phoenix. Avec de solides performances revendiquées lors de l’exécution de grands modèles de langage (comme ceux qui alimentent ChatGPT), la société a positionné Gaudi 3 comme une alternative au H100 de Nvidia, un GPU de centre de données populaire qui a été sujet à des pénuries, même si cela semble s’atténuer quelque peu.

Par rapport à la puce H100 de Nvidia, Intel prévoit un temps de formation 50 % plus rapide sur Gaudi 3 pour le LLM GPT-3 175B d’OpenAI et la version à 7 milliards de paramètres de Llama 2 de Meta. En termes d’inférence (exécution du modèle entraîné pour obtenir des résultats) , Intel affirme que sa nouvelle puce AI offre des performances 50 % plus rapides que le H100 pour Llama 2 et Falcon 180B, qui sont tous deux des modèles à poids ouvert.

Intel cible le H100 en raison de sa part de marché élevée, mais la puce n’est pas la puce d’accélération d’IA la plus puissante de Nvidia en préparation. Les annonces du H200 et du Blackwell B200 ont depuis dépassé le H100 sur le papier, mais aucune de ces puces n’est encore disponible (le H200 est attendu pour le deuxième trimestre 2024, soit pratiquement n’importe quel jour maintenant).

Pendant ce temps, les problèmes d’approvisionnement en H100 susmentionnés ont constitué un casse-tête majeur pour les entreprises technologiques et les chercheurs en IA qui doivent se battre pour accéder à toutes les puces capables de former des modèles d’IA. Cela a conduit plusieurs entreprises technologiques comme Microsoft, Meta et OpenAI (selon la rumeur) à rechercher leurs propres conceptions de puces d’accélérateur d’IA, bien que ce silicium personnalisé soit généralement fabriqué par Intel ou TSMC. Google possède sa propre gamme d’unités de traitement tensoriel (TPU) qu’il utilise en interne depuis 2015.

Compte tenu de ces problèmes, le Gaudi 3 d’Intel pourrait constituer une alternative potentiellement intéressante au H100 si Intel parvient à atteindre un prix idéal (ce qu’Intel n’a pas fourni, mais un H100 coûterait entre 30 000 et 40 000 dollars) et à maintenir une production adéquate. AMD fabrique également une gamme compétitive de puces IA, telles que la série AMD Instinct MI300, vendues entre 10 000 et 15 000 dollars.

Représentation de Gaudi 3

Un document Intel présentant les spécifications de l'accélérateur d'IA Gaudi 3.
Agrandir / Un document Intel présentant les spécifications de l’accélérateur d’IA Gaudi 3.

Intel affirme que la nouvelle puce s’appuie sur l’architecture de son prédécesseur, Gaudi 2, en comportant deux puces en silicium identiques reliées par une connexion à large bande passante. Chaque puce contient une mémoire cache centrale de 48 mégaoctets, entourée de quatre moteurs de multiplication matricielle et de 32 cœurs de processeur tenseur programmables, ce qui porte le nombre total de cœurs à 64.

Le géant de la fabrication de puces affirme que Gaudi 3 offre le double des performances de calcul de l’IA de Gaudi 2 en utilisant une infrastructure à virgule flottante de 8 bits, ce qui est devenu crucial pour la formation des modèles de transformateurs. La puce offre également une multiplication par quatre pour les calculs utilisant le format BFloat à 16 nombres. Gaudi 3 dispose également de 128 Go de capacité de mémoire HBMe2, la moins chère (ce qui peut contribuer à la compétitivité des prix) et de 3,7 To de bande passante mémoire.

Étant donné que les centres de données sont connus pour être gourmands en énergie, Intel met l’accent sur l’efficacité énergétique de Gaudi 3, affirmant une efficacité énergétique d’inférence 40 % supérieure pour les paramètres Llama 7B et 70B et les modèles de paramètres Falcon 180B par rapport au H100 de Nvidia. Eitan Medina, directeur des opérations d’Intel Habana Labs, attribue cet avantage aux moteurs mathématiques à grande matrice de Gaudi, qui, selon lui, nécessitent beaucoup moins de bande passante mémoire que d’autres architectures.

Gaudi contre Blackwell

Une photo distribuée par Intel de l'accélérateur d'IA Gaudi 3.
Agrandir / Une photo distribuée par Intel de l’accélérateur d’IA Gaudi 3.

Le mois dernier, nous avons couvert le lancement éclatant de l’architecture Blackwell de Nvidia, y compris le GPU B200, qui, selon Nvidia, sera la puce IA la plus puissante au monde. Il semble donc naturel de comparer ce que nous savons de la puce IA la plus performante de Nvidia au meilleur de ce qu’Intel peut actuellement produire.

Pour commencer, Gaudi 3 est fabriqué à l’aide de la technologie de processus N5 de TSMC, selon IEEE Spectrum, réduisant ainsi l’écart entre Intel et Nvidia en termes de technologie de fabrication de semi-conducteurs. La prochaine puce Nvidia Blackwell utilisera un processus N4P personnalisé, qui offrirait des améliorations modestes en termes de performances et d’efficacité par rapport au N5.

L’utilisation par Gaudi 3 de la mémoire HBM2e (comme nous l’avons mentionné ci-dessus) est remarquable par rapport aux HBM3 ou HBM3e plus chers utilisés dans les puces concurrentes, offrant un équilibre entre performances et rentabilité. Ce choix semble souligner la stratégie d’Intel consistant à rivaliser non seulement sur les performances mais aussi sur les prix.

En ce qui concerne les comparaisons brutes de performances entre Gaudi 3 et le B200, cela ne peut être connu que lorsque les puces ont été publiées et comparées par un tiers.

Alors que la course pour répondre à la soif de calcul de l’IA de l’industrie technologique s’intensifie, IEEE Spectrum note que la prochaine génération de puce Gaudi d’Intel, nom de code Falcon Shores, reste un point d’intérêt. Il reste également à voir si Intel continuera à s’appuyer sur la technologie de TSMC ou à tirer parti de sa propre activité de fonderie et de la technologie à venir des transistors à nanofeuilles pour acquérir un avantage concurrentiel sur le marché des accélérateurs d’IA.

Source-147