Alors que Habana Gaudi d’Intel offre des performances quelque peu compétitives et est livré avec le progiciel Habana SynapseAI, il reste insuffisant par rapport aux GPU de calcul compatibles CUDA de Nvidia. Ceci, associé à une disponibilité limitée, est la raison pour laquelle Gaudi n’a pas été aussi populaire pour les grands modèles linguistiques (LLM) comme ChatGPT.
Maintenant que la ruée vers l’IA est lancée, Habana d’Intel voit des déploiements plus larges. Amazon Web Services a décidé d’essayer Gaudi 1ère génération d’Intel avec PyTorch et DeepSpeed pour former les LLM, et les résultats étaient suffisamment prometteurs pour proposer commercialement des instances DL1 EC2.
La formation de grands modèles de langage (LLM) avec des milliards de paramètres présente des défis. Ils ont besoin de techniques de formation spécialisées, compte tenu des limites de mémoire d’un seul accélérateur et de l’évolutivité de plusieurs accélérateurs travaillant de concert. Les chercheurs d’AWS ont utilisé DeepSpeed, une bibliothèque d’optimisation d’apprentissage en profondeur open source pour PyTorch conçue pour atténuer certains des défis de la formation LLM et accélérer le développement et la formation de modèles, et des instances Amazon EC2 DL1 basées sur Intel Habana Gaudi pour leur travail. Les résultats qu’ils ont obtenus semblent très prometteurs.
Les chercheurs ont construit un cluster de calcul géré à l’aide d’AWS Batch, comprenant 16 instances dl1.24xlarge, chacune avec huit accélérateurs Habana Gaudi et 32 Go de mémoire et un réseau RoCE entièrement maillé entre les cartes avec une bande passante d’interconnexion bidirectionnelle totale de 700 Gbps chacune. De plus, le cluster était équipé de quatre adaptateurs AWS Elastic Fabric avec un total d’interconnexion de 400 Gbit/s entre les nœuds.
Du côté logiciel, les chercheurs ont utilisé les optimisations DeepSpeed ZeRO1 pour pré-entraîner le modèle BERT 1.5B avec divers paramètres. L’objectif était d’optimiser les performances et la rentabilité de la formation. Pour assurer la convergence du modèle, les hyperparamètres ont été ajustés et la taille de lot effective par accélérateur a été fixée à 384, avec des micro-lots de 16 par étape et 24 étapes d’accumulation de gradient.
L’efficacité de mise à l’échelle d’Intel HabanaGaudi a tendance à être relativement élevée et ne descend jamais en dessous de 90 %, avec huit instances et 64 accélérateurs exécutant un modèle BERT 340 millions.
Pendant ce temps, en utilisant la prise en charge native du BF16 de Gaudi, les chercheurs d’AWS ont réduit les besoins en taille de mémoire et augmenté les performances de formation par rapport au FP32 pour activer les modèles BERT 1,5 milliard. Ils ont atteint une efficacité de mise à l’échelle de 82,7 % sur 128 accélérateurs en utilisant les optimisations DeepSpeed ZeRO stage 1 pour un modèle BERT avec 340 millions à 1,5 milliard de paramètres.
En général, les chercheurs d’AWS ont découvert qu’en utilisant le logiciel Habana SynapseAI v1.5/v1.6 approprié avec DeepSpeed et plusieurs accélérateurs Habana Gaudi, un modèle BERT avec 1,5 milliard de paramètres pouvait être pré-formé en 16 heures, atteignant la convergence sur un réseau de 128 Accélérateurs Gaudi, atteignant une efficacité de mise à l’échelle de 85%. L’architecture peut être évaluée dans l’AWS Workshop.