En fonction du matériel que vous utilisez, la formation d’un grand modèle de langage de toute taille significative peut prendre des semaines, des mois, voire des années. Ce n’est pas une façon de faire des affaires : personne n’a l’électricité et le temps d’attendre aussi longtemps. Mercredi, NVIDIA a dévoilé la dernière itération de son supercalculateur Eos, alimenté par plus de 10 000 GPU H100 Tensor Core et capable d’entraîner un modèle GPT-3 de 175 milliards de paramètres sur 1 milliard de jetons en moins de quatre minutes. C’est trois fois plus rapide que la précédente référence sur la norme industrielle MLPerf AI, définie par NVIDIA il y a à peine six mois.
Eos représente une énorme quantité de calcul. Il exploite 10 752 GPU reliés entre eux à l’aide du réseau Infiniband de NVIDIA (déplaçant un pétaoctet de données par seconde) et 860 téraoctets de mémoire à large bande passante (bande passante globale de 36 Po/s et 1,1 Po par seconde interconnectée) pour offrir 40 exaflops de la puissance de traitement de l’IA. L’ensemble de l’architecture cloud est composée de 1 344 nœuds – des serveurs individuels auxquels les entreprises peuvent louer l’accès pour environ 37 000 $ par mois pour étendre leurs capacités d’IA sans construire leur propre infrastructure.
Au total, NVIDIA a établi six records lors de neuf tests de référence : l’encoche de 3,9 minutes pour GPT-3, une marque de 2,5 minutes pour entraîner un modèle de diffusion stable utilisant 1 024 GPU Hopper., une minute même pour entraîner le DLRM, 55,2 secondes pour RetinaNet, 46 secondes pour 3D U-Net et le modèle BERT-Large n’a nécessité que 7,2 secondes pour s’entraîner.
NVIDIA n’a pas tardé à noter que la version à 175 milliards de paramètres de GPT-3 utilisée dans l’analyse comparative n’est pas l’itération grandeur nature du modèle (le modèle à diffusion stable non plus). Le plus grand GPT-3 offre environ 3,7 billions de paramètres et est tout simplement trop gros et encombrant pour être utilisé comme test de référence. Par exemple, il faudrait 18 mois pour le former sur l’ancien système A100 doté de 512 GPU, mais Eos n’a besoin que de huit jours.
Ainsi, NVIDIA et MLCommons, qui administrent la norme MLPerf, exploitent une version plus compacte qui utilise 1 milliard de jetons (la plus petite unité de données au dénominateur comprise par les systèmes d’IA générative). Ce test utilise une version GPT-3 avec le même nombre de commutateurs potentiels à inverser (que la taille réelle (ces 175 milliards de paramètres), juste un ensemble de données beaucoup plus gérable à utiliser (un milliard de jetons contre 3,7 billions).
L’amélioration impressionnante des performances, certes, vient du fait que cette récente série de tests a utilisé 10 752 GPU H100, contre 3 584 GPU Hopper que la société a utilisés lors des essais d’analyse comparative de juin. Cependant, NVIDIA explique que malgré le triplement du nombre de GPU, il a réussi à maintenir une mise à l’échelle des performances de 2,8x – un taux d’efficacité de 93 pour cent – grâce à l’utilisation généreuse de l’optimisation logicielle.
« La mise à l’échelle est une chose merveilleuse », a déclaré Salvator. « Mais avec la mise à l’échelle, vous parlez de plus d’infrastructure, ce qui peut également signifier des choses comme plus de coûts. Une augmentation efficacement mise à l’échelle signifie que les utilisateurs » font le meilleur usage de votre infrastructure. afin que vous puissiez faire votre travail aussi rapidement [as possible] et tirez le meilleur parti de l’investissement réalisé par votre organisation.
Le fabricant de puces n’était pas seul dans ses efforts de développement. L’équipe Azure de Microsoft a soumis un système GPU H100 similaire de 10 752 pour cette série d’analyses comparatives et a obtenu des résultats inférieurs de 2 % à ceux de NVIDIA.
« [The Azure team have] « Nous avons pu atteindre des performances comparables à celles du supercalculateur Eos », a déclaré aux journalistes Dave Salvator, directeur des produits de calcul accéléré chez NVIDIA, lors d’un pré-briefing mardi. De plus, « ils utilisent Infiniband, mais il s’agit d’une instance disponible dans le commerce ». Il ne s’agit pas d’un système de laboratoire vierge dont les clients réels n’en verront jamais les avantages. Il s’agit de l’instance réelle qu’Azure met à la disposition de ses clients. »
NVIDIA prévoit d’appliquer ces capacités de calcul étendues à diverses tâches, notamment les travaux en cours de l’entreprise en matière de développement de modèles fondamentaux, de conception de GPU assistée par l’IA, de rendu neuronal, d’IA générative multimodale et de systèmes de conduite autonome.
« Tout bon benchmark cherchant à maintenir sa pertinence sur le marché doit continuellement mettre à jour les charges de travail qu’il va infliger au matériel pour refléter au mieux le marché qu’il cherche à servir », a déclaré Salvator, notant que MLCommons a récemment ajouté un benchmark supplémentaire pour tester les performances des modèles. sur les tâches de diffusion stable. « Il s’agit d’un autre domaine passionnant de l’IA générative dans lequel nous voyons toutes sortes de choses être créées » – du code de programmation à la découverte de chaînes de protéines.
Ces références sont importantes car, comme le souligne Salvator, l’état actuel du marketing de l’IA générative ressemble un peu au « Far West ». L’absence de surveillance et de réglementation strictes signifie que « nous constatons parfois, avec certaines allégations de performances de l’IA, que vous n’êtes pas sûr de tous les paramètres qui ont servi à générer ces allégations particulières ». MLPerf fournit l’assurance professionnelle que les chiffres de référence générés par les entreprises à l’aide de ses tests « ont été examinés, vérifiés, et dans certains cas même contestés ou remis en question par d’autres membres du consortium », a déclaré Salvator. « C’est ce genre de processus d’évaluation par les pairs qui apporte vraiment de la crédibilité à ces résultats. »
NVIDIA s’est constamment concentré sur ses capacités et applications d’IA ces derniers mois. « Nous sommes au moment de l’iPhone pour l’IA », a déclaré le PDG Jensen Huang lors de son discours d’ouverture au GTC en mars. À cette époque, la société a annoncé son système cloud DGX qui répartit des fragments de la puissance de traitement du supercalculateur, en particulier par huit puces H100 ou A100 exécutant 60 Go de VRAM (640 de mémoire au total). La société a élargi son portefeuille de supercalculateurs avec la sortie du DGX GH200 au Computex en mai.