Nvidia vient de publier de nouveaux chiffres de performances pour son GPU de calcul H100 dans MLPerf 3.0, la dernière version d’une référence de premier plan pour les charges de travail d’apprentissage en profondeur. Le processeur Hopper H100 surpasse non seulement son prédécesseur A100 dans les mesures de temps d’entraînement, mais il gagne en performances grâce aux optimisations logicielles. En outre, Nvidia a également révélé les premières comparaisons de performances de son GPU de calcul compact L4 avec son prédécesseur, le GPU T4.
Nvidia a publié pour la première fois les résultats des tests H100 obtenus dans le benchmark MLPerf 2.1 en septembre 2022, révélant que son GPU de calcul phare peut battre son prédécesseur A100 jusqu’à 4,3 à 4,4 fois dans diverses charges de travail d’inférence. Les nouveaux chiffres de performance obtenus dans MLPerf 3.0 confirment non seulement que le H100 de Nvidia est plus rapide que son A100 (sans surprise), mais réaffirment qu’il est également nettement plus rapide que le processeur Xeon Platinum 8480+ (Sapphire Rapids) d’Intel récemment publié ainsi que celui de NeuChips. ReccAccel N3000 et les solutions Cloud AI 100 de Qualcomm dans une multitude de charges de travail
Ces charges de travail incluent la classification d’images (ResNet 50 v1.5), le traitement du langage naturel (BERT Large), la reconnaissance vocale (RNN-T), l’imagerie médicale (3D U-Net), la détection d’objets (RetinaNet) et la recommandation (DLRM). Nvidia souligne que non seulement ses GPU sont plus rapides, mais qu’ils bénéficient d’un meilleur support dans l’industrie du ML – certaines des charges de travail ont échoué sur des solutions concurrentes.
Il y a cependant un hic avec les chiffres publiés par Nvidia. Les fournisseurs ont la possibilité de soumettre leurs résultats MLPerf dans deux catégories : fermé et ouvert. Dans la catégorie fermée, tous les fournisseurs doivent exécuter des réseaux de neurones mathématiquement équivalents, tandis que dans la catégorie ouverte, ils peuvent modifier les réseaux pour optimiser leurs performances pour leur matériel. Les chiffres de Nvidia ne reflètent que la catégorie fermée, de sorte que les optimisations qu’Intel ou d’autres fournisseurs peuvent introduire pour optimiser les performances de leur matériel ne sont pas reflétées dans ces résultats de groupe.
Les optimisations logicielles peuvent apporter d’énormes avantages au matériel d’IA moderne, comme le montre l’exemple de Nvidia. Le H100 de la société a gagné entre 7 % dans les charges de travail de recommandation et 54 % dans les charges de travail de détection d’objets avec MLPerf 3.0 par rapport à MLPerf 2.1, ce qui représente une amélioration considérable des performances.
Faisant référence à l’explosion de ChatGPT et de services similaires, Dave Salvator, directeur de l’IA, de l’analyse comparative et du cloud, chez Nvidia, écrit dans un article de blog : « En ce moment iPhone de l’IA, la performance sur l’inférence est vitale… L’apprentissage en profondeur est maintenant déployé presque partout, entraînant un besoin insatiable de performances d’inférence, des usines aux systèmes de recommandation en ligne. »
En plus de réaffirmer que son H100 est le roi des performances d’inférence dans MLPerf 3.0, la société a également donné un aperçu des performances de son GPU de calcul L4 basé sur AD104 récemment publié. (s’ouvre dans un nouvel onglet). Cette carte GPU de calcul alimentée par Ada Lovelace est disponible dans un format à profil bas à un seul emplacement pour s’adapter à n’importe quel serveur, mais elle offre des performances assez formidables : jusqu’à 30,3 FP32 TFLOPS pour le calcul général et jusqu’à 485 FP8 TFLOPS (avec parcimonie ).
Nvidia n’a comparé son L4 qu’à l’un de ses autres GPU de centre de données compacts, le T4. Ce dernier est basé sur le GPU TU104 avec l’architecture Turing de 2018, il n’est donc pas surprenant que le nouveau GPU soit 2,2 à 3,1 fois plus rapide que le prédécesseur de MLPerf 3.0, selon la charge de travail.
« En plus des performances exceptionnelles de l’IA, les GPU L4 offrent un décodage d’image jusqu’à 10 fois plus rapide, un traitement vidéo jusqu’à 3,2 fois plus rapide et des performances graphiques et de rendu en temps réel plus de 4 fois plus rapides », a écrit Salvator.
Sans aucun doute, les résultats de référence des GPU de calcul H100 et L4 de Nvidia – qui sont déjà proposés par les principaux fabricants de systèmes et fournisseurs de services cloud – semblent impressionnants. Cependant, gardez à l’esprit que nous avons affaire à des chiffres de référence publiés par Nvidia lui-même plutôt qu’à des tests indépendants.