Intel a détaillé le GPU Ponte Vecchio Xe-HPC de la société à Hot Chips 34. Dans les benchmarks fournis, le fabricant de puces affirme que Ponte Vecchio offre jusqu’à 2,5 fois plus de performances que le Nvidia A100. Mais, comme d’habitude, prenez les repères fournis par les fournisseurs avec une pincée de sel.
Ponte Vecchio a surpassé l’A100 par des marges significatives dans plusieurs benchmarks sélectionnés par Intel. La centrale d’Intel a également affiché une avance 2x en miniBUDE et 1,5x en ExaSMR. C’est une comparaison intéressante étant donné que le Ponte Vecchio n’est même pas encore sorti et que l’A100 (Ampere) est sur le marché depuis 2020. Et n’oublions pas que l’Instinct MI250X (Aldebaran) d’AMD serait trois fois plus rapide que l’A100. Intel devrait donc s’inquiéter des produits HPC de nouvelle génération d’AMD et de Nvidia.
Si les chiffres d’Intel sont exacts, Ponte Vecchio pourrait être un concurrent potentiel contre le H100 (Hopper) de nouvelle génération de Nvidia. Sur la base des spécifications que nous avons jusqu’à présent, le H100 devrait être au moins deux fois plus rapide que l’A100, ce qui est encore plus menaçant dans l’Instinct MI300 d’AMD, fusionnant à la fois les chipsets Zen 4 CPU et CDNA 3 GPU en un seul produit. Surnommé le premier APU de centre de données au monde, AMD affirme que l’Instinct MI300 représente une augmentation de 8 fois les performances d’entraînement de l’IA par rapport à l’Instinct MI250X.
Ponte Vecchio se déclinera en trois versions : OAM, sous-système x4 avec liaisons Xe et sous-système x4 avec liaisons Xe sur une plate-forme Sapphire Rapids à double socket. Malheureusement, Sapphire Rapids a subi tellement de retards que ce n’est plus drôle. À moins de nouveaux revers, certains produits Sapphire Rapids pourraient enfin faire leurs débuts en octobre. Néanmoins, les puces à volume élevé pourraient ne pas arriver avant février 2023.
Dans son facteur de forme OAM, Ponte Vecchio prend en charge les plates-formes à quatre GPU et à huit GPU. Une configuration Ponte Vecchio à deux piles pompe 52 TFLOP de performances FP32 et FP64. À titre de comparaison, un seul module H100 SXM5 culmine à 60 TFLOP de FP32 et 30 TFLOP de performance FP64.
Ponte Vecchio dispose d’un fichier de registre de 64 Mo, produisant jusqu’à 419 TBps de bande passante. Les caches L1 et L2 sont respectivement de 64 Mo et 408 Mo. Le grand cache L2 sur Ponte Vecchio profite à des charges de travail spécifiques, telles que le cas 2D-FFT et le cas DNN. Dans la présentation, les résultats d’Intel révèlent une amélioration substantielle des performances de 80 Mo à 408 Mo dans les deux scénarios.