Ampere a présenté cette semaine ses processeurs AmpereOne pour les centres de données cloud qui se trouvent être les premiers processeurs à usage général de l’industrie avec jusqu’à 132 qui peuvent être utilisés pour l’inférence IA.
Les nouvelles puces consomment plus d’énergie que leurs prédécesseurs – Ampere Altra (qui restera dans l’écurie d’Ampere pendant au moins un certain temps) – mais la société affirme que malgré une consommation d’énergie plus élevée, ses processeurs avec jusqu’à 192 cœurs offrent une densité de calcul plus élevée que les CPU. d’AMD et d’Intel. Certaines de ces revendications de performance peuvent être controversées.
192 cœurs cloud natifs personnalisés
Les processeurs AmpereOne d’Ampere disposent de 136 à 192 cœurs (par opposition à 32 à 128 cœurs pour Ampere Altra) fonctionnant jusqu’à 3,0 GHz, basés sur l’implémentation propriétaire de l’architecture du jeu d’instructions Armv8.6+ (avec deux vecteurs 128 bits). unités prenant en charge les formats FP16, BF16, INT16 et INT8) qui sont équipées d’un cache L2 d’associativité à 8 voies de 2 Mo par cœur (au lieu de 1 Mo) et sont interconnectées à l’aide d’un réseau mécanique avec 64 nœuds domestiques et un espion basé sur un répertoire filtre. En plus des caches L1 et L2, le SoC dispose également d’un cache de niveau système de 64 Mo. Les nouveaux processeurs sont évalués pour 200W – 350W selon le SKU exact, contre 40W – 180W pour l’Ampere Altra.
La société affirme que ses nouveaux cœurs sont davantage optimisés pour les charges de travail cloud et IA et présentent des gains d’instructions par horloge (IPC) « puissants et efficaces », ce qui signifie probablement un IPC plus élevé (par rapport au Neoverse N1 d’Arm utilisé pour Altra) sans une augmentation tangible. dans la consommation d’énergie et la zone de matrice. En parlant de zone de matrice, Ampere ne le divulgue pas, mais dit que l’AmpereOne est fabriqué sur l’une des technologies de processus de classe 5 nm de TSMC.
Bien qu’Ampere ne révèle pas tous les détails sur son cœur AmpereOne, il indique qu’ils disposent d’un préchargeur de données L1 très précis (réduit la latence, garantit que le processeur passe moins de temps à attendre les données et réduit la consommation d’énergie du système en minimisant les accès à la mémoire), récupération raffinée des erreurs de prédiction de branche (plus tôt le CPU peut détecter une erreur de prédiction de branche et la récupérer, cela réduira la latence et gaspillera moins d’énergie) et la désambiguïsation de la mémoire sophistiquée (augmente l’IPC, minimise les blocages de pipeline, maximise l’exécution dans le désordre, réduit latence et améliore la gestion des multiples demandes de lecture/écriture dans les environnements virtualisés).
Bien que la liste des améliorations de l’architecture de base d’AmpereOne ne semble pas trop longue sur le papier, ces choses peuvent en effet améliorer considérablement les performances et elles ont nécessité de nombreuses recherches (c’est-à-dire, quelles choses ralentissent le plus les performances d’un processeur de centre de données cloud ?) et beaucoup de travail pour les mettre en œuvre efficacement.
Sécurité avancée et E/S
Étant donné que le SoC AmpereOne est destiné aux centres de données cloud, il est équipé d’E/S appropriées, qui comprennent huit canaux DDR5 pour jusqu’à 16 modules prenant en charge jusqu’à 8 To de mémoire par socket, 128 voies de PCIe Gen5 avec 32 contrôleurs et une bifurcation x4.
Les centres de données nécessitent également certaines fonctionnalités de fiabilité, de disponibilité, de facilité d’entretien (RAS) et de sécurité. À cette fin, le SoC prend entièrement en charge la mémoire ECC, le cryptage de mémoire à clé unique, le balisage de mémoire, la virtualisation sécurisée et la virtualisation imbriquée, pour n’en nommer que quelques-uns. En outre, AmpereOne dispose de nombreuses fonctionnalités de sécurité telles que les accélérateurs de chiffrement et d’entropie, l’atténuation des attaques par canal latéral spéculatif, l’atténuation des attaques ROP/JOP, etc.
Curieux résultats de référence
Sans aucun doute, le SoC AmpereOne d’Ampère est un morceau de silicium impressionnant conçu pour gérer les charges de travail dans le cloud et doté de 192 cœurs à usage général, le premier de l’industrie. Pourtant, pour prouver ses arguments, Ampère utilise des résultats de référence plutôt curieux.
Ampere considère la densité de calcul de son AmpereOne comme son principal avantage. La société affirme qu’un rack 42U 16,5 kW rempli de machines 1S basées sur SoC AmpereOne à 192 cœurs peut prendre en charge jusqu’à 7926 machines virtuelles, tandis qu’un rack basé sur l’EPYC 9654 ‘Genoa’ à 96 cœurs d’AMD peut gérer 2496 machines virtuelles et un rack alimenté. par les processeurs Intel Xeon Scalable 8480+ ‘Sapphire Rapids’ à 56 cœurs pouvant gérer 1680 machines virtuelles. Cette comparaison a beaucoup de sens dans le budget de puissance de 16,5 kW.
Mais la densité de puissance des racks 42U augmente et les exascalers comme AWS, Google et Microsoft sont prêts pour cela, en particulier pour leurs charges de travail exigeantes en performances. Sur la base d’une enquête de l’UpTimeInstitute en 2020, nous pouvons dire que 16 % des entreprises ont déployé des rakcs 42U typiques avec une densité de puissance de rack de 20 kW à plus de 50 kW. À l’heure actuelle, le nombre de déploiements typiques avec des racks de 20 kW a augmenté, et non diminué, car les processeurs AMD de dernière génération et de génération précédente ont augmenté leurs TDP par rapport à leurs prédécesseurs.
En matière de performances, Ampère démontre les avantages de son système basé sur AmpereOne à 160 cœurs avec 512 Go de mémoire exécutant l’IA générative (diffusion stable) et les recommandations d’IA (DLRM) par rapport aux systèmes basés sur le processeur EPYC 9654 à 96 cœurs d’AMD avec 256 Go de mémoire (ce qui signifie qu’il fonctionnait en mode huit canaux, et non en mode 12 canaux pris en charge par Genoa). Les machines à base d’ampères ont produit 2,3 fois plus d’images/s pour l’IA générative et plus de 2 fois plus de requêtes/s pour les recommandations d’IA.
Dans ce cas, Ampere a comparé les performances de ses systèmes de traitement des données avec une précision FP16, tandis que les machines basées sur AMD ont calculé avec une précision FP32, ce qui n’est pas une comparaison de pommes à pommes. De plus, de nombreuses charges de travail FP16 sont désormais exécutées sur des GPU plutôt que sur des CPU et les GPU massivement parallèles ont tendance à offrir des résultats spectaculaires avec des charges de travail génératives d’IA et de recommandations d’IA.
Résumé
Les AmpereOne d’Ampere sont les premiers processeurs à usage général de l’industrie avec jusqu’à 192 cœurs, ce qui mérite certainement beaucoup de respect. Ces processeurs disposent également de capacités d’E/S robustes, de fonctionnalités de sécurité avancées et promettent des gains d’instructions par horloge (IPC) améliorés. Ils peuvent également exécuter des charges de travail AI avec une précision FP16, BF16, FP8 et INT8.
Mais la société a choisi d’utiliser des méthodes plutôt controversées pour prouver ses points en matière de résultats de référence, ce qui jette une ombre sur ses réalisations. Cela dit, il sera particulièrement intéressant de voir les résultats des tests indépendants des serveurs basés sur AmpereOne.