Nvidia explore diverses conceptions de GPU multi-puces

Les chercheurs de Nvidia ont publié un article détaillant les différentes manières dont la société explore la manière dont les conceptions de modules multi-puces (MCM) peuvent être déployées pour de futurs produits. Alors que l’informatique devient de plus en plus hétérogène, Nvidia semble chercher un moyen d’ajouter de la flexibilité à ses conceptions de semi-conducteurs. Cela pourrait être réalisé en « mélangeant et en faisant correspondre » différents blocs matériels en fonction des charges de travail prévues, et c’est exactement là qu’intervient MCM.

Les premières informations factuelles sur les recherches d’AMD sur le MCM ont été révélées en 2017, lorsque la société a démontré comment une conception MCM avec quatre puces pouvait surpasser le plus grand GPU monolithique qui pouvait être construit à l’époque d’un énorme 45,5%. La découpe d’une grande matrice en plusieurs plus petites permet d’améliorer les rendements (les petites matrices ont moins de chances d’avoir des défauts de fabrication critiques) et permet également d’enchaîner plus de ressources informatiques qu’une seule matrice monolithique ne le pourrait jamais. Bien sûr, étant plus petites, ces puces devraient également présenter de meilleurs thermiques et une meilleure efficacité énergétique que leurs frères plus grands.

Le doublement de Nvidia sur les GPU MCM s’appelle le GPU Composable On Package, ou COPA. Ce dernier article de recherche porte davantage sur la façon dont Nvidia gérera la différenciation croissante entre les charges de travail HPC et AI, qui s’éloignent depuis un certain temps maintenant. De toute évidence, Nvidia craint que son approche mono-produit (lire : l’accélérateur GA100 et ses prédécesseurs) ne commence à perdre du terrain face à la spécialisation croissante de la charge de travail dans ces domaines.

Un diagramme comparant un GPU monolithique, qui regroupe toutes les unités d’exécution et les caches pour un véritable GPU à usage général. COPA permet le mélange et la correspondance de différents blocs matériels, en s’appuyant sur certaines exigences de charge de travail au détriment d’autres, et un nombre plus élevé de conceptions de puces plus spécialisées (et plus performantes). (Crédit image : Nvidia)

À cet effet, Nvidia a simulé comment différentes conceptions et configurations MCM pourraient lui permettre de mélanger et de faire correspondre les blocs matériels requis pour chaque charge de travail. L’article montre comment une réduction de 25 % de la bande passante mémoire ne ralentit en fait les charges de travail HPC que de 4 % en moyenne. La réduction de la bande passante disponible de 25 % supplémentaires a entraîné une pénalité de performance supplémentaire de 10 %. Ainsi, avec 50 % de bande passante mémoire en moins (et en supprimant le matériel qui le permet), Nvidia peut récupérer de l’espace sur la puce pour d’autres blocs matériels plus appropriés qui offriraient plus de performances que ce qui a été perdu pour la charge de travail appropriée.

Cependant, tous les blocs matériels ne sont pas égaux. Certains blocs matériels ne peuvent actuellement pas être séparés sans encourir des pénalités de performances extrêmes. COPA est la tentative de Nvidia de simuler les effets de plusieurs décisions de conception de puces et leur lien avec les performances.

L’approche de l’entreprise donne d’abord la priorité aux marchés HPC et IA à forte marge, ce qui est logique, surtout compte tenu de la façon dont plusieurs entreprises ont empiété sur cet espace avec leurs propres solutions personnalisées (par exemple, Cerebras avec son Wafer Scale Engine et Lightelligence avec sa photonique- basé sur l’APCE). Cependant, cette même philosophie de charge de travail et de semi-conducteur peut être appliquée à l’ensemble de la pile de produits basés sur GPU de Nvidia, y compris la GeForce grand public.

MCM pour GeForce présente bien sûr plus de difficultés. La mise à l’échelle des charges de travail qui sont déjà conçues pour être réparties sur des milliers de nœuds potentiels dans un superordinateur est intrinsèquement différente de la mise à l’échelle des charges de travail de jeu en temps réel. En fait, Nvidia a essentiellement débranché les solutions de jeu multi-GPU SLI (interface de liaison évolutive). MCM aura besoin d’interconnexions plus élevées entre les différents blocs GPU s’il doit être utilisable pour les jeux sans avoir besoin de ressources dupliquées et de rendu d’images alternatif.

AMD nous a déjà montré ce que MCM peut faire en termes de coût, de puissance et de performances dans l’espace CPU avec son architecture Zen et ses itérations ultérieures. Le MCM dans les GPU est sans doute une réalisation plus difficile, mais la technologie nous y conduira. Lorsque ce sera le cas, Nvidia composera des GPU à partir de plusieurs blocs matériels IP, en utilisant une approche modulaire de la conception de puces, et disposera probablement d’un portefeuille de produits beaucoup plus spécialisé en fonction des besoins informatiques de l’époque.

Source-138