Pour Computex 2023, Intel a annoncé de nouveaux détails sur son nouveau silicium VPU axé sur l’IA qui fera ses débuts dans les nouvelles puces Meteor Lake de la société. La société a également décrit ses efforts pour activer l’écosystème d’IA pour ses prochaines puces Meteor Lake. Intel prévoit de lancer les processeurs Meteor Lake, c’est le premier à utiliser une conception mixte basée sur des puces qui exploite à la fois la technologie Intel et TSMC dans un seul package, d’ici la fin de l’année. Les puces atterriront d’abord dans les ordinateurs portables, en se concentrant sur l’efficacité énergétique et les performances dans les charges de travail d’IA locales, mais différentes versions de la conception seront également disponibles sur les ordinateurs de bureau.
Apple et AMD ont déjà pris de l’avance avec de puissants moteurs d’accélération de l’IA intégrés directement dans leur silicium, et Microsoft a également été occupé à doter Windows de nouvelles capacités pour tirer parti des moteurs d’accélération de l’IA personnalisés. Suite aux annonces d’Intel, d’AMD et de Microsoft la semaine dernière concernant l’ère prochaine de l’IA sur les PC, Intel a approfondi la manière dont il abordera la classe émergente de charges de travail d’IA avec ses propres blocs d’accélération personnalisés sur ses puces PC grand public.
Intel a partagé quelques nouveaux rendus des puces Meteor Lake, et nous avons déjà couvert la conception matérielle globale lors de Hot Chips 2022. Ces puces seront les premières à tirer parti du nœud de processus Intel 4 et d’une multitude de puces fabriquées par TSMC sur le N5 et N6 traite pour d’autres fonctions, comme les tuiles GPU et SoC. Ici, nous pouvons voir que la puce est divisée en quatre unités, avec un CPU, un GPU, un SoC/VPU et une tuile d’E/S empilés verticalement sur un interposeur utilisant la technique de packaging 3D Foveros d’Intel. Nous avons également inclus un autre jeu de diapositives à la fin de l’article avec des détails architecturaux plus granulaires de la conférence Hot Chips.
L’accent est mis ici sur l’unité VPU, mais ne laissez pas la première image, qui est l’illustration simplifiée d’Intel partagée pour l’annonce d’aujourd’hui, vous induire en erreur – la vignette entière n’est pas dédiée au VPU. Au lieu de cela, il s’agit d’une tuile SoC avec diverses autres fonctions, telles que les E/S, le VPU, les cœurs GNA, les contrôleurs de mémoire et d’autres fonctions. Cette tuile est fabriquée sur le processus N6 de TSMC mais porte l’architecture Intel SoC et les cœurs VPU. L’unité VPU ne consomme pas toute cette zone de matrice, ce qui est bien – cela signifierait qu’Intel employait près de 30 % de sa zone de matrice pour ce qui sera une unité peu utilisée, du moins au début. Cependant, comme nous le verrons ci-dessous, il faudra un certain temps avant que les développeurs activent l’écosystème d’applications nécessaire pour tirer pleinement parti des cœurs VPU.
Dans l’album ci-dessus, j’ai inclus une image de la présentation Hot Chips d’Intel qui fournit la représentation graphique officielle de l’entreprise des fonctions sur la matrice d’E/S. J’ai également inclus une diapositive intitulée ‘fig. 8.’ Ce schéma fonctionnel provient d’un brevet Intel qui est largement considéré comme décrivant la conception de Meteor Lake, et il correspond généralement à ce que nous avons déjà appris sur la puce.
Intel inclura toujours le bloc d’accélération IA basse consommation Gaussian Neural Acceleration qui existe déjà sur ses puces, marqué comme « GNA 3.5 » sur la tuile SoC dans le diagramme (plus à ce sujet ci-dessous). Vous pouvez également repérer le bloc « VPU 2.7 » qui comprend le nouveau bloc VPU basé sur Movidius.
Comme le rendu stylisé d’Intel, l’image du brevet n’est qu’un rendu graphique sans réelle corrélation avec la taille physique réelle des matrices. Il est facile de voir qu’avec autant d’interfaces externes, comme les contrôleurs de mémoire, PCIe, USB et SATA, sans parler des moteurs multimédias et d’affichage et de la gestion de l’alimentation, les cœurs VPU ne peuvent tout simplement pas consommer une grande partie de la zone de la matrice sur la tuile SoC. Pour l’instant, la quantité de zone de matrice qu’Intel a dédiée à ce moteur est inconnue.
Tuile/Chiplet Intel Meteor Lake | Fabricant / Nœud |
Tuile CPU | Intel / ‘Intel 4’ |
Matrice de base Foveros 3D | Intel / 22FFL (Intel 16) |
Tuile GPU (tGPU) | TSMC/N5 (5nm) |
Tuile SoC | TSMC/N6 (6nm) |
Tuile OIE | TSMC/N6 (6nm) |
Le VPU est conçu pour des charges de travail d’IA soutenues, mais Meteor Lake comprend également un processeur, un GPU et un moteur GNA qui peuvent exécuter diverses charges de travail d’IA. Intel d’Intel affirme que le VPU est principalement destiné aux tâches d’arrière-plan, tandis que le GPU intervient pour les travaux parallélisés plus lourds. Pendant ce temps, le processeur traite les travaux d’inférence légers à faible latence. Certaines charges de travail d’IA peuvent également s’exécuter simultanément sur le VPU et le GPU, et Intel a activé des mécanismes qui permettent aux développeurs de cibler les différentes couches de calcul en fonction des besoins de l’application en cours. Cela se traduira finalement par des performances plus élevées à une puissance inférieure – un objectif clé de l’utilisation du VPU d’accélération de l’IA.
Les puces d’Intel utilisent actuellement le bloc GNA pour l’inférence IA à faible puissance pour les fonctions de traitement audio et vidéo, et l’unité GNA restera sur Meteor Lake. Cependant, Intel affirme qu’il exécute déjà une partie du code axé sur GNA sur le VPU et obtient de meilleurs résultats, avec une forte implication qu’Intel passera entièrement au VPU avec les futures puces et supprimera le moteur GNA.
Intel a également révélé que Meteor Lake dispose d’une structure cohérente qui permet un sous-système de mémoire unifié, ce qui signifie qu’il peut facilement partager des données entre les éléments de calcul. Il s’agit d’une fonctionnalité clé dont le concept est similaire à celui d’autres concurrents dans le domaine de l’IA CPU, comme Apple avec sa série M et les puces Ryzen 7040 d’AMD.
Ici, nous pouvons voir le diaporama d’Intel couvrant ses efforts pour activer le vaste écosystème de logiciels et de systèmes d’exploitation qui aidera à propulser les applications accélérées par l’IA sur le PC. Le discours d’Intel est qu’il a la présence et l’échelle du marché pour amener l’IA au grand public et souligne ses efforts de collaboration qui ont apporté la prise en charge de ses processeurs hybrides x86 Alder et Raptor Lake à Windows, Linux et à l’écosystème ISV plus large.
L’industrie sera confrontée à des défis similaires pour apporter l’accélération de l’IA aux systèmes d’exploitation et aux applications modernes. Cependant, avoir la capacité d’exécuter des charges de travail d’IA localement ne vaut pas grand-chose si les développeurs ne prennent pas en charge les fonctionnalités en raison d’implémentations propriétaires difficiles. La clé pour faciliter la prise en charge des charges de travail d’IA locales réside dans les bibliothèques d’accélération DirectML DirectX 12 pour l’apprentissage automatique, une approche défendue par Microsoft et AMD. Le VPU d’Intel prend en charge DIrectML, mais aussi ONNX et OpenVINO, qui, selon Intel, offrent de meilleures performances sur son silicium. Cependant, ONNX et OpenVINO nécessiteront un travail de développement plus ciblé de la part des développeurs de logiciels pour extraire les meilleures performances.
Bon nombre des charges de travail d’IA les plus intenses d’aujourd’hui, telles que les grands modèles de langage comme ChatGPT et autres, nécessitent une puissance de calcul intense qui continuera à fonctionner dans les centres de données. Cependant, Intel affirme qu’il présente des problèmes de latence et de confidentialité, sans parler de l’ajout de coûts à l’équation. Certaines applications d’intelligence artificielle, telles que le traitement audio, vidéo et d’image, pourront être traitées localement sur le PC, ce qui, selon Intel, améliorera la latence, la confidentialité et les coûts.
Intel indique une gamme de charges de travail différentes qui peuvent bénéficier de l’accélération de l’IA locale, y compris le traitement vidéo et audio en temps réel et la capture de mouvement en temps réel pour Unreal Engine. Intel a également fait la démonstration de Stable Diffusion fonctionnant simultanément sur le GPU et le VPU de Meteor Lake et la super résolution fonctionnant uniquement sur le VPU. Cependant, la démo ne nous donne pas de cadre de référence du point de vue des performances, nous ne pouvons donc pas attester des performances relatives par rapport aux autres solutions. De plus, tous les modèles Stable Diffusion ne peuvent pas fonctionner localement sur le processeur – ils auront besoin d’une accélération GPU discrète.
Une série d’applications courantes prennent actuellement en charge une certaine forme d’accélération locale de l’IA, mais la sélection reste encore assez limitée. Cependant, les travaux de développement continus d’Intel et de l’industrie dans son ensemble permettront à l’accélération de l’IA de devenir plus courante au fil du temps.
Voici quelques diapositives avec plus de détails architecturaux de la présentation Hot Chips. Intel dit que Meteor Lake est sur la bonne voie pour une sortie cette année, mais cela concernera d’abord les ordinateurs portables.
Tous les signes indiquent actuellement que les puces pour PC de bureau Meteor Lake sont limitées aux modèles Core i3 et Core i5 relativement bas de gamme évalués pour des enveloppes de puissance conservatrices de 35 W et 65 W, mais Intel n’a pas encore fait d’annonce officielle. Nous espérons en savoir plus à l’approche du lancement plus tard cette année.