IBM, qui a été à la pointe de l’informatique quantique et d’un certain nombre d’autres domaines de recherche, a récemment présenté ce que pourrait être la solution au traitement de l’IA (et ses coûts). Et si la vision d’IBM se traduit par quelque chose, l’avenir n’est pas centré sur les GPU : il se déroule plutôt dans des puces analogiques à signaux mixtes qui pourraient apporter des améliorations massives en matière d’efficacité énergétique tout en offrant des performances compétitives par rapport aux incontournables du marché.
Selon un article de recherche publié dans Électronique naturelle la semaine dernière, IBM pense que l’avenir de l’inférence de l’IA pourrait passer par une puce combinant une mémoire à changement de phase (PCM) et des circuits numériques. Selon l’article, la multiplication matrice-vecteur (l’une des principales charges de travail pour l’inférence de l’IA) pourrait être effectuée directement sur des poids stockés sur puce.
Dans ce scénario, les besoins en puissance réduits des circuits analogiques passifs (qui ne nécessitent pas de courant électrique continu pour maintenir la valeur de bit qu’ils détiennent) devraient permettre une réduction de la puissance globale requise pour effectuer avec succès des calculs matriciels – ou , à tout le moins, permettent de réorienter le budget énergétique excédentaire des sections (désormais) analogiques de la puce vers ses circuits numériques restants pour un débit accru. La conception tire des indices des enseignements tirés de la recherche en informatique neuromorphique.
Développée dans le cadre du projet Hermes d’IBM, la dernière version de la puce compte 64 tuiles de calcul, qui communiquent entre elles via une approche Network-on-Chip (NOC) dont le concept est similaire à Infinity Fabric d’AMD. Il existe également du matériel à fonction fixe spécialisé dans le traitement des couches convolutives (qui visent à réduire la complexité des informations sous-jacentes afin d’accélérer la vitesse de traitement et d’augmenter l’efficacité). En tant que puce de recherche, elle a été fabriquée selon un processus de fabrication de 14 nm ; IBM a peut-être de la place pour améliorer encore l’efficacité énergétique, si les cellules analogiques peuvent être davantage miniaturisées.
Les cellules de mémoire à changement de phase (PCM) elles-mêmes sont réparties dans chacune des 64 tuiles disposées dans une barre transversale, qui peut stocker un espace de multiplication matrice-vecteur de 256×256. Pour être juste, il existe certaines contraintes de performances dans une telle conception mixte analogique-numérique : les signaux doivent être convertis de l’analogique au numérique (et vice-versa), ce qui entraîne des pénalités en termes de latence et d’utilisation de l’énergie. Mais avec des optimisations de planification appropriées, le résultat final est une efficacité supérieure par rapport à une puce entièrement numérique (comme les A100 et H100 de Nvidia). Selon IBM, une seule entrée ResNet-9 a été traitée en 1,52 μs (micro-secondes) et a consommé 1,51 μJ (micro-Joules) d’énergie. Selon Abu Sebastian du centre IBM Rüschlikon (tel que couvert par EE Times), l’itération actuelle de la puce atteint un débit maximal de multiplication matrice-vecteur de 16,1 à 63,1 TOPC (billions d’opérations par seconde) à une efficacité énergétique de 2,48 à 9,76 TOPS W-1.
La « révolution » de l’IA, toujours en cours, a déclenché des mouvements volcaniques sur le marché du calcul haute performance (HPC). Mais en plus de ramener à la maison la merveille des GPU (les unités de traitement générales responsables de l’accélération de la majeure partie de ce marché particulier), la ruée vers l’or pour les accélérateurs d’IA a montré à quel point le marché dépend toujours d’un seul acteur (lire : Nvidia), tout en remettre au premier plan les questions d’efficacité énergétique.
Les puces analogiques qui brisent les barrières de l’efficacité énergétique seraient certainement une décision bienvenue, mais comme pour toute nouvelle technologie, les puces d’inférence d’IA analogiques devront se battre pour survivre contre les technologies déjà enracinées, la pile logicielle et les techniques déployées aujourd’hui. Les effets de réseau et la part de marché sont réels, et l’emprise de Nvidia sur le marché du HPC grâce à ses piles matérielles et logicielles CUDA est… pour le moins semblable à un vice.