IBM affirme avoir concocté une nouvelle puce partiellement analogique à signaux mixtes utilisant une combinaison de mémoire à changement de phase et de circuits numériques qui, selon elle, correspondra aux performances du GPU en ce qui concerne l’inférence de l’IA, mais le fera avec une efficacité beaucoup plus grande.
Non, nous ne comprenons pas tout à fait cela non plus. Mais les implications sont assez faciles à saisir. Si cette puce décolle, elle pourrait limiter la demande croissante de GPU utilisés dans le traitement de l’IA et les conserver pour, vous savez, les jeux.
Selon El Reg, ce n’est pas la première puce de ce type qu’IBM produit. Mais c’est à une échelle beaucoup plus grande et on prétend qu’il démontre bon nombre des éléments de base qui seront nécessaires pour fournir une puce d’accélération d’inférence IA analogique basse consommation viable.
L’un des principaux goulots d’étranglement existants pour l’inférence de l’IA consiste à déplacer les données entre la mémoire et les unités de traitement, ce qui ralentit le traitement et coûte de l’énergie. Comme IBM l’explique dans un article récent, sa puce le fait différemment, en utilisant des cellules de mémoire à changement de phase (PCM) pour stocker les poids d’inférence sous forme de valeur analogique et également effectuer des calculs.
C’est une approche connue sous le nom d’informatique analogique en mémoire et cela signifie essentiellement que vous effectuez le calcul et le stockage de la mémoire au même endroit et donc, hop, plus de transfert de données, moins de consommation d’énergie et plus de performances.
Les choses deviennent plus complexes lorsque vous commencez à décrire l’échelle et la portée des matrices de pondération que la puce peut prendre en charge de manière native. Aussi n’y allons-nous pas de peur de heurter instantanément les limites trop compactes de notre compétence en la matière.
Mais une chose est sûre. La consommation d’énergie du traitement de l’IA devient incontrôlable. Un rack d’inférence AI aspirerait près de 10 fois la puissance d’un rack de serveur « normal ». Ainsi, une solution plus efficace gagnerait sûrement en popularité sur le marché.
De plus, pour nous, les joueurs, les implications immédiates sont claires. Si cette alouette informatique en mémoire décolle pour l’inférence de l’IA, Microsoft, Google et al achèteront moins de GPU à Nvidia et ce dernier pourrait bien redécouvrir son intérêt pour les jeux et les joueurs.
L’autre question qui tue est de savoir combien de temps cela pourrait prendre pour transformer tout cela en un produit commercial que les aficionados de l’IA peuvent commencer à acheter à la place des GPU. À ce sujet, IBM fournit peu d’indications. Il est donc peu probable que ce soit juste au coin de la rue.
Mais ce shizzle d’IA ne va probablement nulle part. Ainsi, même si cela prend quelques années à se concrétiser, une alternative aux GPU serait la bienvenue pour les joueurs qui souffrent depuis longtemps et qui ont collectivement sauté de la poêle à frire des GPU de crypto-minage pour se retrouver en feu dans un enfer d’inférence d’IA.