Les chercheurs bouleversent le statu quo de l’IA en éliminant la multiplication matricielle dans les LLM

Les chercheurs affirment avoir développé une nouvelle façon d’exécuter plus efficacement les modèles de langage d’IA en éliminant la multiplication matricielle du processus. Cela repense fondamentalement les opérations des réseaux neuronaux qui sont actuellement accélérées par les puces GPU. Les résultats, détaillés dans un récent article préimprimé rédigé par des chercheurs de l’Université de Californie à Santa Cruz, de l’UC Davis, de LuxiTech et de l’Université de Soochow, pourraient avoir de profondes implications sur l’impact environnemental et les coûts opérationnels des systèmes d’IA.

La multiplication matricielle (souvent abrégée en « MatMul ») est aujourd’hui au centre de la plupart des tâches de calcul des réseaux neuronaux, et les GPU sont particulièrement efficaces pour exécuter les calculs rapidement car ils peuvent effectuer un grand nombre d’opérations de multiplication en parallèle. Cette capacité a momentanément fait de Nvidia la société la plus valorisée au monde la semaine dernière ; la société détient actuellement une part de marché estimée à 98 % pour les GPU des centres de données, qui sont couramment utilisés pour alimenter des systèmes d’IA tels que ChatGPT et Google Gemini.

Dans le nouvel article, intitulé « Modélisation de langage évolutive sans MatMul », les chercheurs décrivent la création d’un modèle personnalisé de 2,7 milliards de paramètres sans utiliser MatMul, offrant des performances similaires à celles des grands modèles de langage (LLM) conventionnels. Ils démontrent également l’exécution d’un modèle de 1,3 milliard de paramètres à 23,8 jetons par seconde sur un GPU accéléré par une puce FPGA programmée sur mesure qui utilise environ 13 watts de puissance (sans compter la consommation électrique du GPU). L’implication est qu’un FPGA plus efficace « ouvre la voie au développement d’architectures plus efficaces et plus conviviales pour le matériel », écrivent-ils.

La technique n’a pas encore été évaluée par des pairs, mais les chercheurs (Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou et Jason Eshraghian) affirment que leurs travaux remettent en question le paradigme dominant selon lequel les opérations de multiplication matricielle sont indispensables pour construire des modèles de langage performants. Ils soutiennent que leur approche pourrait rendre les grands modèles de langage plus accessibles, efficaces et durables, en particulier pour un déploiement sur du matériel aux ressources limitées comme les smartphones.

Supprimer les mathématiques matricielles

Dans l’article, les chercheurs mentionnent BitNet (la technique de transformateur dite « 1 bit » qui a fait le tour en préimpression en octobre) comme un précurseur important de leurs travaux. Selon les auteurs, BitNet a démontré la viabilité de l’utilisation de poids binaires et ternaires dans les modèles de langage, en évoluant avec succès jusqu’à 3 milliards de paramètres tout en maintenant des performances compétitives.

Cependant, ils notent que BitNet s’appuie toujours sur des multiplications matricielles dans son mécanisme d’auto-attention. Les limites de BitNet ont motivé l’étude actuelle, les poussant à développer une architecture totalement « sans MatMul » capable de maintenir les performances tout en éliminant les multiplications matricielles, même dans le mécanisme d’attention.

Source-147