Les informaticiens ont découvert une nouvelle façon de multiplier de grandes matrices plus rapidement que jamais en éliminant une inefficacité jusqu’alors inconnue, rapporte Quanta Magazine. Cela pourrait éventuellement accélérer les modèles d’IA comme ChatGPT, qui reposent fortement sur la multiplication matricielle pour fonctionner. Les résultats, présentés dans deux articles récents, ont conduit à ce qui est considéré comme la plus grande amélioration de l’efficacité de la multiplication matricielle depuis plus d’une décennie.
La multiplication de deux tableaux de nombres rectangulaires, connue sous le nom de multiplication matricielle, joue un rôle crucial dans les modèles d’IA actuels, notamment la reconnaissance vocale et d’image, les chatbots de tous les principaux fournisseurs, les générateurs d’images d’IA et les modèles de synthèse vidéo comme Sora. Au-delà de l’IA, les mathématiques matricielles sont si importantes pour l’informatique moderne (pensez au traitement des images et à la compression des données) que même de légers gains d’efficacité pourraient conduire à des économies de calcul et d’énergie.
Les unités de traitement graphique (GPU) excellent dans la gestion des tâches de multiplication matricielle en raison de leur capacité à traiter plusieurs calculs à la fois. Ils décomposent les grands problèmes matriciels en segments plus petits et les résolvent simultanément à l’aide d’un algorithme.
Le perfectionnement de cet algorithme a été la clé des percées dans l’efficacité de la multiplication matricielle au cours du siècle dernier, avant même que les ordinateurs n’entrent en scène. En octobre 2022, nous avons abordé une nouvelle technique découverte par un modèle d’IA de Google DeepMind appelée AlphaTensor, en nous concentrant sur des améliorations algorithmiques pratiques pour des tailles de matrice spécifiques, telles que les matrices 4×4.
En revanche, la nouvelle recherche, menée par Ran Duan et Renfei Zhou de l’Université Tsinghua, Hongxun Wu de l’Université de Californie à Berkeley, et par Virginia Vassilevska Williams, Yinzhan Xu et Zixuan Xu du Massachusetts Institute of Technology (dans une seconde papier), cherche des améliorations théoriques en visant à réduire l’exposant de complexité, ω, pour un gain d’efficacité important sur toutes les tailles de matrices. Au lieu de trouver des solutions immédiates et pratiques comme AlphaTensor, la nouvelle technique aborde des améliorations fondamentales qui pourraient transformer l’efficacité de la multiplication matricielle à une échelle plus générale.
Se rapprocher de la valeur idéale
La méthode traditionnelle pour multiplier deux matrices n par n nécessite n³ multiplications distinctes. Cependant, la nouvelle technique, qui améliore la « méthode laser » introduite par Volker Strassen en 1986, a réduit la limite supérieure de l’exposant (notée ω susmentionnée), la rapprochant de la valeur idéale de 2, qui représente la nombre minimum théorique d’opérations nécessaires.
La manière traditionnelle de multiplier deux grilles pleines de nombres pourrait nécessiter de faire le calcul jusqu’à 27 fois pour une grille de 3×3. Mais avec ces progrès, le processus est accéléré en réduisant considérablement les étapes de multiplication requises. L’effort minimise les opérations à un peu plus de deux fois la taille d’un côté de la grille au carré, ajustée par un facteur de 2,371552. C’est un gros problème car cela atteint presque l’efficacité optimale en doublant les dimensions du carré, ce qui est le plus rapide que nous puissions espérer y parvenir.
Voici un bref récapitulatif des événements. En 2020, Josh Alman et Williams ont introduit une amélioration significative de l’efficacité de la multiplication matricielle en établissant une nouvelle limite supérieure pour ω à environ 2,3728596. En novembre 2023, Duan et Zhou ont révélé une méthode qui corrigeait une inefficacité de la méthode laser, fixant une nouvelle limite supérieure pour ω à environ 2,371866. Il s’agit du progrès le plus substantiel dans le domaine depuis 2010. Mais à peine deux mois plus tard, Williams et son équipe ont publié un deuxième article détaillant les optimisations réduisant la limite supérieure de ω à 2,371552.
La percée de 2023 découle de la découverte d’une « perte cachée » dans la méthode laser, où des blocs de données utiles ont été involontairement ignorés. Dans le contexte de la multiplication matricielle, les « blocs » font référence à des segments plus petits en lesquels une grande matrice est divisée pour un traitement plus facile, et « l’étiquetage des blocs » est la technique de catégorisation de ces segments pour identifier ceux à conserver et ceux à supprimer, optimisant ainsi la processus de multiplication pour plus de rapidité et d’efficacité. En modifiant la façon dont la méthode laser étiquette les blocs, les chercheurs ont pu réduire les déchets et améliorer considérablement l’efficacité.
Bien que la réduction de la constante oméga puisse paraître mineure à première vue – réduisant la valeur record de 2020 de 0,0013076 – les travaux cumulés de Duan, Zhou et Williams représentent le progrès le plus substantiel observé dans le domaine depuis 2010.
« Il s’agit d’une avancée technique majeure », a déclaré William Kuszmaul, informaticien théoricien à l’Université Harvard, cité par Quanta Magazine. « C’est la plus grande amélioration en matière de multiplication matricielle que nous ayons vue depuis plus d’une décennie. »
Même si de nouveaux progrès sont attendus, l’approche actuelle présente des limites. Les chercheurs pensent qu’une compréhension plus approfondie du problème permettra de développer des algorithmes encore meilleurs. Comme l’a déclaré Zhou dans le rapport Quanta, « les gens en sont encore aux tout premiers stades de la compréhension de ce problème séculaire ».
Alors, quelles sont les applications pratiques ? Pour les modèles d’IA, une réduction des étapes de calcul pour les mathématiques matricielles pourrait se traduire par des temps de formation plus rapides et une exécution plus efficace des tâches. Cela pourrait permettre de former plus rapidement des modèles plus complexes, ce qui pourrait conduire à des progrès dans les capacités de l’IA et au développement d’applications d’IA plus sophistiquées. De plus, l’amélioration de l’efficacité pourrait rendre les technologies d’IA plus accessibles en réduisant la puissance de calcul et la consommation d’énergie requises pour ces tâches. Cela réduirait également l’impact environnemental de l’IA.
L’impact exact sur la vitesse des modèles d’IA dépend de l’architecture spécifique du système d’IA et de la mesure dans laquelle ses tâches reposent sur la multiplication matricielle. Les progrès en matière d’efficacité algorithmique doivent souvent être associés à des optimisations matérielles pour réaliser pleinement les gains de vitesse potentiels. Néanmoins, à mesure que les améliorations apportées aux techniques algorithmiques s’accumulent au fil du temps, l’IA finira par devenir plus rapide.