Les modèles de langage d’IA peuvent dépasser PNG et FLAC en compression sans perte, selon une étude

Une compression efficace consiste à trouver des modèles permettant de réduire la taille des données sans perdre d’informations. Lorsqu’un algorithme ou un modèle peut deviner avec précision la donnée suivante dans une séquence, cela montre qu’il est efficace pour repérer ces modèles. Cela relie l’idée de faire de bonnes suppositions (ce que font très bien les grands modèles de langage comme GPT-4) à l’obtention d’une bonne compression.

Dans un document de recherche arXiv intitulé « La modélisation du langage est une compression », les chercheurs détaillent leur découverte selon laquelle le grand modèle de langage (LLM) DeepMind appelé Chinchilla 70B peut effectuer une compression sans perte sur les patchs d’image de la base de données d’images ImageNet à 43,4 % de leur taille d’origine, battant l’algorithme PNG, qui a compressé les mêmes données à 58,5 pour cent. Pour l’audio, Chinchilla a compressé les échantillons de l’ensemble de données audio LibriSpeech à seulement 16,4 % de leur taille brute, surpassant la compression FLAC à 30,3 %.

Dans ce cas, des nombres inférieurs dans les résultats signifient qu’une compression plus importante est effectuée. Et la compression sans perte signifie qu’aucune donnée n’est perdue pendant le processus de compression. Cela contraste avec une technique de compression avec perte comme JPEG, qui supprime certaines données et reconstruit certaines données avec des approximations pendant le processus de décodage afin de réduire considérablement la taille des fichiers.

Les résultats de l’étude suggèrent que même si le Chinchilla 70B a été principalement formé pour traiter du texte, il est également étonnamment efficace pour compresser d’autres types de données, souvent mieux que les algorithmes spécialement conçus pour ces tâches. Cela ouvre la porte à une réflexion sur les modèles d’apprentissage automatique non seulement comme des outils de prédiction et d’écriture de texte, mais également comme des moyens efficaces de réduire la taille de divers types de données.

Un tableau des résultats des tests de compression fourni par les chercheurs de DeepMind dans leur article.  Le graphique illustre l'efficacité de diverses techniques de compression de données sur différents ensembles de données, tous d'une taille initiale de 1 Go.  Il utilise un rapport « le plus bas est le meilleur », comparant la taille compressée à la taille d'origine.
Agrandir / Un tableau des résultats des tests de compression fourni par les chercheurs de DeepMind dans leur article. Le graphique illustre l’efficacité de diverses techniques de compression de données sur différents ensembles de données, tous d’une taille initiale de 1 Go. Il utilise un rapport « le plus bas est le meilleur », comparant la taille compressée à la taille d’origine.

Esprit profond

Au cours des deux dernières décennies, certains informaticiens ont proposé que la capacité de compresser efficacement des données s’apparente à une forme d’intelligence générale. L’idée est ancrée dans l’idée selon laquelle comprendre le monde implique souvent d’identifier des modèles et de donner un sens à la complexité, ce qui, comme mentionné ci-dessus, est similaire à ce que fait une bonne compression de données. En réduisant un grand ensemble de données sous une forme plus petite et plus gérable tout en conservant ses caractéristiques essentielles, un algorithme de compression démontre une forme de compréhension ou de représentation de ces données, affirment ses partisans.

Le prix Hutter est un exemple qui met en lumière cette idée de compression comme forme d’intelligence. Nommé d’après Marcus Hutter, chercheur dans le domaine de l’IA et l’un des auteurs nommés de l’article DeepMind, le prix est décerné à quiconque parvient à compresser le plus efficacement un ensemble fixe de texte anglais. Le principe sous-jacent est qu’une compression très efficace du texte nécessiterait une compréhension des modèles sémantiques et syntaxiques du langage, de la même manière qu’un humain le comprend.

Donc, en théorie, si une machine parvient à compresser extrêmement bien ces données, cela pourrait indiquer une forme d’intelligence générale – ou du moins un pas dans cette direction. Même si tout le monde dans le domaine n’est pas d’accord sur le fait que remporter le prix Hutter serait un signe d’intelligence générale, le concours met en évidence le chevauchement entre les défis de la compression des données et les objectifs de création de systèmes plus intelligents.

Dans le même ordre d’idées, les chercheurs de DeepMind affirment que la relation entre prédiction et compression n’est pas à sens unique. Ils postulent que si vous disposez d’un bon algorithme de compression tel que gzip, vous pouvez le retourner et l’utiliser pour générer de nouvelles données originales basées sur ce qu’il a appris au cours du processus de compression.

Dans une section de l’article (section 3.4), les chercheurs ont mené une expérience pour générer de nouvelles données dans différents formats (texte, image et audio) en demandant à gzip et à Chinchilla de prédire la suite d’une séquence de données après conditionnement sur un échantillon. Naturellement, gzip n’a pas très bien fonctionné, produisant un résultat complètement absurde – du moins pour un esprit humain. Cela démontre que même si gzip peut être obligé de générer des données, celles-ci pourraient ne pas être très utiles autrement que comme curiosité expérimentale. D’un autre côté, Chinchilla, qui est conçu pour le traitement du langage, a, comme on pouvait s’y attendre, de bien meilleurs résultats dans la tâche générative.

Un exemple tiré de l'article DeepMind comparant les propriétés génératives de gzip et de Chinchilla sur un exemple de texte.  la sortie de gzip est illisible.
Agrandir / Un exemple tiré de l’article DeepMind comparant les propriétés génératives de gzip et de Chinchilla sur un exemple de texte. la sortie de gzip est illisible.

Esprit profond

Bien que l’article de DeepMind sur la compression des modèles de langage d’IA n’ait pas été évalué par des pairs, il offre une fenêtre intéressante sur de nouvelles applications potentielles pour les grands modèles de langage. La relation entre la compression et l’intelligence fait l’objet de débats et de recherches en cours, nous verrons donc probablement bientôt d’autres articles sur le sujet paraître.

Source-147