Si vous pensez que FLAC est l’ami de l’audiophile en matière de fichiers musicaux sans perte, un modèle de langage étendu (LLM) a des nouvelles pour vous, car il revendique désormais également la compression dans le cadre du domaine d’influence croissant de l’IA.
Une étude intitulée « La modélisation du langage est une compression » (via ArsTechnica) discute d’une découverte concernant un LLM de DeepMind appelé Chinchilla 70B et de sa capacité à effectuer une compression de données sans perte meilleure que FLAC pour l’audio et PNG pour les images.
Chinchilla 70B pourrait réduire considérablement la taille des patchs d’images de la base de données ImageNet, les réduisant à seulement 43,4 % de leur taille d’origine sans perdre aucun détail. Cette performance est meilleure que l’algorithme PNG, qui ne pouvait réduire la taille des images qu’à 58,5 %.
De plus, Chinchilla compresse les données audio de LibriSpeech à seulement 16,4 % de leur taille réelle pour les fichiers audio. C’est impressionnant, surtout comparé à la compression FLAC, qui ne pouvait réduire la taille audio qu’à 30,3 %.
La compression sans perte signifie que rien n’est perdu ou oublié lorsque les données sont regroupées dans des packages plus petits. Cela diffère de la compression avec perte, utilisée par le format de compression d’image JPEG. Cela supprime certaines données, puis devine à quoi elles devraient ressembler lorsque vous ouvrez à nouveau le fichier, tout cela pour réduire encore plus la taille du fichier.
Les résultats de l’étude montrent que même si le Chinchilla 70B a été principalement conçu pour fonctionner avec du texte, il est également étonnamment apte à réduire considérablement la taille d’autres types de données. Et il est souvent meilleur que les programmes spécialement conçus à cet effet.
Les chercheurs de l’étude suggèrent que la prévision et la compression des données vont dans les deux sens. Cela signifie que si vous disposez d’un bon outil pour réduire la taille des données, comme gzip, vous pouvez également l’utiliser pour créer de nouvelles informations basées sur ce qu’il a appris au cours de tout le processus de réduction de la taille des données.
Dans une partie de leurs recherches, ils ont testé cette idée en essayant de créer de nouveaux textes, images et sons à l’aide de gzip et d’un autre outil, Chinchilla, après leur avoir fourni un échantillon de données. Comme prévu, gzip n’a pas très bien fonctionné et a généré principalement des bêtises.
Cela montre que, même si gzip peut créer des données, ces données pourraient devoir être plus significatives. D’un autre côté, Chinchilla, spécialement conçu pour le traitement du langage, a bien mieux réussi à créer de nouveaux résultats significatifs.
Il y a près de 20 ans, des chercheurs affirmaient que la compression était une forme d’intelligence générale, affirmant que « la compression de texte idéale, si elle était possible, équivaudrait à réussir le test de Turing pour l’intelligence artificielle ».
Cependant, comme le souligne ArsTechnica, cet article n’a pas encore été évalué par des pairs. L’idée selon laquelle la réduction de la taille des données est liée à l’intelligence est un sujet dont nous entendrons probablement encore parler à l’avenir. Nous ne faisons encore qu’effleurer la surface de ce que ces LLM peuvent faire.