mardi, novembre 26, 2024

Meta dévoile un nouveau grand modèle de langage qui peut fonctionner sur un seul GPU [Updated]

Benj Edwards / Ars Technica

Vendredi, Meta a annoncé un nouveau modèle de grand langage (LLM) alimenté par l’IA appelé LLaMA-13B qui, selon lui, peut surpasser le modèle GPT-3 d’OpenAI bien qu’il soit « 10 fois plus petit ». Des modèles d’IA de plus petite taille pourraient conduire à l’exécution locale d’assistants linguistiques de type ChatGPT sur des appareils tels que des PC et des smartphones. Il fait partie d’une nouvelle famille de modèles de langage appelée « Large Language Model Meta AI », ou LLAMA en abrégé.

La collection LLaMA de modèles de langage va de 7 milliards à 65 milliards de paramètres. En comparaison, le modèle GPT-3 d’OpenAI, le modèle fondamental derrière ChatGPT, compte 175 milliards de paramètres.

Meta a formé ses modèles LLaMA à l’aide d’ensembles de données accessibles au public, tels que Common Crawl, Wikipedia et C4, ce qui signifie que l’entreprise peut potentiellement publier le modèle et les pondérations en open source. Il s’agit d’un nouveau développement spectaculaire dans une industrie où, jusqu’à présent, les acteurs de la Big Tech dans la course à l’IA ont gardé pour eux leur technologie d’IA la plus puissante.

« Contrairement à Chinchilla, PaLM ou GPT-3, nous n’utilisons que des ensembles de données accessibles au public, ce qui rend notre travail compatible avec l’open source et reproductible, alors que la plupart des modèles existants reposent sur des données qui ne sont pas accessibles au public ou non documentées », tweeté membre du projet Guillaume Lample.

Meta appelle ses modèles LLaMA des « modèles fondamentaux », ce qui signifie que l’entreprise a l’intention que les modèles forment la base de futurs modèles d’IA plus raffinés construits à partir de la technologie, de la même manière qu’OpenAI a construit ChatGPT à partir d’une base de GPT-3. La société espère que LLaMA sera utile dans la recherche sur le langage naturel et pourrait alimenter des applications telles que « la réponse aux questions, la compréhension du langage naturel ou la compréhension de la lecture, les capacités de compréhension et les limites des modèles de langage actuels ».

Alors que le modèle LLaMA haut de gamme (LLaMA-65B, avec 65 milliards de paramètres) va de pair avec des offres similaires des laboratoires d’IA concurrents DeepMind, Google et OpenAI, le développement le plus intéressant vient sans doute du LLaMA -13B, qui, comme mentionné précédemment, peut surpasser GPT-3 lorsqu’il s’exécute sur un seul GPU lorsqu’il est mesuré sur huit références standard de « raisonnement de bon sens » telles que BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC et OpenBookQA. Contrairement aux exigences des centres de données pour les dérivés GPT-3, LLaMA-13B ouvre la porte à des performances de type ChatGPT sur le matériel grand public dans un avenir proche.

La taille des paramètres est un gros problème en IA. Un paramètre est une variable qu’un modèle d’apprentissage automatique utilise pour effectuer des prédictions ou des classifications basées sur des données d’entrée. Le nombre de paramètres dans un modèle de langage est un facteur clé de ses performances, les modèles plus grands étant généralement capables de gérer des tâches plus complexes et de produire une sortie plus cohérente. Cependant, plus de paramètres occupent plus d’espace et nécessitent plus de ressources informatiques pour s’exécuter. Ainsi, si un modèle peut atteindre les mêmes résultats qu’un autre modèle avec moins de paramètres, cela représente un gain d’efficacité significatif.

« Je pense maintenant que nous allons exécuter des modèles de langage avec une partie importante des capacités de ChatGPT sur nos propres téléphones mobiles et ordinateurs portables (haut de gamme) d’ici un an ou deux », a écrit le chercheur indépendant en intelligence artificielle Simon Willison dans un Fil Mastodon analysant l’impact des nouveaux modèles d’IA de Meta.

Actuellement, une version simplifiée de LLaMA est disponible sur GitHub. Pour recevoir le code complet et les pondérations (les données d’entraînement « apprises » dans un réseau de neurones), Meta fournit un formulaire auquel les chercheurs intéressés peuvent demander l’accès. Meta n’a pas annoncé de plans pour une version plus large du modèle et des poids pour le moment.

Mise à jour (26 février 2023) : Nous avons ajouté les noms des références académiques standard avec lesquelles Meta a utilisé pour mesurer les performances de LLaMA.

Source-147

- Advertisement -

Latest