Meta lance Llama 3 et affirme qu’il fait partie des meilleurs modèles ouverts disponibles

Meta a publié la dernière entrée de sa série Llama de modèles d’IA génératifs ouverts : Llama 3. Ou, plus précisément, la société a lancé deux modèles dans sa nouvelle famille Llama 3, le reste étant attendu à une date ultérieure non précisée.

Meta décrit les nouveaux modèles – Llama 3 8B, qui contient 8 milliards de paramètres, et Llama 3 70B, qui contient 70 milliards de paramètres – comme un « avancée majeure » ​​par rapport aux modèles Llama de la génération précédente, Llama 2 8B et Llama 2 70B, en termes de performances. (Les paramètres définissent essentiellement la compétence d’un modèle d’IA sur un problème, comme l’analyse et la génération de texte ; les modèles à nombre de paramètres plus élevé sont, d’une manière générale, plus performants que les modèles à nombre de paramètres inférieur.) En fait, Meta dit que, pour leurs paramètres respectifs comptent, Llama 3 8B et Llama 3 70B — formés sur deux clusters de 24 000 GPU personnalisés – sont font partie des modèles d’IA générative les plus performants disponibles aujourd’hui.

C’est toute une affirmation à faire. Alors, comment Meta le prend-il en charge ? Eh bien, la société souligne les scores des modèles Llama 3 sur des tests d’IA populaires tels que MMLU (qui tente de mesurer les connaissances), ARC (qui tente de mesurer l’acquisition de compétences) et DROP (qui teste le raisonnement d’un modèle sur des morceaux de texte). Comme nous l’avons déjà écrit, l’utilité – et la validité – de ces critères sont sujettes à débat. Mais pour le meilleur ou pour le pire, ils restent l’une des rares façons standardisées par lesquelles les acteurs de l’IA comme Meta évaluent leurs modèles.

Llama 3 8B surpasse d’autres modèles ouverts tels que le Mistral 7B de Mistral et le Gemma 7B de Google, qui contiennent tous deux 7 milliards de paramètres, sur au moins neuf tests : MMLU, ARC, DROP, GPQA (un ensemble de tests de biologie, de physique et de chimie). questions connexes), HumanEval (un test de génération de code), GSM-8K (problèmes de mots mathématiques), MATH (un autre benchmark mathématique), AGIEval (un ensemble de tests de résolution de problèmes) et BIG-Bench Hard (une évaluation du raisonnement de bon sens).

Désormais, Mistral 7B et Gemma 7B ne sont pas exactement à la pointe de la technologie (Mistral 7B est sorti en septembre dernier), et dans quelques-uns des benchmarks cités par Meta, Llama 3 8B n’obtient que quelques points de pourcentage de plus que l’un ou l’autre. Mais Meta affirme également que le modèle Llama 3 avec un plus grand nombre de paramètres, Llama 3 70B, est compétitif avec les modèles phares d’IA générative, y compris Gemini 1.5 Pro, le dernier de la série Gemini de Google.

Crédits images : Méta

Llama 3 70B bat Gemini 1.5 Pro sur MMLU, HumanEval et GSM-8K, et – bien qu’il ne rivalise pas avec le modèle le plus performant d’Anthropic, Claude 3 Opus – Llama 3 70B obtient de meilleurs résultats que le deuxième modèle le plus faible de la série Claude 3, Claude 3 Sonnet, sur cinq benchmarks (MMLU, GPQA, HumanEval, GSM-8K et MATH).

Méta Lama 3

Crédits images : Méta

Pour ce que ça vaut, Meta a également développé son propre ensemble de tests couvrant des cas d’utilisation allant du codage et de l’écriture créative au raisonnement en passant par le résumé, et — surprise ! — Llama 3 70B s’est imposé face au modèle Mistral Medium de Mistral, au GPT-3.5 d’OpenAI et à Claude Sonnet. Meta dit avoir empêché ses équipes de modélisation d’accéder à l’ensemble pour maintenir l’objectivité, mais évidemment – ​​étant donné que Meta a lui-même conçu le test – les résultats doivent être pris avec des pincettes.

Méta Lama 3

Crédits images : Méta

D’un point de vue plus qualitatif, Meta affirme que les utilisateurs des nouveaux modèles Llama devraient s’attendre à plus de « maniabilité », à une probabilité moindre de refuser de répondre aux questions et à une plus grande précision sur les questions triviales, les questions relatives à l’histoire et aux domaines STEM tels que l’ingénierie, les sciences et le codage général. recommandations. Cela est en partie dû à un ensemble de données beaucoup plus vaste : une collection de 15 000 milliards de jetons, soit un nombre ahurissant d’environ 750 000 000 000 de mots, soit sept fois la taille de l’ensemble d’entraînement Llama 2. (Dans le domaine de l’IA, les « jetons » font référence à des bits subdivisés de données brutes, comme les syllabes « fan », « tas » et « tic » dans le mot « fantastique ».)

D’où viennent ces données ? Bonne question. Meta n’a rien voulu dire, révélant seulement qu’il s’appuyait sur des « sources accessibles au public », qu’il comprenait quatre fois plus de code que dans l’ensemble de données d’entraînement Llama 2 et que 5 % de cet ensemble contenait des données non anglaises (dans environ 30 langues) à améliorer. performances dans des langues autres que l’anglais. Meta a également déclaré avoir utilisé des données synthétiques – c’est-à-dire des données générées par l’IA – pour créer des documents plus longs sur lesquels les modèles Llama 3 peuvent s’entraîner, une approche quelque peu controversée en raison des inconvénients potentiels en termes de performances.

« Bien que les modèles que nous publions aujourd’hui ne soient adaptés qu’aux sorties en anglais, la diversité accrue des données aide les modèles à mieux reconnaître les nuances et les modèles et à être performants dans une variété de tâches », écrit Meta dans un article de blog partagé avec TechCrunch.

De nombreux fournisseurs d’IA générative considèrent les données de formation comme un avantage concurrentiel et les gardent donc, ainsi que les informations s’y rapportant, à portée de main. Mais les détails des données de formation sont également une source potentielle de poursuites liées à la propriété intellectuelle, ce qui dissuade également d’en révéler beaucoup. Des rapports récents ont révélé que Meta, dans sa quête pour suivre le rythme de ses concurrents en matière d’IA, a utilisé à un moment donné des livres électroniques protégés par le droit d’auteur pour la formation en IA, malgré les avertissements des propres avocats de l’entreprise ; Meta et OpenAI font l’objet d’un procès en cours intenté par des auteurs, dont la comédienne Sarah Silverman, concernant l’utilisation non autorisée présumée par les fournisseurs de données protégées par le droit d’auteur à des fins de formation.

Alors qu’en est-il de la toxicité et des biais, deux autres problèmes courants liés aux modèles d’IA générative (dont Llama 2) ? Llama 3 s’améliore-t-il dans ces domaines ? Oui, affirme Meta.

Meta affirme avoir développé de nouveaux pipelines de filtrage de données pour améliorer la qualité de ses données de formation de modèles et avoir mis à jour sa paire de suites de sécurité génératives pour l’IA, Llama Guard et CybersecEval, pour tenter d’empêcher l’utilisation abusive et les générations de texte indésirables de Lama 3 modèles et autres. La société lance également un nouvel outil, Code Shield, conçu pour détecter le code des modèles d’IA génératifs susceptibles d’introduire des failles de sécurité.

Le filtrage n’est cependant pas infaillible – et des outils comme Llama Guard, CyberSecEval et Code Shield ne vont pas plus loin. (Voir : La tendance de Llama 2 à inventer des réponses aux questions et à divulguer des informations privées sur la santé et les finances.) Nous devrons attendre et voir comment les modèles Llama 3 fonctionnent dans la nature, y compris les tests effectués par des universitaires sur des références alternatives.

Meta indique que les modèles Llama 3 – qui sont disponibles en téléchargement dès maintenant et qui alimentent l’assistant Meta AI de Meta sur Facebook, Instagram, WhatsApp, Messenger et le Web – seront bientôt hébergés sous forme gérée sur un large éventail de plates-formes cloud, notamment AWS, Databricks, Google Cloud, Hugging Face, Kaggle, WatsonX d’IBM, Microsoft Azure, NIM de Nvidia et Snowflake. À l’avenir, des versions des modèles optimisées pour le matériel d’AMD, AWS, Dell, Intel, Nvidia et Qualcomm seront également disponibles.

Les modèles Llama 3 pourraient être largement disponibles. Mais vous remarquerez que nous utilisons « open » pour les décrire, par opposition à « open source ». En effet, malgré les affirmations de Meta, sa famille de modèles Llama n’est pas aussi sans engagement qu’on voudrait le faire croire. Oui, ils sont disponibles pour des applications de recherche et commerciales. Cependant, Meta interdit aux développeurs d’utiliser des modèles Llama pour former d’autres modèles génératifs, tandis que les développeurs d’applications comptant plus de 700 millions d’utilisateurs mensuels doivent demander une licence spéciale à Meta que l’entreprise accordera – ou non – à sa discrétion.

Des modèles Llama plus performants se profilent à l’horizon.

Meta dit qu’elle forme actuellement des modèles Llama 3 d’une taille de plus de 400 milliards de paramètres – des modèles ayant la capacité de « converser dans plusieurs langues », de prendre plus de données et de comprendre les images et autres modalités ainsi que le texte, ce qui amènerait la série Llama 3. conformément aux versions ouvertes comme Idefics2 de Hugging Face.

Méta Lama 3

Crédits images : Méta

« Notre objectif dans un avenir proche est de rendre Llama 3 multilingue et multimodal, d’avoir un contexte plus long et de continuer à améliorer les performances globales dans les principaux domaines. [large language model] des capacités telles que le raisonnement et le codage », écrit Meta dans un article de blog. « Il y a beaucoup plus à venir. »

En effet.

Source-146