Jeudi, OpenAI a annoncé le lancement de GPT-4o mini, une nouvelle version plus petite de son dernier modèle de langage d’IA GPT-4o qui remplacera GPT-3.5 Turbo dans ChatGPT, rapportent CNBC et Bloomberg. Il sera disponible dès aujourd’hui pour les utilisateurs gratuits et ceux disposant d’abonnements ChatGPT Plus ou Team et arrivera sur ChatGPT Enterprise la semaine prochaine.
GPT-4o mini serait, comme son grand frère (lancé en mai), multimodal, avec des entrées d’images déjà activées dans l’API. OpenAI affirme qu’à l’avenir, GPT-4o mini sera capable d’interpréter des images, du texte et de l’audio, et pourra également générer des images.
GPT-4o mini prend en charge 128 000 jetons de contexte d’entrée et une date limite de connaissance fixée à octobre 2023. Il est également très peu coûteux en tant que produit API, coûtant 60 % de moins que GPT-3.5 Turbo à 15 cents par million de jetons d’entrée et 60 cents par million de jetons de sortie. Les jetons sont des fragments de données que les modèles de langage d’IA utilisent pour traiter les informations.
Notamment, OpenAI affirme que GPT-4o mini sera le premier modèle d’IA de la société à utiliser une nouvelle technique appelée « hiérarchie d’instructions » qui permettra à un modèle d’IA de donner la priorité à certaines instructions par rapport à d’autres, ce qui peut rendre plus difficile pour les personnes de l’utiliser pour effectuer des attaques par injection rapide ou des jailbreaks, ou des extractions d’invites système qui subvertissent les réglages fins intégrés ou les directives données par une invite système.
Une fois le modèle entre les mains du public (GPT-4o mini n’est actuellement pas disponible dans notre instance de ChatGPT), nous verrons sûrement des gens mettre cette nouvelle méthode de protection à l’épreuve.
Performance
Comme on pouvait s’y attendre, OpenAI affirme que GPT-4o mini obtient de bons résultats sur une série de tests de référence tels que MMLU (connaissances de niveau licence) et HumanEval (codage), mais le problème est que ces tests de référence ne signifient pas grand-chose en réalité, et peu d’entre eux mesurent quelque chose d’utile lorsqu’il s’agit d’utiliser réellement le modèle dans la pratique. En effet, la sensation de qualité qui se dégage du résultat d’un modèle dépend parfois davantage du style et de la structure que des capacités factuelles ou mathématiques brutes. Ce type de « marquage des vibrations » subjectif est l’une des choses les plus frustrantes dans le domaine de l’IA à l’heure actuelle.
Nous vous le disons : OpenAI affirme que le nouveau modèle a surpassé le GPT-4 Turbo de l’année dernière dans le classement LMSYS Chatbot Arena, qui mesure les notes des utilisateurs après avoir comparé le modèle à un autre au hasard. Mais même cette mesure n’est pas aussi utile qu’on l’espérait autrefois dans la communauté de l’IA, car les gens ont remarqué que même si le grand frère de mini (GPT-4o) surpasse régulièrement GPT-4 Turbo sur Chatbot Arena, il a tendance à produire des résultats beaucoup moins utiles en général (ils ont tendance à être longs, par exemple, ou à effectuer des tâches que vous ne lui avez pas demandé de faire).
La valeur des modèles de langage plus petits
OpenAI n’est pas la première entreprise à publier une version plus petite d’un modèle de langage existant. Il s’agit d’une pratique courante dans le secteur de l’IA de la part de fournisseurs tels que Meta, Google et Anthropic. Ces modèles de langage plus petits sont conçus pour effectuer des tâches plus simples à moindre coût, comme créer des listes, résumer ou suggérer des mots au lieu d’effectuer une analyse approfondie.
Les modèles plus petits sont généralement destinés aux utilisateurs d’API, qui paient un prix fixe par jeton d’entrée et de sortie pour utiliser les modèles dans leurs propres applications, mais dans ce cas, offrir GPT-4o mini gratuitement dans le cadre de ChatGPT permettrait apparemment également à OpenAI d’économiser de l’argent.
Olivier Godement, responsable des produits API d’OpenAI, a déclaré à Bloomberg : « Dans notre mission visant à permettre la création des applications les plus puissantes et les plus utiles, nous souhaitons bien sûr continuer à développer des modèles de pointe, à repousser les limites. Mais nous voulons aussi disposer des meilleurs petits modèles disponibles. »
Les modèles de langage plus petits (LLM) ont généralement moins de paramètres que les modèles plus grands. Les paramètres sont des réserves numériques de valeur dans un réseau neuronal qui stocke les informations apprises. Avoir moins de paramètres signifie qu’un LLM a un réseau neuronal plus petit, ce qui limite généralement la profondeur de la capacité d’un modèle d’IA à donner un sens au contexte. Les modèles à paramètres plus grands sont généralement des « penseurs plus profonds » en raison du plus grand nombre de connexions entre les concepts stockés dans ces paramètres numériques.
Cependant, pour compliquer les choses, il n’existe pas toujours de corrélation directe entre la taille des paramètres et les capacités. La qualité des données d’entraînement, l’efficacité de l’architecture du modèle et le processus d’entraînement lui-même ont également un impact sur les performances d’un modèle, comme nous l’avons vu récemment dans des modèles plus petits et plus performants comme Microsoft Phi-3.
Moins de paramètres signifie moins de calculs requis pour exécuter le modèle, ce qui signifie que des GPU moins puissants (et moins chers) ou moins de calculs sur le matériel existant sont nécessaires, ce qui entraîne des factures d’énergie moins chères et un coût final inférieur pour l’utilisateur.