OpenAI a publié un nouveau modèle d’IA puissant pour la compréhension des images et du texte, GPT-4, que la société qualifie de « dernière étape dans ses efforts pour développer l’apprentissage en profondeur ».
GPT-4 est disponible aujourd’hui pour les utilisateurs payants d’OpenAI via ChatGPT Plus (avec un plafond d’utilisation), et les développeurs peuvent s’inscrire sur une liste d’attente pour accéder à l’API.
Le prix est de 0,03 $ pour 1 000 jetons « d’invite » (environ 750 mots) et de 0,06 $ pour 1 000 jetons « d’achèvement » (encore une fois, environ 750 mots). Les jetons représentent du texte brut ; par exemple, le mot «fantastique» serait divisé en jetons «fan», «tas» et «tic». Les jetons d’invite sont les parties de mots introduites dans GPT-4 tandis que les jetons d’achèvement sont le contenu généré par GPT-4.
GPT-4 s’est caché à la vue de tous, comme il s’avère. Microsoft a confirmé aujourd’hui que Bing Chat, sa technologie de chatbot co-développée avec OpenAI, fonctionne sur GPT-4.
Parmi les autres premiers utilisateurs, citons Stripe, qui utilise GPT-4 pour analyser les sites Web des entreprises et fournir un résumé au personnel d’assistance à la clientèle. Duolingo a intégré GPT-4 dans un nouveau niveau d’abonnement à l’apprentissage des langues. Morgan Stanley est en train de créer un système alimenté par GPT-4 qui récupérera les informations des documents de l’entreprise et les transmettra aux analystes financiers. Et Khan Academy utilise GPT-4 pour créer une sorte de tuteur automatisé.
GPT-4 peut générer du texte et accepter des entrées d’image et de texte – une amélioration par rapport à GPT-3.5, son prédécesseur, qui n’acceptait que du texte – et fonctionne au « niveau humain » sur divers critères professionnels et académiques. Par exemple, GPT-4 réussit un examen du barreau simulé avec un score autour des 10 % des meilleurs candidats ; en revanche, le score de GPT-3.5 se situait autour des 10 % inférieurs.
OpenAI a passé six mois à « aligner de manière itérative » GPT-4 en utilisant les leçons d’un programme de test contradictoire interne ainsi que ChatGPT, ce qui a donné les « meilleurs résultats jamais obtenus » sur la factualité, la maniabilité et le refus de sortir des garde-fous, selon la société. Comme les modèles GPT précédents, GPT-4 a été formé à l’aide de données accessibles au public, y compris de pages Web publiques, ainsi que de données sous licence OpenAI.
OpenAI a travaillé avec Microsoft pour développer un « superordinateur » à partir de zéro dans le cloud Azure, qui a été utilisé pour former GPT-4.
« Dans une conversation informelle, la distinction entre GPT-3.5 et GPT-4 peut être subtile », a écrit OpenAI dans un article de blog annonçant GPT-4. « La différence apparaît lorsque la complexité de la tâche atteint un seuil suffisant – GPT-4 est plus fiable, créatif et capable de gérer des instructions beaucoup plus nuancées que GPT-3.5. »
Sans aucun doute, l’un des aspects les plus intéressants de GPT-4 est sa capacité à comprendre les images ainsi que le texte. GPT-4 peut sous-titrer – et même interpréter – des images relativement complexes, par exemple en identifiant un adaptateur Lightning Cable à partir d’une image d’un iPhone branché.
La capacité de compréhension des images n’est pas encore disponible pour tous les clients OpenAI — OpenAI la teste avec un seul partenaire, Be My Eyes, pour commencer. Propulsée par GPT-4, la nouvelle fonctionnalité de bénévolat virtuel de Be My Eyes peut répondre aux questions sur les images qui lui sont envoyées. La société explique comment cela fonctionne dans un article de blog :
« Par exemple, si un utilisateur envoie une photo de l’intérieur de son réfrigérateur, le Volontaire Virtuel pourra non seulement identifier correctement ce qu’il contient, mais aussi extrapoler et analyser ce qui peut être préparé avec ces ingrédients. L’outil peut également proposer un certain nombre de recettes pour ces ingrédients et envoyer un guide étape par étape sur la façon de les préparer. »
Une amélioration plus significative du GPT-4, potentiellement, est l’outillage de direction susmentionné. Avec GPT-4, OpenAI introduit une nouvelle fonctionnalité d’API, les messages « système », qui permettent aux développeurs de prescrire un style et une tâche en décrivant des instructions spécifiques. Les messages système, qui arriveront également sur ChatGPT à l’avenir, sont essentiellement des instructions qui donnent le ton – et établissent des limites – pour les prochaines interactions de l’IA.
Par exemple, un message système pourrait lire : « Vous êtes un tuteur qui répond toujours dans le style socratique. Toi jamais donnez la réponse à l’élève, mais essayez toujours de poser la bonne question pour l’aider à apprendre à penser par lui-même. Vous devez toujours ajuster votre question à l’intérêt et aux connaissances de l’élève, en décomposant le problème en parties plus simples jusqu’à ce qu’il soit au bon niveau pour lui. »
Même avec les messages système et les autres mises à niveau, OpenAI reconnaît que GPT-4 est loin d’être parfait. Il « hallucine » toujours les faits et fait des erreurs de raisonnement, parfois avec une grande confiance. Dans un exemple cité par OpenAI, GPT-4 a décrit Elvis Presley comme le « fils d’un acteur » – un faux pas évident.
« GPT-4 manque généralement de connaissances sur les événements qui se sont produits après la coupure de la grande majorité de ses données (septembre 2021) et n’apprend pas de son expérience », a écrit OpenAI. « Il peut parfois faire de simples erreurs de raisonnement qui ne semblent pas compatibles avec la compétence dans tant de domaines, ou être trop crédule en acceptant de fausses déclarations évidentes d’un utilisateur. Et parfois, il peut échouer sur des problèmes difficiles de la même manière que les humains, comme l’introduction de vulnérabilités de sécurité dans le code qu’il produit.
OpenAI note cependant qu’il a apporté des améliorations dans des domaines particuliers; GPT-4 est moins susceptible de refuser les demandes sur la façon de synthétiser des produits chimiques dangereux, pour commencer. La société affirme que GPT-4 est globalement 82 % moins susceptible de répondre aux demandes de contenu « non autorisé » par rapport à GPT-3.5 et répond aux demandes sensibles – par exemple, des conseils médicaux et tout ce qui concerne l’automutilation – conformément aux politiques d’OpenAI 29 % plus souvent.
Il y a clairement beaucoup à déballer avec GPT-4. Mais OpenAI, pour sa part, va de l’avant à toute vapeur – évidemment confiant dans les améliorations qu’il a apportées.
« Nous espérons que GPT-4 deviendra un outil précieux pour améliorer la vie des gens en alimentant de nombreuses applications », a écrit OpenAI. « Il reste encore beaucoup de travail à faire, et nous sommes impatients d’améliorer ce modèle grâce aux efforts collectifs de la communauté en s’appuyant sur, en explorant et en contribuant au modèle. »