OpenAI teste une version de GPT-4 capable de « se souvenir » de longues conversations

OpenAI a construit une version de GPT-4, son dernier modèle de génération de texte, qui peut « se souvenir » d’environ 50 pages de contenu grâce à une fenêtre contextuelle considérablement étendue.

Cela pourrait ne pas sembler significatif. Mais c’est cinq fois plus d’informations que le GPT-4 vanille peut contenir dans sa « mémoire » et huit fois plus que le GPT-3.

« Le modèle est capable d’utiliser de manière flexible de longs documents », a déclaré Greg Brockman, co-fondateur et président d’OpenAI, lors d’une démonstration en direct cet après-midi. « Nous voulons voir quels types d’applications [this enables].”

En ce qui concerne l’IA génératrice de texte, la fenêtre contextuelle fait référence au texte que le modèle considère avant de générer du texte supplémentaire. Alors que des modèles comme GPT-4 « apprennent » à écrire en s’entraînant sur des milliards d’exemples de texte, ils ne peuvent considérer qu’une petite fraction de ce texte à la fois – déterminée principalement par la taille de leur fenêtre contextuelle.

Les modèles avec de petites fenêtres contextuelles ont tendance à « oublier » le contenu des conversations, même très récentes, ce qui les amène à s’écarter du sujet. Après quelques milliers de mots environ, ils oublient également leurs instructions initiales, extrapolant plutôt leur comportement à partir des dernières informations dans leur fenêtre de contexte plutôt que de la demande d’origine.

Allen Pike, un ancien ingénieur logiciel chez Apple, l’explique de cette manière :

« [The model] oubliera tout ce que vous essayez de lui enseigner. Il oubliera que vous vivez au Canada. Il oubliera que vous avez des enfants. Il oubliera que vous détestez réserver des choses le mercredi et s’il vous plaît, arrêtez de suggérer des mercredis pour des choses, bon sang. Si aucun de vous n’a mentionné votre nom depuis un moment, il l’oubliera aussi. Parlez à un [GPT-powered] personnage pendant un petit moment, et vous pouvez commencer à avoir l’impression de créer des liens avec lui, d’aller dans un endroit vraiment cool. Parfois, cela devient un peu confus, mais cela arrive aussi aux gens. Mais finalement, le fait qu’il n’a pas de mémoire à moyen terme devient clair, et l’illusion se brise.

Nous n’avons pas encore pu mettre la main sur la version de GPT-4 avec la fenêtre contextuelle étendue, gpt-4-32k. (OpenAI dit qu’il traite les demandes pour les modèles GPT-4 à contexte élevé et faible à « des taux différents en fonction de la capacité ».) Mais il n’est pas difficile d’imaginer comment les conversations avec lui pourraient être beaucoup plus convaincantes que celles avec le précédent- modèle de génération.

Avec une « mémoire » plus importante, le GPT-4 devrait pouvoir converser de manière relativement cohérente pendant des heures, voire plusieurs jours, au lieu de quelques minutes. Et peut-être plus important encore, il devrait être moins susceptible de dérailler. Comme le note Pike, l’une des raisons pour lesquelles les chatbots comme Bing Chat peuvent être poussés à mal se comporter est que leurs instructions initiales – être un chatbot utile, répondre respectueusement, etc. – sont rapidement repoussées hors de leurs fenêtres contextuelles par des invites et des réponses supplémentaires.

Cela peut être un peu plus nuancé que cela. Mais la fenêtre contextuelle joue un rôle majeur dans la mise à la terre des modèles. sans aucun doute. Avec le temps, nous verrons quel genre de différence tangible cela fait.

Source-146