Le nouvel outil d’OpenAI tente d’expliquer les comportements des modèles de langage

On dit souvent que les grands modèles de langage (LLM) du type ChatGPT d’OpenAI sont une boîte noire, et il y a certainement du vrai là-dedans. Même pour les scientifiques des données, il est difficile de savoir pourquoi, toujours, un modèle répond comme il le fait, comme inventer des faits à partir de rien.

Dans un effort pour décoller les couches des LLM, OpenAI développe un outil pour identifier automatiquement quelles parties d’un LLM sont responsables de chacun de ses comportements. Les ingénieurs derrière lui soulignent qu’il n’en est qu’à ses débuts, mais le code pour l’exécuter est disponible en open source sur GitHub depuis ce matin.

« Nous essayons de [develop ways to] anticiper quels seront les problèmes avec un système d’IA », a déclaré William Saunders, responsable de l’équipe d’interprétabilité chez OpenAI, à TechCrunch lors d’un entretien téléphonique. « Nous voulons vraiment pouvoir savoir que nous pouvons faire confiance à ce que fait le modèle et à la réponse qu’il produit. »

À cette fin, l’outil d’OpenAI utilise un modèle de langage (ironiquement) pour comprendre les fonctions des composants d’autres LLM plus simples sur le plan architectural, en particulier le propre GPT-2 d’OpenAI.

L’outil d’OpenAI tente de simuler les comportements des neurones dans un LLM. Crédits image : OpenAI

Comment? Tout d’abord, un bref explicatif sur les LLM pour le contexte. Comme le cerveau, ils sont constitués de « neurones », qui observent un schéma spécifique dans le texte pour influencer ce que le modèle global « dit » ensuite. Par exemple, étant donné une invite sur les super-héros (par exemple « Quels super-héros ont les super-pouvoirs les plus utiles ? »), un « neurone de super-héros Marvel » pourrait augmenter la probabilité que le modèle nomme des super-héros spécifiques des films Marvel.

L’outil d’OpenAI exploite cette configuration pour décomposer les modèles en leurs éléments individuels. Tout d’abord, l’outil exécute des séquences de texte dans le modèle en cours d’évaluation et attend les cas où un neurone particulier « s’active » fréquemment. Ensuite, il « montre » GPT-4, le dernier modèle d’IA générant du texte d’OpenAI, ces neurones hautement actifs et GPT-4 génère une explication. Pour déterminer la précision de l’explication, l’outil fournit à GPT-4 des séquences de texte et lui fait prédire ou simuler le comportement du neurone. Il compare ensuite le comportement du neurone simulé avec le comportement du neurone réel.

« En utilisant cette méthodologie, nous pouvons essentiellement, pour chaque neurone, proposer une sorte d’explication préliminaire en langage naturel de ce qu’il fait et également avoir un score indiquant dans quelle mesure cette explication correspond au comportement réel », Jeff Wu, qui dirige l’équipe d’alignement évolutif d’OpenAI, a déclaré. « Nous utilisons GPT-4 dans le cadre du processus pour produire des explications sur ce qu’un neurone recherche, puis évaluer dans quelle mesure ces explications correspondent à la réalité de ce qu’il fait. »

Les chercheurs ont pu générer des explications pour les 307 200 neurones de GPT-2, qu’ils ont compilés dans un ensemble de données qui a été publié avec le code de l’outil.

Des outils comme celui-ci pourraient un jour être utilisés pour améliorer les performances d’un LLM, selon les chercheurs, par exemple pour réduire les biais ou la toxicité. Mais ils reconnaissent qu’il reste un long chemin à parcourir avant qu’il ne soit vraiment utile. L’outil était confiant dans ses explications pour environ 1 000 de ces neurones, une petite fraction du total.

Une personne cynique pourrait également soutenir que l’outil est essentiellement une publicité pour GPT-4, étant donné qu’il nécessite GPT-4 pour fonctionner. D’autres outils d’interprétabilité LLM dépendent moins des API commerciales, comme Tracr de DeepMind, un compilateur qui traduit les programmes en modèles de réseaux neuronaux.

Wu a déclaré que ce n’était pas le cas – le fait que l’outil utilise GPT-4 est simplement « accessoire » – et, au contraire, montre les faiblesses de GPT-4 dans ce domaine. Il a également déclaré qu’il n’avait pas été créé avec des applications commerciales à l’esprit et, en théorie, pourrait être adapté pour utiliser des LLM en plus de GPT-4.

Explicabilité d'OpenAI

L’outil identifie les neurones s’activant à travers les couches du LLM. Crédits image : OpenAI

« La plupart des explications sont assez médiocres ou n’expliquent pas grand-chose du comportement du neurone réel », a déclaré Wu. « Beaucoup de neurones, par exemple, sont actifs d’une manière telle qu’il est très difficile de dire ce qui se passe – comme s’ils s’activaient sur cinq ou six choses différentes, mais il n’y a pas de schéma discernable. Parfois là est un modèle perceptible, mais GPT-4 est incapable de le trouver.

Cela ne veut rien dire des modèles plus complexes, plus récents et plus grands, ou des modèles qui peuvent parcourir le Web pour obtenir des informations. Mais sur ce deuxième point, Wu pense que la navigation sur le Web ne changerait pas grand-chose aux mécanismes sous-jacents de l’outil. Il pourrait simplement être modifié, dit-il, pour comprendre pourquoi les neurones décident de faire certaines requêtes sur les moteurs de recherche ou d’accéder à des sites Web particuliers.

« Nous espérons que cela ouvrira une voie prometteuse pour aborder l’interprétabilité de manière automatisée sur laquelle d’autres pourront s’appuyer et contribuer », a déclaré Wu. « L’espoir est que nous ayons vraiment de bonnes explications non seulement sur ce à quoi les neurones réagissent, mais également sur le comportement de ces modèles – quels types de circuits ils calculent et comment certains neurones affectent d’autres neurones. »

Source-146