Le nouveau modèle « CriticGPT » d’OpenAI est formé pour critiquer les résultats de GPT-4

Agrandir / Une illustration créée par OpenAI.

Jeudi, les chercheurs d’OpenAI ont dévoilé CriticGPT, un nouveau modèle d’IA conçu pour identifier les erreurs dans le code généré par ChatGPT. Il vise à améliorer le processus permettant aux systèmes d’IA de se comporter comme les humains le souhaitent (appelé « alignement ») grâce à l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF), qui aide les évaluateurs humains à rendre les résultats du grand modèle de langage (LLM) plus précis.

Comme indiqué dans un nouveau document de recherche intitulé « LLM Critics Help Catch LLM Bugs », OpenAI a créé CriticGPT pour agir en tant qu’assistant d’IA pour les formateurs humains qui examinent le code de programmation généré par l’assistant d’IA ChatGPT. CriticGPT, basé sur la famille GPT-4 de LLMS, analyse le code et signale les erreurs potentielles, permettant ainsi aux humains de repérer plus facilement les erreurs qui autrement pourraient passer inaperçues. Les chercheurs ont formé CriticGPT sur un ensemble de données d’échantillons de code contenant des bogues intentionnellement insérés, lui apprenant à reconnaître et à signaler diverses erreurs de codage.

Les chercheurs ont constaté que les critiques de CriticGPT étaient préférées par les annotateurs aux critiques humaines dans 63 % des cas impliquant des erreurs LLM naturelles et que les équipes homme-machine utilisant CriticGPT rédigeaient des critiques plus complètes que les humains seuls tout en réduisant les taux de confabulation (hallucination) par rapport aux critiques uniquement basées sur l’IA.

Développer un critique automatisé

Le développement de CriticGPT impliquait d’entraîner le modèle sur un grand nombre d’entrées contenant des erreurs délibérément insérées. Il a été demandé aux formateurs humains de modifier le code écrit par ChatGPT, en introduisant des erreurs, puis en fournissant des exemples de commentaires comme s’ils avaient découvert ces bugs. Ce processus a permis au modèle d’apprendre à identifier et à critiquer divers types d’erreurs de codage.

Au cours d’expériences, CriticGPT a démontré sa capacité à détecter à la fois les bugs insérés et les erreurs survenant naturellement dans les résultats de ChatGPT. Les critiques du nouveau modèle ont été préférées par les formateurs à celles générées par ChatGPT lui-même dans 63 % des cas impliquant des bugs naturels (la statistique susmentionnée). Cette préférence était en partie due au fait que CriticGPT produisait moins de « pinailleries » inutiles et générait moins de faux positifs ou de problèmes hallucinés.

Les chercheurs ont également créé une nouvelle technique appelée Force Sampling Beam Search (FSBS). Cette méthode aide CriticGPT à rédiger des critiques plus détaillées du code. Il permet aux chercheurs d’ajuster le niveau de rigueur de CriticGPT dans la recherche de problèmes tout en contrôlant la fréquence à laquelle il peut créer des problèmes qui n’existent pas vraiment. Ils peuvent modifier cet équilibre en fonction de ce dont ils ont besoin pour les différentes tâches de formation en IA.

Il est intéressant de noter que les chercheurs ont découvert que les capacités de CriticGPT s’étendent au-delà de la simple révision de code. Dans leurs expériences, ils ont appliqué le modèle à un sous-ensemble de données d’entraînement ChatGPT qui avaient été précédemment jugées sans faille par des annotateurs humains. Étonnamment, CriticGPT a identifié des erreurs dans 24 % de ces cas, erreurs qui ont ensuite été confirmées par des réviseurs humains. OpenAI pense que cela démontre le potentiel du modèle à se généraliser à des tâches non liées au code et souligne sa capacité à détecter des erreurs subtiles que même une évaluation humaine minutieuse pourrait manquer.

Malgré ses résultats prometteurs, comme tous les modèles d’IA, CriticGPT présente des limites. Le modèle a été formé sur des réponses ChatGPT relativement courtes, ce qui pourrait ne pas le préparer pleinement à l’évaluation de tâches plus longues et plus complexes que les futurs systèmes d’IA pourraient accomplir. De plus, même si CriticGPT réduit les confabulations, il ne les élimine pas entièrement, et les formateurs humains peuvent toujours commettre des erreurs d’étiquetage sur la base de ces faux résultats.

L’équipe de recherche reconnaît que CriticGPT est particulièrement efficace pour identifier les erreurs qui peuvent être localisées à un endroit précis du code. Cependant, les erreurs réelles dans les résultats de l’IA peuvent souvent être réparties sur plusieurs parties d’une réponse, ce qui représente un défi pour les futures itérations du modèle.

OpenAI prévoit d’intégrer des modèles de type CriticGPT dans son pipeline d’étiquetage RLHF, fournissant à ses formateurs une assistance en matière d’IA. Pour OpenAI, il s’agit d’une étape vers le développement de meilleurs outils pour évaluer les résultats des systèmes LLM qui peuvent être difficiles à évaluer pour les humains sans support supplémentaire. Cependant, les chercheurs préviennent que même avec des outils comme CriticGPT, des tâches ou des réponses extrêmement complexes peuvent encore s’avérer difficiles pour les évaluateurs humains, même ceux assistés par l’IA.

Source-147