Les modèles d’IA sont-ils voués à toujours halluciner ?

Les grands modèles de langage (LLM) comme ChatGPT d’OpenAI souffrent tous du même problème : ils inventent des choses.

Les erreurs vont d’étranges et inoffensives – comme affirmer que le Golden Gate Bridge a traversé l’Égypte en 2016 – à très problématiques, voire dangereuses.

Un maire australien a récemment menacé de poursuivre OpenAI en justice parce que ChatGPT avait affirmé à tort qu’il avait plaidé coupable dans un important scandale de corruption. Les chercheurs ont découvert que les hallucinations LLM peuvent être exploitées pour distribuer des packages de codes malveillants à des développeurs de logiciels sans méfiance. Et les LLM donnent fréquemment des conseils médicaux et sur la mauvaise santé mentale, comme par exemple que la consommation de vin peut « prévenir le cancer ».

Cette tendance à inventer des « faits » est un phénomène connu sous le nom d’hallucination, et elle se produit en raison de la manière dont les LLM d’aujourd’hui – et tous les modèles d’IA génératifs, d’ailleurs – sont développés et formés.

Modèles de formation

Les modèles d’IA générative n’ont pas de véritable intelligence : ce sont des systèmes statistiques qui prédisent des mots, des images, de la parole, de la musique ou d’autres données. Alimentés par un très grand nombre d’exemples, généralement issus du Web public, les modèles d’IA apprennent la probabilité que les données se produisent en fonction de modèles, y compris le contexte de toutes les données environnantes.

Par exemple, étant donné un e-mail typique se terminant par le fragment « Looking forward… », un LLM pourrait le compléter par « … pour recevoir une réponse » – en suivant le modèle des innombrables e-mails sur lesquels il a été formé. Cela ne veut pas dire que le LLM attend quelque chose avec impatience.

« Le cadre actuel de formation des LLM implique de dissimuler, ou de « masquer », les mots précédents pour le contexte » et de demander au modèle de prédire quels mots devraient remplacer ceux masqués, Sebastian Berns, titulaire d’un doctorat. chercheurs de l’Université Queen Mary de Londres, ont déclaré à TechCrunch dans une interview par courrier électronique. « C’est conceptuellement similaire à l’utilisation de texte prédictif dans iOS et à la pression continue sur l’un des mots suivants suggérés. »

Cette approche basée sur les probabilités fonctionne remarquablement bien à grande échelle, pour la plupart. Mais même si la gamme de mots et leurs probabilités sont probable aboutir à un texte qui ait du sens, c’est loin d’être certain.

Les LLM peuvent générer quelque chose de grammaticalement correct mais absurde, par exemple, comme l’affirmation sur le Golden Gate. Ou encore, ils peuvent proférer des contrevérités, propageant des inexactitudes dans leurs données de formation. Ils peuvent également confondre différentes sources d’information, y compris des sources fictives, même si ces sources se contredisent clairement.

Ce n’est pas malveillant de la part des LLM. Ils n’ont pas de méchanceté et les concepts de vrai et de faux n’ont aucun sens pour eux. Ils ont simplement appris à associer certains mots ou expressions à certains concepts, même si ces associations ne sont pas exactes.

« Les « hallucinations » sont liées à l’incapacité d’un LLM à estimer l’incertitude de sa propre prédiction », a déclaré Berns. « Un LLM est généralement formé pour toujours produire un résultat, même lorsque l’entrée est très différente des données de formation. Un LLM standard n’a aucun moyen de savoir s’il est capable de répondre de manière fiable à une requête ou de faire une prédiction.

Résoudre l’hallucination

La question est : l’hallucination peut-elle être résolue ? Cela dépend de ce que vous entendez par « résolu ».

Vu Ha, chercheur appliqué et ingénieur à l’Allen Institute for Artificial Intelligence, affirme que Les LLM « hallucinent et auront toujours des hallucinations ». Mais il pense également qu’il existe des moyens concrets de réduire – sans toutefois éliminer – les hallucinations, en fonction de la manière dont un LLM est formé et déployé.

« Envisagez un système de questions-réponses », a déclaré Ha par courrier électronique. « Il est possible de le concevoir pour qu’il ait une grande précision en organisant une base de connaissances de haute qualité de questions et de réponses, et en connectant cette base de connaissances à un LLM pour fournir des réponses précises via un processus de type récupération. »

Ha a illustré la différence entre un LLM avec une base de connaissances de « haute qualité » sur laquelle s’appuyer et un autre avec une conservation des données moins soignée. Il a posé la question « Qui sont les auteurs de l’article Toolformer ? » (Toolformer est un modèle d’IA formé par Meta) via Bing Chat propulsé par LLM de Microsoft et Bard de Google. Bing Chat a correctement répertorié les huit co-auteurs de Meta, tandis que Bard a attribué à tort l’article aux chercheurs de Google et de Hugging Face.

« Tout système basé sur LLM déployé hallucinera. La vraie question est de savoir si les bénéfices l’emportent sur les conséquences négatives provoquées par les hallucinations », a déclaré Ha. En d’autres termes, si un modèle ne cause aucun préjudice évident – ​​le modèle se trompe de date ou de nom de temps en temps, par exemple – mais que cela est par ailleurs utile, alors cela vaut peut-être la peine de faire un compromis. « Il s’agit de maximiser l’utilité attendue de l’IA », a-t-il ajouté.

Berns a souligné une autre technique qui a été utilisée avec un certain succès pour réduire les hallucinations dans les LLM : l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Introduit par OpenAI en 2017, le RLHF consiste à former un LLM, puis à collecter des informations supplémentaires pour former un modèle de « récompense » et à affiner le LLM avec le modèle de récompense via l’apprentissage par renforcement.

Dans RLHF, un ensemble d’invites provenant d’un ensemble de données prédéfinies est transmis via un LLM pour générer un nouveau texte. Ensuite, des annotateurs humains sont utilisés pour classer les résultats du LLM en fonction de leur « utilité » globale – des données utilisées pour entraîner le modèle de récompense. Le modèle de récompense, qui à ce stade peut prendre en compte n’importe quel texte et lui attribuer un score en fonction de la façon dont les humains le perçoivent, est ensuite utilisé pour affiner les réponses générées par le LLM.

OpenAI a exploité RLHF pour entraîner plusieurs de ses modèles, dont GPT-4. Mais même la RLHF n’est pas parfaite, a prévenu Berns.

« Je pense que l’espace des possibilités est trop grand pour « aligner » pleinement les LLM sur les RLHF », a déclaré Berns. « Dans le cadre du RLHF, on forme souvent un modèle pour qu’il produise une réponse « Je ne sais pas ». [to a tricky question], en s’appuyant principalement sur la connaissance du domaine humain et en espérant que le modèle la généralise à son propre domaine de connaissance. C’est souvent le cas, mais cela peut être un peu capricieux.

Philosophies alternatives

En supposant que l’hallucination ne puisse pas être résolue, du moins pas avec les LLM d’aujourd’hui, est-ce une mauvaise chose ? Berns ne le pense pas, en fait. Des modèles hallucinants pourraient alimenter la créativité en agissant comme un « partenaire co-créatif », postule-t-il – donnant des résultats qui ne sont peut-être pas entièrement factuels mais qui contiennent néanmoins des fils utiles sur lesquels s’appuyer. Les utilisations créatives des hallucinations peuvent produire des résultats ou des combinaisons d’idées qui pourraient ne pas venir à l’esprit de la plupart des gens.

« Les « hallucinations » constituent un problème si les déclarations générées sont factuellement incorrectes ou violent des valeurs humaines, sociales ou culturelles spécifiques – dans des scénarios où une personne s’appuie sur le LLM pour être un expert », a-t-il déclaré. « Mais dans les tâches créatives ou artistiques, la capacité à produire des résultats inattendus peut s’avérer précieuse. Un destinataire humain pourrait être surpris par une réponse à une question et donc être poussé dans une certaine direction de pensée qui pourrait conduire à une nouvelle connexion d’idées.

Ha a fait valoir que les LLM d’aujourd’hui sont soumis à des normes déraisonnables – les humains « hallucinent » aussi, après tout, lorsque nous nous souvenons mal ou déformons la vérité d’une manière ou d’une autre. Mais avec les LLM, il pense que nous subissons une dissonance cognitive parce que les modèles produisent des résultats qui semblent bons en surface mais contiennent des erreurs après une inspection plus approfondie.

« En termes simples, les LLM, comme toutes les techniques d’IA, sont imparfaits et commettent donc des erreurs », a-t-il déclaré. «Traditionnellement, nous acceptons que les systèmes d’IA fassent des erreurs, car nous attendons et acceptons les imperfections. Mais c’est plus nuancé lorsque les LLM font des erreurs.

En effet, la réponse ne réside peut-être pas dans la manière dont les modèles d’IA générative fonctionnent au niveau technique. Dans la mesure où il existe aujourd’hui une « solution » aux hallucinations, traiter les prédictions des modèles avec un œil sceptique semble être la meilleure approche.

Source-146