Les chercheurs décrivent comment savoir si ChatGPT est en train de fabuler

Aurich Lawson | Getty Images

C’est l’un des secrets les moins bien gardés au monde : les grands modèles de langage donnent des réponses manifestement fausses aux requêtes et le font avec une confiance qui est impossible à distinguer de lorsqu’ils font les choses correctement. Il ya un certain nombre de raisons à cela. L’IA aurait pu être formée sur la désinformation ; la réponse pourrait nécessiter une extrapolation à partir de faits dont le LLM n’est pas capable ; ou certains aspects de la formation du LLM auraient pu inciter à un mensonge.

Mais l’explication la plus simple est peut-être qu’un LLM ne reconnaît pas ce qui constitue une réponse correcte mais est obligé de la fournir. Cela invente donc simplement quelque chose, une habitude appelée confabulation.

Savoir quand un LLM invente quelque chose aurait évidemment une valeur considérable, étant donné la rapidité avec laquelle les gens ont commencé à compter sur eux pour tout, des dissertations universitaires aux candidatures à un emploi. Aujourd’hui, des chercheurs de l’Université d’Oxford affirment avoir trouvé un moyen relativement simple de déterminer quand les LLM semblent fabuler, qui fonctionne avec tous les modèles populaires et sur un large éventail de sujets. Et, ce faisant, ils développent la preuve que la plupart des faits alternatifs fournis par les LLM sont le produit d’une confabulation.

Attraper la confabulation

La nouvelle recherche porte strictement sur les confabulations, et non sur des cas tels que la formation sur les fausses entrées. Comme l’équipe d’Oxford les définit dans leur article décrivant le travail, les confabulations sont le lieu où « les LLM font couramment des affirmations à la fois fausses et arbitraires, ce qui signifie que la réponse est sensible à des détails non pertinents tels que des graines aléatoires ».

Le raisonnement derrière leur travail est en réalité assez simple. Les LLM ne sont pas formés pour l’exactitude ; ils sont simplement formés sur d’énormes quantités de texte et apprennent ainsi à produire des phrases à consonance humaine. Si suffisamment d’exemples de texte dans sa formation présentent systématiquement quelque chose comme un fait, alors le LLM est susceptible de le présenter comme un fait. Mais si les exemples de sa formation sont peu nombreux ou incohérents dans leurs faits, alors les LLM synthétisent une réponse plausible qui est probablement incorrecte.

Mais le LLM pourrait également se retrouver dans une situation similaire lorsqu’il dispose de plusieurs options pour formuler la bonne réponse. Pour reprendre un exemple tiré de l’article des chercheurs, « Paris », « C’est à Paris » et « La capitale de la France, Paris » sont toutes des réponses valables à la question « Où est la Tour Eiffel ? Ainsi, l’incertitude statistique, appelée entropie dans ce contexte, peut survenir soit lorsque le LLM n’est pas certain de la manière de formuler la bonne réponse, soit lorsqu’il ne peut pas identifier la bonne réponse.

Cela signifie que ce n’est pas une bonne idée de simplement forcer le LLM à répondre « Je ne sais pas » lorsqu’il est confronté à plusieurs réponses à peu près équivalentes. En procédant ainsi, nous bloquerions probablement beaucoup de bonnes réponses.

Les chercheurs se concentrent donc plutôt sur ce qu’ils appellent l’entropie sémantique. Celui-ci évalue toutes les réponses statistiquement probables évaluées par le LLM et détermine combien d’entre elles sont sémantiquement équivalentes. Si un grand nombre ont tous la même signification, alors le LLM est probablement incertain quant à la formulation mais a la bonne réponse. Dans le cas contraire, il se trouve probablement dans une situation où il serait enclin à la confabulation et devrait en être empêché.

Source-147