Pourquoi RAG ne résoudra pas le problème des hallucinations de l’IA générative

Les hallucinations – les mensonges que racontent les modèles d’IA générative – sont un gros problème pour les entreprises qui cherchent à intégrer la technologie dans leurs opérations.

Parce que les modèles n’ont pas de véritable intelligence et prédisent simplement des mots, des images, de la parole, de la musique et d’autres données selon un schéma privé, ils se trompent parfois. Très mal. Dans un article récent du Wall Street Journal, une source raconte un cas où l’IA générative de Microsoft a inventé les participants à une réunion et a laissé entendre que les conférences téléphoniques portaient sur des sujets qui n’étaient pas réellement abordés lors de l’appel.

Comme je l’ai écrit il y a quelques temps, les hallucinations pourraient constituer un problème insoluble avec les architectures de modèles actuelles basées sur des transformateurs. Mais un certain nombre de fournisseurs d’IA générative suggèrent qu’ils peut être supprimé, plus ou moins, grâce à une approche technique appelée génération augmentée de récupération, ou RAG.

Voici comment un fournisseur, Squirro, le présente :

Au cœur de l’offre se trouve le concept de Retrieval Augmented LLM ou Retrieval Augmented Generation (RAG) intégré dans la solution… [our generative AI] est unique dans sa promesse de zéro hallucination. Chaque élément d’information qu’il génère est traçable jusqu’à une source, garantissant ainsi sa crédibilité.

Voici un argumentaire similaire de SiftHub :

Utilisant la technologie RAG et de grands modèles de langage affinés avec une formation aux connaissances spécifiques au secteur, SiftHub permet aux entreprises de générer des réponses personnalisées sans hallucinations. Cela garantit une transparence accrue et des risques réduits et inspire une confiance absolue dans l’utilisation de l’IA pour tous leurs besoins.

RAG a été lancé par le scientifique des données Patrick Lewis, chercheur au Meta et à l’University College de Londres et auteur principal de l’article de 2020 qui a inventé le terme. Appliqué à un modèle, RAG récupère des documents potentiellement pertinents pour une question (par exemple, une page Wikipédia sur le Super Bowl) en utilisant ce qui est essentiellement une recherche par mot-clé, puis demande au modèle de générer des réponses compte tenu de ce contexte supplémentaire.

« Lorsque vous interagissez avec un modèle d’IA génératif comme ChatGPT ou Llama et que vous posez une question, le modèle répond par défaut à partir de sa « mémoire paramétrique », c’est-à-dire à partir des connaissances stockées dans ses paramètres à la suite de formation sur des données massives provenant du Web », a expliqué David Wadden, chercheur scientifique à AI2, la division de recherche axée sur l’IA de l’Institut Allen à but non lucratif. « Mais, tout comme vous donnerez probablement des réponses plus précises si vous avez une référence [like a book or a file] devant vous, il en va de même dans certains cas pour les mannequins.

RAG est indéniablement utile : il permet d’attribuer les éléments générés par un modèle aux documents récupérés afin de vérifier leur factualité (et, comme avantage supplémentaire, d’éviter les régurgitations potentiellement contraires au droit d’auteur). RAG permet également aux entreprises qui ne souhaitent pas que leurs documents soient utilisés pour former un modèle (par exemple, les entreprises de secteurs hautement réglementés comme la santé et le droit) de permettre aux modèles de s’appuyer sur ces documents de manière plus sécurisée et temporaire.

Mais RAG certainement ne peut pas empêcher un mannequin d’halluciner. Et il présente des limites que de nombreux fournisseurs négligent.

Wadden affirme que RAG est plus efficace dans les scénarios « à forte intensité de connaissances » dans lesquels un utilisateur souhaite utiliser un modèle pour répondre à un « besoin d’information » – par exemple, pour savoir qui a remporté le Super Bowl l’année dernière. Dans ces scénarios, le document qui répond à la question est susceptible de contenir bon nombre des mêmes mots-clés que la question (par exemple, « Super Bowl », « l’année dernière »), ce qui le rend relativement facile à trouver via une recherche par mot-clé.

Les choses deviennent plus délicates avec les tâches « à forte intensité de raisonnement » telles que le codage et les mathématiques, où il est plus difficile de spécifier dans une requête de recherche basée sur des mots clés les concepts nécessaires pour répondre à une requête – et encore moins d’identifier les documents qui pourraient être pertinents.

Même avec des questions simples, les modèles peuvent être « distraits » par le contenu non pertinent des documents, en particulier dans les documents longs où la réponse n’est pas évidente. Ou bien ils peuvent – ​​pour des raisons encore inconnues – simplement ignorer le contenu des documents récupérés, choisissant plutôt de s’appuyer sur leur mémoire paramétrique.

RAG est également coûteux en termes de matériel nécessaire pour l’appliquer à grande échelle.

En effet, les documents récupérés, qu’ils proviennent du Web, d’une base de données interne ou ailleurs, doivent être stockés en mémoire – au moins temporairement – ​​afin que le modèle puisse s’y référer. Une autre dépense consiste à calculer le contexte accru qu’un modèle doit traiter avant de générer sa réponse. Pour une technologie déjà connue pour la quantité de calcul et d’électricité qu’elle nécessite, même pour les opérations de base, cela constitue une considération sérieuse.

Cela ne veut pas dire que RAG ne peut pas être amélioré. Wadden a noté de nombreux efforts en cours pour former des modèles afin de mieux utiliser les documents récupérés par RAG.

Certains de ces efforts impliquent des modèles qui peuvent « décider » quand utiliser les documents, ou des modèles qui peuvent choisir de ne pas effectuer de récupération en premier lieu s’ils le jugent inutile. D’autres se concentrent sur les moyens d’indexer plus efficacement des ensembles de données massifs de documents et sur l’amélioration de la recherche grâce à de meilleures représentations des documents – des représentations qui vont au-delà des mots-clés.

« Nous sommes assez bons pour récupérer des documents basés sur des mots-clés, mais pas aussi bons pour récupérer des documents basés sur des concepts plus abstraits, comme une technique de preuve nécessaire pour résoudre un problème mathématique », a déclaré Wadden. « Des recherches sont nécessaires pour construire des représentations de documents et des techniques de recherche capables d’identifier les documents pertinents pour des tâches de génération plus abstraites. Je pense que c’est pour l’essentiel une question ouverte à ce stade.

RAG peut donc aider à réduire les hallucinations d’un modèle, mais ce n’est pas la réponse à tous les problèmes hallucinatoires de l’IA. Méfiez-vous de tout fournisseur qui tente de prétendre le contraire.

Source-146