Une équipe de scientifiques de l’Université des sciences et technologies de Chine et du YouTu Lab de Tencent ont développé un outil pour lutter contre les « hallucinations » provoquées par les modèles d’intelligence artificielle (IA).
L’hallucination est la tendance d’un modèle d’IA à générer des résultats avec un niveau de confiance élevé qui n’apparaissent pas sur la base des informations présentes dans ses données d’entraînement. Ce problème imprègne la recherche sur les grands modèles de langage (LLM), et ses effets peuvent être observés dans des modèles tels que ChatGPT d’OpenAI et Claude d’Anthropic.
L’équipe USTC/Tencent a développé un outil appelé « Woodpecker » qui, selon eux, est capable de corriger les hallucinations dans les grands modèles multimodaux de langage (MLLM).
Ce sous-ensemble de l’IA implique des modèles tels que GPT-4 (en particulier sa variante visuelle, GPT-4V) et d’autres systèmes qui intègrent la vision et/ou d’autres traitements dans la modalité d’IA générative aux côtés de la modélisation du langage textuel.
Selon le document de recherche pré-imprimé de l’équipe, Woodpecker les usages trois modèles d’IA distincts, en dehors du MLLM corrigé pour les hallucinations, pour effectuer la correction des hallucinations.
Ceux-ci incluent GPT-3.5 turbo, Grounding DINO et BLIP-2-FlanT5. Ensemble, ces modèles fonctionnent comme des évaluateurs pour identifier les hallucinations et demander au modèle en cours de correction de régénérer sa sortie conformément à ses données.
Pour corriger les hallucinations, les modèles d’IA qui alimentent Woodpecker utilisent un processus en cinq étapes qui implique « l’extraction de concepts clés, la formulation de questions, la validation visuelle des connaissances, la génération d’affirmations visuelles et la correction des hallucinations ».
En rapport: Les humains et l’IA préfèrent souvent les réponses flagrantes des chatbots à la vérité – Étude
Les chercheurs affirment que ces techniques offrent une transparence supplémentaire et « une amélioration de la précision de 30,66 %/24,33 % par rapport à la référence MiniGPT-4/mPLUG-Owl ». Ils ont évalué de nombreux MLLM « prêts à l’emploi » en utilisant leur méthode et ont conclu que Woodpecker pourrait être « facilement intégré à d’autres MLLM ».