Le nouveau système de sécurité de Microsoft peut détecter les hallucinations dans les applications d’IA de ses clients

Sarah Bird, directrice des produits de l’IA responsable chez Microsoft, explique Le bord dans une interview, son équipe a conçu plusieurs nouvelles fonctionnalités de sécurité qui seront faciles à utiliser pour les clients Azure qui n’embauchent pas de groupes d’équipes rouges pour tester les services d’IA qu’ils ont créés. Microsoft affirme que ces outils basés sur LLM peuvent détecter des vulnérabilités potentiellessurveillez les hallucinations « plausibles mais non prises en charge » et bloquez les invites malveillantes en temps réel pour les clients Azure AI travaillant avec n’importe quel modèle hébergé sur la plateforme.

« Nous savons que les clients ne possèdent pas tous une expertise approfondie en matière d’attaques par injection rapide ou de contenus haineux. Le système d’évaluation génère donc les invites nécessaires pour simuler ces types d’attaques. Les clients peuvent ensuite obtenir une note et voir les résultats », dit-elle.

Trois fonctionnalités : Boucliers d’invitequi bloque les injections d’invites ou les invites malveillantes provenant de documents externes qui demandent aux modèles d’aller à l’encontre de leur formation ; Détection de mise à la terre, qui trouve et bloque les hallucinations ; et évaluations de sécurité, qui évaluent les vulnérabilités des modèles, sont désormais disponibles en préversion sur Azure AI. Deux autres fonctionnalités permettant d’orienter les modèles vers des sorties sûres et des invites de suivi pour signaler les utilisateurs potentiellement problématiques seront bientôt disponibles.

Que l’utilisateur tape une invite ou que le modèle traite des données tierces, le système de surveillance l’évaluera pour voir s’il déclenche des mots interdits ou s’il contient des invites masquées avant de décider de l’envoyer au modèle pour y répondre. Ensuite, le système examine la réponse du modèle et vérifie si les informations hallucinées du modèle ne figurent pas dans le document ou dans l’invite.

Dans le cas des images Google Gemini, les filtres conçus pour réduire les biais ont eu des effets inattendus, domaine dans lequel Microsoft affirme que ses outils Azure AI permettront un contrôle plus personnalisé. Bird reconnaît que Microsoft et d’autres sociétés pourraient décider de ce qui est ou non approprié pour les modèles d’IA. Son équipe a donc ajouté un moyen permettant aux clients Azure d’activer le filtrage des discours de haine ou de la violence que le modèle voit et bloque.

À l’avenir, les utilisateurs d’Azure peut également obtenir un rapport des utilisateurs qui tentent de déclencher des sorties dangereuses. Bird affirme que cela permet aux administrateurs système de déterminer quels utilisateurs constituent sa propre équipe d’équipes rouges et lesquels pourraient être des personnes ayant des intentions plus malveillantes.

Bird affirme que les fonctionnalités de sécurité sont immédiatement « attachées » à GPT-4 et à d’autres modèles populaires comme Llama 2. Cependant, comme le jardin de modèles d’Azure contient de nombreux modèles d’IA, les utilisateurs de systèmes open source plus petits et moins utilisés peuvent devoir pointer manuellement la sécurité. fonctionnalités aux modèles.

source site-132