Nvidia publie une boîte à outils pour rendre l’IA génératrice de texte « plus sûre »

Pour toute la fanfare, les modèles d’IA générant du texte comme le GPT-4 d’OpenAI font beaucoup d’erreurs, dont certaines sont nuisibles. James Vincent de The Verge a un jour qualifié l’un de ces modèles de « menteur manipulateur émotionnel », ce qui résume assez bien l’état actuel des choses.

Les entreprises derrière ces modèles disent qu’elles prennent des mesures pour résoudre les problèmes, comme la mise en place de filtres et d’équipes de modérateurs humains pour corriger les problèmes au fur et à mesure qu’ils sont signalés. Mais il n’y a pas de bonne solution. Même les meilleurs modèles actuels sont sensibles aux biais, à la toxicité et aux attaques malveillantes.

À la recherche de modèles de génération de texte «plus sûrs», Nvidia a publié aujourd’hui NeMo Guardrails, une boîte à outils open source visant à rendre les applications alimentées par l’IA plus «précises, appropriées, sur le sujet et sécurisées».

Jonathan Cohen, vice-président de la recherche appliquée chez Nvidia, a déclaré que la société travaillait sur le système sous-jacent de Guardrails depuis « de nombreuses années », mais qu’il y a à peine un an, il s’est rendu compte qu’il convenait parfaitement aux modèles du type GPT-4 et ChatGPT. .

« Depuis, nous développons vers cette version de NeMo Guardrails », a déclaré Cohen à TechCrunch par e-mail. « Les outils de sécurité des modèles d’IA sont essentiels au déploiement de modèles pour les cas d’utilisation en entreprise. »

Guardrails comprend du code, des exemples et de la documentation pour « ajouter de la sécurité » aux applications d’IA qui génèrent du texte ainsi que de la parole. Nvidia affirme que la boîte à outils est conçue pour fonctionner avec la plupart des modèles de langage génératifs, permettant aux développeurs de créer des règles en utilisant quelques lignes de code.

Plus précisément, les garde-corps peuvent être utilisés pour empêcher – ou du moins tenter d’empêcher – les modèles de s’écarter du sujet, de répondre avec des informations inexactes ou un langage toxique et d’établir des liens avec des sources externes « dangereuses ». Pensez à empêcher un assistant du service client de répondre à des questions sur la météo, par exemple, ou à un chatbot de moteur de recherche de créer des liens vers des revues universitaires peu recommandables.

« En fin de compte, les développeurs contrôlent ce qui est hors limites pour leur application avec Guardrails », a déclaré Cohen. « Ils peuvent développer des garde-corps trop larges ou, au contraire, trop étroits pour leur cas d’utilisation. »

Une solution universelle aux lacunes des modèles de langage semble cependant trop belle pour être vraie – et en effet, elle l’est. Alors que des entreprises comme Zapier utilisent Guardrails pour ajouter une couche de sécurité à leurs modèles génératifs, Nvidia reconnaît que la boîte à outils n’est pas imparfaite ; il n’attrapera pas tout, en d’autres termes.

Cohen note également que Guardrails fonctionne mieux avec des modèles qui sont « suffisamment bons pour suivre les instructions », à la ChatGPT, et qui utilisent le framework populaire LangChain pour créer des applications alimentées par l’IA. Cela disqualifie certaines des options open source disponibles.

Et – efficacité de la technologie mise à part – il faut souligner que Nvidia ne libère pas nécessairement Guardrails par bonté de cœur. Cela fait partie du cadre NeMo de la société, qui est disponible via la suite logicielle d’entreprise AI de Nvidia et son service cloud entièrement géré NeMo. N’importe quelle entreprise peut implémenter la version open source de Guardrails, mais Nvidia préférerait sûrement qu’elle paie pour la version hébergée à la place.

Ainsi, bien qu’il n’y ait probablement aucun mal dans Guardrails, gardez à l’esprit que ce n’est pas une solution miracle – et méfiez-vous si Nvidia prétend le contraire.

Source-146