Les entreprises d’IA travaillent sur des « constitutions » pour empêcher l’IA de cracher du contenu toxique

Deux des plus grandes sociétés mondiales d’intelligence artificielle ont annoncé la semaine dernière des avancées majeures dans leurs produits d’IA grand public.

OpenAI, soutenu par Microsoft, a déclaré que son logiciel ChatGPT pouvait désormais « voir, entendre et parler », conversant en utilisant uniquement la voix et répondant aux requêtes des utilisateurs sous forme d’images et de mots. Pendant ce temps, Meta, propriétaire de Facebook, a annoncé qu’un assistant IA et plusieurs personnalités célèbres de chatbot seraient disponibles pour que des milliards d’utilisateurs de WhatsApp et d’Instagram puissent discuter.

Mais alors que ces groupes se précipitent pour commercialiser l’IA, les soi-disant « garde-fous » qui empêchent ces systèmes de mal fonctionner – comme la génération de discours toxiques et de désinformations, ou l’aide à commettre des crimes – ont du mal à évoluer en tandem, selon les dirigeants et les chercheurs de l’IA.

En réponse, des entreprises de premier plan, notamment Anthropic et Google DeepMind, créent des « constitutions d’IA », un ensemble de valeurs et de principes auxquels leurs modèles peuvent adhérer, dans le but de prévenir les abus. L’objectif est que l’IA apprenne de ces principes fondamentaux et se contrôle, sans intervention humaine importante.

« Nous, l’humanité, ne savons pas comment comprendre ce qui se passe à l’intérieur de ces modèles, et nous devons résoudre ce problème », a déclaré Dario Amodei, PDG et co-fondateur de la société d’IA Anthropic. La mise en place d’une constitution rend les règles plus transparentes et explicites afin que quiconque l’utilise sache à quoi s’attendre. « Et vous pouvez contester le modèle s’il ne suit pas les principes », a-t-il ajouté.

La question de savoir comment « aligner » les logiciels d’IA sur des traits positifs, tels que l’honnêteté, le respect et la tolérance, est devenue centrale dans le développement de l’IA générative, la technologie qui sous-tend les chatbots tels que ChatGPT, qui peuvent écrire couramment, créer des images et du code. qui ne se distinguent pas des créations humaines.

Pour nettoyer les réponses générées par l’IA, les entreprises se sont largement appuyées sur une méthode connue sous le nom d’apprentissage par renforcement par feedback humain (RLHF), qui permet d’apprendre des préférences humaines.

Pour appliquer le RLHF, les entreprises embauchent de grandes équipes de sous-traitants pour examiner les réponses de leurs modèles d’IA et les évaluer comme « bonnes » ou « mauvaises ». En analysant suffisamment de réponses, le modèle s’adapte à ces jugements et filtre ses réponses en conséquence.

Ce processus de base permet d’affiner les réponses d’une IA à un niveau superficiel. Mais la méthode est primitive, selon Amodei, qui a contribué à son développement alors qu’il travaillait auparavant chez OpenAI. « C’est . . . pas très précis ni ciblé, vous ne savez pas pourquoi vous obtenez les réponses que vous obtenez [and] il y a beaucoup de bruit dans ce processus », a-t-il déclaré.

Source-147