samedi, novembre 23, 2024

OpenAI forme une nouvelle équipe pour maîtriser l’IA « super intelligente »

OpenAI forme une nouvelle équipe dirigée par Ilya Sutskever, son scientifique en chef et l’un des co-fondateurs de l’entreprise, pour développer des moyens de diriger et de contrôler les systèmes d’IA « superintelligents ».

Dans un article de blog publié aujourd’hui, Sutskever et Jan Leike, responsable de l’équipe d’alignement d’OpenAI, prédisent que l’IA dotée d’une intelligence supérieure à celle des humains pourrait arriver dans la décennie. Cette IA – en supposant qu’elle arrive, en effet, finalement – ​​ne sera pas nécessairement bienveillante, ce qui nécessitera des recherches sur les moyens de la contrôler et de la restreindre, disent Sutskever et Leike.

« Actuellement, nous n’avons pas de solution pour diriger ou contrôler une IA potentiellement super intelligente et l’empêcher de devenir voyou », écrivent-ils. « Nos techniques actuelles d’alignement de l’IA, telles que l’apprentissage par renforcement à partir de la rétroaction humaine, reposent sur la capacité des humains à superviser l’IA. Mais les humains ne seront pas en mesure de superviser de manière fiable des systèmes d’IA beaucoup plus intelligents que nous. »

Pour faire avancer l’aiguille dans le domaine de «l’alignement de la superintelligence», OpenAI crée une nouvelle équipe de superalignement, dirigée à la fois par Sutskever et Leike, qui aura accès à 20% du calcul que l’entreprise a sécurisé à ce jour. Rejointe par des scientifiques et des ingénieurs de l’ancienne division d’alignement d’OpenAI ainsi que des chercheurs d’autres organisations de l’entreprise, l’équipe visera à résoudre les principaux défis techniques du contrôle de l’IA super intelligente au cours des quatre prochaines années.

Comment? En construisant ce que Sutskever et Leike décrivent comme un « chercheur en alignement automatisé au niveau humain ». L’objectif de haut niveau est de former des systèmes d’IA à l’aide de la rétroaction humaine, de former l’IA pour aider à évaluer d’autres systèmes d’IA et, finalement, de créer une IA capable de faire de la recherche d’alignement. (Ici, la « recherche d’alignement » consiste à s’assurer que les systèmes d’IA atteignent les résultats souhaités ou ne dérapent pas.)

C’est l’hypothèse d’OpenAI selon laquelle l’IA peut faire progresser la recherche d’alignement plus rapidement et mieux que les humains.

« Au fur et à mesure que nous progressons dans ce domaine, nos systèmes d’IA peuvent prendre en charge de plus en plus notre travail d’alignement et, en fin de compte, concevoir, mettre en œuvre, étudier et développer de meilleures techniques d’alignement que celles que nous avons actuellement », ont postulé Leike et ses collègues John Schulman et Jeffrey Wu dans un article de blog précédent. «Ils travailleront avec les humains pour s’assurer que leurs propres successeurs sont plus alignés avec les humains. . . . Les chercheurs humains concentreront de plus en plus leurs efforts sur l’examen des recherches d’alignement effectuées par les systèmes d’IA au lieu de générer ces recherches par eux-mêmes.

Bien sûr, aucune méthode n’est infaillible – et Leike, Schulman et Wu reconnaissent les nombreuses limites d’OpenAI dans leur message. L’utilisation de l’IA pour l’évaluation a le potentiel d’augmenter les incohérences, les biais ou les vulnérabilités de cette IA, disent-ils. Et il se peut que les parties les plus difficiles du problème d’alignement ne soient pas du tout liées à l’ingénierie.

Mais Sutskever et Leike pensent que ça vaut le coup.

« L’alignement de la superintelligence est fondamentalement un problème d’apprentissage automatique, et nous pensons que de grands experts en apprentissage automatique – même s’ils ne travaillent pas déjà sur l’alignement – seront essentiels pour le résoudre », écrivent-ils. « Nous prévoyons de partager largement les fruits de cet effort et considérons la contribution à l’alignement et à la sécurité des modèles non OpenAI comme une partie importante de notre travail. »

Source-146

- Advertisement -

Latest