Google DeepMind crée une nouvelle organisation axée sur la sécurité de l’IA

Si vous demandez à Gemini, le modèle GenAI phare de Google, d’écrire du contenu trompeur sur la prochaine élection présidentielle américaine, il le fera, à condition d’y être invité correctement. Renseignez-vous sur un futur match du Super Bowl et il inventera un play-by-play. Ou posez des questions sur l’implosion submersible de Titan et cela vous servira de désinformation, complétée par des citations convaincantes mais fausses.

Il va sans dire que c’est une mauvaise image pour Google – et cela provoque la colère des décideurs politiques, qui ont exprimé leur mécontentement face à la facilité avec laquelle les outils GenAI peuvent être exploités à des fins de désinformation et d’une manière générale induire en erreur.

En réponse, Google – des milliers d’emplois en moins qu’au dernier trimestre fiscal – oriente ses investissements vers la sécurité de l’IA. Du moins, c’est l’histoire officielle.

Ce matin, Google DeepMind, la division R&D en IA derrière Gemini et de nombreux projets GenAI les plus récents de Google, a annoncé la création d’une nouvelle organisation, AI Safety and Alignment, composée d’équipes existantes travaillant sur la sécurité de l’IA, mais également élargie pour englober de nouvelles, cohortes spécialisées de chercheurs et d’ingénieurs GenAI.

Au-delà des offres d’emploi sur le site de DeepMind, Google n’a pas précisé combien d’embauches résulteraient de la création de la nouvelle organisation. Mais il a révélé que la sécurité et l’alignement de l’IA comprendront une nouvelle équipe axée sur la sécurité autour de l’intelligence artificielle générale (AGI), ou de systèmes hypothétiques capables d’effectuer n’importe quelle tâche qu’un humain peut réaliser.

Semblable dans sa mission à OpenAI, son rival de la division Superalignment, formé en juillet dernier, la nouvelle équipe au sein d’AI Safety and Alignment travaillera aux côtés de l’équipe de recherche existante centrée sur la sécurité de l’IA de DeepMind à Londres, Scalable Alignment – qui explore également des solutions au défi technique du contrôle. une IA superintelligente encore à réaliser.

Pourquoi deux groupes travaillent-ils sur le même problème ? Question valable – et qui appelle à la spéculation étant donné la réticence de Google à révéler beaucoup de détails à ce stade. Mais il semble remarquable que la nouvelle équipe – celle au sein de AI Safety and Alignment – ​​soit aux États-Unis plutôt qu’à l’autre bout de l’Atlantique, à proximité du siège de Google à une époque où l’entreprise agit de manière agressive pour suivre le rythme de ses concurrents en matière d’IA tout en tentant de projeter une approche responsable. , approche mesurée de l’IA.

Les autres équipes de l’organisation AI Safety and Alignment sont chargées de développer et d’intégrer des protections concrètes dans les modèles Gemini de Google, actuels et en cours de développement. La sécurité est une vaste portée. Mais quelques-unes des priorités à court terme de l’organisation seront d’éviter les mauvais conseils médicaux, d’assurer la sécurité des enfants et de « prévenir l’amplification des préjugés et autres injustices ».

Anca Dragan, anciennement chercheuse scientifique du personnel de Waymo et professeur d’informatique à l’UC Berkeley, dirigera l’équipe.

«Notre travail [at the AI Safety and Alignment organization] vise à permettre aux modèles de mieux comprendre les préférences et les valeurs humaines », a déclaré Dragan à TechCrunch par courrier électronique, « de savoir ce qu’ils ne savent pas, de travailler avec les gens pour comprendre leurs besoins et d’obtenir une surveillance éclairée, d’être plus robuste. contre les attaques adverses et pour tenir compte de la pluralité et de la nature dynamique des valeurs et des points de vue humains.

Le travail de consultant de Dragan avec Waymo sur les systèmes de sécurité de l’IA pourrait faire sourciller, compte tenu du bilan de conduite difficile de l’entreprise de voitures autonomes de Google ces derniers temps.

Il en va de même pour sa décision de partager son temps entre DeepMind et l’UC Berkeley, où elle dirige un laboratoire axé sur les algorithmes pour l’interaction homme-IA et homme-robot. On pourrait supposer que des problèmes aussi graves que la sécurité de l’AGI – et les risques à plus long terme que l’organisation AI Safety and Alignment a l’intention d’étudier, notamment empêcher l’IA de « contribuer au terrorisme » et de « déstabiliser la société » – nécessitent l’attention à plein temps d’un directeur.

Dragan insiste cependant sur le fait que les recherches de son laboratoire de l’UC Berkeley et de DeepMind sont interdépendantes et complémentaires.

« Mon laboratoire et moi avons travaillé sur… l’alignement des valeurs en prévision des progrès des capacités de l’IA, [and] mon propre doctorat. « C’était dans les robots qui déduisaient les objectifs humains et étaient transparents sur leurs propres objectifs envers les humains, c’est là que mon intérêt pour ce domaine a commencé », a-t-elle déclaré. «Je pense que la raison [DeepMind CEO] Demis Hassabis et [chief AGI scientist] Shane Legg était ravi de m’embaucher en raison en partie de cette expérience de recherche et en partie de mon attitude selon laquelle la réponse aux préoccupations actuelles et aux risques catastrophiques ne s’exclut pas mutuellement – que du point de vue technique, les atténuations se confondent souvent et les travaux contribuant au long terme. améliore le présent, et vice versa.

Dire que Dragan a du pain sur la planche est un euphémisme.

Le scepticisme à l’égard des outils GenAI atteint un niveau sans précédent, en particulier en ce qui concerne les deepfakes et la désinformation. Dans un sondage Selon YouGov, 85 % des Américains se disent très préoccupés ou plutôt préoccupés par la propagation de deepfakes vidéo et audio trompeurs. Un séparé enquête du Centre de recherche sur les affaires publiques Associated Press-NORC a révélé que près de 60 % des adultes pensent que les outils d’IA augmenteront le volume d’informations fausses et trompeuses au cours du cycle électoral américain de 2024.

Les entreprises également – ​​le gros poisson que Google et ses concurrents espèrent attirer avec les innovations GenAI – se méfient des lacunes de la technologie et de leurs implications.

Cnvrg.io, filiale d’Intel, a récemment mené une enquête auprès des entreprises en train de piloter ou de déployer des applications GenAI. L’étude a révélé qu’environ un quart des personnes interrogées avaient des réserves quant à la conformité et à la confidentialité de GenAI, à la fiabilité, au coût élevé de mise en œuvre et au manque de compétences techniques nécessaires pour utiliser pleinement les outils.

Dans un sondage distinct réalisé par Riskonnect, un fournisseur de logiciels de gestion des risques, plus de la moitié des dirigeants ont déclaré s’inquiéter du fait que les employés prennent des décisions basées sur des informations inexactes provenant des applications GenAI.

Ces préoccupations ne sont pas injustifiées. La semaine dernière, le Wall Street Journal a rapporté que la suite Copilot de Microsoft, alimentée par des modèles GenAI similaires sur le plan architectural à Gemini, commettait souvent des erreurs dans les résumés et les formules des feuilles de calcul. La faute en est l’hallucination – le terme générique désignant les tendances de fabrication de GenAI – et de nombreux experts estiment que ce problème ne pourra jamais être complètement résolu.

Reconnaissant le caractère insoluble du défi de sécurité de l’IA, Dragan ne promet pas un modèle parfait – affirmant seulement que DeepMind a l’intention d’investir davantage de ressources dans ce domaine à l’avenir et de s’engager « bientôt » dans un cadre d’évaluation des risques de sécurité du modèle GenAI.

« Je pense que la clé est de… [account] pour les biais cognitifs humains restants dans les données que nous utilisons pour former, de bonnes estimations de l’incertitude pour savoir où se trouvent les lacunes, en ajoutant une surveillance du temps d’inférence qui peut détecter les échecs et des dialogues de confirmation pour les décisions conséquentes et le suivi où [a] Les capacités du modèle sont d’adopter un comportement potentiellement dangereux », a-t-elle déclaré. « Mais cela laisse encore le problème ouvert de savoir comment être sûr qu’un modèle ne se comportera pas mal dans une petite fraction du temps, ce qui est difficile à trouver empiriquement, mais peut apparaître au moment du déploiement. »

Je ne suis pas convaincu que les clients, le public et les régulateurs seront aussi compréhensifs. Cela dépendra, je suppose, de la gravité de ces mauvais comportements – et de ceux qui en souffrent exactement.

« Nos utilisateurs devraient, espérons-le, bénéficier d’un modèle de plus en plus utile et sûr au fil du temps », a déclaré Dragan. En effet.

Source-146