Perceptron : IA multilingue, riante, jouant aux pièges et débrouillarde

La recherche dans le domaine de l’apprentissage automatique et de l’IA, désormais une technologie clé dans pratiquement toutes les industries et entreprises, est beaucoup trop volumineuse pour que quiconque puisse tout lire. Cette colonne, Perceptron, vise à rassembler certaines des découvertes et des articles récents les plus pertinents – en particulier, mais sans s’y limiter, l’intelligence artificielle – et à expliquer pourquoi ils sont importants.

Au cours des dernières semaines, des chercheurs de Google ont fait la démonstration d’un système d’IA, PaLI, qui peut effectuer de nombreuses tâches dans plus de 100 langues. Ailleurs, un groupe basé à Berlin a lancé un projet appelé Source + qui est conçu comme un moyen de permettre aux artistes, y compris les artistes visuels, les musiciens et les écrivains, d’opter pour – et de ne pas – permettre à leur travail d’être utilisé comme données de formation pour l’IA.

Les systèmes d’IA comme le GPT-3 d’OpenAI peuvent générer un texte assez sensé ou résumer un texte existant sur le Web, des livres électroniques et d’autres sources d’informations. Mais ils sont historiquement limités à une seule langue, ce qui limite à la fois leur utilité et leur portée.

Heureusement, ces derniers mois, la recherche sur les systèmes multilingues s’est accélérée, en partie grâce aux efforts de la communauté comme Hugging Face’s Bloom. Afin de tirer parti de ces avancées en matière de multilinguisme, une équipe Google a créé PaLI, qui a été formé à la fois sur les images et sur le texte pour effectuer des tâches telles que le sous-titrage d’images, la détection d’objets et la reconnaissance optique de caractères.

Crédits image : Google

Google affirme que PaLI peut comprendre 109 langues et les relations entre les mots dans ces langues et les images, ce qui lui permet, par exemple, de sous-titrer une image de carte postale en français. Alors que le travail reste fermement dans les phases de recherche, les créateurs disent qu’il illustre l’interaction importante entre le langage et les images – et pourrait établir une base pour un produit commercial sur toute la ligne.

La parole est un autre aspect du langage dans lequel l’IA s’améliore constamment. Play.ht a récemment présenté un nouveau modèle de synthèse vocale qui met une quantité remarquable d’émotion et de portée dans ses résultats. Les clips qu’il a publiés la semaine dernière semblent fantastiques, bien qu’ils soient bien sûr sélectionnés avec soin.

Nous avons généré notre propre clip en utilisant l’intro de cet article, et les résultats sont toujours solides :


On ne sait toujours pas exactement à quoi ce type de génération de voix sera le plus utile. Nous n’en sommes pas tout à fait au stade où ils font des livres entiers – ou plutôt, ils le peuvent, mais ce n’est peut-être pas encore le premier choix de personne. Mais à mesure que la qualité augmente, les demandes se multiplient.

Mat Dryhurst et Holly Herndon – respectivement universitaire et musicienne – se sont associés à l’organisation Spawning pour lancer Source +, une norme qui, espère-t-il, attirera l’attention sur la question des systèmes d’IA photo-générateurs créés à partir d’œuvres d’artistes qui n’étaient pas informés ou a demandé la permission. Source+, qui ne coûte rien, vise à permettre aux artistes d’interdire l’utilisation de leur travail à des fins de formation à l’IA s’ils le souhaitent.

Des systèmes de génération d’images tels que Stable Diffusion et DALL-E 2 ont été entraînés sur des milliards d’images extraites du Web pour « apprendre » à traduire des invites de texte en art. Certaines de ces images provenaient de communautés d’art public comme ArtStation et DeviantArt – pas nécessairement avec les connaissances des artistes – et ont imprégné les systèmes de la capacité d’imiter des créateurs particuliers, y compris des artistes comme Greg Rutowski.

Stabilité AI Stable Diffusion

Échantillons de diffusion stable.

En raison du talent des systèmes pour imiter les styles artistiques, certains créateurs craignent qu’ils ne menacent leurs moyens de subsistance. Selon Dryhurst et Herndon, Source+ – bien que volontaire – pourrait être une étape pour donner aux artistes une plus grande influence sur la façon dont leur art est utilisé – en supposant qu’il soit adopté à grande échelle (un gros si).

Chez DeepMind, une équipe de recherche tente de résoudre un autre aspect problématique de longue date de l’IA : sa tendance à cracher des informations toxiques et trompeuses. En se concentrant sur le texte, l’équipe a développé un chatbot appelé Sparrow qui peut répondre aux questions courantes en effectuant une recherche sur le Web à l’aide de Google. D’autres systèmes de pointe comme LaMDA de Google peuvent faire de même, mais DeepMind affirme que Sparrow fournit des réponses plausibles et non toxiques aux questions plus souvent que ses homologues.

L’astuce consistait à aligner le système sur les attentes des gens à son égard. DeepMind a recruté des personnes pour utiliser Sparrow, puis leur a demandé de fournir des commentaires pour former un modèle sur l’utilité des réponses, en montrant aux participants plusieurs réponses à la même question et en leur demandant quelle réponse leur plaisait le plus. Les chercheurs ont également défini des règles pour Sparrow telles que « ne faites pas de déclarations menaçantes » et « ne faites pas de commentaires haineux ou insultants », qu’ils ont demandé aux participants d’imposer au système en essayant de le tromper pour qu’il enfreigne les règles.

Exemple de moineau de DeepMind ayant une conversation.

DeepMind reconnaît que Sparrow peut encore s’améliorer. Mais dans une étude, l’équipe a découvert que le chatbot fournissait une réponse « plausible » étayée par des preuves 78% du temps lorsqu’on lui posait une question factuelle et n’enfreignait les règles susmentionnées que 8% du temps. C’est mieux que le système de dialogue original de DeepMind, notent les chercheurs, qui a enfreint les règles environ trois fois plus souvent lorsqu’il a été trompé.

Une équipe distincte de DeepMind s’est récemment attaquée à un domaine très différent : les jeux vidéo qui, historiquement, ont été difficiles à maîtriser rapidement pour l’IA. Leur système, appelé effrontément MEME, aurait atteint des performances de «niveau humain» sur 57 jeux Atari différents 200 fois plus rapidement que le meilleur système précédent.

Selon l’article de DeepMind détaillant MEME, le système peut apprendre à jouer à des jeux en observant environ 390 millions d’images – « images » faisant référence aux images fixes qui se rafraîchissent très rapidement pour donner l’impression de mouvement. Cela peut sembler beaucoup, mais la technique de pointe précédente nécessitait 80 milliard images sur le même nombre de jeux Atari.

Deep Mind MEME

Crédits image : DeepMind

Jouer habilement à Atari peut ne pas sembler être une compétence souhaitable. Et en effet, certains critiques affirment que les jeux sont une référence imparfaite en matière d’IA en raison de leur caractère abstrait et de leur simplicité relative. Mais des laboratoires de recherche comme DeepMind pensent que les approches pourraient être appliquées à d’autres domaines plus utiles à l’avenir, comme les robots qui apprennent plus efficacement à effectuer des tâches en regardant des vidéos ou des voitures auto-améliorées et autonomes.

Nvidia a eu une journée sur le terrain le 20 en annonçant des dizaines de produits et services, parmi lesquels plusieurs efforts d’IA intéressants. Les voitures autonomes sont l’un des centres d’intérêt de l’entreprise, à la fois pour alimenter l’IA et pour la former. Pour ces derniers, les simulateurs sont cruciaux et il est également important que les routes virtuelles ressemblent aux routes réelles. Ils décrivent un nouveau flux de contenu amélioré qui accélère l’apport de données collectées par des caméras et des capteurs sur de vraies voitures dans le domaine numérique.

Un environnement de simulation basé sur des données du monde réel.

Des éléments tels que les véhicules du monde réel et les irrégularités de la route ou du couvert forestier peuvent être reproduits avec précision, de sorte que l’IA autonome n’apprend pas dans une version aseptisée de la rue. Et cela permet de créer des paramètres de simulation plus grands et plus variables en général, ce qui contribue à la robustesse. (Une autre image de celui-ci est en haut.)

Nvidia a également présenté son système IGX pour les plates-formes autonomes dans des situations industrielles – une collaboration homme-machine comme vous pourriez en trouver dans une usine. Bien sûr, ils ne manquent pas, mais à mesure que la complexité des tâches et des environnements d’exploitation augmente, les anciennes méthodes ne suffisent plus et les entreprises qui cherchent à améliorer leur automatisation se tournent vers l’avenir.

Exemple de vision par ordinateur classant des objets et des personnes dans une usine.

La sécurité « proactive » et « prédictive » est ce à quoi IGX est censé aider, c’est-à-dire détecter les problèmes de sécurité avant qu’ils ne provoquent des pannes ou des blessures. Un bot peut avoir son propre mécanisme d’arrêt d’urgence, mais si une caméra surveillant la zone pouvait lui dire de se détourner avant qu’un chariot élévateur ne se mette en travers de son chemin, tout se passe un peu plus facilement. Exactement quelle entreprise ou quel logiciel accomplit cela (et sur quel matériel, et comment tout est payé) est toujours un travail en cours, avec des entreprises comme Nvidia et des startups comme Veo Robotics qui se frayent un chemin.

Un autre pas en avant intéressant a été franchi dans le domaine du jeu de Nvidia. Les derniers et meilleurs GPU de la société sont conçus non seulement pour pousser les triangles et les shaders, mais pour accomplir rapidement des tâches alimentées par l’IA, comme sa propre technologie DLSS pour augmenter et ajouter des images.

Le problème qu’ils essaient de résoudre est que les moteurs de jeu sont si exigeants que générer plus de 120 images par seconde (pour suivre les derniers moniteurs) tout en maintenant la fidélité visuelle est une tâche herculéenne que même les GPU puissants peuvent à peine faire. Mais DLSS est un peu comme un mélangeur d’images intelligent qui peut augmenter la résolution de l’image source sans alias ni artefacts, de sorte que le jeu n’a pas à pousser autant de pixels.

Dans DLSS 3, Nvidia prétend qu’il peut générer des images supplémentaires entières à un rapport de 1: 1, de sorte que vous pourriez rendre 60 images naturellement et les 60 autres via l’IA. Je peux penser à plusieurs raisons qui pourraient rendre les choses bizarres dans un environnement de jeu haute performance, mais Nvidia en est probablement bien conscient. Dans tous les cas, vous devrez payer environ un grand pour le privilège d’utiliser le nouveau système, car il ne fonctionnera que sur les cartes de la série RTX 40. Mais si la fidélité graphique est votre priorité absolue, faites-le.

Illustration de drones construits dans une région éloignée.

La dernière chose aujourd’hui est une technique d’impression 3D basée sur un drone de l’Imperial College de Londres qui pourrait être utilisée pour des processus de construction autonomes dans un avenir lointain. Pour l’instant, ce n’est certainement pas pratique pour créer quelque chose de plus gros qu’une poubelle, mais c’est encore tôt. Finalement, ils espèrent que cela ressemblera davantage à ce qui précède, et cela a l’air cool, mais regardez la vidéo ci-dessous pour clarifier vos attentes.

Source-146