Perceptron : une IA qui résout des problèmes mathématiques, traduit 200 langues et dessine des kangourous

La recherche dans le domaine de l’apprentissage automatique et de l’IA, désormais une technologie clé dans pratiquement toutes les industries et entreprises, est beaucoup trop volumineuse pour que quiconque puisse tout lire. Cette colonne, Perceptron, vise à rassembler certaines des découvertes et des articles récents les plus pertinents – en particulier, mais sans s’y limiter, l’intelligence artificielle – et à expliquer pourquoi ils sont importants.

Dans ce lot de recherches récentes, Meta a ouvert un système de langage qui, selon lui, est le premier capable de traduire 200 langues différentes avec des résultats « à la pointe de la technologie ». Pour ne pas être en reste, Google a détaillé un modèle d’apprentissage automatique, Minerva, qui peut résoudre des problèmes de raisonnement quantitatif, y compris des questions mathématiques et scientifiques. Et Microsoft a publié un modèle de langage, Godel, pour générer des conversations «réalistes» qui s’inspirent du Lamda largement diffusé de Google. Et puis nous avons de nouveaux générateurs de texte en image avec une touche.

Le nouveau modèle de Meta, NLLB-200, fait partie de l’initiative No Language Left Behind de la société visant à développer des capacités de traduction automatique pour la plupart des langues du monde. Formé à comprendre des langues telles que le kamba (parlé par l’ethnie bantoue) et le lao (la langue officielle du Laos), ainsi que plus de 540 langues africaines mal ou pas du tout prises en charge par les systèmes de traduction précédents, NLLB-200 sera utilisé pour traduire des langues sur le fil d’actualités Facebook et Instagram en plus de l’outil de traduction de contenu de la Wikimedia Foundation, a récemment annoncé Meta.

La traduction par IA a le potentiel d’évoluer considérablement – et déjà a à l’échelle – le nombre de langues qui peuvent être traduites sans expertise humaine. Mais comme certains chercheurs l’ont noté, des erreurs couvrant une terminologie incorrecte, des omissions et des erreurs de traduction peuvent survenir dans les traductions générées par l’IA, car les systèmes sont formés en grande partie sur des données provenant d’Internet, qui ne sont pas toutes de haute qualité. Par exemple, Google Translate supposait autrefois que les médecins étaient des hommes tandis que les infirmières étaient des femmes, tandis que le traducteur de Bing traduisait des phrases comme « la table est douce » par le féminin « die Tabelle » en allemand (qui fait référence à un tableau de chiffres).

Pour NLLB-200, Meta a déclaré avoir « complètement révisé » son pipeline de nettoyage des données avec des « étapes de filtrage majeures » et des listes de filtrage de toxicité pour l’ensemble complet de 200 langues. Il reste à voir dans quelle mesure cela fonctionne dans la pratique, mais – comme le reconnaissent les chercheurs de Meta derrière NLLB-200 dans un article académique décrivant leurs méthodes – aucun système n’est complètement exempt de biais.

Godel, de la même manière, est un modèle de langage formé sur une grande quantité de texte provenant du Web. Cependant, contrairement à NLLB-200, Godel a été conçu pour gérer un dialogue «ouvert» – des conversations sur une gamme de sujets différents.

Crédits image : Microsoft

Godel peut répondre à une question sur un restaurant ou avoir un dialogue sur un sujet particulier, comme l’histoire d’un quartier ou un match de sport récent. Utilement, et comme Lamda de Google, le système peut s’appuyer sur du contenu du Web qui ne faisait pas partie de l’ensemble de données de formation, y compris des critiques de restaurants, des articles de Wikipédia et d’autres contenus sur des sites Web publics.

Mais Godel rencontre les mêmes écueils que NLLB-200. Dans un article, l’équipe responsable de sa création note qu’il « peut générer des réponses néfastes » en raison des « formes de préjugés sociaux et d’autres toxicités » dans les données utilisées pour le former. Éliminer, voire atténuer, ces biais reste un défi non résolu dans le domaine de l’IA – un défi qui pourrait ne jamais être complètement résolu.

Le modèle Minerva de Google est moins potentiellement problématique. Comme l’équipe derrière le décrit dans un article de blog, le système a appris d’un ensemble de données d’articles scientifiques de 118 Go et de pages Web contenant des expressions mathématiques pour résoudre des problèmes de raisonnement quantitatif sans utiliser d’outils externes comme une calculatrice. Minerva peut générer des solutions qui incluent des calculs numériques et une « manipulation symbolique », atteignant des performances de pointe sur les références STEM populaires.

Minerva n’est pas le premier modèle développé pour résoudre ce type de problèmes. Pour n’en nommer que quelques-uns, Alphabet’s DeepMind a démontré plusieurs algorithmes qui peuvent aider les mathématiciens dans des tâches complexes et abstraites, et OpenAI a expérimenté un système formé pour résoudre des problèmes mathématiques au niveau de l’école primaire. Mais Minerva intègre des techniques récentes pour mieux résoudre les questions mathématiques, explique l’équipe, y compris une approche qui consiste à « inviter » le modèle avec plusieurs solutions étape par étape aux questions existantes avant de lui présenter une nouvelle question.

Minerve

Crédits image : Google

Minerva fait toujours sa part d’erreurs et arrive parfois à une réponse finale correcte mais avec un raisonnement erroné. Pourtant, l’équipe espère que cela servira de base à des modèles qui « aident à repousser les frontières de la science et de l’éducation ».

La question de savoir ce que les systèmes d’IA « savent » réellement est plus philosophique que technique, mais comment ils organisent ces connaissances est une question juste et pertinente. Par exemple, un système de reconnaissance d’objets peut montrer qu’il «comprend» que les chats domestiques et les tigres sont similaires à certains égards en permettant aux concepts de se chevaucher délibérément dans la façon dont il les identifie – ou peut-être qu’il ne comprend pas vraiment et les deux types de les créatures n’y sont absolument pas liées.

Des chercheurs de l’UCLA ont voulu voir si les modèles linguistiques « comprenaient » les mots dans ce sens et ont développé une méthode appelée « projection sémantique » qui suggère que oui, ils le font. Bien que vous ne puissiez pas simplement demander au modèle d’expliquer comment et pourquoi une baleine est différente d’un poisson, vous pouvez voir à quel point il associe étroitement ces mots à d’autres mots, comme mammifère, grand, Balance, etc. Si la baleine s’associe fortement aux mammifères et aux grands mais pas aux écailles, vous savez qu’elle a une bonne idée de ce dont elle parle.

Un exemple de cas où les animaux se situent sur le spectre petit à large tel que conceptualisé par le modèle.

À titre d’exemple simple, ils ont découvert que l’animal coïncidait avec les concepts de taille, de sexe, de danger et d’humidité (la sélection était un peu bizarre) tandis que les états coïncidaient avec la météo, la richesse et la partisanerie. Les animaux sont non partisans et les États sont asexués, de sorte que toutes les pistes.

Il n’y a pas de test plus sûr à l’heure actuelle pour savoir si un modèle comprend certains mots que de lui demander de les dessiner – et les modèles texte-image ne cessent de s’améliorer. Le modèle « Pathways Autoregressive Text-to-Image » ou Parti de Google semble être l’un des meilleurs à ce jour, mais il est difficile de le comparer à la concurrence (DALL-E et al.) Sans accès, ce que peu de modèles proposent . Vous pouvez lire sur l’approche du Parti ici, en tout cas.

Un aspect intéressant de la rédaction de Google montre comment le modèle fonctionne avec un nombre croissant de paramètres. Voyez comment l’image s’améliore au fur et à mesure que les chiffres augmentent :

L’invite était « Une photo de portrait d’un kangourou portant un sweat à capuche orange et des lunettes de soleil bleues debout sur l’herbe devant l’Opéra de Sydney tenant une pancarte sur la poitrine qui dit Welcome Friends! »

Cela signifie-t-il que les meilleurs modèles auront tous des dizaines de milliards de paramètres, ce qui signifie qu’ils prendront des années à s’entraîner et à fonctionner uniquement sur des superordinateurs ? Pour l’instant, bien sûr – c’est une sorte d’approche de la force brute pour améliorer les choses, mais le « tic-tac » de l’IA signifie que la prochaine étape n’est pas simplement de la rendre plus grande et meilleure, mais de la rendre plus petite et équivalente. On verra qui réussira à s’en sortir.

Pas du genre à être laissé de côté, Meta a également présenté cette semaine un modèle d’IA génératif, bien qu’il prétende donner plus d’agence aux artistes qui l’utilisent. Ayant moi-même beaucoup joué avec ces générateurs, une partie du plaisir est de voir ce qu’ils proposent, mais ils proposent souvent des mises en page absurdes ou ne « reçoivent » pas l’invite. Make-A-Scene de Meta vise à résoudre ce problème.

Animation de différentes images générées à partir du même texte et invite de croquis.

Ce n’est pas tout à fait une idée originale – vous peignez une silhouette de base de ce dont vous parlez et cela sert de base pour générer une image par-dessus. Nous avons vu quelque chose comme ça en 2020 avec le générateur de cauchemars de Google. Il s’agit d’un concept similaire mais mis à l’échelle pour lui permettre de créer des images réalistes à partir d’invites de texte en utilisant le croquis comme base mais avec beaucoup de place pour l’interprétation. Pourrait être utile pour les artistes qui ont une idée générale de ce à quoi ils pensent mais qui veulent inclure la créativité illimitée et étrange du modèle.

Comme la plupart de ces systèmes, Make-A-Scene n’est pas réellement disponible pour un usage public, car comme les autres, il est assez gourmand en termes de calcul. Ne vous inquiétez pas, nous aurons bientôt des versions décentes de ces choses à la maison.

Source-146