Perceptron : une IA qui voit avec le son, apprend à marcher et prédit la physique sismique

La recherche dans le domaine de l’apprentissage automatique et de l’IA, désormais une technologie clé dans pratiquement toutes les industries et entreprises, est beaucoup trop volumineuse pour que quiconque puisse tout lire. Cette colonne, Perceptron, vise à rassembler certaines des découvertes et des articles récents les plus pertinents – en particulier, mais sans s’y limiter, l’intelligence artificielle – et à expliquer pourquoi ils sont importants.

Ce mois-ci, les ingénieurs de Meta ont détaillé deux innovations récentes issues des profondeurs des laboratoires de recherche de l’entreprise : un système d’IA qui compresse les fichiers audio et un algorithme qui peut accélérer les performances de l’IA de repliement des protéines de 60 x. Ailleurs, des scientifiques du MIT ont révélé qu’ils utilisaient des informations acoustiques spatiales pour aider les machines à mieux imaginer leur environnement, en simulant comment un auditeur entendrait un son de n’importe quel point d’une pièce.

Le travail de compression de Meta n’atteint pas exactement un territoire inexploré. L’année dernière, Google a annoncé Lyra, un codec audio neuronal formé pour compresser la parole à faible débit. Mais Meta affirme que son système est le premier à fonctionner pour un son stéréo de qualité CD, ce qui le rend utile pour les applications commerciales telles que les appels vocaux.

Un dessin architectural du modèle de compression audio AI de Meta. Crédits image : Méta

En utilisant l’IA, le système de compression de Meta, appelé Encodec, peut compresser et décompresser l’audio en temps réel sur un seul cœur de processeur à des taux d’environ 1,5 kbps à 12 kbps. Comparé au MP3, Encodec peut atteindre un taux de compression d’environ 10x à 64 kbps sans perte perceptible de qualité.

Les chercheurs derrière Encodec disent que les évaluateurs humains ont préféré la qualité de l’audio traité par Encodec par rapport à l’audio traité par Lyra, suggérant qu’Encodec pourrait éventuellement être utilisé pour fournir un son de meilleure qualité dans des situations où la bande passante est limitée ou à une prime.

Quant au travail de repliement des protéines de Meta, il a moins de potentiel commercial immédiat. Mais cela pourrait jeter les bases d’importantes recherches scientifiques dans le domaine de la biologie.

Repliement des méta-protéines

Structures protéiques prédites par le système de Meta. Crédits image : Méta

Meta dit que son système d’IA, ESMFold, a prédit les structures d’environ 600 millions de protéines de bactéries, virus et autres microbes qui n’ont pas encore été caractérisés. C’est plus du triple des 220 millions de structures que DeepMind, soutenu par Alphabet, a réussi à prédire plus tôt cette année, ce qui couvrait presque toutes les protéines d’organismes connus dans les bases de données ADN.

Le système de Meta n’est pas aussi précis que celui de DeepMind. Sur les ~ 600 millions de protéines qu’il a générées, seulement un tiers étaient de «haute qualité». Mais il est 60 fois plus rapide pour prédire les structures, ce qui lui permet d’adapter la prédiction de structure à des bases de données de protéines beaucoup plus importantes.

Pour ne pas accorder une attention démesurée à Meta, la division IA de la société a également détaillé ce mois-ci un système conçu pour raisonner mathématiquement. Les chercheurs de l’entreprise affirment que leur « résolveur de problèmes neuronaux » a appris à partir d’un ensemble de données de preuves mathématiques réussies pour généraliser à de nouveaux types de problèmes différents.

Meta n’est pas le premier à construire un tel système. OpenAI a développé le sien, appelé Lean, qu’il a annoncé en février. Par ailleurs, DeepMind a expérimenté des systèmes capables de résoudre des problèmes mathématiques complexes dans l’étude des symétries et des nœuds. Mais Meta affirme que son solutionneur de problèmes neuronaux a été capable de résoudre cinq fois plus d’Olympiades mathématiques internationales que n’importe quel système d’IA précédent et a battu d’autres systèmes sur des références mathématiques largement utilisées.

Meta note que l’IA de résolution mathématique pourrait bénéficier aux domaines de la vérification logicielle, de la cryptographie et même de l’aérospatiale.

Portant notre attention sur les travaux du MIT, des chercheurs ont développé un modèle d’apprentissage automatique capable de capturer la façon dont les sons dans une pièce se propagent dans l’espace. En modélisant l’acoustique, le système peut apprendre la géométrie d’une pièce à partir d’enregistrements sonores, qui peuvent ensuite être utilisés pour créer des rendus visuels d’une pièce.

Les chercheurs affirment que la technologie pourrait être appliquée à des logiciels de réalité virtuelle et augmentée ou à des robots qui doivent naviguer dans des environnements complexes. À l’avenir, ils prévoient d’améliorer le système afin qu’il puisse se généraliser à de nouvelles scènes plus vastes, telles que des bâtiments entiers ou même des villes entières.

Au département de robotique de Berkeley, deux équipes distinctes accélèrent la vitesse à laquelle un robot quadrupède peut apprendre à marcher et à faire d’autres tours. Une équipe a cherché à combiner les meilleurs travaux de nombreuses autres avancées en matière d’apprentissage par renforcement pour permettre à un robot de passer de l’ardoise vierge à la marche robuste sur un terrain incertain en seulement 20 minutes en temps réel.

« Peut-être de manière surprenante, nous constatons qu’avec plusieurs décisions de conception minutieuses en termes de configuration des tâches et de mise en œuvre de l’algorithme, il est possible pour un robot quadrupède d’apprendre à marcher à partir de zéro avec une RL profonde en moins de 20 minutes, dans une gamme d’environnements différents et types de surfaces. Surtout, cela ne nécessite pas de nouveaux composants algorithmiques ou toute autre innovation inattendue », écrivent les chercheurs.

Au lieu de cela, ils sélectionnent et combinent des approches de pointe et obtiennent des résultats étonnants. Vous pouvez lire le papier ici.

Démonstration de chien robot du laboratoire du professeur EECS Pieter Abbeel à Berkeley, Californie en 2022. (Photo avec l’aimable autorisation de Philipp Wu/Berkeley Engineering)

Un autre projet d’apprentissage de la locomotion, du laboratoire de (l’ami de TechCrunch) Pieter Abbeel, a été décrit comme «formant une imagination». Ils ont configuré le robot avec la capacité de tenter de prédire comment ses actions se dérouleront, et bien qu’il commence assez impuissant, il acquiert rapidement plus de connaissances sur le monde et son fonctionnement. Cela conduit à un meilleur processus de prédiction, qui conduit à une meilleure connaissance, et ainsi de suite en retour jusqu’à ce qu’il marche en moins d’une heure. Il apprend tout aussi rapidement à se remettre d’avoir été poussé ou autrement «purgé», comme le dit le jargon. Leur travail est documenté ici.

Des travaux avec une application potentiellement plus immédiate sont sortis plus tôt ce mois-ci du Laboratoire national de Los Alamos, où les chercheurs ont développé une technique d’apprentissage automatique pour prédire la friction qui se produit lors des tremblements de terre – fournissant un moyen de prévoir les tremblements de terre. À l’aide d’un modèle de langage, l’équipe affirme avoir été en mesure d’analyser les caractéristiques statistiques des signaux sismiques émis par une faille dans une machine sismique de laboratoire pour projeter le moment d’un prochain tremblement de terre.

« Le modèle n’est pas contraint par la physique, mais il prédit la physique, le comportement réel du système », a déclaré Chris Johnson, l’un des responsables de la recherche sur le projet. « Maintenant, nous faisons une prédiction future à partir de données passées, ce qui va au-delà de la description de l’état instantané du système. »

Le temps des rêves

Crédits image : Le temps des rêves

Il est difficile d’appliquer la technique dans le monde réel, disent les chercheurs, car il n’est pas clair s’il existe suffisamment de données pour former le système de prévision. Mais tout de même, ils sont optimistes quant aux applications, qui pourraient inclure l’anticipation des dommages aux ponts et autres structures.

Cette semaine dernière, les chercheurs du MIT ont mis en garde les chercheurs du MIT, qui avertissent que les réseaux de neurones utilisés pour simuler des réseaux de neurones réels doivent être soigneusement examinés pour détecter tout biais de formation.

Les réseaux de neurones sont bien sûr basés sur la façon dont notre propre cerveau traite et signale les informations, renforçant certaines connexions et combinaisons de nœuds. Mais cela ne signifie pas que les synthétiques et les vrais fonctionnent de la même manière. En fait, l’équipe du MIT a découvert que les simulations basées sur des réseaux neuronaux de cellules de grille (partie du système nerveux) ne produisaient une activité similaire que lorsqu’elles étaient soigneusement contraintes de le faire par leurs créateurs. Si elles étaient autorisées à se gouverner, comme le font les cellules réelles, elles ne produisaient pas le comportement souhaité.

Cela ne signifie pas que les modèles d’apprentissage en profondeur sont inutiles dans ce domaine – loin de là, ils sont très précieux. Mais, comme l’a dit le professeur Ila Fiete dans le post de l’école : « ils peuvent être un outil puissant, mais il faut être très prudent dans leur interprétation et pour déterminer s’ils font vraiment des prédictions de novo, ou même font la lumière sur ce qu’il c’est que le cerveau optimise.

Source-146