dimanche, janvier 19, 2025

Perceptron : l’IA mélange le béton, conçoit des molécules et pense avec des lasers spatiaux

Bienvenue à Perceptron, le tour d’horizon hebdomadaire de TechCrunch sur les nouvelles et les recherches sur l’IA du monde entier. L’apprentissage automatique est une technologie clé dans pratiquement tous les secteurs à l’heure actuelle, et il se passe beaucoup trop de choses pour que quiconque puisse tout suivre. Cette colonne vise à rassembler certaines des découvertes et des articles récents les plus intéressants dans le domaine de l’intelligence artificielle – et à expliquer pourquoi ils sont importants.

(Anciennement connu sous le nom de Deep Science ; consultez les éditions précédentes ici.)

Le tour d’horizon de cette semaine commence par une paire d’études avant-gardistes de Facebook/Meta. Le premier est une collaboration avec l’Université de l’Illinois à Urbana-Champaign qui vise à réduire la quantité d’émissions provenant de la production de béton. Le béton représente environ 8% des émissions de carbone, donc même une petite amélioration pourrait nous aider à atteindre les objectifs climatiques.

C’est ce qu’on appelle les « tests d’affaissement ».

Ce que l’équipe Meta / UIUC a fait, c’est former un modèle sur plus d’un millier de formules de béton, qui différaient dans les proportions de sable, de laitier, de verre broyé et d’autres matériaux (vous pouvez voir un échantillon de béton plus photogénique en haut). En trouvant les tendances subtiles dans cet ensemble de données, il a été en mesure de produire un certain nombre de nouvelles formules optimisant à la fois la force et les faibles émissions. La formule gagnante s’est avérée avoir 40% d’émissions en moins que la norme régionale, et a satisfait… eh bien, quelques des exigences de résistance. C’est extrêmement prometteur, et les études de suivi sur le terrain devraient à nouveau faire bouger la balle bientôt.

La deuxième étude Meta concerne la modification du fonctionnement des modèles de langage. La société souhaite travailler avec des experts en imagerie neurale et d’autres chercheurs pour comparer la façon dont les modèles de langage se comparent à l’activité cérébrale réelle lors de tâches similaires.

En particulier, ils s’intéressent à la capacité humaine d’anticiper les mots bien en avance sur l’actuel tout en parlant ou en écoutant – comme savoir qu’une phrase se terminera d’une certaine manière, ou qu’il y a un « mais » à venir. Les modèles d’IA deviennent très bons, mais ils fonctionnent toujours principalement en ajoutant des mots un par un comme des briques Lego, en regardant parfois en arrière pour voir si cela a du sens. Ils ne font que commencer, mais ils ont déjà des résultats intéressants.

De retour sur la pointe des matériaux, les chercheurs d’Oak Ridge National Lab se lancent dans le plaisir de la formulation de l’IA. À l’aide d’un ensemble de données de calculs de chimie quantique, quels qu’ils soient, l’équipe a créé un réseau de neurones capable de prédire les propriétés des matériaux, mais l’a ensuite inversé afin de pouvoir saisir les propriétés et lui faire suggérer des matériaux.

« Au lieu de prendre un matériau et de prédire ses propriétés données, nous voulions choisir les propriétés idéales pour notre objectif et travailler en arrière pour concevoir ces propriétés rapidement et efficacement avec un degré élevé de confiance. C’est ce qu’on appelle la conception inverse », a déclaré Victor Fung de l’ORNL. Cela semble avoir fonctionné – mais vous pouvez vérifier par vous-même en exécutant le code sur Github.

Vue de la moitié supérieure de l'Amérique du Sud sous forme de carte de la hauteur de la canopée.

Crédits image : EPFZ

Concerné par des prédictions physiques à une tout autre échelle, ce projet ETHZ estime les hauteurs des cimes des arbres autour du globe en utilisant les données des satellites Copernicus Sentinel-2 de l’ESA (pour l’imagerie optique) et du GEDI de la NASA (télémétrie laser orbitale). La combinaison des deux dans un réseau neuronal convolutif donne une carte globale précise des hauteurs d’arbres jusqu’à 55 mètres de haut.

Pouvoir effectuer ce type d’enquête régulière sur la biomasse à l’échelle mondiale est important pour la surveillance du climat, comme l’explique Ralph Dubayah de la NASA : « Nous ne savons tout simplement pas quelle est la hauteur des arbres à l’échelle mondiale. Nous avons besoin de bonnes cartes mondiales de l’emplacement des arbres. Parce que chaque fois que nous abattons des arbres, nous libérons du carbone dans l’atmosphère, et nous ne savons pas combien de carbone nous libérons.

Vous pouvez facilement parcourir les données sous forme de carte ici.

Ce projet DARPA concerne également les paysages et consiste à créer des environnements simulés à très grande échelle pour les véhicules autonomes virtuels à traverser. Ils ont attribué le contrat à Intel, bien qu’ils aient peut-être économisé de l’argent en contactant les créateurs du jeu Snowrunner, qui fait essentiellement ce que la DARPA veut pour 30 $.

Images d'un désert simulé et d'un vrai désert côte à côte.

Crédits image : Intel

L’objectif de RACER-Sim est de développer des AV tout-terrain qui savent déjà ce que c’est que de gronder sur un désert rocheux et d’autres terrains difficiles. Le programme de 4 ans se concentrera d’abord sur la création des environnements, la construction de modèles dans le simulateur, puis plus tard sur le transfert des compétences vers des systèmes robotiques physiques.

Dans le domaine des produits pharmaceutiques IA, qui compte actuellement environ 500 entreprises différentes, le MIT a une approche sensée dans un modèle qui ne suggère que des molécules qui peuvent réellement être fabriquées. « Les modèles suggèrent souvent de nouvelles structures moléculaires difficiles ou impossibles à produire en laboratoire. Si un chimiste ne peut pas réellement fabriquer la molécule, ses propriétés anti-maladie ne peuvent pas être testées. »

Ça a l’air cool, mais pouvez-vous le faire sans poudre de corne de licorne ?

Le modèle du MIT « garantit que les molécules sont composées de matériaux qui peuvent être achetés et que les réactions chimiques qui se produisent entre ces matériaux suivent les lois de la chimie ». Cela ressemble un peu à ce que Molecule.one fait, mais intégré dans le processus de découverte. Ce serait certainement bien de savoir que le médicament miracle que votre IA propose ne nécessite aucune poussière de fée ou autre matière exotique.

Un autre travail du MIT, de l’Université de Washington et d’autres consiste à apprendre aux robots à interagir avec des objets du quotidien – quelque chose que nous espérons tous devenir courant dans les deux prochaines décennies, car certains d’entre nous n’ont pas de lave-vaisselle. Le problème est qu’il est très difficile de dire exactement comment les gens interagissent avec les objets, car nous ne pouvons pas relayer nos données en haute fidélité pour former un modèle. Il y a donc beaucoup d’annotations de données et d’étiquetage manuel impliqués.

La nouvelle technique se concentre sur l’observation et la déduction de la géométrie 3D de très près, de sorte qu’il suffit de quelques exemples d’une personne saisissant un objet pour que le système apprenne à le faire lui-même. Normalement, cela pourrait prendre des centaines d’exemples ou des milliers de répétitions dans un simulateur, mais celui-ci n’avait besoin que de 10 démonstrations humaines par objet afin de manipuler efficacement cet objet.

Crédits image : MIT

Il a atteint un taux de réussite de 85% avec cette formation minimale, bien mieux que le modèle de base. Il est actuellement limité à une poignée de catégories, mais les chercheurs espèrent qu’il pourra être généralisé.

Cette semaine dernière, des travaux prometteurs de Deepmind sur un « modèle de langage visuel » multimodal qui combine les connaissances visuelles avec les connaissances linguistiques afin que des idées comme « trois chats assis sur une clôture » aient une sorte de représentation croisée entre la grammaire et l’imagerie. C’est ainsi que fonctionnent nos propres esprits, après tout.

Flamingo, leur nouveau modèle « à usage général », peut faire de l’identification visuelle mais aussi engager un dialogue, non pas parce qu’il s’agit de deux modèles en un, mais parce qu’il allie langage et compréhension visuelle. Comme nous l’avons vu dans d’autres organismes de recherche, ce type d’approche multimodale produit de bons résultats mais reste encore très expérimental et intense en termes de calcul.

Source-146

- Advertisement -

Latest