La toute nouvelle IA de Meta détermine les plis protéiques appropriés 60 fois plus rapidement

LLa vie sur Terre n’existerait pas telle que nous la connaissons, sans les molécules de protéines qui permettent des processus critiques allant de la photosynthèse et de la dégradation enzymatique à la vue et à notre système immunitaire. Et comme la plupart des facettes du monde naturel, l’humanité ne fait que commencer à découvrir les multitudes de types de protéines qui existent réellement. Mais plutôt parcourir les parties les plus inhospitalières de la planète à la recherche de nouveaux micro-organismes qui pourraient avoir une nouvelle saveur de molécule organique, les chercheurs de Meta ont développé une base de données métagénomique unique en son genre, l’ESM Metagenomic Atlas, qui pourrait accélérer les protéines existantes -pliant les performances de l’IA par 60x.

La métagénomique est nommée par coïncidence. Il s’agit d’une discipline scientifique relativement nouvelle, mais très réelle, qui étudie « la structure et la fonction de séquences nucléotidiques entières isolées et analysées à partir de tous les organismes (généralement des microbes) dans un échantillon en vrac ». Souvent utilisées pour identifier les communautés bactériennes vivant sur notre peau ou dans le sol, ces techniques ont une fonction similaire à la chromatographie en phase gazeuse, dans laquelle vous essayez d’identifier ce qui est présent dans un système d’échantillon donné.

Des bases de données similaires ont été lancées par le NCBI, l’Institut européen de bioinformatique et le Joint Genome Institute, et ont déjà répertorié des milliards de formes de protéines nouvellement découvertes. Ce que Meta apporte à la table est « une nouvelle approche de repliement des protéines qui exploite de grands modèles de langage pour créer la première vue complète des structures des protéines dans une base de données métagénomique à l’échelle de centaines de millions de protéines », selon un savoirs traditionnels sortie de l’entreprise. Le problème est que, alors que les progrès de la génomique ont révélé les séquences de nombreuses nouvelles protéines, le simple fait de savoir ce que sont ces séquences ne nous dit pas réellement comment elles s’intègrent dans une molécule fonctionnelle et le découvrir expérimentalement prend n’importe où de quelques mois à quelques années. Par molécule. Personne n’a le temps pour ça.

« L’Atlas métagénomique ESM permettra aux scientifiques de rechercher et d’analyser les structures des protéines métagénomiques à l’échelle de centaines de millions de protéines », a écrit l’équipe de recherche Meta sur savoirs traditionnels. « Cela peut aider les chercheurs à identifier des structures qui n’ont pas été caractérisées auparavant, à rechercher des relations évolutives distantes et à découvrir de nouvelles protéines qui peuvent être utiles en médecine et dans d’autres applications. »

Comme les langages, les protéines sont constituées de leurs atomes constitutifs (pensée, mots) qui peuvent tous être écrasés ensemble comme vous le souhaitez mais ne formeront une molécule fonctionnelle (c’est-à-dire une pensée cohérente) que s’ils sont assemblés dans un ordre spécifique (une phrase moléculaire). Le système de Meta accélère considérablement nos capacités à découvrir la syntaxe et la grammaire de la chimie organique, mais l’analogie n’est pas parfaite. « Une séquence protéique décrit la structure chimique d’une molécule, qui se replie en une forme tridimensionnelle complexe selon les lois de la physique », a expliqué l’équipe. « Les séquences protéiques contiennent des modèles statistiques qui transmettent des informations sur la structure repliée de la protéine. »

Plus précisément, l’IA de modélisation à l’échelle évolutive de Meta traite les séquences de gènes comme un Mad Libs pour O-Chem en utilisant un apprentissage auto-supervisé appelé modélisation du langage masqué. « Nous avons formé un modèle de langage sur les séquences de millions de protéines naturelles », a écrit l’équipe de recherche. « Avec cette approche, le modèle doit remplir correctement les blancs dans un passage de texte, comme ‘Pour __ ou pas pour __, c’est le ________.’ Nous avons formé un modèle de langage pour remplir les blancs dans une séquence de protéines, comme « GL_KKE_AHY_G » à travers des millions de protéines diverses. »

Le « modèle de langage protéique » qui en résulte est nommé ESM-2 et fonctionne sur 15 milliards de paramètres, ce qui en fait le plus grand modèle de ce type à ce jour. La « nouvelle capacité de prédiction de structure nous a permis de prédire les séquences de plus de 600 millions de protéines métagénomiques de l’atlas en seulement deux semaines sur un cluster d’environ 2 000 GPU ». Tant pis pour des mois et des années.

Tous les produits recommandés par Engadget sont sélectionnés par notre équipe éditoriale, indépendante de notre maison mère. Certaines de nos histoires incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, nous pouvons gagner une commission d’affiliation. Tous les prix sont corrects au moment de la publication.

Source-145