Stability AI, la start-up soutenue par une entreprise à l’origine du système d’IA texte-image Stable Diffusion, finance un effort de grande envergure pour appliquer l’IA aux frontières de la biotechnologie. Appelés OpenBioML, les premiers projets de l’entreprise se concentreront sur des approches basées sur l’apprentissage automatique pour le séquençage de l’ADN, le repliement des protéines et la biochimie computationnelle.
Les fondateurs de la société décrivent OpenBioML comme un « laboratoire de recherche ouvert » – et visent à explorer l’intersection de l’IA et de la biologie dans un cadre où les étudiants, les professionnels et les chercheurs peuvent participer et collaborer, selon Emad Mostaque, PDG de Stability AI.
« OpenBioML est l’une des communautés de recherche indépendantes soutenues par Stability », a déclaré Mostaque à TechCrunch dans une interview par e-mail. « Stability cherche à développer et à démocratiser l’IA, et grâce à OpenBioML, nous voyons une opportunité de faire progresser l’état de l’art dans les sciences, la santé et la médecine.
Compte tenu de la controverse entourant Stable Diffusion – le système d’IA de Stability AI qui génère de l’art à partir de descriptions textuelles, similaire au DALL-E 2 d’OpenAI – on pourrait naturellement se méfier de la première incursion de Stability AI dans les soins de santé. La startup a adopté une approche de laissez-faire en matière de gouvernance, permettant aux développeurs d’utiliser le système comme ils le souhaitent, y compris pour les deepfakes de célébrités et la pornographie.
Mis à part les décisions éthiquement discutables de Stability AI à ce jour, l’apprentissage automatique en médecine est un champ de mines. Bien que la technologie ait été appliquée avec succès pour diagnostiquer des affections telles que les maladies de la peau et des yeux, entre autres, la recherche a montré que les algorithmes peuvent développer des biais conduisant à de moins bons soins pour certains patients. Une étude d’avril 2021, par exemple, a révélé que les modèles statistiques utilisés pour prédire le risque de suicide chez les patients en santé mentale fonctionnaient bien pour les patients blancs et asiatiques, mais mal pour les patients noirs.
OpenBioML commence avec un territoire plus sûr, à bon escient. Ses premiers projets sont :
- BioLMqui cherche à appliquer les techniques de traitement du langage naturel (TAL) aux domaines de la biologie et de la chimie computationnelles
- Diffusion d’ADNqui vise à développer une IA capable de générer des séquences d’ADN à partir d’invites textuelles
- LibreFoldqui cherche à accroître l’accès aux systèmes de prédiction de la structure des protéines IA similaires à AlphaFold 2 de DeepMind
Chaque projet est dirigé par des chercheurs indépendants, mais Stability AI fournit un soutien sous la forme d’un accès à son cluster hébergé par AWS de plus de 5 000 GPU Nvidia A100 pour former les systèmes d’IA. Selon Niccolò Zanichelli, étudiant de premier cycle en informatique à l’Université de Parme et l’un des principaux chercheurs de OpenBioML, ce sera suffisamment de puissance de traitement et de stockage pour éventuellement former jusqu’à 10 systèmes différents de type AlphaFold 2 en parallèle.
« De nombreuses recherches en biologie computationnelle conduisent déjà à des versions open source. Cependant, une grande partie se produit au niveau d’un seul laboratoire et est donc généralement limitée par des ressources de calcul insuffisantes », a déclaré Zanichelli à TechCrunch par e-mail. « Nous voulons changer cela en encourageant les collaborations à grande échelle et, grâce au soutien de Stability AI, soutenir ces collaborations avec des ressources auxquelles seuls les plus grands laboratoires industriels ont accès. »
Génération de séquences d’ADN
De les projets en cours d’OpenBioML, DNA-Diffusion – dirigé par le laboratoire du professeur de pathologie Luca Pinello au Massachusetts General Hospital & Harvard Medical School – est peut-être le plus ambitieux. L’objectif est d’utiliser des systèmes d’IA générative pour apprendre et appliquer les règles des séquences « régulatrices » d’ADN, ou segments de molécules d’acide nucléique qui influencent l’expression de gènes spécifiques au sein d’un organisme. De nombreuses maladies et troubles sont le résultat de gènes mal régulés, mais la science n’a pas encore découvert de processus fiable pour identifier – et encore moins modifier – ces séquences régulatrices.
DNA-Diffusion propose d’utiliser un type de système d’IA connu sous le nom de modèle de diffusion pour générer des séquences d’ADN régulatrices spécifiques à un type de cellule. Les modèles de diffusion – qui sous-tendent les générateurs d’images comme Stable Diffusion et DALL-E 2 d’OpenAI – créent de nouvelles données (par exemple des séquences d’ADN) en apprenant à détruire et à récupérer de nombreux échantillons de données existants. Au fur et à mesure qu’ils sont alimentés en échantillons, les modèles s’améliorent pour récupérer toutes les données qu’ils avaient précédemment détruites pour générer de nouvelles œuvres.
« La diffusion a connu un succès généralisé dans les modèles génératifs multimodaux, et elle commence maintenant à être appliquée à la biologie computationnelle, par exemple pour la génération de nouvelles structures protéiques », a déclaré Zanichelli. « Avec DNA-Diffusion, nous explorons maintenant son application aux séquences génomiques. »
Si tout se passe comme prévu, le projet ADN-Diffusion produira un modèle de diffusion capable de générer des séquences d’ADN régulatrices à partir d’instructions textuelles telles que « Une séquence qui activera un gène à son niveau d’expression maximal dans le type de cellule X » et « Une séquence qui active un gène dans le foie et le cœur, mais pas dans le cerveau. Un tel modèle pourrait également aider à interpréter les composants des séquences régulatrices, dit Zanichelli, améliorant ainsi la compréhension de la communauté scientifique du rôle des séquences régulatrices dans différentes maladies.
Il convient de noter que cela est en grande partie théorique. Bien que la recherche préliminaire sur l’application de la diffusion au repliement des protéines semble prometteuse, elle n’en est qu’à ses débuts, admet Zanichelli – d’où la volonté d’impliquer la communauté de l’IA au sens large.
Prédire les structures des protéines
LibreFold d’OpenBioML, bien que de portée plus petite, est plus susceptible de porter des fruits immédiats. Le projet vise à mieux comprendre les systèmes d’apprentissage automatique qui prédisent les structures des protéines, ainsi que les moyens de les améliorer.
Comme mon collègue Devin Coldewey l’a expliqué dans son article sur le travail de DeepMind sur AlphaFold 2, les systèmes d’IA qui prédisent avec précision la forme des protéines sont relativement nouveaux sur la scène mais transformateurs en termes de potentiel. Les protéines comprennent des séquences d’acides aminés qui se replient en formes pour accomplir différentes tâches au sein d’organismes vivants. Le processus de détermination de la forme que créera une séquence d’acides était autrefois une entreprise ardue et sujette aux erreurs. Les systèmes d’IA comme AlphaFold 2 ont changé cela ; grâce à eux, plus de 98% des structures protéiques du corps humain sont connues de la science aujourd’hui, ainsi que des centaines de milliers d’autres structures dans des organismes comme E. coli et la levure.
Cependant, peu de groupes disposent de l’expertise en ingénierie et des ressources nécessaires pour développer ce type d’IA. DeepMind a passé des jours à former AlphaFold 2 sur des unités de traitement de tenseur (TPU), le coûteux matériel d’accélération de l’IA de Google. Et les ensembles de données de formation sur la séquence acide sont souvent propriétaires ou publiés sous des licences non commerciales.
« C’est dommage, car si vous regardez ce que la communauté a pu construire au-dessus du point de contrôle AlphaFold 2 publié par DeepMind, c’est tout simplement incroyable », a déclaré Zanichelli, faisant référence au modèle AlphaFold 2 formé que DeepMind a publié l’année dernière. . « Par exemple, quelques jours seulement après la publication, Minkyung Baek, professeur à l’Université nationale de Séoul, a signalé une astuce sur Twitter qui permettait au modèle de prédire les structures quaternaires – ce dont peu, voire personne, s’attendaient à ce que le modèle soit capable. Il existe de nombreux autres exemples de ce type, alors qui sait ce que la communauté scientifique au sens large pourrait construire si elle avait la capacité de former de toutes nouvelles méthodes de prédiction de la structure des protéines de type AlphaFold ? »
S’appuyant sur le travail de RoseTTAFold et OpenFold, deux efforts communautaires en cours pour répliquer AlphaFold 2, LibreFold facilitera les expériences « à grande échelle » avec divers systèmes de prédiction du repliement des protéines. Dirigé par des chercheurs de l’University College London, Harvard et Stockholm, l’objectif de LibreFold sera de mieux comprendre ce que les systèmes peuvent accomplir et pourquoi, selon Zanichelli.
« LibreFold est en son cœur un projet pour la communauté, par la communauté. Il en va de même pour la publication des points de contrôle du modèle et des ensembles de données, car cela pourrait ne prendre qu’un ou deux mois pour commencer à publier les premiers livrables ou cela pourrait prendre beaucoup plus de temps », a-t-il déclaré. « Cela dit, mon intuition est que le premier est plus probable. »
Application de la PNL à la biochimie
A plus long terme est OpenBioML Projet BioLM, qui a pour mission plus vague « d’appliquer des techniques de modélisation du langage dérivées de la PNL à des séquences biochimiques ». En collaboration avec EleutherAI, un groupe de recherche qui a publié plusieurs modèles de génération de texte open source, BioLM espère former et publier de nouveaux « modèles de langage biochimique » pour une gamme de tâches, y compris la génération de séquences de protéines.
Zanichelli cite ProGen de Salesforce comme un exemple des types de travail que BioLM pourrait entreprendre. ProGen traite les séquences d’acides aminés comme des mots dans une phrase. Formé sur un ensemble de données de plus de 280 millions de séquences de protéines et de métadonnées associées, le modèle prédit le prochain ensemble d’acides aminés parmi les précédents, comme un modèle de langage prédisant la fin d’une phrase depuis son début.
Nvidia a publié plus tôt cette année un modèle de langage, MegaMolBART, qui a été formé sur un ensemble de données de millions de molécules pour rechercher des cibles médicamenteuses potentielles et prévoir des réactions chimiques. Meta a également récemment formé un NLP appelé ESM-2 sur des séquences de protéines, une approche qui, selon la société, lui a permis de prédire des séquences pour plus de 600 millions de protéines en seulement deux semaines.
Regarder vers l’avant
Alors que les intérêts d’OpenBioML sont vastes (et en pleine expansion), Mostaque dit qu’ils sont unis par le désir de « maximiser le potentiel positif de l’apprentissage automatique et de l’IA en biologie », dans la tradition de la recherche ouverte en science et en médecine.
« Nous cherchons à permettre aux chercheurs de mieux contrôler leur pipeline expérimental à des fins d’apprentissage actif ou de validation de modèles », a poursuivi Mostaque. « Nous cherchons également à pousser l’état de l’art avec des modèles biotechnologiques de plus en plus généraux, contrairement aux architectures spécialisées et aux objectifs d’apprentissage qui caractérisent actuellement la majeure partie de la biologie computationnelle. »
Mais – comme on pouvait s’y attendre d’une startup soutenue par VC qui a récemment levé plus de 100 millions de dollars – Stability AI ne considère pas OpenBioML comme un effort purement philanthropique. Mostaque dit que la société est ouverte à l’exploration de la commercialisation de la technologie d’OpenBioML « lorsqu’elle sera suffisamment avancée et suffisamment sûre et que le moment sera venu ».