Les programmeurs de protéines reçoivent un coup de main de l’IA générative de Cradle

Les protéines sont les molécules qui font le travail dans la nature, et toute une industrie émerge autour de leur modification et de leur fabrication réussies pour diverses utilisations. Mais cela prend du temps et est aléatoire ; Cradle vise à changer cela avec un outil alimenté par l’IA qui indique aux scientifiques quelles nouvelles structures et séquences permettront à une protéine de faire ce qu’elle veut. La société a émergé de la furtivité aujourd’hui avec un tour de table substantiel.

L’IA et les protéines ont fait les manchettes ces derniers temps, mais en grande partie grâce aux efforts d’équipes de recherche comme DeepMind et Baker Lab. Leurs modèles d’apprentissage automatique prennent en compte des données de séquence d’ARN facilement collectées et prédisent la structure que prendra une protéine – une étape qui prenait auparavant des semaines et un équipement spécial coûteux.

Mais aussi incroyable que soit cette capacité dans certains domaines, ce n’est qu’un point de départ pour d’autres. Modifier une protéine pour la rendre plus stable ou se lier à une certaine autre molécule implique bien plus que la simple compréhension de sa forme et de sa taille générales.

« Si vous êtes un ingénieur en protéines et que vous souhaitez concevoir une certaine propriété ou fonction dans une protéine, le simple fait de savoir à quoi elle ressemble ne vous aide pas. C’est comme si vous aviez une photo d’un pont, cela ne vous dit pas s’il va s’effondrer ou non », a expliqué Stef van Grieken, PDG et cofondateur de Cradle.

« Alphafold prend une séquence et prédit à quoi ressemblera la protéine », a-t-il poursuivi. « Nous sommes le frère génératif de cela : vous choisissez les propriétés que vous souhaitez concevoir, et le modèle générera des séquences que vous pourrez tester dans votre laboratoire. »

Prédire ce que les protéines – en particulier celles qui sont nouvelles pour la science – feront sur place est une tâche difficile pour de nombreuses raisons, mais dans le contexte de l’apprentissage automatique, le plus gros problème est qu’il n’y a pas suffisamment de données disponibles. Cradle a donc créé une grande partie de son propre ensemble de données dans un laboratoire humide, testant protéine après protéine et voyant quels changements dans leurs séquences semblaient entraîner quels effets.

Fait intéressant, le modèle lui-même n’est pas exactement spécifique à la biotechnologie, mais un dérivé des mêmes « grands modèles de langage » qui ont produit des moteurs de production de texte comme GPT-3. Van Grieken a noté que ces modèles ne se limitent pas strictement au langage dans la façon dont ils comprennent et prédisent les données, une caractéristique de « généralisation » intéressante que les chercheurs explorent encore.

Exemples de l’interface utilisateur Cradle en action. Crédits image : Berceau

Les séquences de protéines que Cradle ingère et prédit ne sont dans aucune langue que nous connaissons, bien sûr, mais ce sont des séquences de texte linéaires relativement simples qui ont des significations associées. « C’est comme un langage de programmation extraterrestre », a déclaré van Grieken.

Les ingénieurs en protéines ne sont pas impuissants, bien sûr, mais leur travail implique nécessairement beaucoup de devinettes. On peut être à peu près certain que parmi les 100 séquences qu’ils modifient se trouve la combinaison qui produira l’effet recherché, mais au-delà cela revient à des tests exhaustifs. Un petit indice ici pourrait considérablement accélérer les choses et éviter une énorme quantité de travail infructueux.

Le modèle fonctionne en trois couches de base, a-t-il expliqué. Tout d’abord, il évalue si une séquence donnée est « naturelle », c’est-à-dire. qu’il s’agisse d’une séquence significative d’acides aminés ou simplement d’acides aminés aléatoires. Cela s’apparente à un modèle linguistique capable de dire avec 99% de confiance qu’une phrase est en anglais (ou en suédois, dans l’exemple de van Grieken), et que les mots sont dans le bon ordre. Il le sait en « lisant » des millions de ces séquences déterminées par des analyses en laboratoire.

Ensuite, il examine la signification réelle ou potentielle dans le langage extraterrestre de la protéine. « Imaginez que nous vous donnions une séquence, et c’est la température à laquelle cette séquence s’effondrera », a-t-il déclaré. « Si vous faites cela pour de nombreuses séquences, vous pouvez dire non seulement » cela semble naturel « , mais » cela ressemble à 26 degrés Celsius « . cela aide le modèle à déterminer sur quelles régions de la protéine se concentrer.

Le modèle peut alors suggérer des séquences à intégrer – des suppositions éclairées, essentiellement, mais un point de départ plus solide que zéro. L’ingénieur ou le laboratoire peut ensuite les essayer et ramener ces données sur la plate-forme Cradle, où elles peuvent être réingérées et utilisées pour affiner le modèle en fonction de la situation.

L’équipe Cradle par une belle journée à leur QG (van Grieken est au centre). Crédits image : Berceau

La modification des protéines à diverses fins est utile dans la biotechnologie, de la conception de médicaments à la biofabrication, et le chemin de la molécule de vanille à la molécule personnalisée, efficace et efficiente peut être long et coûteux. Toute façon de le raccourcir sera probablement bien accueillie, à tout le moins, par les techniciens de laboratoire qui doivent effectuer des centaines d’expériences juste pour obtenir un bon résultat.

Cradle a opéré en toute discrétion et émerge maintenant après avoir levé 5,5 millions de dollars lors d’un tour de table co-dirigé par Index Ventures et Kindred Capital, avec la participation des anges John Zimmer, Feike Sijbesma et Emily Leproust.

Van Grieken a déclaré que le financement permettrait à l’équipe d’intensifier la collecte de données – plus il y en a, mieux c’est en matière d’apprentissage automatique – et de travailler sur le produit pour le rendre « plus libre-service ».

« Notre objectif est de réduire d’un ordre de grandeur le coût et le temps de mise sur le marché d’un produit biosourcé », a déclaré van Grieken dans le communiqué de presse, « afin que n’importe qui – même » deux enfants dans leur garage « – puisse apporter commercialiser un produit biosourcé.

Source-146