Pourquoi les entreprises de disques durs investissent-elles dans le stockage de données ADN ?

La communauté des chercheurs est enthousiasmée par le potentiel de l’ADN à fonctionner comme stockage d’archives à long terme. C’est en grande partie parce qu’il est extrêmement dense, chimiquement stable pendant des dizaines de milliers d’années et se présente sous un format que nous n’oublierons probablement pas de lire. Bien qu’il y ait eu des progrès intéressants, les efforts sont principalement restés dans la communauté de la recherche en raison des coûts élevés et des vitesses de lecture et d’écriture extrêmement lentes. Ce sont des problèmes qui doivent être résolus avant que le stockage basé sur l’ADN puisse être pratique.

Nous avons donc été surpris d’apprendre que le géant du stockage Seagate avait conclu une collaboration avec une société de stockage basée sur l’ADN appelée Catalog. Pour savoir à quel point la technologie de l’entreprise est proche de l’utilité, nous avons parlé au PDG de Catalog, Hyunjun Park. Park a indiqué que l’approche de Catalog est contre-intuitive à deux niveaux : elle ne stocke pas les données comme on s’y attendrait et ne se concentre pas du tout sur le stockage d’archives.

Un stockage différent

L’ADN est une molécule qui peut être considérée comme un réseau linéaire de bases, chaque base étant l’un des quatre produits chimiques distincts : A, T, C ou G. En règle générale, chaque base de la molécule d’ADN est utilisée pour contenir deux morceaux de informations, avec les valeurs de bit véhiculées par la base spécifique présente. Ainsi A peut coder 00, T peut coder 01, C peut coder 10 et G peut coder 11 ; avec cet encodage, la molécule AA stockerait 0000, tandis que AC stockerait 0010, et ainsi de suite. Nous pouvons synthétiser des molécules d’ADN de centaines de bases de long avec une grande efficacité, et nous pouvons ajouter des séquences flanquantes qui fournissent l’équivalent des informations du système de fichiers, nous indiquant quelle partie d’un bloc de données binaires un morceau d’ADN individuel représente.

Le problème avec cette approche est que plus la chaîne de bits que vous souhaitez stocker est longue, plus cela prend de temps et d’argent. Le matériel robotique effectue les réactions de synthèse et chaque unité matérielle ne peut synthétiser qu’une seule molécule d’ADN à la fois. Les matières premières utilisées par le matériel pour effectuer cette synthèse ajoutent également un coût pour chaque molécule stockée. Bien que ce ne soit pas un problème pour les projets de démonstration à petite échelle, les coûts deviennent rapidement prohibitifs si vous commencez à stocker de grandes quantités de données. Citant un coût de synthèse d’ADN d’environ 0,03 cents par base, Park a déclaré: « 0,03 cents fois deux bits par paire de bases fois, disons, gigaoctets – c’est beaucoup d’argent. C’est des millions de dollars. »

Park a déclaré à Ars que Catalog avait commencé par repenser le processus d’encodage pour contourner ce goulot d’étranglement. L’encodage de la société commence par une bibliothèque de dizaines à des centaines de courts morceaux d’ADN appelés oligos (abréviation d’oligonucléotide). Chaque bit dans les données se voit ensuite attribuer une combinaison unique d’oligos – vous pouvez considérer cela comme un peu comme un processeur au silicium attribuant à un bit en mémoire une adresse unique de 64 bits. Si ce bit est un 1, un robot peut rassembler de petits échantillons de solutions contenant chacun des oligos nécessaires pour le représenter et les combiner avec une enzyme qui peut lier tous les oligos ensemble.

L’enzyme fusionne les oligos en une seule molécule d’ADN plus longue qui contient la signature unique du bit. Si, au contraire, le bit est un zéro, l’ADN correspondant à son adresse n’est pas synthétisé.

Toutes les molécules produites peuvent alors être réunies en une seule solution (qui peut être séchée pour un stockage à long terme). Pour lire les données, la population de molécules d’ADN est séquencée et un algorithme reconnaît la combinaison unique d’oligos présents dans chaque molécule. Les adresses reconnues sont affectées d’un 1 ; le reste, un 0. Cela restaure les données qui ont été encodées sous forme numérique.

Ce système est beaucoup moins efficace en données/ADN que de stocker deux bits dans chaque base. Mais les molécules individuelles restent suffisamment petites pour qu’il s’agisse d’un support de stockage incroyablement compact et stable. Et cela permet d’économiser beaucoup de temps et d’argent en raison d’une asymétrie fondamentale : il est beaucoup moins cher de synthétiser une grande quantité d’une séquence d’ADN spécifique que de synthétiser de petites quantités de nombreuses séquences d’ADN différentes. Ainsi, en assemblant de l’ADN à l’aide d’un petit morceau d’un grand volume d’ADN préfabriqué, le coût de la synthèse diminue considérablement. Chaque réaction d’assemblage peut également être exécutée en parallèle ; en revanche, synthétiser des séquences individuelles immobilise la machine sur laquelle elles tournent jusqu’à ce que la synthèse soit terminée.

Source-147