L'Università di Washington e ricercatori di Microsoft hanno fatto un importante passo avanti verso l'archiviazione di dati digitali nel sistema di stoccaggio delle informazioni per eccellenza, il DNA.
Dopo aver salvato 200 megabyte di dati in DNA sintetico nel 2016, i ricercatori hanno descritto in un documento pubblicato su Nature Biotechnology il loro sistema per l'accesso casuale, ossia il recupero selettivo di singoli file codificati in oltre 13 milioni di oligonucleotidi di DNA.
Anche se non è la prima volta che dei ricercatori ottengono l'accesso casuale al DNA, i due team hanno prodotto la prima dimostrazione di accesso casuale in una scala così grande.
Uno dei grandi vantaggi di usare il DNA come mezzo di archiviazione digitale è la sua capacità di salvare grandi quantità di informazioni, con un limite approssimativo di un exabyte - un miliardo di gigabyte - per millimetro cubo. I dati devono essere convertiti da 0 e 1 a molecole di DNA: adenina, timina, citosina e guanina. Per ripristinare i dati nella forma digitale, il DNA viene sequenziato e i file decodificati di nuovo in 0 e 1.
Questo processo diventa più difficile man mano che aumenta la quantità dei dati - qualora impossibilitati a un accesso casuale, è necessario sequenziare e decodificare in blocco un intero set di dati per trovare e recuperare file specifici. Inoltre, i processi di sintesi e sequenziamento del DNA sono soggetti a errori, il che può causare la perdita dei dati.
I ricercatori hanno superato questi problemi progettando e validando un'ampia libreria di inneschi (primer, un filamento di acido nucleico che serve come punto di innesco per la replicazione del DNA) per l'uso insieme alla reazione a catena della polimerasi (PCR) in modo da ottenere l'accesso casuale.
Prima di sintetizzare il DNA contenente i dati di un file, i ricercatori hanno aggiunto a entrambe le estremità di ciascuna sequenza di DNA degli inneschi dalla libreria. Così facendo hanno potuto usare questi inneschi per selezionare i filamenti desiderati tramite l'accesso casuale e hanno usato un nuovo algoritmo progettato per decodificare in modo più efficiente e ripristinare il dato al suo stato digitale originale.
"Il nostro lavoro riduce lo sforzo, sia nella capacità di sequenziamento che nell'elaborazione, di recuperare completamente le informazioni memorizzate nel DNA", ha spiegato il ricercatore senior di Microsoft Sergey Yekhanin, che è stato determinante nella creazione del codec e degli algoritmi usati. "Abbiamo ideato nuovi algoritmi che sono più tolleranti agli errori nella scrittura e nella lettura di sequenze di DNA per ridurre al minimo lo sforzo di recupero delle informazioni".
Usando il DNA sintetico fornito da Twist Bioscience, il team ha codificato e successivamente recuperato 35 file distinti con dimensioni che spaziano da 29 kilobyte a oltre 44 megabyte - per un totale di 200 MB di video HD, audio, immagini e testo. Tra questi anche il video musicale di "This Too Shall Pass" degli Ok Go. Si tratta di un passo avanti rispetto ai 22 MB precedentemente raggiunti dai ricercatori della Harvard Medical School e del Technicolor Research & Innovation in Germania.
"Da quando questo documento è stato presentato per la pubblicazione, abbiamo raggiunto oltre 400 megabyte e stiamo ancora crescendo e imparando di più sull'archiviazione di dati nel DNA su larga scala", ha dichiarato Luis Ceze, professore a capo del Molecular Information Systems Laboratory (MISL) dell'Università di Washington.
I ricercatori stimano che questo approccio scalerà a insiemi fisicamente isolati di DNA contenenti diversi terabyte ciascuno. Se disidratati per l'archiviazione, questi insiemi di dati dovrebbero essere più densi di diversi ordini di grandezza rispetto a un nastro magnetico. E poiché i costi associati al sequenziamento e alla sintesi del DNA continuano a diminuire, il team prevede sempre più interesse nello sviluppo dell'archiviazione tramite DNA in futuro.
Ancora non puoi salvare la tua collezione di p.... di immagini di farfalle nel DNA, ma puoi senz'altro farlo in un hard disk da 10 terabyte.