Могут ли все ваши цифровые фотографии храниться в виде ДНК? Метод маркировки и извлечения файлов данных ДНК из большого пула может помочь сделать хранение данных ДНК возможным

Многие ученые считают, что альтернативное решение заключается в молекуле, которая содержит нашу генетическую информацию: ДНК, которая эволюционировала для хранения огромных объемов информации с очень высокой плотностью. По словам Марка Бата, профессора биологической инженерии Массачусетского технологического института, в кофейной кружке, полной ДНК, теоретически можно хранить все мировые данные.

«Нам нужны новые решения для хранения огромных объемов данных, которые накапливаются в мире, особенно архивных данных», – говорит Бат, который также является ассоциированным членом Института Броуда Массачусетского технологического института и Гарварда. «ДНК в тысячу раз плотнее, чем даже флеш-память, и еще одно интересное свойство заключается в том, что, как только вы создаете полимер ДНК, он не потребляет энергии. Вы можете записать ДНК, а затем хранить ее навсегда."
Ученые уже продемонстрировали, что могут кодировать изображения и страницы текста как ДНК. Однако также потребуется простой способ выбрать нужный файл из множества фрагментов ДНК.

Батх и его коллеги продемонстрировали один способ сделать это, заключив каждый файл данных в 6-микрометровую частицу кремнезема, которая помечена короткими последовательностями ДНК, раскрывающими содержимое.
Используя этот подход, исследователи продемонстрировали, что они могут точно извлекать отдельные изображения, хранящиеся в виде последовательностей ДНК, из набора из 20 изображений.

Учитывая количество возможных меток, которые можно использовать, этот подход может масштабироваться до 1020 файлов.
Батх – старший автор исследования, которое сегодня публикуется в журнале Nature Materials. Ведущими авторами статьи являются старший постдок Массачусетского технологического института Джеймс Банал, бывший научный сотрудник Массачусетского технологического института Тайсон Шеперд и аспирант Массачусетского технологического института Джозеф Берлеант.

Стабильное хранение
Цифровые системы хранения кодируют текст, фотографии или любую другую информацию в виде последовательности нулей и единиц. Эту же информацию можно закодировать в ДНК с помощью четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, в то время как A и T представляют 1.
ДНК имеет несколько других особенностей, которые делают ее желательной в качестве носителя информации: она чрезвычайно стабильна, и ее довольно легко (но дорого) синтезировать и секвенировать.

Кроме того, из-за его высокой плотности – каждый нуклеотид, эквивалентный двум битам, составляет около 1 кубического нанометра – эксабайт данных, хранящихся в виде ДНК, может уместиться на ладони вашей руки.
Одним из препятствий для такого типа хранения данных является стоимость синтеза таких больших объемов ДНК. В настоящее время запись одного петабайта данных (1 миллион гигабайт) будет стоить 1 триллион долларов.

По оценке Бата, чтобы стать конкурентоспособным с магнитной лентой, которая часто используется для хранения архивных данных, стоимость синтеза ДНК должна снизиться примерно на шесть порядков. Бат говорит, что он ожидает, что это произойдет в течение одного-двух десятилетий, подобно тому, как стоимость хранения информации на флеш-накопителях резко упала за последние пару десятилетий.
Помимо стоимости, другим серьезным узким местом при использовании ДНК для хранения данных является сложность выбора нужного файла среди всех остальных.

"Если предположить, что технологии записи ДНК достигают точки, когда экономически выгодно записывать экзабайт или зеттабайт данных в ДНК, тогда что? У вас будет куча ДНК, которая представляет собой миллионы файлов, изображений или фильмов и прочего, и вам нужно будет найти ту картинку или фильм, который вы ищете », – говорит Бат. "Это похоже на попытку найти иголку в стоге сена."
В настоящее время файлы ДНК обычно извлекаются с помощью ПЦР (полимеразная цепная реакция). Каждый файл данных ДНК включает последовательность, которая связывается с конкретным праймером ПЦР.

Чтобы извлечь конкретный файл, этот праймер добавляется к образцу, чтобы найти и амплифицировать желаемую последовательность. Однако одним из недостатков этого подхода является то, что между праймером и последовательностями ДНК вне мишени могут возникать перекрестные помехи, что приводит к удалению нежелательных файлов. Кроме того, процесс получения ПЦР требует ферментов и в конечном итоге потребляет большую часть ДНК, которая была в пуле.
«Вы как бы сжигаете стог сена, чтобы найти иголку, потому что вся остальная ДНК не усиливается, и вы, по сути, выбрасываете ее», – говорит Бат.

Получение файла
В качестве альтернативного подхода команда Массачусетского технологического института разработала новую технику извлечения, которая включает в себя инкапсуляцию каждого файла ДНК в небольшую частицу кремнезема.

Каждая капсула помечена одноцепочечными «штрих-кодами» ДНК, соответствующими содержимому файла. Чтобы продемонстрировать этот подход экономически эффективным способом, исследователи закодировали 20 различных изображений в фрагменты ДНК длиной около 3000 нуклеотидов, что эквивалентно примерно 100 байтам. (Они также показали, что в капсулы помещаются файлы ДНК размером до гигабайта.)
Каждый файл был помечен штрих-кодами, соответствующими таким ярлыкам, как «кошка» или «самолет».«Когда исследователи хотят получить конкретное изображение, они удаляют образец ДНК и добавляют праймеры, соответствующие искомым ярлыкам, например,« кошка »,« оранжевый »и« дикий »для изображение тигра, или «кота», «апельсина» и «домашнего кота» для домашней кошки.

Праймеры помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать любые совпадения из образца. Это позволяет удалить нужный файл, оставив остальную часть ДНК нетронутой, чтобы вернуть ее в хранилище. Их процесс поиска позволяет утверждениям логической логики, таким как «президент И 18 век», в результате генерировать Джорджа Вашингтона, аналогично тому, что получается при поиске изображений Гугл.
"На текущем этапе проверки нашей концепции скорость поиска составляет 1 килобайт в секунду.

Скорость поиска нашей файловой системы определяется размером данных на капсулу, который в настоящее время ограничен непомерно высокой стоимостью записи даже 100 мегабайт данных на ДНК, и количеством сортировщиков, которые мы можем использовать параллельно. Если синтез ДНК станет достаточно дешевым, мы сможем максимально увеличить объем данных, которые мы можем хранить в файле с нашим подходом », – говорит Банал.
Для своих штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки из 100000 последовательностей, каждая длиной около 25 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы.

Если вы поместите две из этих меток на каждый файл, вы можете однозначно пометить 1010 (10 миллиардов) разных файлов, а с четырьмя метками на каждом вы можете однозначно пометить 1020 файлов.
Бат предполагает, что этот вид инкапсуляции ДНК может быть полезен для хранения «холодных» данных, то есть данных, которые хранятся в архиве и к которым редко обращаются. Его лаборатория создает стартап Cache DNA, который в настоящее время разрабатывает технологию для долгосрочного хранения ДНК, как для хранения данных ДНК в долгосрочной перспективе, так и для клинических и других ранее существовавших образцов ДНК в ближайшем будущем.
«Хотя может пройти некоторое время, прежде чем ДНК станет жизнеспособной в качестве носителя данных, сегодня уже существует острая потребность в недорогих, массивных решениях для хранения уже существующих образцов ДНК и РНК, полученных при тестировании на Covid-19, геномном секвенировании человека и т. Д. области геномики ", – говорит Бат.

Исследование финансировалось Управлением военно-морских исследований, Национальным научным фондом и США.S. Управление армейских исследований.