На роду записано

Зачем в ДНК сохраняют фильмы, музыку и стихи

Кадр из фильма «Прибытие поезда на вокзал города Ла-Сьота» братьев Люмьер
Кадр из фильма «Прибытие поезда на вокзал города Ла-Сьота» братьев Люмьер

Природа сделала ДНК идеальным носителем информации — надежным, долговечным, компактным. Ученые пытаются это использовать и записывают на ДНК книги, фотографии и клипы группы OK Go, но при чтении данных пока возникает слишком много ошибок. В новой работе эти слабости ДНК попробовали исправить с помощью алгоритмов кодирования стримингового видео. На ДНК сначала записали, а потом без искажений считали один из первых немых фильмов, а плотность записи получилась такая, что одного кузова пикапа хватило бы на хранение половины данных, накопленных человечеством на сегодняшний день.

ДНК, наверное, самый эффективный носитель информации на Земле. Суммарно в каждой клетке нашего организма содержится около шести миллиардов пар нуклеотидов, что в пересчете на биты (каждый нуклеотид кодирует по два бита, поскольку всего в ДНК бывает четыре вида нуклеотидов) составляет примерно 1,4 гигабайта информации, упакованной в крошечные объемы клеточного ядра и митохондрий.

Кроме того, данные отлично сохраняются в ДНК в течение десятков лет, а многократное считывание не приводит к сильным искажениям информации: в ДНК закодирована структура 20—25 тысяч белков, которые постоянно синтезируются всю нашу жизнь.

Информационная емкость, компактность и долговечность ДНК подобраны миллионами лет эволюции, а теперь ученые пытаются использовать эти наработки природы для хранения самой разной информации.

Первые работы в этой области начались в 2012 году, когда исследователи из Гарварда записали в структуре ДНК книгу на 52 тысячи слов, 11 изображений в формате jpeg и небольшую программу на JavaScript (всего 700 килобайт данных). Годом позже ученые Европейского института биоинформатики упаковали уже чуть больше информации. В ДНК поместились все шекспировские сонеты, статья Джеймса Уотсона и Фрэнсиса Крика о структуре ДНК, речь Мартина Лютера Кинга «У меня есть мечта» и фотография института ученых.

Наконец в прошлом году специалисты из Вашингтонского университета и «Майкрософта» сохранили на ДНК 200 мегабайт информации, в которые вошли база данных семян, Всеобщая декларация прав человека ООН на десятках разных языков и клип группы OK Go.

Но у этих работ был серьезный недостаток: весомая часть информации считывалась с искажениями, потому что в алгоритмах кодирования данных либо не предусматривалась коррекция ошибок, либо использовались старые и громоздкие подходы.

В новом исследовании американские биоинформатики Янив Эрлих (Yaniv Erlich) и Дина Зелински (Dina Zielinski) попробовали обеспечить сохранность информации с помощью фонтанного кода — алгоритмов, которыми кодируют видео Netflix и другие стриминговые сервисы.

Для этого всю цифровую информацию, предназначенную для записи, разбивали на непересекающиеся фрагменты в 32 байта, то есть на последовательности из 256 идущих подряд нулей и единичек (в 32 байтах содержится 256 битов). Дальше по определенным законам эти последовательности объединяли в «капли», так чтобы каждая «капля» состояла сразу из нескольких фрагментов данных, соединенных с опознавательной меткой «капли», а каждый фрагмент данных был представлен сразу в нескольких «каплях».

Такое избыточное кодирование подстраховывает от потери информации, потому что корректно восстановить исходные данные можно даже по неполному набору «капель». Из-за этого Эрлих сравнивает информацию, зашифрованную фонтанным кодом, с гигантским судоку: стоит верно разгадать цифры в какой-то части клеток, как все остальные клетки автоматически заполнятся сами по себе.

Фото: Brian Turner / Flickr

После этого каждую цифровую «каплю» переводили в структуру ДНК («00» превращался в аденин, «01» — в цитозин, «10» — в гуанин, а «11» — в тимин), которую проверяли на некоторые биохимические ограничения: в сконструированной нуклеотидной последовательности не должно быть слишком много однонуклеотидных повторов и GC-нуклеотидов, иначе такие молекулы ДНК были бы слишком нестабильными.

Затем ученые отослали полученные нуклеотидные шифровки в компанию Twist Bioscience (Сан-Франциско), где уже физически синтезировали нужные ДНК. Потом образцы переслали в университет и ученые попробовали прочитать записанную информацию. Они отсеквенировали ДНК и перевели нуклеотидный код обратно в последовательность нулей и единиц. В этот раз информация не пострадала от искажений, и ученые без потери качества считали с ДНК ровно то, что записали: подарочную карту Amazon, операционную систему KolibriOS, научную статью Клода Шеннона и один из первых фильмов в истории человечества — 55-секундное «Прибытие поезда на вокзал Ла-Сьота».

Ник Голдман (Nick Goldman), один из авторов работы 2012 года, в которой на ДНК записали Шекспира и Лютера Кинга, вспоминает, что когда они получили свои образцы, он просто не поверил, что на дне пробирок — там, где невооруженным глазом невозможно было различить почти ничего, — хранилось так много информации.

Эрлих с Зелински, вероятно, впечатлились еще больше, потому что плотность информации, записанной с помощью фонтанного кода, в разы превосходила старые результаты, а все данные объемом 2,14 мегабайта в этот раз уместились на 72 тысячах олигонуклеотидных участков, кодирующих одиночные «капли».

В более привычных единицах измерения получается, что в каждом грамме ДНК можно сохранить до 215 петабайт информации, а в двух кузовах пикапа — все данные, которые сейчас есть у человечества.

Такая плотность записи уже приближается к теоретическому пределу, который, по оценкам, составляет 1,83 бита на один нуклеотид (в идеальном случае каждый нуклеотид несет два бита информации, но кроме кодирующих нуклеотидов в последовательности ДНК должны быть дополнительные участки, размечающие молекулу на фрагменты). В новой работе ученые получили около 1,6 бита на нуклеотид.

ДНК в этой пробирке хватит для 2 Тб данных — например, чтобы дважды записать все 662 серии мультсериала «Симпсоны» в формате HD 720 p. Фото: Nikita G. Sidorov / Фотодом / Shuttestock

Пока хранение информации в ДНК стоит недешево. В свежей статье два мегабайта данных обошлись в 9000 долларов США: 7000 долларов стоила запись ДНК, 2000 долларов — обратное секвенирование и считывание информации. Кроме того, как запись, так и считывание информации с ДНК пока идут настолько медленно, что всерьез рассуждать о жестких дисках на ДНК пока еще очень рано.

С другой стороны, у ДНК есть преимущества перед другими носителями информации. Во-первых, при определенных условиях (низкая температура и освещенность, повышенная влажность) молекулы ДНК могут храниться миллионами лет с минимальными изменениями, которые можно исправить за счет заложенной избыточности кодирования информации. А во-вторых, ДНК, хоть и расходуется при каждом чтении-секвенировании, может быть сравнительно легко откопирована при помощи полимеразной цепной реакции.

Так что рано или поздно ДНК-диски вполне могут найти свою коммерческую нишу: например, их можно использовать для долговременного архивного хранения. Тем более что цены на запись ДНК в последнее время резко падают: если в 2012 году каждый мегабайт ДНК стоил 12 400 долларов, то сейчас все немного скромнее — только 3500 долларов.

Михаил Петров
Теги:

Читать еще на Чердаке: