Интернет ДНК

Чем универсальный поиск по генетическим базам поможет медицине и почему он до сих пор не создан

Изображение: designleo / Фотодом / Shutterstock
Изображение: designleo / Фотодом / Shutterstock

Впервые геном человека полностью расшифровали в 2003 году, и тогда на это ушло почти 13 лет работы и около 100 миллионов долларов. Сегодня цифры поменялись. Теперь геном можно прочитать уже за 5—10 тысяч долларов, а в базах данных по всему миру хранится не менее 200 тысяч отсеквенированных геномов, в которых скрывается масса информации о наших склонностях к болезням или переносимостях лекарств, но специалисты до сих пор не только не собрали эти данные воедино, но даже и не договорились, как это делать и стоит ли это делать вообще.

Объединить генетические данные пытаются создатели канадской компании Global Alliance for Genomics and Health (GA4GH), разрабатывающие протоколы и приложения для универсального доступа к генетическим данным разных организаций через интернет. Свою концепцию они называют «интернетом ДНК».

Сейчас GA4GH сотрудничают со 150 компаниями из 42 стран — госпиталями, исследовательскими институтами, частными клиниками — и уже предлагают первые версии своих продуктов. Например, приложение Beacon обрабатывает запросы в формате «найти пациентов с мутацией X на гене Y в хромосоме Z» и говорит пользователю, в каких базах встречается такая информация, чтобы дальше он уже напрямую обращался к владельцам баз.

Возможности других инструментов GA4GH гораздо шире: например, платформа Matchmarker Exchange ищет данные не только по генотипам, а еще по генотипам, связанным воедино с фенотипами, то есть с историями болезней. Такой подход в идеале позволит врачам точнее ставить диагнозы (при неясной клинической картине врач может обратиться к генетическим данным и найти аналогичные случаи в мировой практике), прогнозировать ход болезни, оценивать риски возникновения заболеваний (к примеру, врачи могут оценить, что у пациентов с таким анамнезом и генотипом высок риск развития сердечно-сосудистых заболеваний, и, соответственно, приложить какую-то подходящую профилактику) и, наконец, подбирать индивидуальное лечение.

Почти два года назад Дэвид Хаусслер (David Haussler), основатель GA4GH, говорил, что главные препятствия к созданию такой единой системы «интернета ДНК» вовсе не технические, а скорее социальные: институты и госпитали сложно убедить стать партнерами проекта, а людей — передать свои личные генетические данные в недостаточно защищенные общие базы. 13 декабря в Москве прошла дискуссия между представителями российского биотеха и экспертами компании Dell EMC — одного из международных партнеров GA4GH, которая показала, что идея мирового «интернета ДНК» до сих пор сильно смущает и клиницистов, и бизнесменов.

Единые правила «интернета ДНК»

Недавно компания Amazon запустила необычный сервис передачи данных AWS Snowmobile — по сути своей, просто грузовик, перевозящий контейнер с сервером на 100 Пб: аналитики компании подсчитали, что такие объемы данных проще и дешевле транспортировать по старинке, чем по интернету.

С «интернетом ДНК» есть в первом приближении очень похожая история. Сейчас объемы генетических данных сравнялись с другими признанными лидерами научных больших данных — физикой элементарных частиц и астрономией, и в результате они могут оказаться слишком большими не только для того, чтобы хранить их в одном месте, но даже и для того, чтобы организовать надежный доступ к распределенной системе хранения данных, чем как раз и занимается GA4GH.

«С точки зрения организации работы нам гораздо удобнее выкачивать геномные базы данных и хранить их у себя, потому что количество запросов, которые мы отправляем в эти базы, перегружает все каналы связи», — рассказал на дискуссии Валерий Ильинский, генеральный директор и сооснователь московской компании «Генотек», занимающейся анализом ДНК и генетическими тестами.

Кроме этого у технологии «интернета ДНК» еще много технических и организационных сложностей. Во-первых, геномные данные надо сначала собрать — сейчас совсем не все люди готовы поделиться ими с остальным миром даже анонимно. Во-вторых, собранные генетические данные очень разрозненны и неоднородны: каждая клиника, госпиталь или частная компания могут записывать их в своих, подчас несовместимых форматах.

Изображение: AntartStock / Фотодом / Shutterstock

В-третьих, пока непонятно, какую часть генома нужно сохранять для дальнейшего анализа. Полный геном на три миллиарда нуклеотидов сейчас весит около 200—500 гигабайтов, но большая часть этой информации может быть избыточной для медицинских целей, поскольку 99% генома у всех людей абсолютно одинаковы: жителя Москвы от абстрактного австралийца отличает буквально 10 000 генетических букв. Хранить и тем более анализировать всю эту информацию многим кажется неразумным.

«Мы же не храним все переписки и звонки всех людей, совершенные во всех направлениях за все время человечества просто потому, что когда-нибудь может обнаружиться, что какой-нибудь врач написал какому-то другому врачу какую-то эсэмэску, которая как-то повлияла на диагноз какого-то человека, — говорит Ильинский. — Всегда есть разумная граница хранения данных, и в случае с геномными данными тоже должен быть определенный предел между объемами и стоимостью».

С таким подходом не согласился Андрей Запарий, ведущий разработчик Центра исследований и разработок EMC в Сколково. «В клинике мы вынуждены хранить результаты измерений десятилетиями, чтобы потом было понятно, на основании каких предпосылок развивалась болезни и были выданы те или иные медицинские рекомендации. Пока данных еще сравнительно мало, мы храним их полностью, потому что в будущем может выясниться, что мы их как-то неправильно обрабатывали и интерпретировали».

Наконец, есть чисто экономические аргументы против единого сервиса доступа к генетическим данным: компания или даже альянс компаний, создавший такой сервис, станет монополистом рынка, что вместе с исчезновением здоровой коммерческой конкуренции может привести к резкому ухудшению качества данных. Да — их будет много, да — они будут сделаны в едином формате, но по сути многие из этих данных станут недостоверными. Электронные лекарства превратятся в пустышки, в плацебо.

Возможности «интернета ДНК»

Полное секвенирование генома все еще стоит очень приличных денег, но вот расшифровать его ключевые места — несколько сотен снипов (мутаций, затрагивающих только один нуклеотид), чье влияние на наш фенотип уже показано достоверно, — можно всего за 300—500 долларов. После такого анализа пользователь получает информацию о своей чувствительности к лекарствам, некоторых физических особенностях (вроде переносимости лактозы, алкоголя или продолжительных физических нагрузок), дремлющих в нем генах патогенных наследственных заболеваний и, наконец, рисках развития мультифакторных болезней, которые задаются не просто большим ансамблем генов, но еще и модулируются внешней средой.

Генетические базы могут сильно продвинуть нас в понимании природы таких мультифакторных заболеваний. Раньше, во времена, когда даже расшифровка нескольких тысяч нуклеотидов занимала несколько суток, ученым приходилось тщательно планировать свои эксперименты. Искать добровольцев, выбивать финансирование, идти на компромиссы между своими возможностями и планами — с «интернетом ДНК» все станет гораздо проще: надо будет только собрать подходящую выборку по общей базе, сопоставить ее с историями болезни и заняться анализом. К примеру, в проекте Cancer Genome Atlas уже собраны геномы 10 000 пациентов с 12 типами рака, что помогло выявить 127 характерных генов, мутирующих вместе с развитием опухоли.

Человеческий фактор

В 2013 году программист из MIT Янив Эрлих (Yaniv Erlich) установил личности обладателей 50 анонимных геномов, загруженных в различные базы данных, просто сопоставив генетическую информацию из этих геномов с публично доступными на различных генеалогических сайтах фрагментами геномов их родственников. «Интернет ДНК» постулирует анонимность, но пока плохо умеет ее соблюдать, что смущает пользователей: совсем не всем хочется, чтобы о твоих заболеваниях и особенностях узнали страховые компании, начальники, друзья и даже родственники.

В этом еще одна проблема «интернета ДНК». Можно придумать идеальную систему для хранения генетических данных, можно пересекать их с историями болезни, чтобы более точно подбирать лекарства, можно даже наверняка создать достоверные методы анализа данных, но пользоваться всем этим все равно будут живые люди с их сложными поступками и запутанным мышлением.

Изображение: Raevsky Lab / Фотодом / Shutterstock

Например, уже сейчас качество данных в публичных генетических базах очень низкое, потому что многие исследователи кидают туда недостоверные, единичные случаи, искажающие общую картину. «Согласно базе ClinVar лично у меня есть 10 патогенных мутаций, вызывающих тяжелые наследственные заболевания, — говорит Ильинский. — По-хорошему, я вообще не должен был родиться, но в реальности история с каждой мутацией наверняка такая: был пациент, у него какой-то ученый отсеквенировал один ген, обнаружил там нечто интересное, назвал это патогенной мутацией и сразу подгрузил в ClinVar. Открытые геномные базы всегда будут страдать от подобных проблем».

Подвести в «интернете ДНК» могут и врачи. И если от назначения неправильного лечения или неверной постановки диагноза по геному их могут подстраховать хорошие онтологии болезней, в которых будут прописаны связи между различными аспектами заболевания, то от безынициативности и слепого следования букве инструкции и рецепта так просто медиков уже не защитить.

Наконец, проблемы могут возникнуть и с самими пациентами, некорректно обращающимися со своей информацией. Например, многие восхищаются Анджелиной Джоли, прошедшей мастэктомию после того, как генетический тест показал у нее повышенный риск развития рака груди. Но при желании в этом случае можно найти пример необдуманной и фанатичной перестраховки. Возможно, поэтому некоторые генетические тесты дают прочитать информацию о риске развития опасных болезней только после дополнительного подтверждения своей готовности, а в том же Генотеке не сообщают людям, если у них находят редкую мутацию, дающую иммунитет от ВИЧ/СПИД.

Между прошлым и будущим

Пока в науке и медицине до сих пор не разобрались с геномом, популярные издания все больше пишут о персональной медицине, построенной на следующих поколениях данных: транскриптоме, метаболоме, микробиоме, работать с которыми еще сложнее.

«В нашей компании мы работаем на уровне транскриптомов, — говорит Андрей Гаража, директор центра биогеронтологии и регенеративной медицины. — И вот здесь ситуация еще плачевнее, чем с геномными данными. Можно так сказать, что ДНК-данные — это качественные данные (в каждой единице информации там может храниться только четыре разных варианта буквы — прим. ред.), а экспрессионные данные — количественные, и они не только хитро распределены по миру и записаны в разных стандартах, но еще и изначально измерены на разных платформах».

С похожей проблемой может столкнуться и концепция «интернета ДНК», потому что стандарты заполнения электронных медицинских карт, без которых геномные данные теряют свою уникальную силу, выработаны гораздо хуже стандартов работы с геномами. «Можно посмотреть, как в российских госпиталях хранятся регистры пациентов и медицинские записи, — говорит Сергей Мусиенко, генеральный директор биомедицинского холдинга „Атлас“. —  Это прям боль и страдание, если двумя словами это описать. Например, по базе ЕМИАС сейчас самое частое заболевание — это холера, просто потому что у нее код „1“».

Получается, с одной стороны, для «интернета ДНК» уже слишком поздно — сейчас понятно, что геномные данные не несут исчерпывающей информации о нашем здоровье, а для сильной персонализированной медицины нужны еще другие анализы, а с другой стороны, для «интернета ДНК» еще слишком рано — пока мы еще не научилась аккуратно работать с историями болезней.

Впрочем, как знать, может быть, именно это парадоксальное сочетание говорит о том, что уже через несколько лет наряду с классическим анализом крови и флюорографией районный терапевт будет назначать нам при приеме полное или хотя бы частичное секвенирование генома и его анализ по мировым базам данных.

Михаил Петров
Теги:

Читать еще на Чердаке: