Недавно в биологии появилась молодая дисциплина – биоинформатика. В ее задачи входит анализ живых организмы с применением компьютерных технологий. Биоинформатики не проводят экспериментов с животными и бактериями, не работают с пробирками, а рассматривают геном просто как последовательность символов, в которой пытаются найти определенную информацию – за что и были прозваны коллегами «телевизионными биологами».
О биоинформатике рассказывает доктор биологических наук, заместитель директора Института проблем передачи информации Михаил Гельфанд.
– Чем занимается биоинформатика?
– У всякого живого существа есть геном, это слово, наверное, все слышали. С точки зрения биохимика – это последовательность ДНК, дезоксирибонуклеиновой кислоты, с точки зрения молекулярного генетика существенно то, что в этой последовательности, в этой очень длинной молекуле записаны собственно гены, то есть информация о том, из каких белков организм состоит и до некоторой степени как они функционируют, а с точки зрения биоинформатики – это просто длинная последовательность символов, которую можно анализировать и пытаться искать в ней какие-то содержательные смыслы. То, за что нас причисляют к биологам – это то, что мы можем, глядя на эти последовательности, в ДНК найти тот участок, где белок записан, можем сказать что-то про его функцию, иногда довольно подробно, можем сказать, когда этот ген работает, в каких тканях или в каких условиях он включается или выключается.
– Вы можете это сказать без экспериментальной проверки, только глядя на последовательность ДНК?
– Мы непосредственно эксперименты не делаем, другое дело, что потом приходят экспериментаторы, эти предсказания проверяют. Фактически– это гипотеза. Но бывает и очень хорошая гипотеза. И есть утверждения, которые мы вроде бы делаем довольно уверенно.
– Как родилась идея именно таким образом читать ДНК?
– Во-первых, сейчас существует целая индустрия, по получению этих последовательностей. Мы не превращаем молекулы в цепочку символов. Сначала это делали экспериментальные биологи, технология, которая позволила это делать, основа на выдающихся открытиях, за разные этапы этой работы было получено несколько Нобелевских премий. А сейчас это уже индустриальный процесс, это делают просто роботы или в худшем случае роботы с техниками. После того как последовательность получена, приходим мы и пытаемся, глядя на эту последовательность, сопоставляя с другими, с экспериментальными фактами, которые известны про другие последовательности, пытаемся сказать, что там написано.
Я выясняем: во-первых, где в этой последовательности расположены участки, кодирующие белок, во-вторых, что это, собственно говоря, за белок, какие у него будут функции. И третье, когда этот белок будет синтезироваться, а когда этот ген будет молчать и белок не будет синтезироваться. Вот это задача молекулярной биоинформатиики, как мы ее понимаем. Вот это то, за что нас любят или не любят – это отдельный вопрос, но то каким способом мы свой хлеб отрабатываем у биологов. Роботы читают геном, а мы пытаемся его понять.
– Что вам таким образом удалось понять?
– Немного биологического ликбеза о том, как происходит экспрессия гена. Есть последовательность ДНК – это стабильная информация, которая передается из поколения в поколение. Когда начинается так называемый процесс транскрипции – он достаточно хорошо изучен – отдельные участки двух-цепочечной молекулы ДНК копируются в матрицу для производства белка. Здесь есть интересная задача, которой мы много занимались: как понять, где начало фрагмента ДНК, который копируется, а где его конец? Как выяснилось, сигналы, обозначающие начало и конец фрагмента, который копируется при процессе транскрипции записаны в самом геноме. И соответственно ферменты, которые осуществляют транскрипцию, умеют распознавать участок с которого они начинают транскрипцию и сигнал окончания транскрипции. Целая область биоинформатики анализирует, как эти сигналы в ДНК записаны.
В результате получается матрица – это тоже нуклеиновая кислота, только не ДНК, а РНК. С точки зрения биологов или биохимиков разница между ними большая, а с точки зрения биоинформатики, и то, и другое последовательность символов из четырехбуквенного алфавита. За это нас биологи и не любят. Получившаяся матрица используется для того, чтобы синтезировать тот белок, который записан в генетический код – это таблица соответствий между коротенькими словами в нуклеотидном алфавите из трех букв и аминокислот. Аминокислоты – это элементарные единицы, из которых белки сделаны, их всего 20.
Есть таблица генетического кода, которая говорит: увидев три определенных нуклеотида, присоедини к растущему белку такую-то аминокислоту. Это было установлено еще в 1960-ые годы. Эту таблицу построили Фрэнсис Крик и другие замечательные ученые. Эта таблица более-менее стандартна для всех живых существ.
Если есть последовательность ДНК или последовательность РНК, и мы знаем, в каком месте начинается ген, то белок, который там записан, можно предсказать почти всегда автоматически, глядя в эту кодовую таблицу. Первая задача, которая сейчас более-менее успешно решена, это поиск участков в геноме, в которых начинаются и кончаются записи белков.
Реально в биологии, в живом существе в основном работают именно белки – это ферменты, это структурные белки, транспортные белки, рецепторы и так далее, сигнальная система построена в основном на белках. Основные молекулы, которые в живой клетке работают, это именно белки. Функции белков интересно изучать.
Первая задача, которая была решена, формулируется довольно просто. У вас есть последовательность генома. Необходимо представлять характерные размеры задачи: бактериальный геном – это несколько миллионов букв и несколько тысяч генов. А геном человека – это три миллиарда нуклеотидов и примерно 20-25 тысяч генов, кодирующих белки (есть и другие гены, но я сейчас говорю только о кодирующих белок). В первом приближении сейчас решена задача выделения в этой длинной последовательности тех участков, которые кодируют белки.
Первые работы такого сорта были экспериментальные, и потом на экспериментальном материале мы научились узнавать сигналы начала, сигналы конца, научились понимать, чем участки, кодирующие белок, отличаются от других участков ДНК, которых еще много – там есть регуляторные участки, есть межгенное пространство, которое не очень понятно, чем занято. Выделять кодирующие участки научились делать в 1980-1990 годы. После того как был собран экспериментальный материал, стали исследовать статистические свойства. И оказалось следующее: если вы сравниваете два близких генома, например, человека и мышь, то вы видите, что участки, которые кодируют белок, изменяются в ходе эволюции гораздо медленнее, чем участки, которые белка не кодируют, межгенные участки.
То есть участки генома, кодирующие белки у человека и мыши гораздо более похожи, чем межгенные участки.
Важнейшее достижение в этой области состояло в следующем: возьми два родственных генома, а лучше не два, а пять, найди там участки, которые больше похожи друг на друга, чем окружающие их участки, это и будут участки, кодирующие белок. Возьми таблицу генетического кода, сделай формальную трансляцию с применением этой таблицы, получишь белок и изучай его свойства. Но, во-первых, ясно, что это работает далеко не всегда. Если у вас есть молодой ген, который специфичен для приматов, а у других млекопитающих его нет, то вы его таким способом, конечно, пропустите. Во-вторых, оказалось, что кроме белок кодирующих участков есть и другие участки, которые консервативны, которые медленно меняются. Например, регуляторные. Гены работают не все время, например, гены теплового шока включаются, когда вы испытываете тепловой шок, гены метаболизма включаются, когда вы что-то съели.
Очевидно, есть разные ткани, разные органы, в которых работают разные белки. Есть белки, которые работают везде, а есть белки специфичные, ткани специфичной экспрессии. Когда организм развивается, есть целые программы развития, которые состоят в том, что начинают работать и кончают работать.
– Эти программы включаются, когда происходит рост организма?
– Скорее даже не рост, когда организм растет – это большой организм, он не очень меняется, а в основном, когда происходит развитие из эмбриона, когда происходят первые клеточные деления. Там вычислительных результатов пока не очень много, хотя они появляются.
На самом деле есть основной принцип, и я сейчас его проиллюстрирую такой историей. Был знаменитый английский статистик Пирсон (Karl Pearson), которого в первую мировую войну призвали в армию. И поскольку он был статистик перед ним поставили следующую задачу: в Первую мировую войну самолеты были легкие и были большие потери в авиации, и решили, что самолеты надо укреплять броней. Но если укрепить весь самолет он будет тяжелый, и решили, что надо укрепить броней только определенные места. И Пирсона отправили считать дырки. Самолет улетает на задание, потом возвращается на аэродром, и Пирсон надо посчитать, где дырок много – предполагалось, что там и надо ставить броню. Пирсон спросил: у каких самолетов дырки считать? Которые возвращаются. Тогда он говорит, делать надо ровно наоборот – броней надо защищать те места, где дырок нет, потому что это означает, что если пуля попала туда, то самолет на аэродром не вернулся. А те места, где дырки есть, они не так важны.
В принципе то, что мы пытаемся делать – это в каком-то смысле прямая аналогия этой истории. Потому что у нас есть геномы разных живых существ, все время идет поток случайных изменений просто из-за ошибок при копировании, из-за каких-то химических изменений и есть те места, которые трогать нельзя – они-то и не меняются. Но если вы возьмете жизненноважный белок и начнете его менять, то скорее всего ничего хорошего не получится. Этот самолет не вернется – не пройдет дальше первого клеточного деления или вырастет страшный уродец, который не доживет и до четвертого месяца. Жизненно важные гены трогать нельзя.