Пандемия ковида ввела в повседневный обиход медицинскую статистику – скорость распространения болезни, эффективность мер борьбы с ней и так далее. Численные модели используются в медицине все больше, с ростом мощностей компьютеров.
Леонид Шинделевич – математик, который занимается вычислительной биологией. Он учился в Канаде и США (в знаменитом Массачусетском технологическом институте), а сейчас работает в Imperial College London, ведущем британском исследовательском центре, который, в частности, известен тем, что его модели развития эпидемии коронавируса в марте 2020-го заставили британское правительство изменить подходы и принять более активные меры противостояния инфекции.
Шинделевич принимал участие в некоторых исследованиях эпидемии, но в центре его научных интересов – моделирование резистентных к антибиотикам инфекционных заболеваний. О пути математика в биологии и моделировании реальной жизни он рассказал в интервью Радио Свобода.
Шинделевич родился в Екатеринбурге. В 90-х, когда ему было 11 лет, его семья перебралась в Канаду. Отец Шинделевича – математик и программист. "Меня приобщил к математике папа (мама занимается музыкой)", – говорит он, добавляя, что в институте учился математике и программированию и "постепенно заинтересовался вычислительной биологией", а когда получил в MIT кандидатскую степень по прикладной математике, то к тому времени вычислительная биология уже была его специализацией:
– В принципе математика меня интересовала с детства, когда я немножко занимался с папой разными развивающими задачами. Ориентирование на биологию пришло где-то в середине института. Сначала я очень интересовался теорией чисел и, в принципе, по-прежнему отношусь к ней с благоговением. Но на втором курсе института был интересный курс по численному анализу. Я понял, что есть возможность совместить строгий подход в математике с вещами, которые имеют приложение в жизни. Примерно в то же время у меня была возможность написать первую научную статью – под руководством профессора, который занимался вычислительной биологией. Это меня зацепило, и я всю карьеру посвятил этому.
– Нужно было получать дополнительное образование по биологии?
– Это интересный вопрос. Биология всегда давалась мне сложновато. Но когда я заинтересовался вычислительной биологией, то понял, что если рассматривать биологию именно с вычислительной точки зрения, через математические модели, алгоритмы, то все становится гораздо более ясным и понятным. Не могу сказать, чтобы я был специалистом по биологии в целом, но те системы, которые я моделирую, в том числе инфекционные заболевания, представляю себе неплохо. Но, конечно, основная подготовка у меня с точки зрения математики и программирования.
Это фактически сводится к гораздо более простой математической формулировке, к вычислительной задаче
– Как, собственно, математика применяется в биологии? Есть знаменитое расщепление Менделя, скажем, при скрещивании дрозофил с красными и белыми глазами у потомства мушки с красными глазами будут в пропорции 3:1 к количеству мушек с белыми. Какие структуры исследуете вы?
– Для анализа биологической системы в какой-то момент наступает необходимость применять количественные методы – биологические системы очень сложны. Раньше какие-то отдельные части этих систем можно было довольно легко себе представить, провести какие-то эксперименты. Но сейчас биология развивается очень быстро, с применением экспериментальных подходов с высокой пропускной способностью, которые выдают огромное количество данных. В результате становится гораздо сложнее анализировать биологическую систему с помощью опытов, просто слишком много возможных гипотез, которые нужно рассмотреть. Математическое моделирование позволяет сузить количество гипотез, которые на самом деле стоит рассматривать. Например, геном человека. В ДНК каждого человека более 20 тысяч генов, плюс к тому многие гены взаимодействуют друг с другом. Если мы будем это пытаться изучать отдельно, по одному гену, это займет огромное количество времени, – попытки понять какие-то отдельные маленькие части генома. Но если мы его рассмотрим в целости, рассмотрим взаимодействие генов друг с другом, то мы можем, например, записать систему в виде графа, где каждая вершина является геном, а ребра обозначают взаимодействие. После этого, используя теорию графов или теорию дифференциальных уравнений, дискретные методы, можно провести анализ. Например, одна из систем, которую я наиболее детально изучал, – туберкулез и резистентность туберкулеза к антибиотикам, устойчивость к антибиотикам отдельных штаммов туберкулеза. Конечно, туберкулез – это бактерия, у них более простой геном, по длине примерно в тысячу раз короче, чем геном человека. Но по количеству генов сравнимо, в среднем у бактерии от 4 до 5 тысяч генов. Если мы рассматриваем различные изменения, которые могут наблюдаться в геноме туберкулеза, и хотим понять, какие именно из этих изменений могут привести к резистентности к антибиотику, то практически невозможно будет проверять экспериментально каждый из этих генов по отдельности, тем более каждую из этих мутаций. Но если мы соберем довольно большое количество штаммов, для каждого из которых известны конкретные мутации в конкретных генах, если соберем данные о том, какие штаммы резистентны или не резистентны к антибиотику, то у нас получается гораздо более простая задача: какие из этих генов играют роль в возникновении резистентности, какие – нет. Это фактически сводится к гораздо более простой математической формулировке, к вычислительной задаче, которую можно решать с помощью статистических методов, с помощью машинного обучения, чем мы и занимаемся в моей группе.
– Расскажите подробнее о машинном обучении.
Технология позволяет машине натренировать себя до уровня, который превосходит сильнейших игроков среди людей
– Алгоритмы – последовательность шагов, которые приводят к решению вычислительной задачи, и все известные нам алгоритмы можно, грубо говоря, разделить на две категории. Есть алгоритмы, для которых вся последовательность шагов должна быть описана заранее, а есть алгоритмы, в которых через анализ полученных данных происходят определенные изменения в самих алгоритмах, какие-то модели вырабатываются автоматически на основе данных. Вместо того чтобы человек, разрабатывающий алгоритм, заранее должен был указывать программе, на какие именно характеристики данных нужно обращать внимание, при машинном обучении алгоритм сам в какой-то степени создает модель, чтобы максимально точно предсказать результат. Машинное обучение в приложении к проблеме определения резистентности – это алгоритм, который способен самостоятельно на основе рассмотрения большого количества данных выявить и кристаллизовать те закономерности, которые в этих данных заключены.
– Возможен алгоритм, который с нуля позволяет компьютеру создавать себе какие-то модели? Грубо говоря, может ли компьютер, если ему задать алфавит, выучить язык? Насколько глубоко это может использоваться? В шахматах, как я понимаю, есть самообучающийся алгоритм AlphaZero, который играет лучше человека, а научился шахматам, играя сам с собой, без вкладывания в него шахматной теории.
– Как человек, который в этой области работает довольно давно, могу сказать, что с одной стороны, в этой области за последние 10–15 лет произошел большой скачок. Сейчас фактически технология, о которой вы говорили, для очень большого количества четко определенных ситуаций, как, например, игра в шахматы, игра в го или другие подобные игры, позволяет машине только на основе знания правил полностью натренировать себя до уровня, который превосходит на данный момент сильнейших игроков среди людей. Но, с другой стороны, конечно, всем этим системам еще очень далеко до решения обобщенных задач в более открытых областях, а не в узкой, четко определенной области. Например, создать систему, которая могла бы самостоятельно вести машину не только на дорогах, на которых она натренирована, где у нее есть определенный опыт в виде данных, но в совершенно произвольной системе. Например, машина, натренированная в Соединенных Штатах, где правостороннее движение, попадает в Великобританию, где левостороннее движение – до таких обобщений еще довольно далеко. Система искусственного интеллекта отлично справляется с конкретными, четко определенными задачами, но преждевременно говорить о том, что она достигла какого-то общего интеллекта.
– Давайте поговорим о другом применении математики в биологии – моделировании эпидемий. Если я правильно понимаю, то начинать надо разговор с того, что такое экспонента – рост функций, которые удваиваются в единицу времени. Это то, с чем человечество сталкивается при возникновении эпидемии.
– На начальных стадиях. Если с эпидемией не бороться вообще, просто позволить ей бесконтрольно распространяться среди населения, то в какой-то момент людей, которые еще не были подвержены этой инфекции, практически не останется, и в этот момент эпидемия должна будет сойти на нет. Поэтому экспоненциальный рост наблюдается только на начальных стадиях эпидемии.
Проблема в моделировании эпидемий на начальных стадиях – трудно предсказать, какие значения параметров разумны
– Как моделируются эпидемии?
– Моделирование – это процесс, который позволяет предсказать, как будет развиваться эпидемия, какие меры могут быть эффективными для попыток ее контролировать. Для этого необходимы, во-первых, данные: развитие прошлых эпидемий, плотность населения, его демографические признаки, как тесно люди контактируют друг с другом – чем плотнее контакты, тем у инфекционного возбудителя больше шансов передаваться от человека к человеку. Клинические характеристики, насколько серьезно заболевание, насколько велика смертность, с какой вероятностью заболевший человек либо восстановится, либо умрет, либо заболевание перейдет в хроническое. Все эти данные используются для калибровки параметров модели. Все это в результате дает нам систему, при анализе которой мы можем примерно (примерно, потому что, конечно, всегда остается неопределенность) оценить, как будет развиваться эпидемия в отсутствие каких-либо вмешательств с нашей стороны и как будет развиваться эпидемия при вмешательстве – допустим, если правительство объявит, что все должны сидеть дома после 8 вечера, или закроются все магазины, то как это отразится на заболеваемости.
– Понятно, что есть огромное количество параметров, но вам нужна какая-то первоначальная формула, которая выдает какой-то результат, потом, если я правильно понимаю процесс, вы берете формулу, подставляете прошлые данные и проверяете, соответствует ли результат реальности, – потом происходит корректировка, вы поправляете формулу. Но мы видели, что предсказания моделей часто неточны. Их все время модифицируют?
– Конечно. Берется набор параметров, модель развивается согласно этим параметрам, потом сравнивается с тем, что мы на самом деле наблюдали. Соответственно, параметры немного изменяются, процесс повторяется, пока мы не подойдем к ситуации, где у нас есть хорошее представление о том, в каком интервале должен варьироваться тот или иной параметр, для того, чтобы модель вела себя примерно в соответствии с действительностью, о которой мы собрали данные. Проблема в моделировании эпидемий на начальных стадиях, особенно если эта эпидемия вызвана новым микроорганизмом, с которым у нас нет большого опыта, как это было с коронавирусом в прошлом году, – в том, что трудно предсказать, какие значения параметров разумны. Изначально недостаточно клинических данных, скажем, для того, чтобы оценить инкубационный период, то есть время между заражением и возникновением первых симптомов. Получается, во всех этих параметрах есть определенная доля неопределенности, поэтому всегда результаты модели даются не одним числом – скажем, в результате эпидемии будет ровно 120 тысяч смертей, – а интервалом, который отражает степень неопределенности, допустим, от 50 до 200 тысяч. Потом на основе дополнительных наблюдений можно вносить дополнительные корректировки, значения параметров становятся более точными, мы сужаем интервал и постепенно приходим к более точным оценкам.
– Это делается на основе теоремы Байеса, грубо говоря, новые данные используются, чтобы оценить правдоподобность модели?
– В принципе, много моделей сейчас именно на таком принципе основываются, то есть они все время пытаются на основе самых последних данных скорректировать первоначальные оценки.
Мы пытались оценить эффективность мер, принимавшихся правительствами
– Насколько я понимаю, существуют разные подходы к моделированию?
– Есть модели, которые основываются большей частью на данных, которые пытаются проследить различные факторы развития эпидемии, но не пытаются в деталях моделировать процесс контакта между людьми, передачи вируса или бактерий, сам процесс распространения. То есть эти модели больше основываются на данных о смертности, о количестве случаев и позволяют заострить внимание на примерах конкретных вмешательств. Есть модели, которые делят население на большое количество групп – скажем, по возрасту, по степени подверженности заболеванию, по географии – и потом рассматривают, как инфекция может передаваться от представителей одной группы к представителям другой. Это так называемые компартментные (отсековые) модели. То есть для каждой группы людей создается свой отсек, эти отсеки друг с другом сообщаются, все это моделируется с помощью, как правило, дифференциальных уравнений. Есть еще модели, которые основываются на индивидуальных характеристиках – это так называемые агентные модели, где существует большое количество независимых агентов, каждый из них представляет одного человека. Это получается некая симуляция реальности. В этих моделях можно еще более детально рассмотреть сам процесс, но в них – из-за того, что процесс не детерминированный, а стохастический, – существует большая неопределенность в результатах, поэтому эти симуляции приходится проводить по много раз, чтобы как-то оценить общую картину. Модели, в разработке которых я принимал участие, принадлежат к первой категории.
– Расскажите о них.
– В исследовании, в котором я лично участвовал, мы пытались оценить эффективность мер, принимавшихся правительствами в различных странах. Во время первой волны все меры были очень эффективны, потому что на тот момент просто не было никаких альтернатив, не было ни вакцин, ни даже достаточной информации о том, как протекает заболевание. Поэтому все изначальные меры были очень эффективными для контроля. Но во время второй волны все эти меры оказались менее эффективными. В частности, это могло быть связано и с тем, что просто изменилось поведение людей, они стали больше избегать контактов, стали более осторожно себя вести. Хотя в это, конечно, очень трудно проверить – это просто одна из гипотез.
– Я слышал подобное мнение, что правительственные меры работают, – ношение масок, разные формы локдауна, – но очень важно, что люди сами начинают себя ограничивать, это своеобразная саморегуляция общества. На основе того, что вы видели, можно об этом говорить?
Возможно, люди просто стали более осторожно себя вести
– Да. Скажем так, те данные, которые мы собрали о первой волне и о второй волне, в принципе сопоставимы с этой гипотезой. Я не могу сказать с уверенностью, что эта гипотеза безусловно верна или безусловно неверна, но данные, в принципе, сопоставимы с этой гипотезой.
– Согласно вашему исследованию, самыми эффективными мерами вмешательства правительств были ограничение численности встреч до 10 человек, закрытие школ, а маски оказались не особо эффективными.
– С масками, на самом деле, ситуация обстоит довольно сложно: правительство могло порекомендовать ношение масок, но население могло не следовать этим рекомендациям. В то же время во многих ситуациях, когда ношение масок не было рекомендовано, люди могли носить их. Недавно вышла статья группы моих коллег, которые попытались более четко сформулировать именно эффект масок. Оказалось, что если провести все необходимые уточнения, то маски довольно эффективны.
– То есть маски – тоже эффект саморегуляции общества: люди пугаются, дистанцируются, носят маски? Как это выглядит в результатах исследования?
– Это выглядит так, что те же меры, которые мы оценивали во время первой волны, во время второй волны в совокупности выглядели немного менее эффективными. Получалось, существует какой-то дополнительный фактор, который нужно ввести для того, чтобы объяснить, откуда берется разница между эффективностью мер во время первой и второй волн. Гипотеза, которая на данный момент не доказана, состояла в том, что, возможно, недостающий фактор – это то, что люди просто стали более осторожно себя вести в целом, именно это позволило базовому показателю репродукции заболевания снизиться.
Мы не в состоянии точно предсказать, какие варианты вируса гриппа будут наиболее опасными
– Насколько сейчас точны модели эпидемии коронавируса?
– Конечно, сейчас мы уже довольно хорошо представляем себе, что такое COVID-19, как развивается эпидемия, какие будут последствия различных мер. Меньше неопределенностей, но все равно не существует совершенных моделей, всегда есть допущения. Например, один из источников неопределенности – существование различных вариантов коронавируса, генетически отличающихся от изначального штамма, и трудно предсказать с абсолютной точностью, как именно будет развиваться эпидемия в присутствии этих вариантов.
– Есть параметр R – количество людей, которых носитель данного варианта вируса может заразить. Это ведь эмпирический параметр, по идее, модель должна сверяться с данными о количестве вновь заболевших и сообщать: в данный момент R равно тому-то?
– На основе течения эпидемии мы можем примерно оценить значение R в разные моменты времени. В нашем исследовании это происходило как ретроспективный анализ, мы анализировали данные того, что уже произошло. Но есть другие модели, которые это делают и в реальном времени. Наша модель задавалась не вопросом о предсказании конкретного значения R, она задавалась именно вопросом об эффективности разных мер в первую и вторую волны эпидемии. Эпидемиологи очень заинтересованы в оценке этого параметра R, как для изначального вируса, так и для новых вариантов. Это вопрос очень важный, сейчас на него пытаются ответить многие люди, занимающиеся этой областью. И это сложный вопрос. Для сравнения – пример гриппа, который возникает каждый зимний сезон. Казалось бы, на основе всех данных, которые у нас есть за последние десятилетия, мы должны бы были в состоянии предсказать, какие именно штаммы гриппа в данный сезон будут максимально распространены. Но, к сожалению, на данный момент этого сделать не удается. Конечно, есть прогресс в этом направлении, но мы по-прежнему не в состоянии точно предсказать, какие именно варианты вируса гриппа будут наиболее опасными в данный сезон.
– А почему, что мешает?
– Думаю, комбинация нескольких факторов. Нет хорошего понимания взаимодействия этих вариантов друг с другом, какие именно эволюционные силы направляют их, что именно приводит к успеху одних и относительному неуспеху других вариантов гриппа. С другой стороны, не так много собрано данных. Чем больше данных будет собрано, тем точнее будут ответы. Может, – так как за время эпидемии ковида огромные научные усилия были направлены на понимание коронавирусов, – в случае с ковидом это будет немножко проще.
Резистентные виды бактерий стали еще более распространены
– Звучит не очень оптимистично, раз даже грипп, который много лет наблюдают, по-прежнему не очень хорошо предсказывают. Но вы сейчас не занимаетесь исследованием эпидемии ковида?
– Я хотел вернуться к основной теме своих научных исследований, к моделированию резистентных бактерий. Частично потому, что уже довольно очевидно, что ввиду успеха вакцинации в разных странах, таких серьезных последствий как в первую и вторую волны вряд ли стоит ожидать. Конечно, нет никаких гарантий, и очень важно, чтобы население максимально получило доступ к вакцинам, – не только в развитых, но и в развивающихся странах, чтобы эпидемия полностью была взята под контроль. Но, как выяснилось, использование во время эпидемии большого количества антибиотиков по всему миру привело к тому, что резистентные виды бактерий стали еще более распространены. Сейчас, на мой взгляд, одна из самых насущных задач на ближайшие 5–10 лет состоит именно в том, как бороться с ними.