Биоинформационные технологии. Биоинформатик Михаил Гельфанд: «Нобелевская премия по биологии сейчас не имеет никакого значения Отвертка со съемным жалом

[Видео] [Слайды]

Революция в ядерной физике привела много лет назад к накоплению огромного количества данных, которые надо было хранить и обрабатывать. Это оказалось под силу только компьютерам, а за ними и супер-компьютерам.

Бум геномики последних 10-15 лет продолжил эту традицию и приумножил ее: медико-биологические исследования касаются каждого из нас, а значит и данных будет производиться все больше и больше особенно в свете идеи персонализированной медицины и требований большой фармы. Тут уж без компьютерных знаний и программных продуктов и вовсе делать нечего. Но кроме того, надо хорошо знать что изучать, как, как анализировать данные и насколько им можно верить. Как хранить и обрабатывать. Где применять и где использовать.

В лекции освещено большинство этих «как». Алла ставит своей целью рассказать о значимости и широте приложений биоинформатики.

2. Мутационный процесс и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Мутационный процесс - первый из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения мутаций, методы измерения параметров мутационного процесса на малых, средних и больших временах, данные о скоростях мутирования и простейшие модели влияния мутирования на генетическую структуру популяции.

3. Естественный отбор и методы его изучения (Алексей Кондрашов, МГУ)

[Видео] [Слайды]

Естественный отбор - второй из двух необходимых факторов дарвиновской эволюции. В лекции рассмотрены причины и механизмы возникновения отбора, методы и параметры, применяемые для его описания и изучения, данные об отборе в природе и простейшие модели влияния отбора на популяцию.

4. Детское развитие и биоинформатика: задачи и решения (Елена Григоренко, Yale University)

[Видео] [Слайды]

В лекции рассказано о нескольких «стыках» наук о развитии и биоинформатики.
Обсуждаются проблемы пренатальной диагностики и пренатального секвенирования, а также экзомного секвенирования новорожденных.

Рассказывается об изучении влияния ранней среды развития на состояние метилома, и о геномной этиологии детских расстройств развития. В заключение рассмотрены этические вопросы, связанные с использованием геномной информации в принятии диагностических и индивидуализированных решений о развитии ребенка.

5. Секвенирование нового поколения: принципы, возможности и перспективы (Мария Логачева, МГУ)

[Видео] [Слайды]

Секвенирование нового поколения (NGS) преобразило многие области биологических и биомедицинских исследований. Оно позволяет относительно быстро и недорого получать последовательности генов и геномов ранее не изученных видов, а также – на материале большого числа индивидуумов одного вида – выявлять внутривидовую изменчивость, проводить поиск генов, ассоциированных с интересующими признаками. Помимо собственно определения последовательностей геномов NGS позволяет проводить детальный анализ экспрессии генов в разных тканях организма или при разных условиях, широко используется в эпигенетических исследованиях.

В лекции дан обзор основных методов секвенирования, их физико-химические принципы, особенности пробоподготовки, характеристика получаемых данных, их стоимость и типичные ошибки. Особое внимание уделено применимости разных методов для решения биологических задач, и даны рекомендации по планированию экспериментов, связанных с NGS.

6. Структурная биология белка: обзор проблем и подходов (Павел Яковлев, BIOCAD)

[Видео] [Слайды]

Использование только первичных последовательностей позволяет решить большинство вопросов, связанных с нуклеиновыми кислотами (ДНК и РНК). При изучении функций белков знание только первичной последовательности уже не позволяет решить большинство задач. Какие белки будут взаимодействовать между собой и как сильно? Повлечет ли замена аминокислоты смену функции белка? Как убрать побочные эффекты от лекарственного белка или увеличить его эффективность? На эти вопросы призвана ответить область биоинформатики, занимающаяся разработкой алгоритмов для моделирования пространственной формы белков и их взаимодействий.

7. De novo сборка транскриптомов (Артем Касьянов, МФТИ)

[Видео] [Слайды]

В связи со значительным удешевлением и повышением производительности технологий число проектов, посвященных de novo секвенированию геномов немодельных организмов, значительно возросло. В ряде случаев de novo секвенирование и сборка генома затруднена - к примеру, в случае его значительных размеров. В таких случаях прибегают к изучению транскриптома. Также de novo анализ транскриптома может понадобиться в случае изучения видов с большим количеством альтернативно сплайсирующихся генов, так как даже при наличии генома достаточно сложно определить полный перечень изоформ.

Лекция посвящена вопросам сборки транскриптомных данных в отсутствии генома. Рассмотрены такие темы, как сплайс-графы, программы trinity и newbler, сравнение и анализ сборок, сборка транскриптомов полиплоидных организмов.

8. Эволюция алгоритмов сборки генома (Антон Банкевич, СПбАУ РАН)

[Видео] [Слайды]

На данный момент существует уже несколько поколений методов секвенирования ДНК. Однако новые технологии бессмысленны без алгоритмов, способных обработать их результаты. Постоянно возникающие новые методы секвенирования ставят всё новые алгоритмические задачи. Одной из важнейших таких задач является сборка генома. В лекции рассказано об эволюции методов секвенирования и алгоритмических подходах к сборке генома, возникавших и продолжающих возникать с каждым шагом этой эволюции.

9. Введение в молекулярную биологию и генетику (Павел Добрынин, СПбГУ)

[Видео] [Слайды]

Лекция посвящена структуре и организации ДНК у прокариот и эукариот, молекулярным механизмам, отвечающим за сохранение и воспроизведение генетического материала. Разобраны основные механизмы, стоящие за генетической изменчивостью, и варианты реализации генетического материала.

10. Задача множественного локального выравнивания и построения синтенных блоков (Илья Минкин, Pennsylvania State University)

[Видео] [Слайды]

В лекции рассматривается две похожие алгоритмические задачи в сравнительной геномике: множественное локальное выравнивание и построение синтенных блоков. Эти алгоритмы играют крайне важную роль в сравнении полных последовательностей геномов. Рассказано о постановке задач и о базовых идеях, на которых построены некоторые современные алгоритмы.

11. Зачем и как делать презентации (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции обсуждаются типы презентаций, зачем они на самом деле нужны, и рассказывается, как выступить так, чтобы слушатели все поняли и не заснули, а также каких ошибок надо избегать и с кого брать пример при подготовке своего выступления.

12. Бизнес в биоинформатике (Андрей Афанасьев, iBinom)

[Видео] [Слайды]

В лекции рассказано, какие биоинформатические компании существуют в России и в мире, кто их создал и на чем именно они зарабатывают деньги.
Обсуждены планы крупных игроков и тренды в индустрии.

В завершающей части лекции Андрей дает пищу для размышлений об организации собственного стартапа или выборе нового места работы.

13. Перспективы и проблемы системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Лекция призвана дать общее представление о системных свойствах биологических объектов. Илья Серебрийский рассказывает об основных составляющих системной биологии, об интерактомике и построении моделей, об основных проблемах в системной биологии и попытках их разрешения. Обсуждаются некоторые достижения системной биологии (главным образом из области онкологии). Также рассматриваются общедоступные ресурсы для системной биологии (TCGA/cBioPortal, CCLE).

14. Лабораторная по системной биологии (Илья Серебрийский, Fox Chase Cancer Center)

[Видео] [Слайды]

Занятие посвящено построению сетей взаимодействия на основе общедоступных баз данных. Использованы такие базы данных и веб-сервисы, как Entrez, GeneMANIA, BioGRID и другие. Рассмотрены различные методы визуализации сетей взаимодействия, в частности с помощью программы Cytoscape.

15. Метагеномика (Алла Лапидус, СПбАУ РАН)

[Видео] [Слайды]

Микробы везде, микробы правят миром, но далеко не со всеми из них мы можем познакомиться в лабораторных условиях. Подавляющее большинство из них мы не знаем как вырастить, а значит, их надо как-то извлекать из их естественной среды обитания - земли, воды, из-под корней деревьев и т.д., где они живут большими группами.

Метагеномика и помогает в этих весьма запутанных исследованиях. А еще она помогает кормить, согревать, лечить людей и ловить преступников. Всему этому и биоинформатике в метагеномике и была посвящена эта лекция.

16. Проблема проверки множества статистических гипотез (Антон Коробейников, СПбГУ, СПбАУ РАН)

[Видео] [Слайды]

В лекции рассмотрена классическая проблема проверки множества гипотез одновременно. Подобного рода задачи встают сплошь и рядом, например, при полногеномном поиске ассоциаций или анализе данных микрочипов. Рассмотрены возможные варианты решения этой проблемы, начиная от классического подхода Бонферрони и заканчивая методами, позволяющими контролировать FDR (false discovery rate).

17. Как правильно и неправильно использовать статистику (Никита Алексеев, СПбГУ, George Washington University)

[Видео] [Слайды]

Лекция посвящена ошибкам в применении статистики и способам их предотвращения. В частности, дан ответ на вопрос: в каких ситуациях можно использовать стандартные критерии для сравнения типичных представителей выборки, и что делать, если стандартные критерии не подходят?

18. Математические модели регуляции экспрессии гена (Мария Самсонова, СПбГПУ)

[Видео] [Слайды]

Понимание тонких механизмов регуляции активности генов ‒ необходимое условие для расшифровки механизмов возникновения болезней у человека. К сожалению, на сегодняшний день такое понимание отсутствует: мы не можем удовлетворительно объяснить, ни каким образом группы транскрипционных факторов взаимодействуют друг с другом, с белками хроматина, другими адапторными белками и комплексом РНК‒полимеразы, ни как и почему тот или иной участок последовательности ДНК может контролировать сложную, ограниченную в пространстве и детерминированную во времени картину экспрессии гена.

Математическое моделирование помогает понять механизмы генной регуляции путем механистического и количественного описания этого процесса. В лекции рассмотрены два наиболее распространенных подхода к моделированию экспрессии генов ‒ основанные на нелинейных уравнениях реакции‒диффузии и термодинамическом равновесии. Последовательно рассмотрены этапы построения таких моделей и приведены примеры их использования для генерации новых знаний.

19. Полулокальное и локальное выравнивание последовательностей (Александр Тискин, University of Warwick)

[Видео] [Слайды]

Вычисление наибольшей общей подпоследовательности (longest common subsequence, LCS) двух строк - одна из классических алгоритмических задач, имеющая широкое применение как в информатике, так и в вычислительной биологии, где она известна как «глобальное выравнивание последовательностей». Во многих приложениях необходимо обобщение этой задачи, которое мы называем вычислением полулокальной LCS (semi-local LCS), или «полулокальным выравниванием». В этом случае требуется вычислить LCS между строкой и всеми подстроками другой строки, и/или между всеми префиксами одной строки и всеми суффиксами другой. Помимо важной роли этой обобщенной задачи в строковых алгоритмах у нее обнаруживаются неожиданные связи с алгеброй полугрупп и вычислительной геометрией, с сетями сравнений (comparison networks), а также практические приложения в вычислительной биологии. Кроме того, задача вычисления полулокальной LCS может использоваться в качестве гибкого и эффективного подхода к (полностью) локальному выравниванию биологических последовательностей.

В лекции представлено эффективное решение задачи вычисления полулокальной LCS и дан обзор основных сопутствующих результатов и приложений. В их числе динамическая поддержка LCS; быстрое вычисление клик в некоторых специальных графах; быстрое сравнение сжатых строк; параллельные вычисления на строках.

20. Анализ семейств молекулярных последовательностей (Сергей Нурк, СПбАУ РАН)

[Видео] [Слайды]

При решении самых разных задач, от поиска регуляторных мотивов до предсказания функций белков, биоинформатикам приходится работать с целыми «семействами» эволюционно связанных нуклеотидных или аминокислотных последовательностей. В лекции рассмотрены различные способы представления таких семейств, применяемые в популярных биоинформатических инструментах и базах данных. Рассказано, как расшифровать PROSITE pattern и проинтерпретировать sequence logo, в чем отличие profile HMM от PSSM, а также как избежать ошибок при их построении и анализе результатов.

21. Эпигеномика, РНК и все такое (Андрей Миронов, ИППИ РАН)

[Видео] [Слайды]

В лекции дан обзор понятия эпигенетики. Рассмотрены уровни структурной организации хроматина, рассказано о различных эпигеномных модификациях: модификациях гистонов, метилировании CpG-мотивов. Обсуждено их влияние на экспрессию генов.
Также рассмотрена роль эпигеномных модификаций в сплайсинге, импринтинге и т.п.

Рассказано о системе XIST (X-inactivation specific transcript), антисмысловых РНК, сплайсинге, РНК-зависимой регуляции.
Также рассмотрены модели для изучения эпигеномных модификаций.

22. Контроль качества данных NGS (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В лекции описаны погрешности секвенирования, характерные для технологий NGS. Примерами таких ошибок являются ПЦР-амплификация, сиквенс-специфичные ошибки прочтения, неравномерное распределение GC-состава и прочие. Разобраны различные методы оценки этих погрешностей и учета их при анализе. Затронут вопрос практических методов решения и существующих программных инструментов.

23. Контроль качества данных NGS, семинар (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды]

В ходе семинара участники научились применять навыки программирования для контроля качества данных NGS. Были рассмотрены форматы данных BAM/SAM, библиотеки pysam и pyplot, фундаментальные понятия. В частности, разобраны примеры подсчета GC-состава, оценки частоты дупликаций, распределения длины вставки, расчета покрытия в окнах.

24. Практическое секвенирование РНК (Константин Оконечников, Max Planck Institute for Infection Biology)

[Видео] [Слайды 1] [Слайды 2]

На семинаре разбиралась практическая задача анализа данных РНК-секвенирования.
В формате презентации и практики были обсуждены и продемонстрированы методы: выравнивания ридов, первоначального контроля качества, пайплайны для изучения экспрессии генов DESeq и Cufflinks, нахождение изоформ транскриптов, поиск гибридных генов.

25. Биоинформатические подходы к изучению и лечению рака на примере рака легких (Мария Шутова, ИОГен РАН)

[Видео] [Слайды]

Рак - одно из самых распространенных и опасных заболеваний. Его называют «болезнью генома» за огромный вклад накопленных и новых мутаций в его появление и развитие. При этом известно, что не только состояние генома, но и транскрипционный и даже эпигенетический статус первичных раковых клеток, а также сложный гомеостаз растущей опухоли напрямую влияют на ее свойства и, главное, восприимчивость к терапии. Единственную возможность разобраться в этом клубке взаимозависимых факторов дает биоинформатика. В лекции разобраны основные вопросы, связанные с изучением опухолеобразования, и возможные способы ответить на них с использованием биоинформатических подходов.

26. Новые омики в биологии человека: метаболомика и липидомика (Филипп Хайтович, Сколтех)

[Видео] [Слайды]

Секвенирование человеческого генома, изучение человеческих генетических вариаций, секвенирование метагенома человека, транскриптомный анализ человеческих тканей - все эти биологические методы в приложении к «big data» дали ученым большой объем ценной информации о том, что отличает человека от других животных.

Эта лекция посвящена новым «омикам», позволяющим ответить на вопросы о человеческом организме при изучении мозга и других тканей - метаболомике и липидомике.

27. Геномная сборка: взгляд в завтрашний день (Андрей Пржибельский, СПбАУ РАН)

[Видео] [Слайды]

В последние годы технологии секвенирования нового поколения сделали заметный шаг вперед: появились IonTorrent и Pacific Biosciences, Ilumina создала ряд новых протоколов. Но, как оказывается, всего этого недостаточно для того, чтобы считать проблему сборки геномов решенной. Для того чтобы пройти путь от извлечения ДНК до полностью завершенного генома, как правило, требуются десятки различных специалистов, сотни тысяч долларов и годы работы. Поэтому сегодня эта задача остается актуальной как с точки зрения биотехнологий, так и с точки зрения биоинформатики. В лекции рассмотрены последние прорывы в методах сборки геномов, новейшие типы данных, которые, возможно, позволят вывести эту задачу на новый уровень, и перспективы геномики в ближайшем будущем.

Вместо заключения

  • образование
  • летняя школа
  • Добавить метки

    Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

    Почему биология перестала справляться без информатики и при чем тут рак

    Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

    ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

    Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

    Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

    Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

    Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

    Биоинформатика в ЕРАМ

    В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

    Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

    Как становятся биоинформатиками

    Мария Зуева, разработчик:

    «Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

    Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

    «По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

    Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

    Как читают геном

    Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

    Михаил Альперович, глава юнита биоинформатики:

    «Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

    Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

    Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

    Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

    Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

    Геннадий Захаров:

    «Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

    Биоинформатика: производство и опенсорс

    У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

    Проект №1: вариант-коллер

    Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

    Исходный код программы доступен на GitHub .

    Проект №2: 3D-просмотрщик молекул

    Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

    Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

    Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

    Как выглядит работа с приложением, можно узнать из видео .

    Проект №3: геномный браузер NGB

    Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

    Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

    Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

    Геннадий Захаров, бизнес-аналитик:

    «Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

    В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

    Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

    Как изучать биоинформатику

    Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

    Понятие биоинформатики

    Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время это почти исключительно задачи молекулярной биологии. Причина этого в том, что за последние 20-25 лет накоплен поистине колоссальный экспериментальный материал именно о строении и функционировании биологических молекул (белков и нуклеиновых кислот), в качестве примера достаточно привести геном человека. Этот материал требует развитых компьютерных методов для своего анализа. Поэтому биоинформатика в большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.

    Есть несколько основных направлений этого раздела науки, в зависимости от

    исследуемых объектов:

    • * Биоинформатика последовательностей.
    • * Структурная биоинформатика.
    • * Компьютерная геномика

    Основные направления биоинформатики в зависимости от исследуемых объектов

    Биоинформатика последовательностей

    Биоинформатика последовательностей

    Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

    Этот раздел биоинформатики занимается анализом нуклеотидных и белковых последовательностей. В настоящее время разработаны эффективные экспериментальные методы определения нуклеотидных последовательностей. Определение нуклеотидных последовательностей стало рутинной хорошо автоматизированной процедурой. В результате рутинной хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Так, в базе данных EMBL на 15.02.2007 г. хранится 87000 493 документов с описанием нуклеотидных последовательностей, содержащих в целом 157545686001 символов (нуклеотидов), что соответствует примерно библиотеке в 105 толстых томов с убористым шрифтом. Найти нужный ген в EMBL, это все равно, что найти цитату в такой библиотеке. Без помощи компьютера сделать это, мягко говоря, очень трудно. А число данных экспоненциально растет.

    Представим себе геном небольшой бактерии - это непрерывная строка длиной в 1-10миллионов символов символов, и далеко не вся ДНК кодирует белки. Первый тип биоинформатической задачи - это задачи поиска в нуклеотидных последовательностях особых участков, участков, кодирующих белки, участков, кодирующих РНК (например, тРНК), участков связывания с регуляторными белками и др. И это не всегда простые задачи, например, гены эукариотических организмов состоят из чередующихся "осмысленных" и "бессмысленных" фрагментов (экзонов и интронов), и расстояние между "осмысленными" фрагментами может достигать тысяч нуклеотидов.

    Пусть ген найден. Что он кодирует? Зачем он нужен?

    Если речь идет об участке ДНК, кодирующем белок, то с помощью весьма простой операции - трансляции с использованием известного генетического кода можно получить. аминокислотные (белковые) последовательности. Из известных на сегодня 4 273 512 белков около 94% последовательностей - это именно такие гипотетические трансляты, и больше о них ничего не известно. Скорость поступления информации с автоматических секвенаторов превышает скорость нашего понимания ее смысла! Но биологические объекты - это объекты, возникшие в процессе эволюции. Сравнительно-эволюционный подход - один из мощнейших подходов в биологии. Например, функция белка из одного организма хорошо экспериментально изучена, в другом организме нашли белок с похожей аминокислотной последовательностью. Можно предположить, что второй (неизвестный) белок выполняет ту же или схожую функцию. И здесь сразу возникает несколько вопросов. Во-первых, что значит похожая последовательность? Как сравнивать последовательности? При какой степени сходства последовательностей можно предполагать, что белки выполняют сходные функции? Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ - уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний. Можно привести много примеров того, как сравнительно-эволюционный подход в сочетании с биоинформатическими методами порождает новое биологическое знание.

    Генетические тексты - тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белком- регулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию вероятности и математическую статистику. Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

    • * Выравнивание и определение сходства двух последовательностей
    • * Построение множественных выравниваний
    • * Распознавание генов
    • * Предсказание сайтов связывания регуляторных белков
    • * Предсказание вторичной структуры РНК

    Создание новых экспериментальных технологий ставит перед биоинформатикой целый ряд новых задач. Например, развитие масс-спектрометрии позволяет (пока в принципе) в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений и механизмов также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции, за которую в 2006 году дали Нобелевскую премию по физиологии. Это открытие породило целый вал биоинформатических работ, посвященных поиску участков связывания микроРНК и новых микроРНК. Многие находки были затем подтверждены экспериментально.

    Все знают, что биоинформатика - это как-то связано с компьютерами, ДНК и белками и что это передний край науки. Более подробными сведениями может похвастаться далеко не каждый даже среди биологов. О некоторых задачах, которые решает современная биоинформатика, рассказал «Химии и жизни» Михаил Сергеевич Гельфанд (интервью записала Елена Клещенко).

    Информация в биологии

    В последние десятилетия появилось много новых научных дисциплин с модными названиями: биоинформатика, геномика, протеомика, системная биология и другие. Но по сути, биоинформатика, также как и, скажем, протеомика, - не наука, а несколько удобных технологий и набор конкретных задач, которые решают с их помощью. Можно говорить, что каждый человек, который определяет концентрации белков методом масс-спектрометрии или изучает белок-белковые взаимодействия, работает в области протеомики. Но не исключено, что со временем это деление станет не таким важным: применяемая технология будет менее существенной, чем способ думать, ставить вопросы. И в этом смысле биоинформатика как самая древняя из этих наук - ей целых 25 лет - играет роль цементирующего начала, потому что независимо от того, каким способом получены данные, все равно они потом попадают в компьютер. Иначе быть не может: размер бактериального генома - миллионы нуклеотидов, высшего животного - сотни миллионов или миллиарды. Транскриптомика, изучающая активность генов, получает данные о концентрациях десятков тысяч матричных РНК, протеомика - о сотнях тысяч пептидов и белок-белковых взаимодействиях. С таким количеством информации нельзя работать вручную. Мы еще помним, как печатали на бумаге нуклеотидные последовательности, потом вырезали напечатанные строчки, подставляли друг под друга и таким кустарным способом делали выравнивание - искали сходные участки. Это было возможно, когда речь шла о десятках-сотнях нуклеотидов или аминокислот, но при современном объеме данных нужны специальные инструменты. Набор таких инструментов и предоставляет биоинформатика - в практическом плане это прикладная наука, обслуживающая интересы биологов.

    Поскольку моя собственная работа связана в основном с анализом геномных данных, далее речь пойдет главным образом о геномике. Объемы данных еще до появления последнего поколения секвенаторов начали обгонять закон Мура: нуклеотидные последовательности геномов накапливались быстрее, чем росла мощность компьютеров. Не будет большим преувеличением сказать, что за последние годы биология начала превращаться в науку, «богатую данными». Условно говоря, в «классической» молекулярной биологии в одном эксперименте устанавливался один биологический факт: аминокислотная последовательность белка, его функция, то, как регулируется соответствующий ген. А теперь такого рода факты получаются индустриально. Молекулярная биология движется по пути, по которому уже прошли астрофизика и физика высоких энергий. Когда имеется постоянно работающий радиотелескоп или ускоритель, проблема добычи данных решена, и на первый план выступают проблемы их хранения и обработки.

    С биологией происходит то же самое, причем очень быстро, и не всегда бывает легко перестроиться. Однако те, кому это удается, оказываются в выигрыше. На нашем семинаре один биолог рассказывал, как они с коллегами изучали некий белок традиционными методами экспериментальной биологии. Это сложная задача: зная, что в клетке выполняется определенная функция, найти белок, который за нее отвечает. Они нашли этот белок, занялись его изучением и убедились, что должен существовать другой белок с подобными свойствами, поскольку наличие первого объясняет не все наблюдаемые факты. Искать второй белок на фоне первого было еще более сложно, но они справились и с этим. А затем был опубликован геном человека - и, получив доступ к его последовательности, они нашли еще дюжину таких белков...

    Из этого примера вовсе не следует, что практическая молекулярная биология себя исчерпала. Скорее она научилась пользоваться новыми инструментами: интерпретировать не только полоски в геле после электрофореза, концентрации мРНК и белков или, скажем, скорость роста бактерий, но и колоссальные массивы данных, хранящиеся в компьютере. Заметим, что элемент интерпретации неизбежно присутствует и в классической биологии. Когда исследователь утверждает, что белок А запускает транскрипцию гена В, он не наблюдает напрямую, как белок взаимодействует с регуляторной областью гена, а делает такой вывод из расположения полосок на геле и других экспериментальных данных. В биоинформатике, по сути, та же ситуация, только возведенная в абсолют: готовые данные лежат в компьютере, и среди них нужно отыскать пазлы, из которых получится собрать картинку.

    К области технической биоинформатики относится первичная обработка данных. Секвенатор не сам «читает» молекулы ДНК, а дает на выходе кривые флуоресценции, пики на которых еще нужно превратить в нуклеотидную последовательность. Эта задача решается каждый раз по-новому для нового устройства секвенирования, и решает ее биоинформатика. Кроме того, как уже говорилось, полученные данные надо где-то хранить, обеспечивать к ним удобный доступ и т. д. Все это чисто технические проблемы, но они очень важны.

    Более сложное и интересное занятие биоинформатиков - получать на основе данных о геноме конкретные утверждения: белок А обладает такой-то функцией, ген В включается в таких-то условиях, гены С, D и Е экспрессируются в одно и то же время, а продукты их образуют комплекс. Именно этим занимаемся мы, и в этом состоит практическое применение нашей науки. Для нас пользователи - другие биологи, которым мы сообщаем интересные для них факты.

    Расположение и регуляция

    Как можно из последовательности нуклеотидов делать выводы о функции белков и генов? Первое соображение кажется банальным: если белок похож на какой-нибудь другой, уже изученный, то с большой вероятностью он делает примерно то же самое. На самом деле оно не так уж банально: первым серьезным успехом в этом направлении биоинформатики было утверждение, что вирусные онкогены - это «испорченные» гены самого организма.

    Выполнить подобное сравнение сейчас уже несложно. Существуют банки данных по нуклеотидным и белковым последовательностям (подробнее о них рассказывалось в «Химии и жизни», 2001, №2). Общее представление о том, как это должно быть устроено, появилось в конце 80-х годов, и в этом смысле биоинформатика была готова к потоку геномных данных. Сегодня это стандартный интернет-сервис: вы загружаете свою последовательность в окошко, нажимаете кнопку, и через несколько секунд вам сообщают, на какие последовательности из этой базы она похожа.

    Дальше начинаются более тонкие соображения. Известно, например, что у бактерий гены часто бывают организованы в опероны, то есть транскрибируются в виде одной матричной РНК. Есть разные эволюционные теории, которые объясняют, почему так получилось, что функционально связанные гены образуют оперон. Первая теория состоит в том, что это удобно и полезно, потому и поддерживается эволюцией. Если белки имеют общую функцию, например, отвечают за разные этапы переработки одного вещества, логично, чтобы они появлялись в клетке одновременно, по одному и тому же сигналу (естественно, что при общей мРНК и регуляция одна на всех) и в равном количестве. Второе утверждение менее тривиально и более красиво. Генам, продукты которых имеют связанные функции, выгодно находиться рядом из-за горизонтального переноса. Это очень существенный механизм эволюции бактерий: участки генома одной бактерии попадают в другую, которая благодаря этому может приобрести новые полезные признаки. Понятно, что, если в новый геном переместится лишь один ген метаболического пути, то соответствующий белок будет бесполезен: субстрата для катализируемой им реакции нет, а ее продукт, в свою очередь, некому перерабатывать. Дополнительным подтверждением этой теории служит то, что у бактерий бывают геномные локусы, в которых гены из одного метаболического пути лежат на разных цепях ДНК и потому транскрибируются в разных направлениях. Здесь точно играет главную роль повышенная вероятность совместного переноса.

    Тот факт, что два гена находятся рядом в каком-то одном геноме, не очень много говорит про их функциональную связь, это может быть и случайность. Однако мы умеем отождествлять гены в разных организмах. Последовательности у них, конечно, не совпадают до нуклеотида, а могут различаться довольно значительно. Но есть некие правила, которые позволяют утверждать, что это один и тот же ген, скажем, у кишечной и у сенной палочки. Итак, если пара генов находится рядом не в одном геноме, а в пятидесяти, причем у представителей разных таксономических групп (то есть это расположение не просто унаследовано от общего предка), - это означает, что они действительно тяготеют друг к другу. Если бы эволюция не поддерживала их близкого расположения, оно не сохранилось бы. И значит, можно предположить, что они функционально связаны.

    Второе соображение похоже на первое. Не все бактерии имеют одинаковый набор генов: к примеру, если ген кодирует фермент, нужный для переработки какого-то углевода, то его не будет у бактерии, которая этим углеводом не питается. Зато у бактерии, которая питается именно этим углеводом, будет весь необходимый набор: и ферменты, и белок-транспортер, переносящий углевод внутрь клетки. Функционально связанные гены присутствуют в геноме по принципу «все или ничего»: как уже говорилось, бессмысленно иметь лишь фрагмент метаболического пути, а бактерии - существа экономные, то, что не приносит пользы, из их генома быстро исчезает. Поэтому если сделать таблицу, где по строкам расположить различные гены, а по столбцам - разные геномы, и отметить плюсами и минусами гены, присутствующие или отсутствующие в данном геноме, мы увидим группы генов, обслуживающих одну и ту же функцию. И неизвестный ген с тем же набором плюсов и минусов, что у некой группы, скорее всего, можно приписать к ней же.

    Третье соображение связано с регуляцией активности генов. Рядом с геном обычно присутствуют участки, с которыми взаимодействуют определенные белки - они могут запускать транскрипцию, блокировать ее, управлять ее интенсивностью, иначе говоря, от них зависит активность гена в каждый момент времени. Некоторые регуляторные участки очень хорошо опознаются по характерным последовательностям «букв», но это бывает редко. Например, участки связывания факторов транскрипции мы распознаем в геномах с невысокой точностью и вместе с правильными сайтами нагребаем кучу «мусора» - похожие коротенькие участки, которые на самом деле не имеют отношения к регуляции генов. Но поскольку совместно регулируются те гены, которые совместно работают, настоящие сайты связывания находятся перед одними и теми же генами в десятке геномов, а случайные - раскиданы там и сям, и никакой закономерности в их расположении не прослеживается. Получается мощный фильтр, позволяющий отсеять «мусор». И если перед геном с неизвестной функцией устойчиво обнаруживается знакомый сайт, будет ясно, что этот ген регулируется в составе функциональной подсистемы, которая регулируется тем же регулятором и обеспечивает ту же функцию.

    Мне интереснее всего изучать эволюцию регуляторных систем, но побочным продуктом при этом бывает множество функциональных предсказаний. Исследование развивается как детектив: каждое соображение по отдельности очень мелкое, но если «улик» много и они все попадают в одну точку, то можно делать уверенные утверждения. Был случай, когда мы подробно описали регуляторную систему - фактор транскрипции, сайты его связывания, то, что это будет репрессор, а не активатор, то, что связывание будет требовать кооперативного взаимодействия двух димеров, - просто глядя на буковки генома. Впоследствии все это вплоть до деталей оказалось правильным.

    Рибосома как депо цинка

    В одной из таких работ центральную роль сыграла Екатерина Панина, на тот момент студентка мехмата МГУ (потом она поступила в аспирантуру Калифорнийского университета Лос-Анджелеса и стала настоящим биологом-экспериментатором). Она пришла к нам на третьем курсе и сказала, что хочет заниматься такой биологией. К окончанию мехмата у нее было опубликовано несколько статьей в серьезных журналах.

    Бактериальной клетке нужны ионы цинка: они, например, входят в состав некоторых ферментов как кофакторы. Соответственно есть и молекулярная машинерия, которая обслуживает все процессы, связанные с цинком. Мы изучали цинковый репрессор (в больших количествах цинк ядовит для клетки, поэтому выключать его транспорт при достаточных концентрациях не менее важно, чем уметь добывать его из окружающей среды), используя идеологию, о которой рассказывалось в предыдущей главке. Если перед геном имеется потенциальный сайт цинкового репрессора, то этот ген, возможно, относится к метаболизму цинка. Именно таким образом мы в свое время «вычислили» цинковый транспортер - трансмембранный белок, который обеспечивает проникновение цинка внутрь клетки.

    Так вот, в 2002 году Катя обратила внимание, что потенциальные сайты цинкового репрессора почему-то часто попадаются перед генами рибосомных белков. Она поделилась этим наблюдением с научным руководителем, и я сказал, что, поскольку в геноме больше сотни генов рибосомных белков, а сайты встречались перед разными генами, это случайность. Но Катя в случайность не поверила и нашла статью Евгения Кунина (о его модели происхождения клетки см. в статье М. А. Шкроб в августовском номере), которая была опубликована незадолго до этого. Там было показано, что некоторые рибосомные белки содержат мотив связывания цинка - так называемую цинковую ленту, три или четыре цистеина на правильном расстоянии друг относительно друга и в правильном контексте. Важное наблюдение Кунина с коллегами состояло в том, что один и тот же белок в некоторых организмах имеет эти цинковые мотивы, в других - не имеет, но, судя по всему, нормально функционирует и без цинка. А у некоторых бактерий один и тот же белок имеется в двух вариантах, с цинковой лентой и без нее.

    И вот Катя заметила, что в последнем случае, когда есть два варианта белка в одном геноме, тот, который без цинковой ленты, репрессируется цинковым репрессором. Иначе говоря, в присутствии цинка экспрессируется вариант белка, которому цинк нужен, а в отсутствие цинка - тот, которому он не нужен.

    Основа существования любой клетки - тяжелая промышленность, производство средств производства, точно так, как нас учили на лекциях по политэкономии социализма. Около 70% белка клетки - это белки рибосом, то есть органелл, которые нужны, чтобы делать другие белки. С другой стороны, цинк - кофактор ферментов, жизненно важных для клетки, таких, например, как ДНК-полимераза. Если цинка становится мало, его полностью забирают себе рибосомные белки, ферментам ничего не остается, и клетка погибает. Но у клетки есть резервная копия рибосомного белка, которому цинк не нужен. Мы предположили, что клетка включает синтез таких белков в условиях дефицита цинка и они встраиваются в часть рибосом на место цинксодержащих белков. При этом какое-то количество цинка высвобождается. Может быть, рибосомы после этого работают чуть менее эффективно, может быть, и вообще не работают - но ради того, чтобы цинка хватило жизненно важным ферментам, которые представлены существенно меньшим числом копий, стоит пожертвовать небольшой долей рибосом.

    Мы написали статью, но в течение года ни один уважаемый журнал не принял к публикации безумную теорию о рибосомах как депо цинка. Однако мне Катина находка казалась очень красивой, и я единственный раз в жизни воспользовался тем, что мой дед, как член Академии наук США, имеет право представлять статьи для публикации в «Proceedings of the National Academy of Sciences of the USA ». Он послал статью на рецензию Кунину, который дал положительный отзыв (и, кажется, кому-то еще). Статья вышла в PNAS, и, как вскоре выяснилось, очень вовремя: через полгода появилась статья японских биологов, которые экспериментально показали то же самое. Можно догадаться, что они над этим работали давно, и, вероятно, им было немного обидно, что компьютерное предсказание предвосхитило их результаты.

    Заметим, что вся эта история построена на очень мелких частных наблюдениях (есть в белке цистеины - нет цистеинов, есть потенциальный сайт репрессора - нет сайта...). Но в совокупности эти мелочи позволили сделать нетривиальное заключение, оказавшееся абсолютно верным. Вообще, когда мы публикуем статьи, то стараемся как можно более четко сказать, какое из наших предсказаний считаем надежным, а какое может оказаться неправильным. Так вот, среди тех, в которых мы были уверены, неправильных пока не оказалось ни одного (проверены уже десятки), а вот среди слабых проколы действительно были, хотя тоже не часто.

    Отвертка со съемным жалом

    Не менее красивыми были работы с белками-транспортерами (я в них участвовал только на ранних стадиях, поэтому имею полное право их хвалить, не становясь хвастуном). Транспортеры - золотое дно для биоинформатиков, поскольку опознать транспортер, в особенности бактериальный, достаточно легко. У них есть несколько гидрофобных спиралей, проходящих через мембрану: между ними находится канал, сквозь который ион или молекула, нужные для жизни клетки, проникают внутрь. Трансмембранные сегменты можно найти в белковой последовательности с помощью специальных программ. И если в неизвестном бактериальном белке пять или шесть таких сегментов, это почти наверняка транспортер (потому что другие трансмембранные белки, например участники дыхательной цепи или родопсин, хорошо известны). Остается установить, что за вещество он переносит.

    Изучать специфичность транспортеров в эксперименте - удовольствие ниже среднего. С ферментами гораздо проще, это практически рутинная задача, которую можно доверить роботу. Вы гиперэкспрессируете фермент (то есть заставляете синтезироваться в больших количествах), а потом предлагаете ему пять сотен разных субстратов и смотрите, с каким из них пойдет реакция.

    Транспортер, конечно, тоже можно гиперэкспрессировать. Но чтобы он заработал, он должен сразу встроиться в мембрану, иначе гидрофобные сегменты «налипнут» друг на друга, белок образует нефункциональные агрегаты. Поэтому приходится делать множество мембранных пузырьков-везикул, встраивать в них белки в правильной ориентации, а потом смотреть, попадает ли искомое вещество внутрь везикул. Вдобавок транспортеры бывают разные. Одни закачивают в клетку полезные вещества против градиента концентрации и затрачивают на это энергию молекулы АТФ, которую расщепляет специальный белок - АТФаза. Другие осуществляют вторичный транспорт - впуская «нужную» молекулу, одновременно выпускают по градиенту концентрации ион водорода, калия или натрия. Если транспортер АТФ-зависимый, то, чтобы он заработал, необходимо собирать конструкцию из нескольких белков, в том числе АТФазы. А если это вторичный транспорт, то нужно еще угадать, концентрацию какого иона надо увеличить внутри шарика. Отсюда ясно, что биохимия транспортеров - наука для сильных духом и экспериментальных данных по ним мало.

    С другой стороны, определять специфичность транспортеров биоинформационными методами существенно проще. Достаточно прибегнуть к уже знакомой логике: например, если синтез этого белка регулируется цинковым репрессором, это, скорее всего, и будет цинковый транспортер, а если его ген находится в одном локусе с генами катаболизма рибозы, он, очевидно, переносит внутрь клетки рибозу... Именно таким образом мы в свое время нашли рибофлавиновый транспортер: имеется белок с неизвестной функцией, у него шесть потенциальных трансмембранных сегментов, регулируется совместно с генами рибофлавинового пути - значит, это транспортер либо рибофлавина, либо его предшественника. Но поскольку в некоторых геномах присутствовали и этот транспортер, и рибофлавин-зависимые белки, но не было пути синтеза рибофлавина из предшественников, значит, это мог быть транспортер только рибофлавина.

    Проверять экспериментально конкретное предсказание существенно проще, чем начинать с нуля. Я всегда объясняю студентам, что биоинформатик - существо совершенно беззащитное, наподобие того персонажа приключенческого романа, который знает, где лежит клад. Пока он молчит, все его берегут и за ним ухаживают, но, когда он проговорится, он уже не нужен. Как только биоинформатик сказал «этот белок обладает такой-то функцией» - исключительно от порядочности экспериментаторов зависит, возьмут ли они его в соавторы после того, как проверят это утверждение. А утверждения, как читатель уже убедился, предельно простые и конкретные, достаточно один раз произнести их вслух.

    С таких же простых умозаключений начиналась история более сложная, но и более интересная. Мы изучали регуляцию пути биосинтеза биотина (биотин - витамин Н, или В7, кофактор многих важных ферментов). Биотиновый транспортер был в это время не известен. У нас по ходу работы обнаружился транспортный белок, который регулируется, а иногда и локализуется вместе с генами биотинового пути. Дальше все как с рибофлавином: нашлись организмы, где биотинового пути нет, но есть белки, которые зависят него как от кофактора, и есть тот самый потенциальный транспортер - следовательно, это транспортер биотина.

    Как уже было сказано, транспортеры бывают АТФ-зависимые и осуществляющие вторичный транспорт. Биотиновый транспортер был одиноким, никакого гена АТФазы поблизости не просматривалось, а значит, это был вторичный транспортер. Но затем мы увидели, что в некоторых геномах рядом с биотиновым транспортером попадаются какие-то АТФазы. Что это означает, на том этапе было непонятно, и потому мы просто упомянули про это в статье одной фразой.

    Примерно тогда же мы изучали регуляцию кобаламинового пути. Кобаламин, или витамин В12, -также кофактор важных ферментов, очень крупная молекула с метаболическим путем соответственной сложности. Для этой истории существенно, что в центре молекулы кобаламина есть ион кобальта, который приносят в клетку опять же транспортеры. Таких транспортеров мы нашли немало, опубликовали о них статью - и в скором времени получили письмо от Томаса Эйтингера из Института микробиологии Гумбольдтовского университета (Берлин). Он призывал нас обратить внимание на то, что любой кобальтовый транспортер также может транспортировать никель, и наоборот, потому что специфичность у них слабая. Мы ответили, что рассматриваем транспортеры с точки зрения их функциональной роли в клетке, и если ген белка находится в одном опероне с большим набором генов кобаламинового синтеза - безусловно, белок нужен клетке как транспортер кобальта, хотя in vitro его и можно заставить переносить никель. А если мы видим ген транспортера в одном опероне с никель-зависимой уреазой, то это, безусловно, никелевый транспортер.

    Намечались перспективы совместной работы, и Дмитрий Родионов, который делал эту работу, подал вместе с немецкими коллегами заявку на небольшой совместный грант и поехал на три месяца в Берлин. (Дмитрий закончил МИФИ, после чего занимался у нас геномикой; потом работал в США, а сейчас выиграл грант академической программы «Молекулярная и клеточная биология» на создание новой группы и возвращается в Москву.)

    К этому времени мы с ними начали делать (по электронной почте) большой проект по сравнительной геномике транспортеров никеля и кобальта, где классифицировали их, во-первых, по регуляции, а во-вторых, по локализации, совместной с кобальтовыми или никелевыми функциональными белками. Так вот, в одном из этих никелево-кобальтовых семейств наблюдались некоторые странности. С одной стороны, АТФазы и трансмембранные белки, образующие канал для иона, как положено, располагались рядом и регулировались совместно. С другой стороны, в том же опероне мог находиться еще один трансмембранный белок. Причем эти «посторонние» белки в кобальтовых и никелевых транспортных системах отличались довольно сильно, не были гомологичными в отличие от АТФаз и трансмембранников. И вдобавок АТФаза и трансмембранный белок оказались гомологичными тем самым «лишним» биотиновым белкам, которые то попадались, то нет в предыдущем исследовании.

    До сих пор не знаю, каким способом Дима уговорил немецких коллег на следующий безумный эксперимент. «Классическим» биохимикам, которые всю жизнь изучают транспорт кобальта и никеля у бактерий, он предложил: давайте у транспортера отключим АТФазу и трансмембранный белок, гомологичные биотиновым, оставим один только уникальный компонент. Ведь биотиновому транспортеру АТФаза и «основной» трансмембранник не очень нужны, они то есть, то их нет, - может быть, они и никелевому транспортеру не нужны, одинокий негомологичный трансмембранник и сам справится? Неизвестно, почему добропорядочные немецкие биохимики решились на это странное деяние: лишить вроде бы обычный АТФ-зависимый транспортер АТФазы и посмотреть, что будет. Так или иначе, Дима оказался прав. Одинокий трансмембранник работал как кобальтовый транспортер - менее эффективно, но работал. Это был первый пример двойной системы, которая, если есть АТФаза, работает какАТФ-зависимая, а если ее нет, работает как ион-зависимая.

    Позднее берлинские коллеги то же самое сделали с биотином: взяли бактерию, у которой биотиновый транспортер имеет АТФазу и трансмембранник, отключили их гены - и показали, что этот белок в одиночестве тоже работает как биотиновый транспортер, хотя и с меньшей мощностью, чем в присутствии АТФазы.

    Дмитрий Родионов в это время уже работал постдоком в лаборатории Андрея Остермана в Институте медицинских исследований Бэрнема в Ла-Хойе. Остерман - замечательный человек, биохимик, который понял эффективность биоинформатических методов, научился ими пользоваться и нашел с их помощью множество новых ферментов. И вот, когда Дмитрий попал в круг биохимиков и начал с ними общаться, оказалось, что подобных транспортеров, переносящих разные субстраты - кофакторы, аминокислоты, ионы, - существует несколько десятков. (Кстати, таким же оказался и рибофлавиновый транспортер.) Разные исследовательские группы независимо друг от друга изучали эти транспортеры, не имея представления о том, что они принадлежат к одному семейству.

    Стало понятным и то, как возможна подобная организация. Кобальтовые и никелевые транспортеры отдельно от своей АТФазы не встречаются (если ее не убрать экспериментально). Но есть и другой класс бактериальных транспортеров, которые используют одну и ту же АТФазу - как отвертку со съемным жалом. Универсальные АТФаза и трансмембранный белок в этом случае могут кодироваться вместе с рибосомными белками, то есть экспрессируются постоянно и в больших количествах. А те белки, которые обеспечивают транспортерам специфичность, раскиданы там и сям в соответствующих оперонах. А в отсутствие АТФазы такой белок худо-бедно работает как вторичный транспортер, и поэтому в геномах некоторых организмов мы видим только его.

    Биоинформатика и теория эволюции

    Однако эти «прикладные» открытия - дело очень важное и полезное, но для нас, биоинформатиков, не главное. А главное, что принесла нам индустриальная революция в биологии, - появилась возможность на другом уровне обсуждать эволюцию. Даже банальные утверждения, скажем, о процентном сходстве геномов человека и шимпанзе нетактривиальны, как могут показаться. Молекулярная эволюция поучительна тем, что на ней замечательно выполняются дарвинистские представления о природе вещей.

    Данные, полученные молекулярными биологами, теперь оказывают серьезное влияние на таксономию - классификацию растений и животных. Поначалу ботаники и зоологи скептически относились к молекулярным генеалогическим деревьям, показывающим степень родства между видами на основе сравнения нуклеотидных последовательностей, но надо признать, что и первые молекулярные деревья были не слишком удачными. Сейчас прямо на глазах происходит конвергенция - классическая и молекулярная таксономии движутся навстречу друг другу. Уже понятно, что молекулярные деревья, если они построены с соблюдением определенных правил, достаточно близки к реальности и вполне могут стать поводом для пересмотра ортодоксальных таксономических представлений, основанных на морфологии - сравнении внешних черт организмов. И, как ни странно, оказывается, что у видов, которых будто бы насильно помещают вместе исходя из сходства их генов, действительно отыскиваются общие признаки. Получается, что хорошее молекулярное дерево не противоречит морфологической конструкции, просто другие признаки оказываются ведущими.

    Что касается бактерий, то в эпоху классической биологии их классифицировали по форме клеток и по метаболическим свойствам: какие сахара они могут утилизировать, какие аминокислоты и кофакторы могут синтезировать сами, а в каких нуждаются как в составной части внешней среды и т. п. Эта таксономия была очень слабой, поскольку у бактерий по сравнению с высшими организмами очень мало морфологических и функциональных признаков. Сегодня таксономия бактерий, по-видимому, полностью основывается на молекулярных данных. В массовом порядке пересматриваются видовые названия. Но самым впечатляющим достижением в этой области была, конечно, работа Карла Вёзе, который в 1977 году на основании молекулярной таксономии постулировал существование архебактерий (сейчас их называют археями) - третьего домена жизни, отличного от эукариот и «настоящих» бактерий.

    Нельзя сказать, что все проблемы систематики бактерий отныне решены. В значительной мере оказалось разрушенным представление о том, что такое бактериальный вид. Обнаружилось, например, что у двух штаммов кишечной палочки - представителей одного вида - до трети генов могут быть уникальными, то есть присутствовать в одном штамме и отсутствовать в другом. Много неожиданного и интересного уже известно о бактериальной эволюции. В частности, оказалось, что горизонтальный перенос - обмен генетическим материалом - может происходить между таксономически далекими существами. Например, Metanosarcina - типичная архея, но треть ее генов имеют бактериальное происхождение, и эти гены обслуживают практически весь ее метаболизм, в то время как механизмы транскрипции, трансляции, репликация, устройство мембраны у метаносарцины характерны для архей. По этому примеру можно судить о том, насколько увлекательно сейчас заниматься эволюцией бактерий.

    На мой взгляд, самое интересное - это эволюция регуляторных систем. Мы достаточно много знаем про эти системы у бактерий и можем представить, как меняются регуляторные системы, как локальный регулятор вдруг начинает управлять десятками генов или меняет специфичность, как перестраиваются регуляторные каскады. И это может быть очень важно с фундаментальной точки зрения, потому что здесь можно пойти гораздо дальше. Отличие человека от шимпанзе или даже от мыши едва ли обусловлено набором генов: они у млекопитающих практически одни и те же, если сравнивать по набору функций. Причина скорее в регуляции: какие гены, когда и в каких тканях активны.

    Скорее всего, «скачки» эволюции, любые резкие изменения морфологических признаков обеспечиваются как раз на уровне регуляции. Мы уже знаем такие примеры у бактерий, дрожжей и других относительно простых организмов. У большинства бактерий имеется один железный репрессор, который реагирует на присутствие ионов железа и регулирует множество генов: белки, обеспечивающие запасание и транспорт железа, железозависимые ферменты. А у других бактерий есть три разных репрессора, которые эти функциональные группы поделили: одни регулируют запасание железа, другие транспорт и синтез, третьи - ферменты. Это на самом деле радикальное изменение, был один ответ на железо, а получилось три разных.

    Есть замечательные экспериментальные работы, выполненные на многоклеточных. Почему морской еж единственный среди иглокожих имеет твердый скелет? Ответ предложил Эрик Дэвидсон из Калифорнийского технологического института. Он изучил регуляторный каскад, который отвечает за развитие этого скелета, а потом нашел этот каскад у морской звезды, только у нее он включается существенно позднее, поэтому развиваются лишь основания иголочек, не соединенные между собой. У ежа тот же каскад включается на какое-то количество клеточных делений раньше, соответственно захватывает большее число клеток, и развивается сплошной скелет. Таким образом, чисто регуляторное изменение дает абсолютно новый признак.

    У меня есть надежда, что сравнительный анализ регуляции даст ответы на вопрос, который беспокоит палеонтологов и морфологов на нынешнем этапе развития синтетической теории эволюции: каким образом накопление мелких изменений дает радикально новые признаки? Похоже, что это можно объяснить перенастройкой регуляции. Мы уже умеем это делать на простых организмах, но рано или поздно очередь дойдет и до более сложных. И когда это случится, произойдет третий большой прорыв в этом направлении, если первым считать дарвиновский естественный отбор, а вторым - соединение эволюционной биологии с генетикой.

    Биологическая информатика) представляет собой совокупность методов и подходов, включающих в себя: математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика); разработку алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика), исследование стратегий и создание вычислительных методологий управления биологическими системами.

    В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях фундаментальной науки. Эта наука появилась в 1970 г., когда, опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, Полина Хогевег ввела этот термин, определив его как изучение информационных процессов в биотических системах.

    В качестве примеров биологических информационных процессов, изучавшихся в первые годы существования биоинформатики, можно привести сложные структуры социального взаимодействия по простым поведенческим правилам, а также хранение и техническое обслуживание информации в моделях биогенеза и абиогенеза.

    В начале геномной революции термин «биоинформатика» был открыт заново, и обозначал создание и техническое обслуживания базы данных для хранения биологической информации, такой как последовательности нуклеотидов. Создание таких баз данных включало в себя создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые.

    Главная цель биоинформатики – способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов, алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей, нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка, предсказания экспрессии генов и взаимодействий «белок–белок», полногеномного поиска ассоциаций и моделирования процессов эволюции. Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов
    и теории для решения многих практических и теоретических проблем, возникающих при управлении биологическими процессами и анализе биологических данных. Таким образом, современная генетика, эволюционная биология, вычислительная биология и другие информационно-ёмкие отрасли фундаментальной биологии нуждаются в методах информатизации и компьютеризации, алгоритмизации и программирования, информационных технологиях, без которых немыслима сама обработка данных.

    Анализ генетических последовательностей. C тех пор как в 1977 году был расшифрован (секвенирован) фаг Phi–X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков.

    Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом, могут быть составлены филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска, по геномам, тысяч организмов, состоящих из миллиардов пар нуклеотидов, используются компьютерные программы. Программы могут однозначно сопоставить похожие последовательности ДНК в геномах разных видов; часто такие последовательности имеют сходные функции, а различия возникают в результате мелких мутаций, таких, как замены отдельных нуклеотидов, вставки нуклеотидов, и их выпадения (удаления). Один из вариантов такого выравнивания применяется при самом процессе секвенирования.

    Техника дробного секвенирования была использована Институтом генетических исследований для расшифровки (секвенирования) первого бактериального генома вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600–800 нуклеотидов). Концы фрагментов накладываются друг на друга и совмещаются, что даёт полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть очень сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодня.

    Другим примером компьютерного анализа генетических последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. В геномах высших организмов большие сегменты ДНК не кодируют белки, и их функциональная роль неизвестна. Разработка алгоритмов выявления участков генома, кодирующих белки, является важной задачей современной биоинформатики.

    Биоинформатика помогает связать геномные и протеомные проекты, помогая идентифицировать белки в последовательности ДНК.

    Аннотация геномов. В контексте геномики аннотацией называется процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 г. Оуэном Уайтом, работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии. Доктор Уайт построил систему для нахождения генов, РНК и других объектов ДНК, и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, и эти программы постоянно развиваются и улучшаются.

    Вычислительная эволюционная биология. Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Биологическая информатика помогает эволюционным биологам и генетикам в нескольких аспектах:

    Изучать эволюцию всего многообразия организмов, обитающих на Земле, измеряя в них изменения ДНК;

    Сравнивать целые геномы, что позволяет изучать комплексные эволюционные события, происходящие в биологической истории Земли: дупликацию генов, латеральный перенос генов, бактериальные факторы;

    Строить компьютерные модели биологических популяций для изучения развития биосистемы во времени;

    Отслеживать публикации по эволюции большого количества видов.

    Область компьютерных наук, использующая генетические алгоритмы для решения биологических задач, также связана с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений. Принцип исследований основывается на эволюционных методах и принципах, таких, как репликация, диверсификация, рекомбинация, мутация, выживание в естественном отборе.

    Оценка биологического разнообразия. Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля.

    Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации. Компьютерные симуляторы моделируют популяционную динамику, вычисляют общее генетическое здоровье биологической культуры в агрономии.

    Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью исчезнут.

    Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия – таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

    Биоинформатика и вычислительная биология. Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. Под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. Термины биоинформатика и вычислительная биология указывают на разработку алгоритмов и конкретные вычислительные методы. Использование вычислительных методов в биологии связано также с математическим моделированием биологических процессов.

    Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии пересекаются с системной биологией. Основные усилия исследователей направлены на изучение геномов, анализ и предсказание структуры белков, взаимодействий молекул белка друг с другом и другими молекулами, что необходимо для реконструкции эволюционных процессов.