Меню Рубрики

Что такое геном с точки зрения биоинформатика

Что это такое?

Информатика – отрасль науки, изучающая структуру и общие свойства информации, а также вопросы, связанные с ее сбором, хранением, поиском, переработкой, преобразованием, распространением и использованием в различных сферах деятельности. Биоинформатикой же называют информатику в применении к молекулярной биологии.

Все знают, что прочитан геном человека. Что такое геном с точки зрения информатики? Это длинный текст, содержащий около 3 млрд букв (нуклеотидов A, T, G, C). И все. Одной из проблем биоинформатики является установление смысла этого текста.

Разумеется, кроме самой последовательности ДНК есть много дополнительной экспериментальной информации.

Далеко не все гены человека известны, о функциях многих генов нет данных. Задача биоинформатики заключается в том, чтобы найти ранее неизвестные гены и описать их предположительную функцию. Как ищутся гены? Это трудная задача. Здесь на помощь приходит математика. В гигантском массиве информации с помощью современных математических методов ищутся скрытые закономерности, которые и позволяют находить гены и предсказывать их свойства.

Говоря о геноме, обычно проводят аналогию с расшифровкой древних рукописей, когда текст известен, а язык — нет. Эта задача неразрешима до тех пор, пока у нас нет никаких представлений о содержании текста. Однако, если мы хотя бы примерно представляем, о чем этот текст, то появляется надежда на его осмысление. В биоинформатике ситуация лучше, чем при расшифровке древних письмен, поскольку ее предсказания могут быть проверены экспериментально.

Гены кодируют белки, поэтому предсказание функции гена — это то же самое, что предсказание функции белка. Для многих белков функции известны из эксперимента. Используя эти данные, метод аналогий и другие методы современной математики, иногда удается предсказать функции других белков.

Сейчас в современных лабораториях часто используют технику массовых экспериментов, когда в одном опыте получают информацию о тысячах генов. Разобраться в этом море информации можно только с помощью компьютера. Проект «Геном человека» — типичный пример такого подхода. Другой пример. Если определить активность всех генов в здоровой и раковой клетке, то после анализа данных можно узнать, какие гены отвечают за перерождение здоровой клетки в раковую. Все было бы просто, если бы такие экспериментальные данные не содержали в себе очень много шума, т.е. ошибок.

Гены — это последовательности ДНК, белки — это аминокислотные последовательности. Функциональность белков определяется их пространственной формой. При этом белки, имеющие разные аминокислотные последовательности, могут иметь очень похожую пространственную структуру. Одной из классических (и до сих пор не решенных) задач биоинформатики является предсказание пространственной структуры белка по последовательности аминокислот. Уже более 5 лет существуют международные соревнования методов предсказания пространственной структуры белка по его последовательности.

Почему это интересно?

Анализ геномов приносит множество новой информации. В настоящее время расшифровано более 200 геномов различных бактерий, каждый из которых содержит несколько тысяч генов. Для того чтобы охарактеризовать один ген, требуется несколько месяцев напряженной работы экспериментаторов. С другой стороны, для того чтобы достаточно подробно описать один бактериальный геном средствами биоинформатики, достаточно примерно месяца работы небольшой группы исследователей.

В геноме человека около 35 тыс. генов (всего в 10 раз больше, чем у бактерии, и в 2 раза больше, чем у плодовой мушки), а количество синтезируемых белков гораздо больше. В чем же дело? Оказывается, что очень часто один ген кодирует несколько разных форм белка. За это отвечает явление, названное альтернативным сплайсингом. Биоинформатика впервые показала, что количество генов, имеющих альтернативный сплайсинг, очень велико. Осталось загадкой, как все это регулируется.

В клетке не все гены должны работать одновременно. Для того чтобы гены работали, как слаженный оркестр, необходимо, чтобы гены включались только тогда, когда их работа необходима. Этим заведует система регуляции генов, анализ которой позволил обнаружить принципиально новые способы регуляции – рибопереключатели.

Еще одно направление — исследование эволюции всего живого. Здесь тоже есть много открытий, например горизонтальный перенос генов между видами. Биоинформатика в некоторых случаях позволяет не только показать эти случаи, но также и датировать их.

Зачем это нужно?

Биология и биоинформатика являются не только способами познания мира, но имеют и прикладное значение, прежде всего в медицине и биотехнологии.

Биоинформатика играет существенную роль в поиске новых лекарственных препаратов и мишеней для них, а также в отбраковке неперспективных лекарств. Приведу пример.

Все вы слышали про мыло Safeguard, которое убивает микробы. Оказалось, что есть весьма опасные стрептококки, не чувствительные к его действующему началу — триклозану. Сначала это было показано с помощью компьютерного анализа геномов стрептококков, а потом подтверждено экспериментально.

Еще пример — анализ генетических данных людей здоровых и с каким-либо заболеванием, например ишемической болезнью сердца. Нет одного гена, ответственного за эту болезнь. Однако сопоставление данных по большому количеству больных позволило найти так называемые ассоциации — набор генов предрасположенности к указанной болезни, и тем самым дает возможность определить генетическую группу риска.

Биоинформатика широко используется в биотехнологии, задачу которой в общем виде можно сформулировать как получение как можно большего количества целевого продукта из 1 г, например, сахара. Для этого надо детально изучить пути биосинтеза, исследовать систему регуляции, найти в других организмах более эффективные ферменты. Здесь тоже всю подготовительную работу может взять на себя биоинформатика.

Важность этого направления науки можно показать и косвенно. Достаточно сказать, что в мире есть несколько крупных научных биоинформатических центров, есть коммерческие компании, предоставляющие биоинформатические услуги. Любая крупная или средняя фармацевтическая или биотехнологическая компания имеет отдел биоинформатики. Сейчас многие университеты готовят специалистов в этой области. В нашей стране возрождается фармацевтическая и биотехнологическая промышленность, которой в скором времени потребуются специалисты. Академическая наука также нуждается в грамотных биоинформатиках.

Что надо знать и уметь?

Грамотный биоинформатик должен иметь разностороннее образование. Он должен хорошо знать биологию. Кроме того, он должен владеть многими методами математики: статистикой, теорией вероятностей, вычислительной математикой, теорией алгоритмов. Надо знать физику и химию — чтобы не делать глупостей. Необходимо знать английский язык — чтобы читать научную литературу. Надо постоянно интересоваться новыми результатами как в биоинформатике, так и в биологии в целом.

В общем, надо быть культурным человеком и постоянно стремиться узнавать что-нибудь новое.

Биоинформатика: введение

Биоинформатика (bioinformatics) — быстро развивающаяся отрасль информатики (теории информации) , занимающаяся теоретическими вопросами хранения и передачи информации в биологических системах.

Основными разделами биоинформатики являются компьютерная геномика , решающая проблемы расшифровки генетических «текстов», хранящихся в последовательностях нуклеотидов ДНК (РНК), и метабономика , исследующая организацию метаболизма клетки и его управления со стороны генома. Важное значение для развития основных разделов биоинформатики имеет создание компьютерных баз данных по молекулярной биологии, обеспечивающих геномику и метабономику необходимыми для их развития экспериментальными данными в достаточном количестве и удобной для использования форме.

К биоинформатике часто относят также информационные службы, обеспечивающую накопление, хранение и использование приобретаемых наукой знаний о биологических системах.

Целью биоинформатики является, таким образом, как накопление биологических знаний в форме, обеспечивающей их наиболее эффективное использование, так и построение и анализ математических моделей биологических систем и их элементов.

Информация о строении материальных элементов, обеспечивающих функционирование организма хранится в последовательности нуклеотидов ДНК (или РНК), образующей его геном.

Установление нуклеотидных последовательностей ДНК геномов организмов (секвенирование) стало к началу 21 века хорошо освоенной и, видимо, достаточно рентабельной технологией. Количество секвенированных геномов быстро увеличивается и определяется, в основном, только объемом средств, которые можно затратить на эти цели.

В биоинформатике существует специальный раздел, называемый геномикой , предметом которого является моделирование и исследование способов хранения информации о строении основных материальных элементов биологических систем, закодированной в последовательностях ДНК и РНК. Основные усилия ученых всего мира, работающих в области геномики сосредоточены сейчас на том, чтобы выработать эффективные приемы компьютерного анализа генетических «текстов», представляющих собой последовательности нуклеотидов генома клетки. Под анализом (расшифровкой) генетического текста имеется в виду в первую очередь установление возможных функций различных участков последовательности ДНК, т.е. обнаружение генов, их регуляторных и белок-кодирующих участков, и участков обеспечивающих регуляцию и координацию активности генов.

Наиболее остро сейчас стоит вопрос об идентификации (аннотации) последовательностей нуклеотидов, образующих гены человека, т.к. в соответствии с Международным проектом Геном человека планируется, что геном человека будет полностью секвенирован и доступен для анализа в ближайшие 1-2 года.

Надо сказать, что выделение на нуклеотидной последовательности ДНК участков с заданными функциями задача очень не простая, т.к. они весьма неоднородны по своей природе (что вероятно связано со сложностью механизмов регуляции) и маскируются мутационным шумом.

В настоящее время точность определения генов на нуклеотидной последовательности компьютерными методами, вероятно, не превышает 70%.

Чрезвычайно важным, но на сегодня еще очень мало разработанным предметом биоинформационных исследований является обмен веществ в клетке, метаболизм. Соответствующий раздел биоинформатики, содержанием которого является моделирование метаболизма и исследование совместного функционирования материальных элементов биологической системы, можно было бы назвать метабономикой (по аналогии с геномикой). Задачами метабономики является выявление и моделирование динамической структуры метаболизма, обеспечивающей поддержание гомеостаза в клетке за счет регуляторных свойств уже существующих в клетке ферментов и функционирования генома, поддерживающего существование этой структуры.

С точки зрения биоинформатики клетку можно рассматривать как сложную систему имеющую множество чувствительных устройств для восприятия внешних сигналов, внутренние коммутирующие устройства, сортирующие и трансформирующие внешние сигналы, и исполнительные механизмы, определяющие конечную реакцию клетки на сигналы. Совокупность внешних сигналов (локальная концентрация различных факторов) определяет переход клетки в одно из квазистационарных состояний, которых может быть, по-видимому, несколько десятков в зависимости от типа клетки. Например, клетка может под воздействием пролиферативных сигналов выйти из состояния относительного покоя и перейти к началу деления, под влиянием других факторов перейти к фазе окончания деления, под воздействием третьих факторов перейти в состояние покоя или наоборот снова вступить в фазу деления.

При этом переход в одно и то же состояние клетки может быть вызван множеством различных комбинаций факторов, влияющих на клетку. Клетка сама воздействует на соседние клетки, формируя вокруг с себя локальное «поле» путем выделения своих специфических факторов. Наложение этих » полей» соседних клеток может вызвать результирующую реакцию ткани на внешний стимул. Например, такой реакцией является распространение «кальциевой волны» от клетки к клетке и такие явления, как периодические волнообразные сокращения сосудов или кишечника. В результате воздействий на клетку в конечном счете в ней активируются или репрессируются определенные наборы генов. При этом ясно, что работа каждого гена регулируется множеством факторов. Однако также ясно, что общее число элементарных регулирующих факторов (т.е. кодируемых одним геном) должно быть существенно меньше общего числа генов.

Таким образом, малое число элементарных факторов (по сравнению с общим числом генов) должно обеспечивать регуляцию большого числа генов. Это заставляет думать, что наблюдаемое множество регулирующих факторов образуется за счет разнообразных комбинаций сравнительно небольшого числа элементарных факторов. Это напоминает телефонную связь. Набирая ту или другую комбинацию из небольшого числа кнопок на телефонном аппарате, можно связаться с большим числом различных абонентов.

Читайте также:  Книги гп с точки зрения драко малфоя

Примером клеточного регуляторного механизма, построенного на использовании коммутационного принципа, можно считать работу транскрипционных факторов, регулирующих экспрессию генов. Известно, что их сложное влияние на считывание генов осуществляется за счет формированием большого числа различных комплексов молекул факторов друг с другом.

Можно думать, что в самой структуре белковых молекул заложена возможность образовывать несколько различных олигомерных форм, что может обеспечить клетку большим числом регуляторных факторов, образованных из небольшого числа элементов.

Механизм, основанный на использовании комбинаторики элементарных факторов (субъединиц ферментов) был предложен Л.Н.Дроздовым-Тихомировым и др. (Drozdov- Tikhomiriv et al, 1999 ) для объяснения регуляции активности аллостерических ферментов, и может быть эффективно использован для решения задач, возникающих при моделировании и исследовании метаболизма.

Главное в этом механизме — возможность сборки активной структуры (активного центра фермента, сайта специфического связывания и т.д.) из элементов, имеющихся на субъединицах, при ассоциации субъединиц в различных взаимных ориентациях. Использование такого механизма позволяет уже всего при двух субъединицах получить сравнительно большое количество состояний составного регуляторного фактора и построить достаточно сложную схему регуляции.

Следующим после клетки уровнем сложности биологических систем является многоклеточный организм, его структура и его функционирование. Этот уровень относится традиционно к физиологии. Построение биоинформационных моделей этого уровня слишком сложно и в настоящее время практически невозможно, также как и представляющих большой интерес моделей еще более высокого уровня — популяционных или в случае человека — социальных. Если мы говорим, что целью биоинформатики является построение адекватных моделей биологических процессов, то необходимо думать о создании фундамента, основ, необходимых для проведения этой работы, — баз знаний, содержащих необходимый объем научных данных о биологических процессах. Базы данных (БД) — это системы хранения, поиска и выдачи нужной информации. В области биоинформатики, связанной с анализом генетических текстов, т.е. геномики, БД уже давно стали незаменимым инструментом исследований. Точно так же они необходимы в сравнительно недавно начавшей развиваться метабономике, связанной с анализом метаболизма.

Перспективы дальнейшего развития биоинформатики весьма многообещающие. Это связано с рядом обстоятельств. С бурным развитием вычислительной техники, телекоммуникаций и Интернета, открывающим перед заинтересованными исследователями прежде недоступные технические возможности оперативного получения информации, возможности быстрой компьютерной обработки огромного количества данных и т.д. Этому способствует также то, что появилось огромное количество информации, включающей как аннотрованные первичные структуры, так и данные по экспрессии генов, по контролируемым ими метаболическим путям, по регуляторным характеристикам ферментов и механизмам управления их активностью. Знание полных геномов дает возможность осуществить исчерпывающий анализ генома, что позволит полностью описать организмы на определенном уровне. Развитие в этой области идет столь успешно, Что высказываются шутливые опасения, что через несколько лет будет выяснено все, что только можно выяснитьи делать уже будет нечего. Наличие больших геномов и проблемы сравнительной компьютерной геномики выдвигают перед специалистами в этой области очень сложные алгоритмические задачи, решение которых потребует немалого труда. Наверное, еще более сложные проблемы возникают в компьютерной метабономике, которая наряду с задачами анализа существующих метаболических систем ставит смелые задачи проникнуть в сокровенные тайны алгоритмов возникновения , сохранения и самосовершенствования живых систем. Можно ожидать, что в ближайшее время методы и результаты компьютерной биоинформатики найдут широчайшее применение для целей медицины, фармацевтики (drug design), биотехнологии сельского хозяйства и образования. В передовых странах мира наблюдается тенденция к щедрому финансированию работ в этой области. Задача специалистов в области биоинформатики — достойно ответить на этот вызов времени.

Андрей Афанасьев. О профессии биоинформатика

– Что такое биомедицина?
– Исторически врач действовал эмпирическим образом. Например, при головной боли пробовал разные лекарства, а когда какое-то помогало, то выписывал его всем последующим пациентам. Потом появилась хирургия: врачи научились вырезать ненужное и пришивать нужное, лечить раны, останавливать кровь. Следующий прорыв обеспечили антибиотики. Во второй половине XX века появилась доказательная медицина, в которой все препараты проверялись на безопасность и эффективность. Врачи пытались разобраться в том, как работает некий препарат, можно ли подтвердить его действие статистическими исследованиями, убрав эффект плацебо и психологические эффекты, которые внушает доктор. (Эта история написана кровью, жуткими случаями и жертвами).

Потом у нас появилось существенное количество знаний о биологии человека. Существенное настолько, чтобы предсказывать, как какое химическое вещество или белковая молекула поведут себя в организме, к каким эффектам это приведет, насколько это будет безопасно и эффективно, как это будет работать на одних больных, как это будет работать на других больных. И так началась биомедицина.

Иными словами, медицину из ремесла начали делать наукой. И этот процесс продолжается.
При этом биомедицина не отбрасывает старых подходов: семейную историю болезни и историю самочувствия пациента. Но методы сбора данных могут существенно отличаться от устного опроса. Если вы с детства носите фитнес-браслет, которым уже сейчас меряют пульс и сахар, то постепенно накапливается огромная база данных. Если, например, видно, что давление 140 на 90 для вас — норма, более того, такие же показатели были, например, и у вашей мамы, то врач учитывает все эти данные, назначая вам лекарства. Это уже персонализированная медицина. Одно дело — выбирать разную дозу препаратов в зависимости от жалоб пациента, а другое — делать это на основе объективных и длительно накапливающихся данных.
Пока мы ходим в поликлинику максимум два раза в год и имеем только какие-то случайные точки измерений. Мало кто представляет, как эти параметры варьируются в течение дня, года, месяца. В будущем эта история станет более математизированной, аналитической и компьютеризированной, а место для таланта врача будет сокращаться.

– Чем занимается компания iBinom?
– Это биоинформатическая компания, которая занимается анализом данных секвенирования нового поколения (секвенирование белков и нуклеиновых кислот (ДНК и РНК).

– Как развиваются биотехнологии и биомедицина, в частности, в России?
– Есть, например, биомедицинский кластер «Сколково», который объединяет около четырехсот компаний и является на сегодня самым большим. Появляются новые медицинские компании. Сегодня биомедицина — доминирующая область в естественных науках. Я уверен, что биотехнологии будут развиваться и дальше. Если агротехнологии начнут ставить на современные рельсы, то секвенирование и анализ данных будут играть очень большую роль. В клинической практике медицина уже использует секвенирование NGS.

– Что такое секвенирование NGS?
– NGS — это секвенирование нового поколения (Next Generation Sequencing). Методы высокопроизводительного секвенирования разрабатываются с 2006 года и позволяют прочитывать полный геном человека за несколько дней. Это стоит 1 500 долларов. Можно прочитать только белок-кодирующую часть генома человека, так называемый экзом, который интересует клиницистов (врач, работающий в клинике, занимающийся не только врачебной практикой, но и научными наблюдениями и исследованиями — прим. сайта). Этот процесс занимает меньше одного дня и стоит 500–600 долларов. Такие технологии прочтения экзома сейчас используются в клинической практике в России.

– Насколько в России развит рынок анализа данных секвенирования?
– В России есть несколько частных компаний, работающих на рынке секвенирования генома в медицинских целях. Это многопрофильный медицинский центр «Геномед», ЗАО «Геноаналитика», Центр генетики и репродуктивной медицины Genetico и медико-генетический центр Genotek. Всего в стране работает несколько десятков секвенаторов в различных научно-исследовательских центрах. Можно сказать, что это перестало быть некой уникальной услугой. Проблемы начинаются, после того как данные получены, и их надо проанализировать. Это можно сравнить с ультразвуковой диагностикой, когда купить аппарат УЗИ и научиться получать картинку — это одно, а делать по ней заключения — это совсем другое.

– Каково будущее секвенирования?
– Капитализация мировых компаний, которые производят секвенаторы, уже составляет миллиарды долларов и ежегодно растет на десятки процентов. Конца этому росту не видно. Запускается проекты популяционного скрининга и медицинского анализа. Я уверен, что во всем мире это будет востребовано и в будущем.

– Какие профессии будут востребованы на рынке в связи с популяризацией биомедицины?
– Будет очень востребован медицинский биоинформатик — тот, кто умеет анализировать медицинские данные в паре с врачом. Пока что их на рынке единицы.

– Как приходят в профессию «медицинский биоинформатик»?
– Есть два пути. В одном случае, биологов учат информатике. В другом случае, информатиков учат биологии, и тогда получаются специалисты, которые пишут программы-инструменты для медицинских бионформатиков. Хотя из своей практики я знаю многих людей с первым техническим образованием (ИТ, механико-математическим или физическим), которые потом становились биоинформатиками.

– В чем должен хорошо разбираться медицинский биоинформатик?
– Он должен знать молекулярную биологию, уметь смотреть на геномные последовательности и работать с командной строкой, скриптами и с текстовыми файлами. Он должен понимать, как из последовательности букв получаются белки в организме, какие проблемы возникают, когда те или иные белки получаются не такими, как запланировано. Это некий частный подвид data-аналитики, ориентированный на то, что данные анализов превращаются в диагнозы для пациентов.

– Где можно получить образование, чтобы стать биоинформатиком?
– Есть несколько наиболее известных вузов: факультет биоинженерии и информатики (он пока маленький и выпускает 20 человек в год); на факультете компьютерных наук ВШЭ есть дополнительная программа «Биоинформатика», которая доступна студентам магистратуры; можно поискать дополнительные межфакультетские курсы, которые обычно идут 50–100 часов. Но я бы все-таки не стал называть это профильным образованием. Например, факультет биоинженерии МГУ мало фокусируется именно на обработке данных секвенирования, и его выпускникам приходится доучиваться самим.

В Москве есть Школа биоинформатики. Хотя они занимаются, на мой взгляд, чем-то больше похожим на переподготовку: обучают по вечерней программе студентов старших курсов и магистрантов.
В Санкт-Петербурге есть Институт биоинформатики: биологи приходят туда доучиваться информатике, а информатики — биологии. Каждый семестр учащиеся сдают проект, который заключается в работе над решением реальной задачи непосредственно с лабораторией или компанией. Процесс курируют Николай Вяххи и Екатерина Чайкина, а финансовую поддержку оказывает петербургская софтверная компания JetBrains, которая делает инструменты для разработчиков. Там есть формальная плата за обучение, но она, скорее, просто помогает отвадить бездельников.

Есть много онлайн-курсов. Например, сайт Stepic. Год назад мы собрали данные о компаниях, лабораториях и учебных заведениях в альманах Сколково.
Вместе с Медико-генетическим научным центром мы собираемся сделать регулярные школы для врачей, которые хотят научиться интерпретировать данные самостоятельно, и для биоинформатиков, которые хотят стать именно медицинскими биоинформатиками. На самом деле между врачом/ молекулярным биологом и биоинформатиком — пропасть, связанная с разными системами образования изначально. Те, кто приходят в биоинформатики из технических дисциплин, имеют навыки работы с публикациями, а вот врачи не всегда хорошо ориентируются в мире науки и технологий.

– А как вы пришли в биоинформатику?
– Я закончил физический факультет МГУ в 2009 году и с тех пор работал в биотехе на разных должностях.

Читайте также:  Таблица альтернативные точки зрения на социально

– Сколько получает биоинформатик?
– Люди начинают себя называть биоинформатиками, когда они освоили программу BLAST (Basic Local Alignment Search Tool — семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура — прим. сайта). Таких людей берут в лабораторию на 30 000 рублей. Но действительно опытные биоинформатики, которые анализируют в год сотни кейсов, могут получать 200 000 рублей и больше.
Кстати, тем, кто будет искать работу именно в биотехнологиях, я бы посоветовал сайт «Бластим», который специализируется на подборе специалистов в биотех.

– Какие еще специальности востребованы в биотехе?
– Нужны лабораторные биоинформатики, которые завязаны на анализе данных различных экспериментов. Вообще, половина вакансий на «Бластим» — это разные направления биоинформатики.
Еще нужны программные инженеры, разрабатывающие новые инструменты для биоинформатики. Это специалисты, которые пришли из информатики, но им интересна биология. В коммерческие компании нужны специалисты, которые делают софт или софт-аналитику.

– А что делает программный инженер?
– Программный инженер пишет специфический код для специфических задач. Он должен понимать, что важно в анализе биоинформатических данных. Это работа с огромным объемом информации: данные для одного анализа занимают от десятка гигабайт до сотен. Биологическое образование такому специалисту не нужно, но он обязан понимать специфику данных. Программирование идет на Python, точнее его специальной версии — Biopython. Также необходимо знать Linux и работать в командной строке.

– Что можно посоветовать школьникам, которых заинтересовала медицинская биоинформатика?
– Для начала надо разобраться в том, насколько интересна сама молекулярная биология. Также необходимо учиться программировать. Можно сходить в лабораторию на экскурсию или съездить в летние школы по биологии и программированию. Например, для тех, кому интересна биология, есть летняя школа «Пилигрим», есть GoTo Camp — это чистое программирование.

Для работы биоинформатиком нужно какое-то фундаментальное образование — математический анализ, алгоритмы, молекулярная биология.
Проблема в том, что у нас нет нормальных программ обучения биологии. Российская школа биологии никогда не была такой же блестящей, как школа физики или математики. В математической школе был А.Н. Колмогоров и вокруг него работала целая плеяда талантливых людей; множество Нобелевских лауреатов по физике — русские или с российскими корнями. В биологии есть яркие величины (Е.В. Кунин и М.С. Гельфанд), но, с моей точки зрения, нет школы, а образовательные программы российских биологических вузов устарели. Например, на первых курсах изучают растения по определителю (атлас-определитель растений — прим сайта). Но умение отличить ясень от клена никак нельзя назвать компетенцией биоинформатика. Для него важнейшую роль играют знания молекулярной биологии, а этому учат только на старших курсах.

– Какие книги вы бы посоветовали почитать и/или какие фильмы посмотреть тем, кто хочет понять, что такое биология и биоинформатика?
– Я бы посоветовал прочитать «Логику случая» Е.В. Кунина и «Рождение сложности» А.В. Маркова. Эти книги по молекулярной биологии достаточно сложные, но если ребенок их осилит, то он точно готов заниматься биологией. Про биоинформатику можно почитать на сайте biomolecula.ru, где обсуждается современная биология. На Хабрахабр есть материалы Института биоинформатики и компании Parseq Lab, где они рассказывают о своей работе.

– А какой есть план Б для биоинформатика, если ему захочется попробовать что-то новое?
– Если человек пришел в биоинформатику из информатики, то всегда можно вернуться в разработку программного обеспечения. Биолог, который поработал в биоинформатике, всегда может уйти в планирование экспериментов и заниматься биоинформатикой ровно настолько, насколько это ему нужно в научной деятельности. Еще один вариант — стать предпринимателем. Я знаю случаи, когда люди из биоинженерии и биоинформатики открывали свои компании. Можно уйти в data-аналитику и заниматься аналитикой больших данных для мобильных операторов или для урбанистов и городских пространств.

Биоинформатика: Что это такое?

Биоинформатика стала модным словом в современном мире науки. Примерно один или два десятилетия назад люди рассматривали биологию и информатику как две совершенно разные области. Одна изучала живых существ и функции их организма, тогда как другая занималась компьютерами и информационными системами. Однако в настоящее время существует, по-видимому, связь между этими двумя областями, и эта новая область, биоинформатика, появилась как комбинация Информатики и Биологии.

Что такое биоинформатика?

био + информатика = биоинформатика

Биоинформатика — это междисциплинарная область, которая разрабатывает методы и программные средства для понимания биологических данных. В качестве междисциплинарной области науки биоинформатика сочетает компьютерную науку, статистику, математику и технику для анализа и интерпретации биологических данных.

Различные биологические анализы приводят к экспоненциальному росту количества биологических данных, и их очень сложно анализировать вручную. Именно здесь приходит на помощь компьютерная наука и информационные технологии. Различные вычислительные методы используются для более точного и эффективного анализа биологических данных и автоматизируют процесс их обработки. Следовательно, биоинформатика может рассматриваться как область науки о данных для решения проблем в области биологии и медицины.

Зачем изучать и применять биоинформатику?

Биоинформатика стала междисциплинарной наукой, и если вы являетесь биологом, то знания в области биоинформатики могут принести вам огромную пользу в работе с вашими экспериментами и исследованиями.

Международный рынок труда в настоящее время заполнен вакансиями для людей с навыками биоинформатики. Крупные фармацевтические, биотехнологические и софтверные компании стремятся нанять профессионалов, имеющих опыт в области биоинформатики, чтобы они работали с огромным количеством биологической и медицинской информации.

Основное применение биоинформатика находит в области прецизионной и профилактической медицины. Основу прецизионной медицины составляют медицинские методы, адаптированных для отдельных пациентов, включая методы лечения и диагностики. Вместо лечения болезней прецизионная медицина фокусируется на разработке мер по профилактике и предотвращении заболеваний. Она сосредотачивается на таких болезнях, как грипп, рак, сердечные заболевания и диабете.

Проводятся исследования по выявлению генетических изменений у пациентов, что позволяет ученым предлагать лучшие методы лечения и даже возможные меры профилактики. Определенные типы рака, вызванные такими генетическими изменениями, могут быть идентифицированы заранее и лечение может начаться до ухудшения состояния.

Как стать специалистом в биоинформатике?

Прежде чем углубиться в предмет, на начальном этапе вам нужно немного узнать о биологии, генетике и геномике. Это включает изучение генов, ДНК, РНК, белковых структур, различных процессов синтеза и т.п.

Затем вам нужно будет изучить биомолекулярные структуры (например, последовательности, обнаруженные в ДНК, РНК и белках) и методы для обнаружения и анализа различных моделей, а также информационных сайтов о них. Вы столкнетесь с различными алгоритмами, используемыми различными методами. Кроме того, вы получите возможность использовать различные методы машинного обучения и интеллектуального анализа данных, такие как скрытые марковские модели, нейронные сети и кластеризация.

Поскольку вы будете иметь дело с большими объемами данных, важно иметь хорошее понимание о статистике, как вы должны анализировать данные в соответствии с конкретными требованиями.

Конечно, вам понадобятся хорошие навыки программирования. Такие языки программирования, как R, Python и Bash являются наиболее часто используемыми языками в анализе биологических данных. Решить, с чего начать, зависит от ваших целей. Вы можете использовать и другие языки, такие как C / C++ и Java.

После базового понимания фундаментальных концепций вы можете исследовать другие области, такие как структурная биоинформатика, системная биология и биологические сети.

Человек — удивительное создание, а его геном еще более увлекателен. Весь геном человека, хранящийся в молекуле ДНК, это потрясающе! Можно кодировать огромные количества данных за одну минуту, и расшифровывать их чтобы понять, какие изменения в экспрессии генов могут привести к фатальным генетическим заболеваниям. Системы здравоохранения нуждаются в мерах по выявлению таких заболеваний, а также в лечебно-профилактических мерах, способствующих спасению человеческих жизней.

Биоинформатика доказала, что обладает большим потенциалом для выявления болезней на ранней стадии, определения методов их лечения и улучшения жизни людей. Воодушевленные знаниям в области компьютерных наук такие области, как генная техника, медицина и здравоохранение, могут развиваться — от лечения индивидуальных пациентов до исцеления всех групп населения.

Просто о сложном: что нужно знать о биоинформатике

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика — это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов — от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Читайте также:  Что делать если теряется острота зрения

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

Геннадий Захаров, бизнес-аналитик:

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток — а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub.

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть ссылка, по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео.

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

1) Вводный курс в генетическую диагностику от компании 23andme.
2) Несколько курсов на Coursera (в том числе пара курсов на русском: введение в биоинформатику и в метагеномику).
3) Курсы на Stepik от института биоинформатики: молекулярная биология и генетика, молекулярная филогенетика, генная инженерия и введение в технологии высокоэффективного секвенирования. Полный список курсов от института можно посмотреть на его официальном сайте.
4) Лекции Павла Певзнера – профессора Калифорнийского университета в Сан-Диего, специалиста в области биоинформатики.
5) Если вы живете в Санкт-Петербурге, можно прийти на гостевые лекции в институт биоинформатики – это бесплатно.

Источники:
  • http://medbiol.ru/medbiol/bioinformatica/00000a3d.htm
  • http://intalent.pro/interview/andrey-afanasev-o-professii-bioinformatika.html
  • http://medium.com/@bazanov/%D0%B1%D0%B8%D0%BE%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%B8%D0%BA%D0%B0-%D1%87%D1%82%D0%BE-%D1%8D%D1%82%D0%BE-%D1%82%D0%B0%D0%BA%D0%BE%D0%B5-4936475dfe0d
  • http://habr.com/company/epam_systems/blog/337892/