Предсказание взаимосвязанных белков

Краткий и неполный обзор методов предсказания взаимосвязанных белков. Нет работ последних 3 лет, но основные идеи остались прежними.  

Введение в вычислительные методы для поиска структурно-функционально связанных белков

 
Многочисленные проекты по полному секвенированию геномов позволяют идентифицировать большинство генов в различных организмах. Для примерно 50%  процентов белков можно сделать предположения об их функции путем сравнения аминокислотной последовательности с ранее характеризованными белками. Однако, предсказание функции по гомологии дает лишь частичное представление о роли белка в клетке. Для более полного представления о функции данного белка необходима идентификация так или иначе связанных с ним белков: взаимодействующие субъединицы, если белок является компонентом молекулярного комплекса; другие участники биохимического процесса, если белок участвует в метаболическом пути или внутриклеточной передаче сигнала [1]. Такие взаимосвязи в дальнейшем будут называться структурно-функциональными белок-белковыми взаимодействиями. Изучение таких взаимодействий позволит лучше понять физиологию и патологию клетки, а в конечном итоге и всего организма.

Изучение in silico (т.е. вычислительными методами) структурно-функциональных взаимодействий между белками стало возможным благодаря применению методов, которые не опираются исключительно лишь на гомологию белков [2-3]. Такие методы предполагают наличие структурно-функциональной связи путем идентификации совместно эволюционирующих негомологичных белков. Давление естественного отбора позволяет предположить, что белки являются взаимодействующими, в случае если они достаточно часто совместно встречаются или отсутствуют у ряда организмов (метод филогенетических профилей), имеют тенденцию к малому расстоянию между кодирующими их генами в ряду геномов (метод генов-соседей), возможно сливаются в один белок у некоторых организмов (метод розеттского камня) или являются компонентами оперона (метод генных кластеров). Еще одним способом является автоматический анализ текстов публикаций с целью выявить те структурно-функционально взаимодействующие белки, которые описаны в работе (текстомика). Примером такого алгоритма является Text-Links, который идентифицирует белки, которые часто совместно встречаются в резюме научных публикаций [4].

Ниже кратко рассмотрены эти и некоторые другие методы выявления структурно-функциональных белок-белковых взаимодействий. Особое внимание уделяется методу филогенетических профилей. 

Метод генных кластеров

 
Характерной особенностью организации генома бактерий является наличие т.н. оперона. Оперон состоит из двух или более генов расположенных подряд на одной цепи ДНК и регулируется одним общим промотором. Гены в составе оперона  детерминируют синтез ферментов, относящихся к последовательным этапам какого-либо биохимического процесса. Поэтому поиск и определение оперонной структуры геномов микроорганизмов являются также и способом определения структурно-функциональных взаимодействий белков. Разработаны различные методы для идентификации оперонной структуры в геномах микроорганизмов [5-7]. Метод генных кластеров обладает тем преимуществом, что позволяет предсказать функциональную взаимосвязь белков, которые не имеют гомологов в других организмах. Однако существенным ограничением данного метода является необходимость поиска оперонов, что сильно снижает точность метода по сравнению с другими разработанными вычислительными методами [8].

 

Метод генов-соседей


Некоторые из оперонов в одном геноме могут сохраняться в геномах других организмов. Сохранение оперонной организации предоставляет дополнительные свидетельства в пользу того, что гены в пределах оперона являются функционально взаимосвязанными и, возможно, кодируют компоненты белкового комплекса или участников одного метаболического пути. Разработано несколько методов, которые позволяют идентифицировать сохраняемые опероны [9-10]. В работе [8] также представлен алгоритм, который позволяет вычислять вероятность того, что два белка кодируются в одном и том же сохраняемом в ряду организмов геноме.
 

Метод розеттского камня

 
В процессе эволюции могут возникать такие ситуации, когда два белка присутствующие раздельно в одном организме могут экспрессироваться как одна последовательность в другом организме. Анализ слияния/разделения генов называется методом розеттского камня и подробно описан в работах [11-13].  Белки, катализирующие последовательные метаболические шаги или являющиеся компонентами белковых комплексов (т.е. являющиеся структурно функционально связанными) часто экспрессируются как одна полипептидная цепь с целью увеличения кинетической или экспрессионной эффективности. Недостатком метода является то, что часто выявляются высоко консервативные домены (такие как киназный домен или домен "цинковых пальцев") в белках, которые не являются взаимодействующими. Иными словами, метод страдает от высокой доли ложно-позитивных результатов.
 

Метод филогенетических профилей


Помимо прямых экспериментальных методов выявления белок-белковых взаимодействий [14] в последнее десятилетие появились также вычислительные методы биоинформатики, направленные на поиск взаимодействующих белков. Некоторые из этих методов опираются исключительно на знания первичной структуры белка. Одним из таких методов является метод филогенетических профилей.

Метод филогенетических профилей исходит из предположения, что функционально связан­ные белки также связаны и эволюционно, т.е. в ходе эволюции гены, кодирующие взаимодействующие белки либо вместе наследуются вновь образованным видом, либо отбрасываются [15]. Существенным усло­вием применимости метода филогенетических профилей является наличие достаточного числа полностью секвенированных геномов (т.н. геномов сравнения или референсных геномов). В оригинальной версии этого метода [15] каждый белок изучаемого организма (т.н. целевого организма) характеризуется своим филогенетическим профилем. Филогенетический профиль - это вектор, компоненты которого показывают, присутствует ли гомолог данного белка в каждом из геномов сравнения. При наличии достаточного числа геномов сравнения некоторая пара взаимодействую­щих белков (в рамках структурного комплекса или метаболического пути) будет присутствовать в одних организмах, и отсутствовать в других. На рисунке 1 показан алгоритм работы метода филогенетических профилей.

  

Рис.  1  Метод филогенетических профилей (из [25] с изменениями). Гипотетическая ситуация семи филогенетических профилей для белков P1, P2, ... P7.  Целевой организм - E. coli, организмы сравнения - S. cerevisiae, H. influenzae, B. subtilis.  В профиле каждого белка целевого организма против каждого из организмов сравнения содержится "1", если гомолог данного  бе­лка присутствует в геноме данного организма и "0", если  гомолог отсутствует. Белки P2 и P7, Р3 и Р6 образуют два кластеры, поскольку их профили идентичны. В рамках метода филогенетических профилей данные белки считаются структурно-функционально взаимодействующими.


В методе филогенетических профилей предполагается, что белки с идентичными паттернами присутствия белков в профиле либо участвуют в одном и том же биохимическом процессе или функционируют совместно в белковых комплексах. Однако требование идентичности профилей сильно ограничивает число структурно-функциональных связей, которые могут быть выявлены с использованием метода филогенетических профилей. При этом также теряется чувствительность метода (желательно обнаруживать белки, которые не обязательно участвуют в одном и том же биохимическом процессе, но которые просто обладают схожими функциями). Так  возникает проблема выбора метрики расстояния между филогенетическими профилями и выбора алгоритма кластеризации для объединения структурно-функционально взаимодействующих белков в группы (кластеры) [Glazko and Mushegian, 2004].


В каком же случае метод филогенетических профилей не сможет найти структурно-функциональное взаимодействие?  Возможны три ситуации. Во-первых, число геномов использованных при построении филогенетического профиля могло оказаться недостаточным и, следовательно, даже для белков с a priori известным взаимодействием недостаточно число совместно изменяющихся  компонент профиля, чтобы  счесть белки взаимодействующими. Во-вторых, два рассматриваемых белка входят во все использованные при построении профиля геномы и, следовательно, нет достаточной вариабельности для выявления взаимодействия таких белков. И, наконец, третья возможность заключается в том, что профиль одного белка может иметь достаточную вариабельность, но не было обнаружено белков с достаточно близкими профилями даже при достаточно большом числе референсных организмов.

Впервые идея метода филогенетических профилей была представлена в работах [16]. Однако наибольшую известность  метод получил благодаря работе [15]. В качестве целевого организма была выбрана  E.coli, как наиболее изученный микроорганизм. К тому времени было полностью секвенировано 16 геномов, поэтому векторы профилей имели размерность 16 бит. В качестве меры сходства профилей был выбран следующий: два профиля относились к одному кластеру (и соответствующие белки считались функционально-связанными) в случае если они отличались только на один бит (т.н. хэммингово расстояние равно единице, [17]).  Для подтверждения гипотезы о том, что функционально связанные белки имеют схожий филогенетический профиль, авторы разработали две методологии, которые широко применялись в последующих работах по компьютерному предсказанию белок-белковых взаимодействий.

В качестве первого варианта проверки был предложен следующий: выбирается целевой белок с известной функцией и строится его филогенетический профиль. После этого осуществляется поиск всех белков с хэмминговым расстоянием между  их филогенетическими профилями и филогенетическим профилем референсного белка меньше или равным единице. После этого анализируются функции отобранных таким способом белков. При этом особо подчеркивается, что отобранные белки значительно отличаются по первичной последовательности от референсного белка, и, следовательно, не могли быть отобраны простым поиском по гомологии. В рассматриваемой работе для референсного рибосомального белка RL7 в группе отобранных белков больше половины имели функциональную связь с рибосомальными белками. Также было показано, что 10 белков относящихся к жгутиковому аппарату имеют одинаковый филогенетический профиль, а профиль муреин-трансгликозилазы MltD отличается от профилей белков жгутикового аппарата всего на один бит. Это позволило предположить о роли данного фермента (разрезающего клеточную стенку)  в работе жгутиковых белков. Как было показано, применение метода филогенетических профилей позволяет выявлять достаточно тонкие и интересные с биологической точки зрения структурно-функциональные взаимосвязи между белками.

Второй широко используемый способ проверки (также использованный в рассматриваемой работе) заключается в использовании курируемой экспертами базы данных по белкам SwissProt [18].  В аннотации для каждого белка содержащегося в этой базе данных представлен набор ключевых слов. По числу совпадений ключевых слов в аннотациях двух белков, можно получить представление о том, насколько тесно эти белки являются функционально связанными друг с другом. Недостаток этого подхода состоит  в том, что не все белки интересующего микроорганизма аннотированы в SwissProt. Например, из 3989 белков Mycobacterium tuberculosis (из них 2460 не являются гипотетическими) в SwissProt аннотировано (на момент написания) 1400 белков.

Работа [15] стимулировала дальнейшие исследования в области вычислительных подходов к предсказанию взаимодействующих белков. В последующие годы (в основном тем же коллективом авторов) были разработаны еще несколько подобных методов. Помимо этого другие исследователи стали применять метод филогенетических профилей и для других микроорганизмов. Этому способствовал бурный рост (продолжающийся и в настоящее время)  числа полностью секвенированных геномов различных организмов.

В работе [19] исследовалось влияние выбора референсных геномов и порога для метода филогенетических профилей. Для этого проводился перебор различных значений порога и выбора референсных организмов в зависимости от меры эволюционной близости с целевым организмом. В качестве последнего выбирались E. coliSt. azureus и некоторые другие хорошо изученные микроорганизмы. При этом оценка качества предсказания вычислялась на основании сравнения предсказанных белок-белковых взаимодействий с экспериментально определенными взаимодействиями из базы данных DIP ([20]).  Авторы показали, что увеличение числа референсных геномов влияет на качество предсказания: с ростом числа геномов улучшается и предсказательная способность метода филогенетических профилей, но при числе геномов ~ 90 происходит постепенный выход на плато.

Для применения методов вычислительных предсказания белок-белковых взаимодействий к Mycobacterium tuberculosis особенно интересна работа  [7]. В данной статье авторы используют комбинированный подход, используя многие предсказательные методы, основанные на данных функциональной геномики. Для анализа структурно-функциональных взаимодействий в Mycobacterium tuberculosis были применены метод филогенетических профилей, метод розеттского камня, метод оперона и метод генных соседей. Для валидации результатов применялся метод совпадения ключевых слов по базе данных SwissProt. Также для группирования структурно-функционально связанных белков  применялся иерархический кластерный анализ. Однако анализ полученных разбиений проводился исключительно визуально. Поэтому часто сравнивались функциональные аннотации белков  в кластерах, полученных рассечением исходной дендрограммы на различных уровнях.

Также в работе [7] интересно применение метода визуализации структурно-функциональных взаимосвязей, впервые разработанного в [21]. Для целей визуализации сетей белок-белковых взаимодействий традиционно использовались методы теории графов. Однако,  при большом числе выявленных взаимодействий образуются сложные графы с множеством взаимно связанных узлов, где каждый узел представляет собой белок, а каждое ребро графа представляет собой структурно-функциональную взаимосвязь между двумя белками. Визуальный анализ таких сетей часто очень затруднен и не дает ясную картину белков, участвующих во взаимодействиях. Более наглядную картину дает представление взаимодействий в виде графика рассеяния, где по осям отложены гены в порядке их расположения на хромосоме, а каждая точка представляет собой структурно-функциональную связь  между белками, кодированные данными генами. Пример показан на рисунке 2 (из работы [7]).



Рис.  2  Сравнение двух методов по визуализации выявленных белок-белковых взаимодействий (из работы [9]). A. Классическое представление сети взаимодействий в виде графа с ребрами и узлами. Каждый узел представляет собой белок, а каждое ребро - структурно-функциональное взаимодействие между двумя белками. B. Карта взаимодействий в виде графика рассеяния. Вдоль осей отложены гены в порядке их расположения на хромосоме, каждая точка представляет собой структурно-функциональную связь  между белками, кодированные данными генами. Группировка взаимодействий вдоль диагонали отражает оперонную структуру организации бактериального генома.

 

В оригинальном методе филогенетических профилей [15] основной идеей было заключение о функциональной связи между двумя белками на основе сходства их филогенетических профи­лей. Однако столь простые соотношения между двумя профилями можно ожидать, как отмечается в [22], только в том случае, если мы имеем дело со структурным комплексом, в который входят оба белка, или если оба они занимают позиции в некотором неветвящемся пути. В более реалистичных условиях, когда учитывается ветвление, наличие параллельных и альтерна­тивных путей, можно ожидать более сложных логических отношений, чем простое совместное присутствие или отсутствие пары белков в геномах сравнения. Более того, наличие дивергенции и конвергенции в ходе эволюции и явлений горизонтального переноса, предполагает наличие более сложных отношений, чем простое попарное сходство между филогенетическими профилями. В качестве развития метода филогенетических профилей, в работе [22] рассматриваются логические отношения в тройках профилей, изображенные на рисунке 3 в виде диаграмм Венна, соответст­вующих логическим операциям, показанным справа от них. Простейшим примером подобного от­ношения является, например, такое: «профиль А присутствует тогда и только тогда, когда присут­ствуют также и профили В и С». Отмечается, что часть из восьми возможных логических отноше­ний отвечают часто наблюдаемым биологически значимым ситуациям. Такой подход представля­ется весьма перспективным, поскольку он позволяет отыскивать те связи между белками, которые принципиально не выявляются попарным сравнением профилей.

 


Рис.  3   Восемь возможных логических отношений между тройками филогенетических про­филей.

Иное направление в развитии метода филогенетических профилей рассматривается в работе [23]. Идея  состоит в том, чтобы вместо сравнения, например, двух профилей, сравнивать филогенети­ческие деревья, для которых два сравниваемых профиля являются терминальными. Таким обра­зом, учитывается вся эволюционная история двух генов, а не только их совместное присутствие или отсутствие. В работе [24] эта идея находит более строгую математическую формулировку. В ней передача генов в ходе эволюции моделируется направленным ациклическим графом с одним корнем, в котором каждый узел графа связан с корнем уникальным путем.

  Каждый лист (нижний ряд  узлов) такого дерева моделирует ныне живущий организм, и каждый соответствующий ему внутренний узел соответствует его эволюционному предшествен­нику. Поскольку предшественники в эволюции для данного генома, вообще говоря, точно не из­вестны, то древовидная модель является вероятностной; фактически используется Байесовская древовидная модель. Таким образом каждому филогенетическому профилю ставится в соответствие древовидная модель, и вместо расстояния между профилями, т.е. между листьями дерева, считается расстояние между двумя деревьями. Евклидово расстояние между парой де­ревьев можно ввести в многомерном пространстве релевантных признаков.

В работе [24] предлагается использовать специальным образом построенные ядерные функ­ции (kernels) для филогенетических деревьев, что позволяет избежать явного построения такого пространства и делает возможным быстрый метод нахождения скалярного произведения в много­мерном пространстве. В [24] показано, что использование древовидных ядерных функций (т.е. ис­пользование эволюционной информации) дает преимущества по сравнению с ситуацией, когда ис­пользуется только филогенетический профиль (т.н. "наивный" подход).

Перспективным представляется поиск взаимодействующих белков методами распознава­ния образов и машинного обучения (pattern recognition and machine learning). Рядом исследовате­лей [24-26] использовался автоматический классификатор на основе современного и работающего с высокой точностью метода опорных векторов (SVM, Support Vector Machine). Суть метода со­стоит в разделении двух классов гиперплоскостью с максимально широкой полосой разделения на основе набора данных с изначально известной классификацией (обучение с учителем). Входной информацией для SVM является N-мерный вектор признаков, а выходной некоторая  величина, в зависимости от своего знака, относящая входной вектор к одному из двух классов (например, к классу «взаимодействующих белков» или к классу «невзаимодействующих белков»). Необходи­мую информацию о методе SVM можно найти на интернет-сайте http://www.kernel-machines.org/.

Первичная структура белка, наряду с другими его свойствами, такими как гидрофобность, заряд и т.д., представляются в виде векторов в многомерном пространстве, которые и передаются на вход SVM. Как уже упомянуто, для реализации этого алгоритма необхо­дим тренировочный набор данных, т.е. белки про которые экспериментально установлено, что они взаимодействуют или не взаимодействуют. Такой набор данных может быть взят из базы данных взаимодействия белков [27].

В работе [28] предлагается подход с позиций анализа взаимодействующих доменов. Каждая взаимодействующая пара белков представляется вектором с компонентами, зависящими от совместного или раздельного присутствия какого-либо определенного домена. При этом задача выявления взаимодействующих белков рассматривается как задача двуклассовой классификации, причем положительные примеры извлекаются из баз данных с экспериментально подтвержденными примерами, а отрицательные - генерируются случайным образом.


Иллюстрация методов вычислительного предсказания взаимосвязанных белков (из [8] )




Метод автоматизированного анализа публикаций

 
В последние годы в связи с накопившимися данными по значительному числу научных публикаций все более становится актуальны попытки автоматизированного анализа и разбора текста с целью выявления объекта описания работы и его свойств. Такой подход называется текстомикой и вызывает значительный интерес в последнее время [29-32].  При этом наиболее часто используются  резюме из базы данных PubMed содержащую более 16 миллионов резюме и ссылок. Анализ полного текста публикации часто оказывается более сложной задачей.

Точно так же как систематическое присутствие или отсутствие совместно эволюционирующих белков в ряде протеомов может быть использовано для установления их структурно-функциональной связи, так и  совместная встречаемость наименований белков и их сокращений в научной литературе может быть использована для выводов о белок-белковых взаимодействиях. Для каждого белка строится N-мерный бинарный вектор (где N это полное число резюме использующихся при анализе), где 1 обозначает  присутствие данного белка в резюме, а 0 обозначает, что данный белок в резюме не появляется. После этого тем же математическим аппаратом, что и в методе филогенетических профилей, возможно выявление белков, которые наиболее часто совместно встречаются в резюме научных публикаций. Важным требованием для этого метода является наличие как можно более полного словаря синонимов для названий белков, что не всегда возможно. К трудностям метода также можно отнести и значительный объем анализируемой информации и очень сильную разреженность векторов-профилей.

   

Литература


1.         Eisenberg, D., et al., Protein function in the post-genomic era. Nature, 2000. 405(6788): p. 823-6.
2.         Marcotte, E.M., Computational genetics: finding protein function by nonhomology methods. Curr Opin Struct Biol, 2000. 10(3): p. 359-65.
3.         Pellegrini, M., Computational methods for protein function analysis. Curr Opin Chem Biol, 2001. 5(1): p. 46-50.
4.         Jenssen, T.K., et al., A literature network of human genes for high-throughput analysis of gene expression. Nat Genet, 2001. 28(1): p. 21-8.
5.         Ermolaeva, M.D., O. White, and S.L. Salzberg, Prediction of operons in microbial genomes. Nucleic Acids Res, 2001. 29(5): p. 1216-21.
6.         Moreno-Hagelsieb, G. and J. Collado-Vides, A powerful non-homology method for the prediction of operons in prokaryotes. Bioinformatics, 2002. 18 Suppl 1: p. S329-36.
7.         Strong, M., et al., Inference of protein function and protein linkages in Mycobacterium tuberculosis based on prokaryotic genome organization: a combined computational approach. Genome Biol, 2003. 4(9): p. R59.
8.         Bowers, P.M., et al., Prolinks: a database of protein functional linkages derived from coevolution. Genome Biol, 2004. 5(5): p. R35.
9.         Overbeek, R., et al., Use of contiguity on the chromosome to predict functional coupling. In Silico Biol, 1999. 1(2): p. 93-108.
10.       Overbeek, R., et al., The use of gene clusters to infer functional coupling. Proc Natl Acad Sci U S A, 1999. 96(6): p. 2896-901.
11.       Marcotte, E.M., et al., Detecting protein function and protein-protein interactions from genome sequences. Science, 1999. 285(5428): p. 751-3.
12.       Enright, A.J., et al., Protein interaction maps for complete genomes based on gene fusion events. Nature, 1999. 402(6757): p. 86-90.
13.       Enright, A.J. and C.A. Ouzounis, Functional associations of proteins in entire genomes by means of exhaustive detection of gene fusions. Genome Biol, 2001. 2(9): p. RESEARCH0034.
14.       Нолтинг, Б., Новейшие методы исследования биосистем. 2005, Москва: Мир. 256.
15.       Pellegrini, M., et al., Assigning protein functions by comparative genome analysis: protein phylogenetic profiles. Proc Natl Acad Sci U S A, 1999. 96(8): p. 4285-8.
16.       Huynen, M.A. and P. Bork, Measuring genome evolution. Proc Natl Acad Sci U S A, 1998. 95(11): p. 5849-56.
17.       Гайдышев, И., Анализ и обработка данных. Специальный справочник. 2001: Питер. 752.
18.       SwissProt, http://www.expasy.org/sprot/.
19.       Sun, J., et al., Refined phylogenetic profiles method for predicting protein-protein interactions. Bioinformatics, 2005. 21(16): p. 3409-15.
20.       Xenarios, I., et al., DIP: The Database of Interacting Proteins: 2001 update. Nucleic Acids Res, 2001. 29(1): p. 239-41.
21.       Grigoriev, A., A relationship between gene expression and protein interactions on the proteome scale: analysis of the bacteriophage T7 and the yeast Saccharomyces cerevisiae. Nucleic Acids Res, 2001. 29(17): p. 3513-9.
22.       Bowers, P.M., et al., Use of logic relationships to decipher protein network organization. Science, 2004. 306(5705): p. 2246-9.
23.       Liberles, D.A., et al., The Use of Phylogenetic Profiles for Gene Predictions. Current Genomics, 2002. 3: p. 131-137.
24.       Vert, J.P., A tree kernel to analyse phylogenetic profiles. Bioinformatics, 2002. 18 Suppl 1: p. S276-84.
25.       Liao, L. and W.S. Noble, Combining pairwise sequence similarity and support vector machines for detecting remote protein evolutionary and structural relationships. J Comput Biol, 2003. 10(6): p. 857-68.
26.       Dohkan, S., A. Koike, and T. Takagi, Support Vector Machines for Predicting Protein-Protein Interactions. Genome Informatics, 2003. 14: p. 502-503.
27.       DIP, D.o.I.P., http://dip.doe-mbi.ucla.edu/.
28.       Chen, X.W. and M. Liu, Prediction of protein-protein interactions using random decision forest framework. Bioinformatics, 2005. 21(24): p. 4394-400.
29.       Palakal, M., et al., A multi-level text mining method to extract biological relationships. Proc IEEE Comput Soc Bioinform Conf, 2002. 1: p. 97-108.
30.       Yuan, X., et al., An online literature mining tool for protein phosphorylation. Bioinformatics, 2006.
31.       Ramani, A.K., et al., Consolidating the set of known human protein-protein interactions in preparation for large-scale mapping of the human interactome. Genome Biol, 2005. 6(5): p. R40.
32.       Cohen, A.M., et al., Using co-occurrence network structure to extract synonymous gene and protein names from MEDLINE abstracts. BMC Bioinformatics, 2005. 6(1): p. 103.