Текстомика: применение для выявления белок-белковых взаимосвязей

Текстомика: применение для выявления белок-белковых взаимосвязей

Пономаренко Е.А., к.б.н.,

Институт биомедицинской химии имени В.Н. Ореховича РАМН


Введение. 1

Источники данных. 3

Поиск релевантных документов. 4

Байесовский классификатор. 5

Векторная модель. 6

Скрытое семантическое индексирование. 7

Распознавание названий объектов в публикациях. 8

Использование словарей. 9

Использование шаблонов. 10

Разметка по частям речи. 10

Анализ морфологии. 11

Выявление взаимосвязей. 11

Совместное упоминание объектов. 12

Использование шаблонов. 12

Использование онтологий. 13

Онтология Gene Ontology. 14

Семантические сети. 16

Сравнение аннотаций объектов. 16

Сравнение публикаций. 17

Обзор зарубежных разработок. 18

Обзор российских разработок. 20

Список литературы.. 21




Введение

Постоянное увеличение количества научных статей в области биомедицины все больше усложняет поиск необходимой исследователю информации [Stapley B., Benoit G., 2000]. Сложности особенно очевидны в случае, если речь идет об анализе информации о функциях белков и генов, поскольку эти данные изложены в форме статей и плохо поддаются структурированию. Кроме статей примерами неструктурированных текстов являются обзоры, патенты, отчеты или тезисы конференций.

Раздел информатики, посвященный разработке методов машинной интерпретации документов в свободной форме, получил название процессинг естественного языка (NLP, Natural language processing). В состав этого раздела входят и методы текстомики[1], или интеллектуального анализа текстов (Text-mining). Эти методы применяются в молекулярной биологии для автоматического или полуавтоматического извлечения новой информации о генах, белках и их взаимосвязях из текстовых документов.

Текстомика возникла на стыке нескольких дисциплин: информатики, биоинформатики и компьютерной лингвистики [Krallinger M., Valencia A., 2005]. Впервые методы текстомики стали применяться для решения биологических задач в конце 1990-х годов [Erhardt R. et al., 2006], в связи с развитием Интернета и повышением доступности электронных документов. Дальнейшее развитие текстомики обусловлено, с одной стороны, стремительным увеличением количества доступных статей по биомедицинским тематикам, а с другой стороны - необходимостью обработки результатов масштабных геномных и постгеномных экспериментов. Сейчас методы текстомики активно используются молекулярными биологами и разработчиками в области информатики, работниками фарминдустрии для поиска мишеней при разработке новых лекарств и оценки вероятных побочных эффектов. Кураторы белковых баз данных также применяют методы текстомики для выявления нужной информации в литературе в полуавтоматическом режиме [Krallinger M. et al., 2008]..

Использование автоматических методов анализа текстов особенно актуально при исследовании молекулярных взаимодействий в клетке, в частности, при исследовании белок-белковых взаимодействий. Интерес к взаимосвязанным белкам обусловлен необходимостью всесторонней характеристики большого количества расшифрованных в течение последних 10-15 лет геномов. Несмотря на то, что нуклеотидные последовательности ряда геномов полностью определены, многие из них, включая геном человека, содержат пробелы в функциональной аннотации, что существенно затрудняет понимание механизмов функционирования живых систем. С практической точки зрения наиболее важным представляется выявление физически взаимодействующих между собой белков, поскольку такие комплексы являются потенциальными  мишенями  для создания лекарств [Archakov A. et al., 2003].

Среди основных задач текстомики в области молекулярной биологии можно выделить  поиск релевантных[2] документов, идентификацию в документах наименований объектов и процессов (например, генов, белков, химических соединений, патологических состояний), поиск взаимосвязей между объектами и создание онтологий[3].

В этой главе рассматриваются основные задачи текстомики, методические подходы к их решению, в качестве примеров приводятся зарубежные и отечественные системы обработки текстов в области молекулярной биологии. Отдельное внимание уделяется источникам данных -  базам данных электронных публикаций.


[1] Текстомика - совокупность методологических подходов к интеллектуальному анализу текстов, написанных на естественных языках



[2] Релевантность (англ. relevant - относящийся к делу) - обозначает соответствие найденного документа запросу, сделанному пользователем поисковой системы; не путать с пертинентностью - (англ. pertinent) - cоотношение объема полезной информации к общему объему полученной информации.



[3]Онтология  - формализованное описание знаний о предметной области. Онтология состоит из классов объектов (например, названия белков), классов отношений между объектами (белок Mdm2 препятствует активирующему действию белка р53), атрибутов объектов (внутриклеточная локализация, биологическая функция белка) и скриптов, определяющих правила и ограничения предметной области и поведения агентов.


Источники данных

Для поиска научных публикаций в области биомедицины чаще всего используют реферативную базу данных научной литературы PubMed/MEDLINE [http://www.ncbi.nlm.nih.gov/sites/entrez]. При обращении к этой системе запрос строится с использованием логических операторов [AND, OR, NOT], а поиск близких по содержанию документов осуществляется на основе сравнения частотных векторов документов [Wilbur W., Coffee L., 1994].

В основе работы поисковых алгоритмов PubMed лежит индексирование статей согласно терминам ежегодно обновляемого словаря MeSH (Medical Subject Heading)[1]. В зависимости от специфики поступающей в базу MEDLINE статьи, кураторы присваивают MeSH термины, максимально полно отражающие ее содержание. Обычно статье соответствует около 10-15 терминов MeSH.

PubMed был создан в середине 90-х годов в рамках информационного ресурса Entrez при поддержке Национальной медицинской библиотеки США и Национального института здоровья (National Institutes of Health). Основная задача системы PubMed - обеспечение эффективного контекстного поиска[2] статей в области биомедицинских исследований (статьи по медицине, фармакологии, биохимии, клеточной биологии и другим смежным областям). Поиск осуществляется по рефератам базы MEDLINE, в которой в 2009 году насчитывалось более 19 млн. статей из более чем 5 тысяч различных журналов [www.ncbi.nlm.nih.gov/literature/]. В основном представлены статьи, опубликованные в журналах за последние 50 лет; более ранние публикации встречаются крайне редко. Многие из статей, найденных в PubMed, доступны бесплатно в полнотекстовом формате. Все полнотекстовые статьи, присутствующие в свободном доступе на сайтах журналов, объединены в разделе PubMed Central [http://www.ncbi.nlm.nih.gov/pmc/]. 

Другим источником англоязычных публикаций в области биомедицины является ресурс Стенфордского Университета HighWire Press [http://highwire.stanford.edu]. Объем доступных статей в этом ресурсе по сравнению с MEDLINE гораздо ниже - около 6 млн. публикаций. Преимуществом ресурса является наличие большой коллекции свободно доступных полнотекстовых статей -  более 1 млн. по состоянию на декабрь 2009.

Для дополнительного поиска на русском языке может быть использована система GoogleSchoolar [http://scholar.google.com/]. Поиск этой системой осуществляется не только по научным статьям, но также и по патентам, диссертациям, книгам и научным сайтам. Область поиска при этом включает все научные дисциплины, а не только биомедицинскую тематику. Преимуществом ресурса является поиск среди текстов, доступных только по подписке, т.е. зачастую использование этой системы позволяет находить полнотекстовые статьи, которые отсутствуют в свободном доступе в системах PMC и HighWire Press.

Русскоязычные статьи доступны также в проекте Научной электронной библиотеки eLibrary [http://elibrary.ru]. Согласно данным на сайте проекта, Научная электронная библиотека содержит рефераты и полные тексты более 12 млн. научных статей, из более 1400 российских научно-технических журналов, в том числе 500 журналов в открытом доступе. Для доступа к полным текстам требуется регистрация, включающая в себя заполнение довольно обширной анкеты пользователя.

Таким образом, для поиска зарубежных статей в области биомедицины рекомендуется использовать специализированные обширные базы данных, такие как MEDLINE или HighWire Press, в то время, как для поиска публикаций на русском языке более пригодны неспециализированные поисковые ресурсы GoogleSсhoolar и база eLibrary. Полнотекстовые статьи помимо перечисленных выше систем могут быть найдены на специализированных форумах или на сайтах конкретных журналов.



[1] Словарь терминов MeSH построен по иерархическому принципу: существуют общие категории терминов и подчиненные общим уточняющие термины, при этом один и тот же термин может встречаться одновременно в нескольких ветвях иерархической структуры. Поисковый алгоритм по умолчанию дополняет запрос пользователя терминами MeSH. Словарь терминов MeSH доступен в электронном виде, переведен на многие языки и успешно применяется при создании новых алгоритмов анализа биомедицинских текстов [Onogi Y., 2007].



[2]Контектсный поиск позволяет искать документы по содержащимся в них словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты встречаемости слов запроса в найденных документах и во всей коллекции в целом [http://www.rco.ru]


Поиск релевантных документов

Чаще всего в повседневной жизни исследователя текстомика используется при поиске релевантных документов. Методы оценки релевантности (то есть поиск наиболее соответствующих запросу документов) широко применяются в таких общеизвестных поисковых системах, как Яндекс и Google. Подборка релевантных по отношению к пользовательскому запросу документов нередко расширяет предметную область поиска, что повышает эффективность научно-технической и образовательной деятельности.

Одним из вариантов задачи поиска релевантных документов является кластеризация документов, или выявление родственных документов сходной тематической направленности. В этом случае в качестве запроса выступает не поисковый термин или набор терминов, а текстовый документ. В области биомедицины поиск релевантных текстов обычно используется при подборе материалов для обзорных публикаций или при поиске публикаций, содержащих информацию, пригодную для внесения в базы данных. Частным примером этой ситуации является поиск статей, описывающих белок-белковые взаимодействия. Далее представлены различные подходы к поиску релевантных документов методами текстомики.



Паттерны и шаблоны

Наиболее простым методом поиска релевантных документов является метод на основе сходства фрагментов текста. В 2003 г. Regev и коллеги [Regev Y. et al., 2003] в рамках соревнования Knowledge Discovery in Databases разработали систему поиска релевантных документов для пополнения базы данных FlyBase. Найденные с использованием этой системы документы описывали экспериментальные исследования генов и белков плодовой мушки Drosophila. Для экстракции информации из статей применяли разметку частей речи и шаблонные конструкции, служившие индикаторами потенциально релевантных документов. В рамках этого же соревнования был разработан метод поиска релевантных текстов на основе подсчета расстояния (количества символов) между ключевыми словами и названиями генов и белков в тексте [Shi M. et al., 2002]. Близость расположения ключевого слова и названия биомакромолекулы повышала индекс релевантности статьи.

Байесовский классификатор

Байесовский классификатор для поиска статей, описывающих белок-белковые взаимодействия, впервые применила группа Маркотта [Marcotte E. et al., 2001]. Сущность их метода заключалась в оценке относительной частоты встречаемости слов в двух выборках - обучающей и фоновой. Обучающая выборка состояла из документов, по мнению экспертов заведомо отвечающих тематике белок-белковых взаимодействий. Фоновую выборку формировали из рефератов, отобранных случайным образом из библиотеки MEDLINE. При случайном отборе в фоновой выборке практически отсутствовали родственные статьи, и, следовательно, её можно было рассматривать как набор негативных примеров.

При поиске близких по смыслу статей к документам из обучающей выборки из входящих в нее статей отбирали слова, частота встречаемости которых существенно отличалась от частоты встречаемости этих же терминов в фоновой выборке документов [Marcotte E. et al., 2001]. Слова, частота встречаемости которых существенно выше в обучающей выборке, являлись дискриминаторными для группы документов обучающей выборки (то есть, характеризовали тексты, относящиеся к описанию белковых взаимодействий). Набор дискриминаторных слов далее использовали для оценки релевантности к выбранной тематике любой выбранной публикации. В исследуемом тексте подсчитывали количество упоминаний всех дискриминаторных слов. Текст считали релевантным, если суммарный индекс релевантности, вычисляемый с учетом суммирования весов по всем дискриминаторным словам, находился выше заданного порога.



Векторная модель

Manning и Shutze [Manning C., Shutze H., 1999] предложили использовать для поиска релевантных документов векторную модель. Согласно этой модели, документ преобразовывали в вектор путем подсчета частот встречаемости составляющих его слов. Для анализа коллекции из m документов построили матрицу, строки которой соответствовали словам, колонки - документам, а в ячейках указывали частоты встречаемости каждого слова в анализируемом документе (см. рис. 1). Вообще, в векторном виде могут быть представлены отдельные предложения, абзацы, рефераты текстов и целые документы. Количество строк в матрице отражало общее число различных слов, содержащихся в отобранных документах, и достигало нескольких тысяч. Так как большинство слов из общего списка отсутствовали в тексте отдельно взятого анализируемого документа (например, реферат библиотеки PubMed содержит в лучшем случае несколько сотен слов, а в векторном виде могут быть представлены тысячи рефератов), то частота встречаемости таких слов была равна нулю. Матрицы документов, представленных в векторном виде, обычно крайне разрежены, то есть большинство ячеек матрицы содержат нули.

Преимущество использования векторной модели представления текстов состоит в том, что сравнение документов возможно с применением стандартных методов матричной алгебры.

Оценку родственности документов с использованием векторной модели проводили Aerts и коллеги [Aerts S. et al., 2008] для поиска в PubMed статей, описывающих процесс регуляции транскрипции. Было обнаружено около 30 тыс. новых статей, данные из которых использовали для реконструкции регуляторной сети.


Рисунок 1. Преобразование текста в вектор [Raychaudhuri S., 2006]. Фрагмент текста, приведенный слева, преобразуется в векторную форму: в строках матрицы указываются все входящие в текстовый фрагмент слова, а в ячейках матрицы фиксируется частота встречаемости каждого слова в анализируемом фрагменте.


Использование векторной модели представления рефератов MEDLINE для кластеризации большого числа генов применяли Glenisson [Glenisson P. et al., 2003] и соавторы. Семантическую структуру документа представляли в виде вектора (см. рис. 1) в пространстве терминов. Сходство документов, представленных в таком виде, вычисляли по косинусу угла между векторами: чем ближе значение косинуса к 1, тем ближе по смыслу анализируемые документы.

Несмотря на то, что векторный метод удобен с математической точки зрения, он обладает некоторыми недостатками: векторное представление документа может искажать исходный смысл текста, за счет чего возможна частичная потеря информации. Как показательный пример: если в статье А говорится о взаимосвязи между двумя белками, а в статье В эта взаимосвязь отрицается, то есть документы имеют противоположный друг другу смысл, полученные для документов А и В вектора будут сходными.



Скрытое семантическое индексирование

Использование векторной модели при оценке релевантности не всегда позволяет получить адекватный запросу пользователя результат. Поэтому предлагаются более сложные подходы, один из которых -  скрытое семантическое индексирование.

Скрытое семантическое индексирование (ССИ, LSI - Latent Semantic Indexing) - метод автоматической классификации документов, в котором по всей совокупности документов производится анализ частот встречаемости слов. В отличие от других методов векторизации текстов, метод ССИ оценивает корреляцию между совместно употребляемыми словами и их частотой встречаемости. Скрытое семантическое индексирование определяет релевантность документа по отношению к поисковой фразе, даже если эта поисковая фраза не встречается в документе.

По сути, метод ССИ является разновидностью метода анализа главных компонент [Raychaudhuri S., 2006]. Использование CCИ позволяет на 30% улучшить результаты поиска релевантных документов по сравнению с другими методами [Deerwester S. et al., 1990]. Преимущества применения ССИ в биологии продемонстрировано в работе [Landauer T. et al., 2004], в которой визуализировали взаимосвязи между темами научных публикаций. Авторы работы показали, что использование метода ССИ позволяет выявлять взаимосвязи между статьями в различных областях биологии, что, по мнению авторов, поможет редакторам журналов подбирать рецензентов. ССИ может применяться для аннотации различных категорий объектов, в том числе для определения взаимосвязей между генами и патологическими состояниями или терминами онтологии GeneOntology [Harris M. et al., 2004].

В работе [Homayouni R. et al., 2005] ССИ использовали для установления взаимосвязей между генами на основе сравнения сопоставленных им рефератов научных публикаций. Разработанная в рамках этой работы система получила название «Семантический органайзер генов» (Semantic Gene Organizer, SGO). С помощью Семантического органайзера были определены взаимосвязи между пятьюдесятью генами, ассоциированными с развитием раковых заболеваний и болезни Альцгеймера. Релевантные публикации для этих генов экспортировали из соответствующих записей базы данных LocusLink. Векторное представление публикации включало слова из названия статьи и непосредственно из текста реферата. Для отладки системы авторы использовали хорошо описанный в литературе рилиновый сигнальный каскад (reelin signaling pathway). Совпадение полученных программой SGO результатов с литературными данными подтвердило пригодность использования метода ССИ для решения задачи поиска скрытых взаимосвязей между объектами.


Распознавание названий объектов в публикациях

Другой аналитической задачей биоинформатики, для решения которой используют методы текстомики, является автоматическое распознавание наименований объектов (например, белков или генов) в текстовых документах. Распознавание наименований объектов чаще всего применяется для идентификации в тексте белков и генов, реже - для нахождения названий патологических процессов, лекарственных препаратов или названий химических соединений [Erhardt R. et al., 2006,]. Отсутствие устоявшейся номенклатуры [Fukuda K. et al., 1998] и исчерпывающего словаря названий белков и генов, а также различия в терминологии и обозначениях в статьях, делают задачу распознавания названий объектов достаточно сложной. Тем не менее, конечный результат применения  методов текстомики во многом зависит именно от качества распознавания наименований белков и генов в тексте. Значительное число синонимов и аббревиатур, встречающихся среди наименований белков и генов, и неоднозначная интерпретация обозначений привели к возникновению разнообразных методов, применяемых для поиска названий генов и белков в текстах научных публикаций.

В работе [Jenssen T. et al., 2001] было показано, что около 40% ошибок при реконструкции метаболических сетей текстомными методами было связано с некорректной идентификацией названий биомолекул. При этом в 85% случаев ошибки возникали из-за распознавания аббревиатур или терминов, одинаковых по написанию с названиями белков или генов. В качестве одного из способов минимизации ложноположительных результатов предлагается проводить анализ контекста, в котором употребляется термин, предположительно обозначающий потенциальный белок или ген.

Среди основных методов идентификации наименований белков и генов в текстах выделяют поиск с использованием словарей, поисковых шаблонов и методов, основанных на правилах и предварительном обучении.

Использование словарей

Наиболее простым является поиск наименований белков и генов путем сравнения найденных в тексте терминов с терминами из заранее известного словаря. В этом случае любой термин, совпавший с наименованием из словаря, считается обозначением белка или гена. Преимуществом идентификации названий белков и генов с использованием словарей является высокая скорость работы и простота реализации алгоритма.

При создании словарей названий применяются различные стратегии. В работе [Jensen L. et al., 2003] для создания словаря использовали данные о номенклатуре, доступные в системах EntrezGene и UniProt. Для 32 777 генов было найдено более 168 тыс. названий, среди которых 4 930 названий не удалось однозначно сопоставить с каким-либо геном. Разработчики системы Chilibot [Chen H., Sharp B., 2004] использовали для распознавания в текстах названий белков и генов словарь, созданный на основе данных 6 информационных ресурсов: HUGO, LocusLink, OMIM, GDB, SwissProt и SGD. Из созданного словаря кураторами вручную были удалены слова, не относящиеся к названиям белков или генов, например «fragment», «partial cDNA» и т.п.

Использование шаблонов

Другой подход, применяемый для идентификации обозначений белков и генов, базируется на поиске с использованием синтаксических и лингвистических шаблонов. Для некоторых генов, например генов дрожжей или генов надсемейства цитохромов Р450 [Nelson D., 2006], существует устоявшаяся номенклатура, позволяющая конструировать специфичные поисковые шаблоны. Так, гены дрожжей обычно обозначаются короткими трехбуквенными кодами с цифрой в конце термина; в названии цитохромов Р450 также существует унификация в обозначении генов - указание надсемейства «CYP», затем идут код семейства (одна или несколько цифр), подсемейства (буква) и код вида организма. Тем не менее, для подавляющего большинства белков сложно выявить явные закономерности в номенклатуре. Chang и соавторы [Chang J.et al. 2004] предложили использовать для поиска названий белков унифицированные поисковые шаблоны. Одним из указаний на название белка-фермента, считали суффикс «-аза», например «киназа», «фосфорилаза», «трансфераза» и «топоизомераза», указывающий на каталитические свойства фермента. Исследователи провели поиск среди всех англоязычных слов с суффиксом «-аза» и установили, что только 196 слов не являлись названиями белков или генов. Суффикс «-ин» («актин», «миозин», «тубулин» и т.д.) также может быть использован как дополнительный поисковый шаблон для идентификации названий белков и генов. Другие шаблоны учитывали присутствие в одном термине заглавных и строчных букв, цифр, а также упоминание термина совместно с некоторыми ключевыми словами, указывающими на название белка или гена. К таким ключевым словам относили «активатор», «рецептор», «транспортер», «ингибитор» и т.д.

Анализ контекста употребления названий белков или генов показал, что можно выделить определенные семантические конструкции, используемые в текстах и указывающие на название гена или белка [Brill E., 1995]. В качестве примера можно привести конструкцию вида «The gene ... is expressed under...», наличие которой в тексте указывает на описание регуляции генной экспрессии. Группа Chang и соавторы [Chang J. et al. 2004] определили перечень слов, наиболее часто встречающихся в контексте описания белка или гена. Среди них: «gene», «mRNA», «protein», «promoter», «expression» и «transcripts»; предлоги «or», «by», «with», «to» и «in» наоборот указывают на отсутствие в предложении обозначений белков и генов.

Разметка по частям  речи

Обозначения биомакромолекул являются именами существительными или словосочетаниями с присутствием существительных, что позволяет проводить идентификацию названий белков и генов после разметки предложения по частям речи (Part Of Speech-tagging). Разметка выполняется либо по аналогии с заранее размеченными текстами (система с обучением), либо на основании лексических правил. Разработанные в этой области программные решения позволяют верно идентифицировать названия белков и генов в 95% случаев [Brill E., 1995]. Недостатками систем на основе обучения является необходимость создания достаточно разнообразной обучающей выборки текстов. Применение правил тоже требует наличия обширной библиотеки лексем и развитых предметно-ориентированных алгоритмов компьютерной лингвистики.



Анализ морфологии

В том случае, если гены или белки относятся к большому семейству, весьма вероятно, что их названия будут однокоренными. Например, поиск с учетом морфологических особенностей терминов может быть использован для идентификации названий белков семейства анкиринов. Все белки этого семейства в названии содержат корень «ank», и использование поиска по этому корню позволяет выявлять ген ank1 (ankyrin 1, erythroid), ank2 (ankyrin 2, brain), and ank3 (ankyrin 3, epithelial). Несмотря на простоту, до настоящего времени метод идентификации белков и генов на основе морфологических особенностей их названий не получил широкого распространения [Raychaudhuri S., 2006].


Выявление взаимосвязей

Применение высокоэффективных экспериментальных технологий привело к увеличению количества публикаций, описывающих взаимодействия между белками. Например, метод двойных гибридов позволяет выявить несколько сотен белковых взаимодействий в одном эксперименте [Formstecher E. et al., 2005]. Анализ таких публикаций с использованием методов текстомики позволяет проводить сопоставление экспериментальных результатов с литературными данными, а также конструировать генные и белковые сети на основе опубликованных сведений [He M. et al., 2009].

Используемые в настоящее время способы информационной экстракции описаний белковых взаимодействий из статей включают в себя комбинации методов статистического анализа, систем разметки частей речи в предложении и алгоритмов машинного обучения. Так, при создании системы Textomy [Donaldson I. et al., 2003] для извлечения описания белковых взаимосвязей из текстов публикаций использовали метод опорных векторов. Найденные взаимосвязи подвергали экспертной проверке, после чего они служили основой для внесения сведений в базу данных молекулярных взаимодействий BIND (Biomolecular Interaction Network Database [Bader G. et al., 2003]). Принцип работы системы Textomy основан на поиске фрагментов текста, сходных с текстами из обучающей выборки статей по тематике межмолекулярных взаимодействий.

Далее будут рассмотрены основные подходы, используемые при автоматическом выявлении белок-белковых взаимосвязей.

Совместное упоминание объектов

Наиболее простым и достаточно точным методом выявления данных о белковых взаимодействиях является поиск совместного упоминания названий двух белков в одной статье (реферате, абзаце или предложении) [Raychandhuri S., 2006]. Если наименования белков упоминаются совместно в одном тексте, то такие тексты отбираются для более детального анализа и установления характера взаимосвязей между найденными объектами. Чем в большем количестве предложений встречаются названия обоих белков, тем больше вероятность существования структурно-функциональной взаимосвязи между ними. Характер взаимосвязей устанавливается при анализе контекста упоминания наименований белков, при этом могут быть выявлены различные типы взаимосвязей, например, сходство функциональной активности, происхождения или локализации белков [Stapley B., Benoit G., 2000].

Проведенное [Raychaudhuri S., 2006] сравнение результатов поиска наименований белков в одном реферате и в одном предложении, показало, что поиск среди рефератов более чувствителен, в то время, как поиск в пределах одного предложения - более специфичен. В этой же работе было показано, что только 3% выявленных взаимосвязей относятся к белок-белковым комплексам, причем выявление физически взаимодействующих белков более результативно при анализе отдельных предложений.



Использование шаблонов

Выявление взаимодействующих белков возможно проводить также путем поиска по лексико-синтаксическим шаблонам. В шаблоне указываются наиболее часто встречающиеся выражения, с использованием которых в текстах научных публикаций принято описывать взаимодействия между белками. Blashke и соавт. [Blaschke C. et al., 1999] отобрали 14 слов, наличие которых в тексте статьи указывало в большинстве случаев на описание белок-белковых взаимодействий. Отбор проводился экспертами без использования вычислительных алгоритмов. Среди отобранных слов представлены глаголы, отражающие характер взаимосвязей между белками: «активация», «связывание», «индукция» и др. Предложенный метод выявления белковых взаимодействий был протестирован на примере публикаций, посвященных анализу клеточного цикла Drosophila. Было показано, что подход эффективен лишь в случае описания белковых взаимодействий простыми односложными предложениями, но не применим для сложноподчиненных предложений.

Система SUISEKI (System for Information Extraction of Interactions) базируется на синтаксическом разборе предложений и выделении наборов слов (паттернов), описывающих белковые взаимодействия. Согласно алгоритму SUISEKI в состав паттернов входят наименования минимум двух белков, встретившихся в определенном лексическом контексте (паттерне). Набор паттернов предлагается экспертами на основе анализа массива публикаций, посвященных исследованию белок-белковых взаимодействий [Blaschke C., Valencia A., 2002]. В состав паттернов входят также и выражения, описывающие отрицание существования взаимосвязи между белками. Полученные результаты тестирования системы SUISEKI подтвердили существование четкой корреляции между частотой упоминания названий белков в рамках одного паттерна и наличием взаимосвязи между этими белками. В качестве стандарта при тестировании использовали информацию из базы данных белковых взаимодействий DIP. Результаты тестирования показали, что точность идентификации белковых взаимодействий составила 80%, что превышает результаты, полученные более простыми методами [Jenssen T. et al., 2001]. Также было показано, что примерно в 33% случаях для выявления взаимосвязанных пар белков было недостаточно присутствующей в реферате статьи информации.



Использование онтологий

Применение текстомных методов для поиска взаимосвязей было бы наиболее эффективно при использовании  единого стандарта описания биологических объектов, явлений и процессов [Fukuda K. et al., 1998]. Необходимость формализации молекулярной биологии привела к созданию онтологий - совокупности концептуальных понятий предметной области и связей между ними. Взаимосвязанными в этом случае предполагаются те объекты, описания которых в терминах онтологии сходно.

В молекулярной биологии концептуальными понятиями являются гены и белки. В состав онтологии входит система терминов, применяемых для описания определенной предметной области, например: молекулярная биология - как совокупность сведений о строении и функционировании генов и белков. Помимо этого, в рамках онтологии также формулируется система правил, устанавливающих отношения между понятиями. В зависимости от области, в которой разрабатывается онтология, термины могут быть объединены в разделы и категории. Таким образом, онтология представляет собой терминологический каркас, рекомендованный для описания объектов в заданной области знаний. Онтология строится по иерархическому принципу, согласно которому существует несколько уровней детализации терминологии.

Наиболее детально разработанные биологические онтологии объединены в рамках инициативы OBO (Open Biological Ontologies [http://obo.sourceforge.net]), которая фактически является стандартом биомедицинской терминологии. Медицинские термины структурированы отдельно в рамках системы Универсального медицинского языка (Unified Medical Language System, UMLS [http://ncbi.nlm.nih.gov/research/umls]), причем термины этого языка наряду с терминами MeSH используются при индексации рефератов в системе PubMed. Характерным признаком онтологии является наличие контролируемых словарей терминов. Ранее о таких словарях уже говорилось в контексте задач распознавания названий объектов в научных текстах; в онтологиях же они решают несколько иную задачу - задачу унификации описаний объектов.

В области функциональной геномики наиболее развитой онтологией является онтология GeneOntology (GO, www.geneontology.org), объединяющая контролируемые словари для описания молекулярных функций, биологических процессов и локализации генов [Ashburner M. et al., 2000]. Термины GO используются для аннотации генов во многих базах данных, облегчая поиск и анализ релевантной информации.

Онтология Gene Ontology

GeneOntology [Harris M. et al., 2004] (GO, www.geneonthology.org/) является наиболее широко используемой в молекулярной биологии геноцентричной онтологией, содержащей описания генов и их продуктов - белков.

С увеличением количества биологической информации возникла существенная проблема качественной стандартизованной аннотации и классификации биологических объектов. Разработчики некоторых баз данных выбрали собственные стратегии описания и классификации новых данных, предоставляя конечному пользователю все более и более запутанную систему терминов. Консорциум GeneOntology [Ashburner M. et al., 2000] образовался в 1998 г. с целью создания универсального структурированного словаря, в терминах которого была бы возможна аннотация молекулярных характеристик биологических объектов.

Проект GO ведется совместно в рамках упоминавшегося выше зонтичного проекта OBO (Open Biological Ontologies). На январь 2008 года количество терминов, предлагаемых в GO для описания широкого круга молекулярных процессов и явлений, составляет около 25 тыс. Основой для развития онтологий и аннотации генов в терминах GO являются литературные данные, прежде всего, рефераты размещенных в системе MEDLINE статей. Каждый элемент онтологии GO представлен в виде идентификатора (состоит из буквенной и цифровой части), названия, синонимов и описания.

GO можно условно разделить на две части: первая - контролируемый словарь терминов, включающий набор онтологий по трем разделам: клеточные компоненты, молекулярные функции и биологические процессы. Вторая часть GO содержит аннотации генов или их продуктов (РНК и белков). Согласно этому разделению коллективом консорциума GO решаются две независимые задачи, первая из которых - обновление онтологий, а вторая - аннотирование белков и генов.

Используемая для аннотирования терминология составляет три раздела системы GO. Раздел «молекулярная функция» содержит сведения о том, какие биохимические функции выполняет продукт гена (белок или PHK), при этом дается только общая характеристика без указания дополнительной информации об условиях функционирования (например, «фермент», «лиганд», «транспортер», «аденилат циклаза»). В рамках раздела «биологический процесс» приводится описание биологических функций белка в более широком смысле (например, «клеточный рост», «передача сигнала», «метаболизм пуринов»), но не дается указания на конкретный метаболический процесс, в котором участвует белок. В третьем разделе указывается локализация белка, включая клеточные структуры и макромолекулярные комплексы (например, «рибосома», «протеосома», «ядерная мембрана»).

Структура каждого раздела GO представляет собой направленный ациклический граф, отражающий иерархию терминов. Например, в разделе «молекулярная функция» термин «трансмембранный рецептор тирозин-киназы» является дочерним термином по отношению к понятиям «трансмембранный рецептор» и «тирозин киназа».

Логические отношения между терминами GO могут быть двух типов - вертикальные и горизонтальные. Вертикальные связи «is a» указывают, что дочерний термин является примером (частным случаем) родительского термина. Например, словарь клеточных компонентов содержит: «mitotic chromosome» is a «chromosome», то есть «митотическая хромосома» является частным случаем более общего понятия - «хромосома». Вертикальные связи - «part of» - характеризуют дочерние термины как часть (компоненту) родительского термина. Например, теломера входит в состав хромосомы, таким образом, является её частью. Дочерние термины могут находиться в разных типах отношений между собой в зависимости от родительских терминов.

Термины онтологии GO иерархически выстроены сообразно принятой в биологии системе понятий и снабжены соответствующими ссылками на литературные данные, подтверждающие правильность их отбора и адекватность установленных отношений между дочерними и родительскими терминами.

Система GO является примером удачной формализации данных в области молекулярной биологии. Наличие формализованного описания всех генов и их продуктов в соответствии со строго определенной терминологией открывает перспективу для совершенствования автоматических алгоритмов обработки данных, основанных на текстомике. Использование унифицированной терминологии в научных статьях позволяет эффективно анализировать электронные библиотеки, избегая ошибок, связанных с некорректной машинной интерпретацией текстовой информации.

Онтология GO нашла свое применение для решения широкого круга задач. Например, в работе [Wu X. et al., 2006] на основе сходства аннотаций GO была построена сеть белковых взаимодействий в протеоме дрожжей. Она включала в себя около 40 тысяч взаимодействий между 2259 белками. Термины GO также использовали для предсказания функции белков [Duan Z. et al., 2006] и для оценки внутриклеточной локализации [Lei Z., Dai Y., 2006]. В работе [Guo X. et al., 2006] на основе аннотаций GO моделировали регуляторные пути человека. Для этого было отобрано 1600 регуляторных белков из базы метаболических путей KEGG, для которых были загружены аннотации по всем трем разделам GO. При сравнении белков мерой семантического сходства полагали количество совпадающих для двух белков аннотаций GO. Было показано, что белки, для которых аннотации практически совпадают, с большой вероятностью функционируют в составе одного белкового комплекса.


Семантические сети

Взаимосвязи между объектами (например, генами и белками), выявленные с использованием текстомики, могут быть представлены в виде семантической сети - графа, узлами которого являются названия объектов, а ребрами - выявленные путем анализа статей взаимосвязи. В основе семантической сети лежит понятие семантического сходства, которое определяет близость двух объектов в заданном понятийном пространстве. Меру семантического сходства объектов можно рассчитывать двумя путями: сравнением аннотаций объектов, или обращаясь напрямую к литературным источникам, эти объекты описывающим.



Немногим ранее уже приводилась в пример статья By и соавт. [Wu X. et al., 2006], в которой семантические подходы применяли для построения сетей белок-белковых взаимодействий в дрожжах. Меру сходства белков рассчитывали путем сравнения аннотаций GO. Результирующая сеть содержала более 40 тыс. взаимодействий между 2259 белками, из которых 35% совпадали с экспериментальными результатами, содержащимися в базе данных молекулярных взаимодействий MIPS.

Использование терминов онтологии GO для оценки семантической связности позволяет получать графы, хорошо совпадающие с литературными данными. Недостатками такого подходя является субъективный характер присваиваемых белкам аннотаций. Это означает, что сначала куратор интерпретирует литературные данные и транслирует их в аннотации GO, затем аннотации сравниваются между собой и в результате этого сравнения возникает семантическая сеть. В работе [Zheng B., Lu X., 2007] авторы отмечают три основных недостатка определения семантической связности между белками на основе сравнения аннотаций GO: (а) снижение чувствительности вследствие противоречивых аннотаций, (б) отсутствие объективного критерия для совместного учета терминов, относящихся к разным разделам GO и (в) отсутствие или неполнота аннотаций для ряда генов и белков. Избежать этих недостатков можно, если семантические связи между белками оценивать напрямую обращаясь к соответствующим научным статьям, минуя этап субъективной интерпретации их содержания.

Сравнение публикаций

В реферируемых изданиях вышло не так много статей, посвященных построению семантических сетей белков с использованием текстомики. Основная идея такого подхода заключается в сравнении в качестве аннотаций объектов непосредственно текстов документов, относящихся к этим объектам.

В работе [Stapley B., Benoit G., 2000] с использованием релевантных документов установили биологические взаимосвязи между двумя генами. Если названия двух генов встретились в тексте одного документа, то в большинстве случаев между этими генами существует биологически обоснованная связь, например, оба участвуют в процессе репарации ДНК. Количество публикаций, в которых встретились названия генов одновременно, нормированное по отношению к количеству публикаций для каждого гена в отдельности авторы назвали биобиблиометрической мерой, при этом чем больше одинаковых статей найдено для двух генов, тем выше степень семантического сходства между ними.

В рассматриваемой статье [Stapley B., Benoit G., 2000] также указаны и основные причины, по которым два гена могут оказаться упомянуты в одной статье:

(а) физическое взаимодействие белковых субъединиц в составе комплекса;

(б) функциональные взаимодействия, обусловленные сходством или комплементарностью выполняемых белками (ферментами) функций;

(в) эволюционные взаимосвязи, приводящие к существенному сходству аминокислотной последовательности и (или) структуры белка;

(г) специфика постановки опытов, например, связанная с применением одинаковых праймеров в экспериментах по функциональной геномике;

(д) близость генов по расположению на хромосоме.

Другой способ установления семантических взаимосвязей между белками заключается в том, что для каждого гена находят контекстным поиском список релевантных статей. Далее все найденные статьи объединяют в состав единого мета-документа. Для нескольких генов получается несколько мета-документов, и для каждого вычисляют методом скрытого семантического индексирования набор параметров (вектор). Сходство между генами определяют как сходство наборов параметров соответствующих этим генам мета-документам.

Итак, в этом разделе были рассмотрены основные задачи, решаемые в молекулярной биологии с использованием интеллектуального анализа текстов. Первой задачей является распознавание в статьях названий генов и белков. Её решения, предлагаемые в ряде работ [Chen H., Sharp B., 2004; Chang J. et al. 2004], открывают возможность автоматического пополнения сведений о структуре и функции белков. Одновременно с применением текстомики для аннотирования отдельных белков, развивается область использования аналогичных алгоритмов для выявления белок-белковых взаимосвязей [He M. et al., 2009]. Здесь наиболее простым решением оказывается выявление факта совместного упоминания двух белков в одной статье. Однако, для выявления скрытых взаимосвязей авторы ряда работ предлагают использовать семантический анализ [Wu X. et al., 2006] аннотаций объектов.

Обзор зарубежных разработок

В настоящем разделе освещаются наиболее известные зарубежные системы в области биомедицины, использующие методы текстомики.

Конструирование сетей генов и белков, в которых взаимосвязь устанавливается путем поиска совместного упоминания  наименований объектов исследования в статьях, реализовано в системе PubGene [Jenssen T., et al., 2001]. К преимуществам системы следует отнести простоту заложенной в эту систему идеи. Недостатком является невысокая точность выявления взаимосвязей между генами - около 50%. Такой низкий показатель точности связан с некорректной идентификаций названий генов в силу различий используемых авторами статей обозначений. Также метод PubGene непригоден для выявления скрытых взаимосвязей между объектами, которые никогда не были упомянуты совместно в одной статье.

Идея, заложенная в систему PubGene, была развита в системе CoreMine [http://www.coremine.com], созданной разработчиками PubGene. Помимо названий генов и белков, для построения семантической сети взаимосвязей используется информация об упоминании в рамках одной статьи терминов какой-либо из категорий: названия химических соединений, термины MeSH (подразделяемые на «заболевания» и «анатомические структуры»), термины онтологии GO, названия лекарственных препаратов. Таким образом, по запросу пользователя система выдает ему список понятий, связанных с его запросом, а также предоставляет удобный интерфейс для работы с публикациями по выбранному фрагменту построенной семантической сети.

Схожий принцип построения семантических сетей лежит в основе работы Веб-ориентированной системы  iHOP [Information Hyperlinked over Proteins] [Hoffmann R., Valencia A., 2004]. Эта система позволяет представить рефераты MEDLINE в виде сетей (неориентированных графов), в которых вершинами являются названия объектов (белков, генов, химических соединений), а ребрами - выявленные взаимосвязи между ними. Принцип работы системы состоит в идентификации названий генов и белков в одном предложении с другим объектом, например, химическим соединением, метаболической реакцией или заболеванием. Пользователю выводятся предложения, в которых термин-запрос встретился совместно с названиями других объектов или терминами MeSH. Пользователь отбирает интересные с его точки зрения предложения, последовательно добавляя их в систему визуализации для последующей реконструкции сети взаимосвязей. Система iHOP является удобным ресурсом для описания взаимосвязей между небольшим количеством объектов, поскольку каждая отображаемая взаимосвязь является результатом отбора нужных предложений пользователем.

В мета-базе данных STRING автоматический анализ текстов рефератов ресурса MEDLINE/PubMed используется для внесения информации [Jensen L. et al., 2009, http://string-db.org].  Этот ресурс содержит информацию как о физически взаимодействующих белках, так и о функциональных взаимосвязях между белками. Данные о белок-белковых взаимодействиях  введены в систему из нескольких источников, включая результаты транскриптомных и протеомных экспериментов, базы данных о белковых комплексах, прогнозируемые взаимосвязи и результаты автоматического анализа текстов. Преимуществом данной системы является быстрота обработки запросов и наличие системы визуализации найденных взаимосвязей в виде неориентированного графа, каждое ребро которого обозначает взаимосвязь между белками и содержит информацию о способе выявления данной взаимосвязи. На 2009 г. в ресурсе доступна информация о взаимосвязях для более чем 2,5 миллионов белков из 630 организмов. Несмотря на то, что система STRING на данный момент предоставляет наиболее исчерпывающие данные о белок-белковых взаимосвязях, используемый при работе системы алгоритм автоматического анализа текстов остается таким же, как и в рассмотренных выше системах: взаимосвязанными считаются те белки, названия которых встречаются совместно в рамках одного реферата  системы PubMed.

Обзор российских разработок

В России перейти от выявления отдельных взаимосвязей между генами к моделированию и анализу генных сетей предложили исследователи из Института цитологии  и генетики СО РАН. Созданная этой группой электронная библиотека GeneNet [Ананько Е. и соавт., 2000] включает в себя информацию о взаимодействиях между генами, найденную при экспертном анализе статей. Полученные экспертами сведения вносятся в базу данных, на основе которой происходит реконструкция и визуализация генных сетей. В системе описано несколько десятков генных сетей, контролирующих процессы липидного метаболизма, кроветворения, противовирусного ответа, тепловой шок и другие. Помимо качественной характеристики наличия или отсутствия взаимосвязи между двумя генами, в системе учитывается и характер регуляторных взаимодействий между генами - включение, выключение, усиление или подавление молекулярных взаимодействий. Наличие этой информации позволяет моделировать и оценивать динамическое изменение генной сети во времени, а также предсказывать тип и характер происходящих молекулярных процессов. 

Другой разработкой ИЦиГ РАН является система AndCell [Иванисенко В.А. и соавт., 2009], позволяющая проводить автоматическую реконструкцию сетей путем комбинации сведений, полученных из баз данных и текстов научных публикаций. Важной составляющей системы являются словари названий молекулярно-биологичесих объектов. Созданы словари названий генов, белков, молекулярных процессов, организмов, заболеваний и др.  Совместное использование словарей и поисковых шаблонов позволило разработчикам автоматически проанализировать более 20 млн. рефератов PubMed и выявить более 5 млн. фактов, среди которых данные о межмолекулярных взаимодействиях, каталитических реакциях, регуляции генетических путей и патологических процессов, регуляции экспрессии генов и т.д.


Использовать методы текстомики для аннотирования результатов высокопроизводительных экспериментов предложили сотрудники ИБМХ РАМН. В разработанной системе в автоматическом режиме устанавливаются семантические взаимосвязи внутри больших групп белков. Практическое применение разработанного подхода в научных исследованиях обусловлено интуитивно понятной схемой его работы. Поиск в базе данных MELDINE информации об идентифицированных белках в настоящее время широко используется для интерпретации результатов высокопроизводительных экспериментов в области протеомики. Разработанный подход позволяет автоматизировать поиск релевантных публикаций и существенно ускорить получение обобщенного представления о распределении сотен идентифицируемых в ходе протеомного эксперимента белков по изученным биологическим процессам [Пономаренко Е.А. и соавт., 2010].

В числе перспективных разработок в области семантического анализа биомедицинских публикаций следует указать на пакет «Neosemantic Frame Work». Эта платформенная технология разработки приложений для интеллектуального анализа парных текстов создана консорциумом из нескольких российских научно-исследовательских компаний (ООО «КуБ», ООО «Технологии знаний», Научно-образовательный центр «Параллельные вычисления»). В состав платформы входят три основных блока: блок сбора данных, блок представления данных в Веб-системе и интерфейсный блок. Блок сбора данных позволяет извлечь из ресурсов сети Интернет информацию об объектах исследования и установить между ними ассоциативные взаимосвязи. Полученная информационная модель загружается в базу знаний к которой пользователь обращается через функцию ассоциативного запроса. Более полный поиск релевантной информации в базе знаний осуществляется посредством интерфейсного блока. Его задача - постоянно анализировать обращения пользователя к научным статьям с помощью Интернет. На основе обработки этой информации конструируется индивидуальная модель пользователя. Модель позволяет с большей точностью находить в базе знаний интересующую конкретного пользователя информацию. Система «Neosemantic Framework» была успешно применена для создания семантической кластеризации белков природного происхождения [Kistanova et al., Izvestia TSHA, 2009] и для разработки экспертной системы в области доставки лекарств [Ugolnikova et al., Izvestia MITHT, 2010].

Проиллюстрировав возможности практического применения пакета  «Neosemantic Framework» можно на примере установления взаимосвязи между белками, упомянутыми в журнале Nature. Для 260 таких белков с использованием ресурса PubMed отобрали родственные по смыслу публикации, вышедшие в разных журналах. Содержащуюся в этих публикациях информацию обобщили по принципу: чем больше родственных публикаций найденно в системе PubMed для двух белков - тем выше степень семантической взаимосвязи между ними. Получили семантическую сеть, отображающую основные белки, которые обсуждались в Nature за последние два года. В составе полученных изолированных подграфов семантической сети были выявлены белки, связанные с развитием онкологических и аутоиммунных заболеваний, а также белки апоптоза. Таким образом, за 3 часа было автоматически обработано  более 62 тыс. публикаций из разных журналов и получен дайджест журнала Nature, выявивший приоритеты современной молекулярной биологии.



Список литературы

1.     Aerts, S. et al. (2008). Text-mining assisted regulatory annotation //Genome Biol. 9: R31.

2.     Archakov, A. I. et al. (2003). Protein-protein interactions as a target for drugs in proteomics //Proteomics. 3: 380-391.

3.     Ashburner, M. et al. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium //Nat Genet. 25: 25-29.

4.     Bader, G. D., D. Betel, C. W. Hogue (2003). BIND: the Biomolecular Interaction Network Database //Nucleic Acids Res. 31: 248-250.

5.     Blaschke, C., A. Valencia (2002). Automatic ontology construction from the literature //Genome Inform. 13: 201-213.

6.     Blaschke, C., M. A. Andrade, C. Ouzounis, A. Valencia (1999). Automatic extraction of biological information from scientific text: protein-protein interactions //Proc Int Conf Intell Syst Mol Biol: 60-67.

7.     Brill, E. (1995). Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging //Comput. Linguistics. 21.

8.     Chang, J. T., H. Schutze, R. B. Altman (2004). GAPSCORE: finding gene and protein names one word at a time //Bioinformatics. 20: 216-225.

9.     Chen, H., B. M. Sharp (2004). Content-rich biological network constructed by mining PubMed abstracts //BMC Bioinformatics. 5: 147.

10.  Deerwester, S.C., Dumais, S.T., Landauer, T.K., Furnas, G.W., Harshman, R.A. (1990). Indexing by latent semantic analysis //J. Inform. Sci. 41: 391-407.

11.  Donaldson, I. et al. (2003). PreBIND and Textomy--mining the biomedical literature for protein-protein interactions using a support vector machine //BMC Bioinformatics. 4: 11.

12.  Duan, Z. H. et al. (2006). The relationship between protein sequences and their gene ontology functions //BMC Bioinformatics. 7 Suppl 4: S11.

13.  Erhardt, R. A., R. Schneider, C. Blaschke (2006). Status of text-mining techniques applied to biomedical text //Drug Discov Today. 11: 315-325.

14.  Formstecher, E. et al. (2005). Protein interaction mapping: a Drosophila case study //Genome Res. 15: 376-384.

15.  Fukuda, K., A. Tamura, T. Tsunoda, T. Takagi (1998). Toward information extraction: identifying protein names from biological papers //Pac Symp Biocomput: 707-718.

16.  Glenisson, P. et al. (2003). Evaluation of the vector space representation in text-based gene clustering //Pac Symp Biocomput: 391-402.

17.  Guo, X. et al. (2006). Assessing semantic similarity measures for the characterization of human regulatory pathways //Bioinformatics. 22: 967-973.

18.  Harris, M. A. et al. (2004). The Gene Ontology (GO) database and informatics resource //Nucleic Acids Res. 32: D258-261.

19.  He, M., Y. Wang, W. Li (2009). PPI finder: a mining tool for human protein-protein interactions //PLoS ONE. 4: 4554.

20.  Hoffmann, R., A. Valencia (2004). A gene network for navigating the literature //Nat Genet. 36: 664.

21.  Homayouni, R., K. Heinrich, L. Wei, M. W. Berry (2005). Gene clustering by latent semantic indexing of MEDLINE abstracts //Bioinformatics. 21: 104-115.

22.  Jensen, L., J. Saric, P. Bork (2003). Utilizing literature for biological discovery //Proceedings of E-BioSci/ORIEL, Villa Monastero, Varenna, Italy

23.  Jensen, L.J. et al. (2009) STRING 8--a global view on proteins and their functional interactions in 630 organisms //Nucleic Acids Res. 37:D412-6.

24.  Jenssen, T. K., A. Laegreid, J. Komorowski, E. Hovig (2001). A literature network of human genes for high-throughput analysis of gene expression //Nat Genet. 28: 21-28.

25.  Krallinger, M., A. Valencia (2005). Text-mining and information-retrieval services for molecular biology //Genome Biol. 6: 224.

26.  Krallinger, M., A. Valencia, L. Hirschman (2008). Linking genes to literature: text mining, information extraction, and retrieval applications for biology //Genome Biol. 9 Suppl 2: S8.

27.  Landauer, T.K., Laham, D., Derr, M. (2004) From paragraph to graph: latent semantic analysis for information visualization //Proc. Natl. Acad. Sci. 101:5214-5219.

28.  Lei, Z., Y. Dai (2006). Assessing protein similarity with Gene Ontology and its use in subnuclear localization prediction //BMC Bioinformatics. 7: 491.

29.  Li, H., Y. Sun, M. Zhan (2007). Analysis of Gene Coexpression by B-Spline Based CoD Estimation //EURASIP J Bioinform Syst Biol. 49: 478.

30.  Manning, C., H. Schutze (1999). Foundations of Statistical Natural Language Processing //.

31.  Marcotte, E. M., I. Xenarios, D. Eisenberg (2001). Mining literature for protein-protein interactions //Bioinformatics. 17: 359-363.

32.  Nelson, D. R. (2006). Cytochrome P450 nomenclature, 2004 //Methods Mol Biol. 320: 1-10.

33.  Raychaudhuri, S. (2006) Computational Text Analysis for Functional Genomics and Bioinformatics. Oxford University Press.

34.  Regev, Y., M. Finkelstein-Landau, R. Feldman (2003). Rule-based extraction of experimental evidence in the biomedical domain: The KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 90-92.

35.  Shi, M., D. Edwin, R. Menon (2002). A machine learning approach for the curation of biomedical literature-KDD Cup 2002 (task 1) //ACM SIGKDD Explorations Newsletter. 4: 93-94.

36.  Stapley, B. J., G. Benoit (2000). Biobibliometrics: information retrieval and visualization from co-occurrences of gene names in Medline abstracts //Pac Symp Biocomput: 529-540.

37.  Wilbur, W., L. Coffee (1994). The Effectiveness of Document Neighboring in Search Enhancement //Inf. Process. Manage. 30: 253-266.

38.  Wu, X. et al. (2006). Prediction of yeast protein-protein interaction network: insights from the Gene Ontology and annotations //Nucleic Acids Res. 34: 2137-2150.

39.  Zheng, B., X. Lu (2007). Novel metrics for evaluating the functional coherence of protein groups via protein semantic network //Genome Biol. 8: R153.

40.  Ананько Е.А., Лихошвай В.А., Колпаков Ф.А., Подколодный Н.Л., Ратушный А.В., Игнатьева Е.В., Подколодная О.А., Степаненко И.Л., Колчанов Н.А. (2000). Электронная библиотека GeneNet: описание и моделирование генных сетей животных и растений. Вторая Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», 66-72.

41.  Иванисенко В.А. и соавт. Автоматическое извлечение знаний о живых системах из научных текстов и баз данных и их представления в виде ассоциативных сетей. 2009.

42. Пономаренко Е.А., Лисица А.В., Ильгисонис Е.В., Арчаков А.И. Создание семантических сетей белков с использованием Pubmed/Medline.// Молекулярная биология, 2010, 44, 1-11.