Классификация и поиск биомаркеров в протеомике

Среди направлений развития протеомики особе место занимает совершенствование методов, предназначенных для ранней диагностики различных заболеваний. В первую очередь внимание исследователей привлекает выявление онкологических заболеваний из-за огромной медицинской и социальной значимости. Для этого собирается выборка больных с исследуемым заболеванием, а также подбирается группа контроля - условно-здоровых. Полученный биоматериал (плазма крови, биопсия тканей) исследуют с помощью протеомных методов, получая данные о состоянии протеома пациента в виде набора пиков на масс-спектре или пятен на геле. Далее с помощью различных статистических методов - т.н. распознавания образов - пытаются выявить паттерны в данных, различающие здоровых и больных. В итоге получают решающее правило, позволяющее отнести вновь поступившего пациента в группу здоровых или в группу больных в соответствии с результатами протеомного исследования.

            Одним из наиболее широко применяемых алгоритмов распознавания образов в протеомике является метод опорных векторов (Support Vector Machines, SVM), разработанный В. Н. Вапником. Для построения решающего правила используются наиболее характерные точки в пространстве признаков (опорные вектора),  что позволяет получать решающие правила, нечувствительные к шуму в данных. Другой важной особенностью этого метода является искусственное повышение размерности пространства признаков (kernel trick). Благодаря этому часто удается построить решающее правило, которое разделяет группы больных и контроля с высокой точностью.

            Однако построение решающего правила со 100% точностью возможно далеко не всегда. Встречаются ошибки классификатора в ту или иную сторону. Если пациент на самом деле здоров, а классификатор предсказывает развитие опухоли, то такая ошибка называется ложно-положительной или ошибкой первого типа. Если же у пациента имеется опухоль, а в результате применения классификатора он отнесен к классу "здоровые", то в этом случае совершается ложно-отрицательная ошибка (второго типа). Ясно, что в этом случае цена ошибки второго типа (неназначение лечения больному) намного выше, чем цена ошибки первого типа (назначение лечения, которое на самом деле не требуется). Поэтому помимо точности вводят другие меры оценки работы классификатора: чувствительность и специфичность. Чувствительность представляет собой долю положительных ответов классификатора на группе больных, а специфичность - долю положительных ответов классификатора на группе контроля.

            Эти величины взаимосвязаны  - например, мы можем подстроить классификатор для получения высокой чувствительности ценой уменьшения специфичности. Поэтому часто их изображают на графике в координатах (1-специфичность; чувствительность). Этот график называется ROC-кривой (Receiver Operating Characteristic) и может быть использован для сравнения различных классификаторов. Чем больше площадь под ROC-кривой (в идеале - единица), тем точнее работает классификатор.

Особое внимание привлекает не столько построение максимально точного диагностического правила, сколько идентификация белков соответствующих потенциальным биомаркерам, что позволяет получить новые данные о молекулярных механизмах развития заболевания. Для этого необходимо найти минимально избыточный набор переменных (пиков масс-спектра или пятен на геле), который все же позволяет достичь приемлимой точности диагностики. С этой целью используют методы отбора переменных (feature selection), уменьшающие размерность пространства признаков. Типичным является уменьшение количества переменных с нескольких сотен до пары десятков.

В качестве примера метода для отбора переменных можно привести процедуру рекурсивного удаления признаков (Recursive Feature Elimination, RFE). На каждом шаге этой процедуры обучают классификатор (например, SVM), и каждой переменной присваивают вес в соответствии с построенным решающим правилом. Переменную с наименьшим весом исключают из дальнейшего анализа. Далее классификатор обучают на оставшихся переменных, веса вычисляют заново и процесс продолжается до полного исчерпания набора признаков. В результате можно определить небольшой набор переменных, которые классифицируют образцы с достаточной точностью. Предполагается, что именно эти переменные  (т.е. белки) являются биомаркерами и приоритетны для проведения их идентификации.