Обновлено 08.04.2009 Автор: Administrator
Очень базовые вещи о распознавании образов. Quick&dirty.Практические задачи
• Распознавание рукописных букв (FineReader)
• Отпечатки пальцев, распознавание речи,
• Аэрофотосъемка, определение свой/чужой (военные)
• Автоматический анализ ЭКГ, ЯМР, постановка диагноза,
…
Ключевые слова: методы распознавания образов, pattern recognition, machine learning,
Вход: новый объект
Выход: предсказание класса объекта
Пример №1: автоматическое предсказание сорта зерен пшеницы по одномерному электрофорезу. 40 сортов. ~ 80 дорожек каждого сорта
Пример №2: автоматическая постановка диагноза “рак яичника” по данным ИФА и масс-спектрометрии. Выборка образцов плазмы: 38 здоровых, 67 больных
Цель: выделить признаки объектов, удобные для классификации
в идеале:
•
объекты из одного класса
должны иметь схожие значения
•
объекты из разных классов
должны иметь разные значения
Примеры признаков:
Определение сортов пшеницы
• профиль оптической плотности вдоль дорожки
Классификация рака яичника
• интенсивность и положение пиков масс-спектра
• пол, возраст пациента
• результаты ИФА
Два типа задач:
1)Есть набор объектов. Нужно сгруппировать похожие объекты между собой (если группировка осмысленна!).
Это обучение без учителя (кластерный анализ)
2) Дополнительно есть информация о классах объектов. Нужно “обучиться” на этой информации
Это обучение с учителем: нейронные сети, теорема Байеса,
Кластеризация – объединение схожих объектов в группы (кластеры).
Обычно нужно заранее задавать число кластеров
Нужно некоторым образом определить, как считать расстояние между объектами.
• Иерархическая кластеризация: последовательность объединения объектов на различных уровнях сходства (дендрограмма)
метод средней связи, метод
полной связи, метод Уорда, …
• Разделяющая кластеризация: напрямую возвращает состав кластеров
Метод k-средних, PAM,…
Пример кластерного анализа в виде heatmap. Каждый столбец – объект, каждая строка – переменная (признак). Цветом кодируется значение. Полоса под дендрограммой объектов – истинные значения классов. Видно, что в данном случае кластерный анализ дает безошибочное разделение на 2 группы. Кластеризация признаков позволяет определить, какие группы переменных похожи друг на друга.
Задача – построить решающее правило, которое позволит относить вновь обработанный образец в тот или иной класс.
нейронные сети, SVM, decision trees
• Требуется большая выборка с заранее отклассифицированными объектами.
• Обычно работает лучше чем обучение без учителя.
• Кросс-валидация – при отсутствии тестовой выборки.
• Проблема переобучения (overfitting)
Задача: построить решающее правило ¦, которое хорошо описывает данные, т.е. найти отображение
Компромисс в выборе решающего правила:
q не должно быть слишком простым (чтобы дать достаточную точность)
q не должно быть слишком сложным (чтобы хорошо работало на новых объектах, не входящих в обучающую выборку)
• Главное - не тестироваться на том, на чем обучались! Иначе оценка ошибки будет чересчур оптимистичной
• Кросс-валидация применяется при малом объеме выборки
•
Разделить всю выборку на K частей
• Для каждого k=1..K: сформировать тестовую выборку как k-я часть. Для обучающей выборки – все остальное. Обучить классификатор на обучающей выборке, протестировать на тестовой выборке. Общая ошибка классификатора оценивается как среднее всех ошибок.
dimensionality reduction , feature selection
Большое число признаков (обычно стандарт в крупномасштабных биологических экспериментах):
• Усложняет анализ данных
• Обычно не все признаки имеют биологическую интерпретацию
• Часто целью является отбор значимых признаков
•
Ухудшает работу классификации. Переобучение.
• применение dimensionality reduction перед классификацией
-
формализация предметной области
(формализация признаков, определение набора классов)
- формирование обучающей выборки
- снижение размерности пространства признаков
- обучение («с учителем», «без учителя»)
- распознавание
- адаптация (если качество обучения признано неудовлетворительным)
- обратная задача распознавания (определение набора признаков наиболее характерных для объектов заданного класса)
Экспериментальные технологии:
- экспресс-методы ДНК сиквенирования
- транскриптомные ДНК микрочипы
- системы детекции белков (белковые чипы, масс-спектрометрия, …)
- системы детекции метаболитов (ЯМР, МС)
- флуоресцентная микроскопия клеток
- автоматизированный анализ тканевых срезов
- …
Вычислительные технологии:
- информационные ресурсы
- методы анализа последовательностей
- методы смыслового анализа публикаций
- молекулярное моделирование и докинг
- методы анализа количественного соотношения структура-активность (QSAR)
< Предыдущая | Следующая > |
---|