Выявление неоднородностей в данных

Использование статистики для выявления неоднородностей (кластеров) в данных. Сопоставление случаев, когда гипотезы о составе кластеров формулируются до и после опыта.
 

Пятницкий А.М. 

Российский Государственный Медицинский Университет

 

1.Различия в методике проверки гипотез сформулированных до и после опыта.

В теории вероятностей и статистике дорога от простых учебных задач до практически важных, но сложных и нерешенных вопросов оказывается удивительно короткой. Сразу за поляной, где играют дети, начинается дремучий лес.

Вот две простые задачи из классического учебника Феллера (гл II,§10, NN13,23):

13. "Проверка статистической гипотезы".

Один профессор Корнельского университета двенадцать раз штрафовался за незаконную ночную стоянку машины, причем все двенадцать раз это происходило во вторники или в четверги. Найти вероятность этого события. Была бы оправдана аренда гаража только во вторники и в четверги?

23. "Семейная задача". В некотором семействе четыре сестры по очереди моют посуду. Из четырех разбитых тарелок три разбито младшей и поэтому ее называют неуклюжей. Можно ли ее оправдать, приписав эти неудачи случайности?

 Фактически это одна и та же задача о размещении r шаров по n ящикам, происходящим согласно нулевой гипотезе H0 случайным образом (то есть все из nr размещений шаров по ящикам равновероятны). В задаче N13 шары – это штрафные квитанции, а ящики – дни недели. В задаче N23 шары – это разбитые тарелки, которые раскладываются по четырем ящикам (у каждой сестры свой ящик для посуды разбитой ею). Итак, согласно H0 12 (или 4) шара раскладываются по 7 (или 4) ящикам, случайным образом. Размещение шаров, возникающее после опыта, кажется неравномерным - возникает сомнение в справедливости гипотезы H0, которую надо проверить. Если гипотеза H0 будет отвергнута, то нужно дополнительно указать - насколько четко выявлена неоднородность. (Мало убедиться в том, что вероятность штрафа зависит от дня недели, хотелось бы решить вопрос о том надо ли арендовать гараж именно на вторники и четверги.)

В этих двух задачах наблюдаемые частоты весьма малы (общее число раскладываемых шаров невелико). Приведем еще одну похожую задачу, но с большими частотами. Посмотрим на приведенную гистограмму.

 

Здесь изображены частоты появления цифр при розыгрыше лотереи (X0=18, X1=17, X2=16, X3=18, X4=20, X5=15, X6= 15, X7= 11, X8= 9, X9= 11 – всего 150 испытаний). Если лототрон устроен "честным образом" (H0), то все цифры от 0 до 9 должны появляться одинаково часто (M[Xi]=150·0.1=15). Однако нас смущает то, что в последних трех разрядах частоты кажутся слишком малыми. Этот пример принципиально не отличается от двух предыдущих, но обсуждается уже в научных статьях, как пример для тестирования новых алгоритмов [J.S.Simonoff, International Statistical Review, 1998, V.66, N2, pp.137-156].

Попробуем обобщить приведенные примеры. Имеется несколько групп наблюдений. Требуется проверить гипотезу о том, что данные однородны (все методики одинаково эффективны, игральная кость симметрична, все варианты обработки эквивалентны и т.д.). Если же это окажется не так, то в данных надо выявить неоднородности (кластеры).

Итак, глядя на данные, мы "видим" в них некую структуру. Требуется проверить: действительно ли эта структура существует, или ее наличие можно приписать игре случая?

 Статистика используется для решения задач двух типов.

1) Мы заранее знаем, какие данные будут образовывать группу. Статистика нужна лишь для подтверждения того, есть различие или его нет. Место, где может возникнуть неоднородность известно заранее. До получения данных мы заранее имеем не только H0 (данные образуют одну группу, однородны), но и некоторую альтернативную гипотезу H1

(состав нескольких групп).

2) До проведения опыта у нас нет информации о том, какая структура может возникнуть, т.е. альтернативная гипотеза формируется исходя из имеющихся данных. Тут метод проверки H0 должен быть другим – более сложным, чем в первом случае. Если она отвергнута, то мы можем попытаться выявить неоднородность. Возникает дополнительный вопрос о том, насколько хорошо локализована неоднородность.

При ограниченном и четко проведенном научном эксперименте (хороший диплом или кандидатская диссертация) мы обычно имеем дело с первым случаем. Например, предложен новый метод лечения. Он сравнивается с несколькими уже известными и одинаковыми по своей эффективности. Тут заранее (до получения результатов опыта) выделена альтернативная гипотеза: если неоднородность и возникнет, то в известном месте (новый метод будет лучше или хуже – не таким как все остальные).

Второй случай намного более интересен – здесь статистика используется не для проверки уже имеющейся гипотезы, а для получения НОВОГО знания. При анализе большого числа данных, в задачах распознавания образов типичен второй случай. Необходимо научить компьютер "удивляться", причем делать это "научно обоснованно". Процесс формирования и проверки гипотез должен быть автоматизирован. По-видимому, значение второго подхода в будущих приложениях статистики будет возрастать.

 Принципиальное отличие между этими двумя случаями проявляется в том, что с увеличением числа наблюдений чувствительность критериев в первом случае увеличивается, а во втором - уменьшается. Иными словами, чем больше данных, тем точнее можно проверить уже имеющиеся гипотезы о группах, и тем сложнее найти новые еще неизвестные группы.

Ситуация несколько упрощается, если есть возможность повторить эксперимент дважды. Первый опыт будет использоваться для формулировки альтернативной гипотезы H1, а второй – для ее проверки. Так увидев, что число тарелок разбитых младшей сестрой больше, мы формулируем соответствующую гипотезу, после чего продолжаем наблюдения и, наконец, делаем вывод. При этом методы проверки H0 упрощаются (это стандартные способы - см. п.1). Однако задача первоначальной идентификации "необычных" структур все равно остается. Объем данных часто столь велик, что выявить структуру должен компьютер, а не человек.

  

Решение задач 13 и 23.

Задача 13.

Здесь имеются два разных вопроса.

1)Следует ли отклонить H0?

Вероятность события A (все 12 штрафов приходятся именно на вторники и четверги) при справедливости H0 равна:

.

Однако ошибочно использовать именно эту вероятность для решения вопроса об отклонении H0. Ведь конкретные два дня (вторник и четверг) были выбраны после(!) опыта (проанализировав данные, мы обнаружили в них структуру – скопление штрафов в двух разрядах из семи). Поэтому надо считать вероятность события B, состоящего в том, что все штрафы приходятся на любые два дня недели. Вероятность увеличится в раз (число способов выбрать два дня из семи), но останется все равно малой:

(Точнее следовало бы считать вероятность того, что штрафы приходятся на любые два или даже один день, но ответ при этом практически тот же.)

Если еще до проведения опыта (получения 12 штрафов), мы считали, что именно вторник и четверг могут быть днями "благоприятными" для получения штрафа, то следует пользоваться величиной P(A).

Если бы в условии штрафы распределялись по пяти, а не двум дням, то поправка была бы решающей: . Тут одни и те же результаты интерпретируются по-разному.

2)После отклонения H0, возникает новый вопрос. Насколько надежно мы выявили в данных структуру – скопление штрафов в двух разрядах из семи? Если предположить, что не выявленным остался еще один день и все эти три дня были равновероятны с точки зрения возможности штрафа, то вероятность этого события мала: . Если бы таких не выявленных и столь же опасных дней было больше, то вероятность этого была бы еще меньше.Например, если их четыре, то. Поэтому аренда гаража именно во вторник и четверг оправдана.

  

Задача 23

Отличие только в цифрах, но практическая разница с задачей 13 в том, что теперь выбор правильного события для проверки гипотезы существен. Если в качестве альтернативной гипотезы заранее (до изучения разбитой посуды) считать что именно младшая сестра может выделяться в худшую сторону, то гипотезу однородности надо отвергнуть. Но если до опыта такой альтернативной гипотезы не было высказано, то следует считать вероятность другого события: наибольшее из наблюдаемых чисел равно или больше 3. Эта вероятность окажется большой (0.2), и у нас не будет никаких оснований подозревать неоднородность. Возможно, она есть, и выявится при увеличении объема данных. Надо продолжать наблюдения над процессом мытья посуды и разбивания тарелок (наилучший способ – это применить последовательный анализ).

Подчеркнем еще раз – распределение наибольшего значения среди нескольких наблюдаемых, естественно, не совпадает с распределением выбранного случайно.

 

Задача о лототроне.

Здесь появляется стандартный способ проверки однородности – хи-квадрат критерий (Пирсона), так как ожидаемые частоты достаточно велики (в задачах 13 и 23 им нельзя пользоваться – частоты были слишком малы). Сразу скажем, что в этой задаче хи-квадрат критерий не выявит неоднородности. Действительно – ожидаемая частота для каждого разряда равна 15, поэтому:

Эта величина даже меньше среднего значения (равного 9 при 9 степенях свободы). То, что критерий Пирсона не выявил наличия кластеров, не значит, что их нет. Следует применить другие критерии. Прежде, чем перейти к этим более сложным случаям, остановимся подробнее на хи-квадрат критерии.

  

2.Сравнение N нормальных величин с помощью хи-квадрат критерия. Множественные сравнения Шеффе.

 

Напомним, что сумма квадратов N независимых стандартных нормальных величин имеет хи-квадрат распределение с N степенями свободы. Набор N значений этих случайных величин, полученный как результат одного эксперимента, представляет собой точку в N-мерном пространстве. Проведя большое число экспериментов, получим сферически симметричное облако таких точек. Квадрат расстояния от случайно выбранной в облаке точки до начала координат – это и есть случайная величина. При больших значениях N это распределение само приближается к нормальному. При всех N для среднего и дисперсии имеем: Определим радиус шара, так, чтобы почти все, точнее(1-α)·100%, точек содержались внутри него: . Здесь - (1-α) квантиль хи-квадрат распределения с N степенями свободы. При N>30 величина соответствует 1-α квантилю функции Лапласа. Для используемых на практике значений α можно грубо считать . Если среднее квадратичное отклонение σ[X]= σ отлично от 1, то Rα следует умножить на σ:

При попытке разбивать данные на группы разумно начать с простейшего сравнения средних арифметических, задавая вопросы такого типа: существенно ли отличается среднее арифметическое первых семи измерений от последних трех, измерения с четными номерами от измерений с нечетных и т.д. Для задачи о лототроне можно рассмотреть величину:

Если для простоты считать все Xi независимыми величинами, имеющими пуассоновское распределение со средним значением и дисперсией равными 15, то можно считать, что величина имеет нормальное распределение со средним значением 0 и дисперсией . Наблюдаемое отклонение =6.67 составляет 2.5 от среднего квадратичного отклонения, что имеет весьма малую вероятность: T~N(m=0, σ=1) => P(T>2.5)=0.006. Поэтому, если бы до опыта мы решили изучать именно это сравнение, то факт неоднородности был бы обнаружен. Но, выбрав вид функции после опыта, мы должны действовать по-другому.

 
Линейные функции вида называются сравнениями. Если модуль сравнения отличен от нуля с достаточно большой вероятностью - данные неоднородны. Если H0 справедлива (однородные данные), то наблюдаемая точка находится внутри сферы. Сфера есть выпуклая поверхность - огибающая для семейства всевозможных параллельных плоскостей, удаленных на величину ±Rα от начала координат. Запишем условие, того, что точка находится между двумя этими опорными плоскостями:

Здесь величины произвольные константы, среди которых хотя бы одна отлична от нуля, а - компоненты единичной нормали. Поэтому, если верна H0 (данные однородны), то для любой линейной функции от наблюдений получаем:

Если мы рассматриваем различие между средними арифметическими двух групп, состоящих из N1 и N2 измерений, то:

 

Поэтому для любых двух средних арифметических имеем оценку

 

Итак, мы можем зафиксировать (выявить!) наличие структуры, отвергнув H0, если:

 

 Правая часть – произведение двух множителей – среднего квадратичного отклонения разности средних арифметических и множителя S (множитель ШеффеScheffe):

Существенно, что с ростом N множитель S возрастает.

Сравним это с тем условием, которое позволило бы выявить группы, если бы их существование и состав были заранее известны. Разность средних арифметических имеет нормальное распределение с нулевым средним и средним квадратичным отклонением . Поэтому неравенство, выявляющее существование групп:

Сравним правые части неравенств. При выводе после опыта чувствительность уменьшается с ростом N, а при выводе, основанном на до опытном знании, увеличивается (мы можем доказать существование сколь угодно малых различий!). Если размер групп одинаков, то чувствительность наибольшая:

За возможность сравнивать любое количество групп с любым набором мы заплатили весьма дорогую цену: S (коэффициент Шеффе) – множитель перед среднеквадратическим отклонением разности средних растет пропорционально квадратному корню из N.

Итак, если хи-квадрат критерий выявляет неоднородность, то естественно постараться установить ее природу: какие частоты отличаются друг от друга, а какие нет, тем самым, разбив все частоты на кластеры. Это можно сделать с помощью множественных сравнений. Важно, что мы должны оперировать не только парными сравнениями, а сравнивать любой набор частот с любым другим. Это эффективно тогда и только тогда, когда хи-квадрат выявил различия. Увы, часто этого не происходит. С увеличением числа разрядов метод становится нечувствительным. Нужны другие, более чувствительные методы выявления кластеров.

 

3.Разделение на два кластера в упорядоченной последовательности данных ("задача о разладке").

Итак, множественные сравнения – инструмент слишком грубый. Причина в том, что рассматриваются все группы, и чувствительность с ростом N катастрофически падает. Пусть мы имеем N упорядоченных данных. Считается, что в них могут быть два кластера и положение границы между ними заранее неизвестно (структура выявляется после опыта!). Упорядоченность может быть обусловлена тем, что данные наблюдаются с течением времени. В какой то неизвестный момент свойства системы меняются (происходит "разладка") и измеряемые данные образуют уже новый кластер. В задаче о лототроне упорядоченность также возможна из-за специфики его конструкции.

Остается справедливым общее положение: расширение числа вариантов состава отыскиваемых кластеров уменьшает чувствительность при их поиске. Здесь мы имеем всего N-1 вариантов деления на группы ({1}+{2,3,…,N};…{1,2,…,N-1}+{N}), поэтому естественно ожидать, что чувствительность хоть, и будет падать с ростом N, но не так быстро. Оказывается, что практически она уменьшается очень медленно (разница при N=100 и N=100000 невелика!).

 

4.Критерий пустых ящиков.

Этот критерий обобщает решение задачи 13. Действительно, там структура (полицейские патрулируют по вторникам и четвергам) была заподозрена в силу того, что слишком много дней в неделе оказались "счастливыми" – штрафов не было. К сожалению такая ситуация на практике встречается не так часто – обычно все ячейки заполнены, но неравномерно.

Комментарии  

 
0 #8 Rae 27.03.2024 03:20
Отличная платформа! Открыл для себя сайт со статьи:
https://pcpro100.info/pgs/1win-games-lubimue-krash-igru-i-ne-tolko.html. 1win games превысила все
мои ожидания. Множество игр и высокий уровень
честности создают ее идеальным местом для любителей азартных игр.

Доволен возможностью быть частью этого сообщества.
Цитировать
 
 
0 #7 Lewis 22.03.2024 11:02
Salom! Men yozuvchi materiallar mescevoj presi, va mening missiyam Maqsad ulashish chayqalish
ta joriy yangiliklar bizning ajoyib hududi. orqali harf viraz I Men namoz o'qiyman ochiq parda noyob pod_y, scho qo'lga olish bizning chekka, ta
ma'lumot ular haqida bu dunyoga. Men katlama qarash yangi https://1win-uzbekistan.net/ va boshqa tijorat veb-saytlar.
Цитировать
 
 
0 #6 Hung 11.03.2024 09:08
Thank you a bunch for sharing this with all of us you really recognise
what you're talking about! Bookmarked. Please also visit my web site =).
We can have a link trade arrangement between us

Feel free to visit my website: buying crypto
with credit card: https://mycryptopedia.org/buy-crypto/
Цитировать
 
 
0 #5 Marisa 11.03.2024 05:09
This excellent website truly has all of the information and facts I needed concerning this
subject and didn't know who to ask.

Here is my web-site; online gambling real money: https://gamblinghub.pro/
Цитировать
 
 
0 #4 Tarah 08.03.2024 17:42
Отличная платформа! Открыл для
себя сайт со статьи: http://footballtransfer.com.ua/top/news-122580.html. 1win games превысила все мои
предположения. Множество игр
и отличный уровень безопасности делают ее идеальным
местом для любителей азартных игр.

Рад возможностью быть частью этого коммьюнити.
Цитировать
 
 
0 #3 Lauren 08.03.2024 11:12
Приветствую всех футбольных фанатов!
Не пропустите неповторимую
шанс насладиться живой трансляцией встречи Челси - Ньюкасл.

Зову вас на мой сайт, где вы сможете бесплатно стать свидетелями
этого захватывающего спортивного события.
Не упустите шанс поддержать
свою любимую команду и пережить все напряжение
вместе с нами: https://jamsport.org/matches/chelseai-newcastlel-smotrety-onlayn/
Цитировать
 
 
0 #2 Irish 06.03.2024 03:19
Приветствую всех ценителей спорта!
Не упустите неповторимую возможность насладиться живой трансляцией встречи Брайтон - Ноттингем Форест.

Приглашаю вас на мой сайт, где вы сможете
бесплатно стать участниками этого волнующего матча.

Не упустите шанс поддержать свою команду мечты и пережить все яркие эмоции вместе
с нами: https://jamsport.org/matches/brighton-nottingham-forest-smotrety-onlayn/
Цитировать
 
 
0 #1 Margarito 04.03.2024 23:24
Приветствую всех ценителей
спорта! Не упустите неповторимую шанс посмотреть живой трансляцией матча
Вест Хэм - Бернли. Зову вас на мой сайт, где
вы сможете бесплатно стать
участниками этого захватывающего спортивного события.

Не упустите возможность
болеть за свою любимую команду и испытать все напряжение вместе с нами: https://jamsport.org/matches/vest-ham-burnley-smotrety-onlayn/
Цитировать
 

Добавить комментарий


Защитный код
Обновить