Проверка равномерности распределения точек на интервале


Рассмотрим задачу проверки равномерности распределения точек на интервале.

Эта задача практически чрезвычайно важна, так как к ней можно свести задачу проверки согласия для любого непрерывного распределения. Действительно, преобразование U=FX(X) позволяет свести все бесконечное многообразие непрерывных случайных величин к одной - стандартной равномерной случайной величине распределенной на интервале (0;1)  (U - uniform distribution) - осуществить "униформизацию". Обратное преобразование X=F-1X(U), наоборот позволяет получить любую случайную величину из равномерной. Практически это означает, что, имея генератор равномерной с.в., можно получить генератор любой непрерывной с.в.


Существенно, что величина является одномерной. В частности это позволяет упорядочивать эти случайные величины (порядковые статистики X(i)), измерять интервалы между значениями X(i) - переходя к промежуткам (spacings) D(i)=X(i+1)-X(i).При выборе критерия следует учитывать каковы альтернативные гипотезы. Перечислим некоторые критерии.
 

1.Критерий Гринвуда-Морана.

Критерий был предложен для проверки гипотезы о случайном во времени возникновении инфекционных заболеваний. При распределении случайных точек с равномерной плотностью интервалы между ними (spacings) не могут быть слишком одинаковыми (точки образуют подобие кристаллической решетки, выдерживая между собой дистанцию), но и не могут слишком сильно меняться (точки образуют сгущения, слипаясь между собой). Рассмотрим стандартное равномерное распределение на интервале (0;1). Отсортируем значения Ui в порядке возрастания, прейдя от исходных независимых значений U1 ,U2 ,...Un к зависимым порядковым статистикам: 0≤U(1) ≤U(2) ≤...≤U(n) ≤1. Определим n+1 промежуток: D1 = U(1), D2 =U(2) -U(1) , ..., Dn+1 =1 -U(n) . Напомним, что распределение длины всех промежутков одинаково (включая первый и последний, что может показаться странным!). Совместная плотность распределения постоянна и вырождена: сосредоточена на плоскости D1+D2+ ...+Dn+1 =1, отсекаемой D1≥0, D2≥0, ...Dn+1≥0.

            Для характеристики степени постоянства длины промежутков введем сумму квадратов длин Sn=D12+D22+ ...+Dn+12. Эта сумма минимальна, если все промежутки одинаковы: D1=D2= ...Dn+1 =1/(n+1). В этой точке сфера D12+D22+ ...+Dn+12 =const=1/(n+1) касается плоскости D1+D2+ ...+Dn+1 =1.

Для наглядности можно представить, что между всеми точкам, нулем и первой точкой, последней точкой и единицей вставлены пружинки, которые в равновесии имеют одну и ту же длину l=1/(n+1). Тогда удвоенная сумма квадратов промежутков играет роль потенциальной энергии, отличаясь от нее на константу. Минимальная энергия соответствует случаю, когда все пружинки имеют постоянную длину.

Максимальна сумма квадратов, когда все промежутки кроме одного равны нулю, например D1=0, D2= ...Dn+1 =0  → Sn=1. Итак, 1/(n+1)≤Sn≤1. Теперь, если для каждого n мы найдем распределение величины Sn , можно будет определить, какие значения Sn слишком малы и слишком велики, так что гипотезу H0 надо будет отвергнуть.


2.Критерий Колмогорова.

Рассмотрим часть единичного интервала (0;p), где 0≤p≤1. Математическое ожидание числа точек K попавших на этот интервал M[K]=np=E (Expected). Обозначим фактически попавшее туда число точек через O(p) (Observed). Для каждого значения p от 0 до 1 величина O(p) принимает некоторое известное из эксперимента значение. Составим разность (O(p)-np)/n и найдем максимальную величину модуля этой разности при изменении p от 0 до 1:

Получив неправдоподобно большое значение Dn, мы отвергнем H0 о равномерном распределении точек. Так как функция O(p) состоит из горизонтальных отрезков, разрывающихся в точках, где располагаются наблюдения U(i), то наибольшее значение может достигаться только в одной из таких точек. В результате при поиске максимума можно сравнивать между собой только значения в этих точках. В них O(p)=1,2,...n, а величина p=U(1) ,U(2) ,...U(n) . Поэтому на практике используют формулу:

Мы рассматриваем все возможные интервалы вида (0;p) и среди них выбираем такой, в котором максимально расхождение между наблюдаемым числом точек и ожидаемым. Недостаток такого метода в том, что вероятность случайных отклонений будет зависеть от p, достигая максимума в точке p=1/2.

Величину O(p) можно записать в виде формулы, содержащей исходные данные, воспользовавшись понятием единичной функции H(x) (H(x)=0 для x<0, H(x)=1 для x≥0):

     

Величины H(p-Ui) независимы и принимают значения 1 с вероятностью p и 0 с вероятностью 1-p. Поэтому O(p) - имеет биномиальное распределение с математическим ожиданием np и дисперсией np(1-p). Для разности (O(p)-np)/n математическое ожидание равно 0, а дисперсия равна p(1-p)/n. Отсюда следует, что в окрестности центра p=1/2 дисперсия максимальна и случайные отклонения Dn чаще будут происходить в центре.

Полезно сопоставить (O(p)-np)/n=(O(p)-E(p))/n с величиной (O(p)-E(p))/D(O(p)) которая рассматривается в критерии Пирсона. В критерии Колмогорова величины не нормированы, сильно зависимы между собой, мы ищем распределение максимальной по модулю среди них. В критерии Пирсона величины нормированы, для простой гипотезы практически независимы, мы рассматриваем распределение суммы их квадратов. Имеется вариант нормированного критерия Колмогорова (Darling, Anderson).

            Запишем критерий Колмогорова в общем виде. Заметим для этого, что O(p)/n является эмпирической функцией распределения, а теоретическая функция F(p)=p. Поэтому расстояние D - это расстояние между эмпирической и теоретической функциями распределения (cumulative distribution functions). Любую непрерывную с.в. X можно свести к равномерной с.в U, преобразуя нужным образом значения абсцисс (горизонтальные сдвиги): U=FX(x). Вертикальные расстояния между эмпирической и теоретической функциями при этом меняться не будут. Поэтому распределение D останется прежним! Это универсальный и красивый результат, но им редко можно воспользоваться, так как точный вид преобразования U=FX(x) обычно неизвестен - в него входят числовые параметры θ, которые следует оценивать по выборке. Иными словами, на практике гипотеза о виде распределения обычно не простая ( H0: F=FX(x) ), а сложная ( H0:  F=FX(x,θ); θ=? ).

 

 

Добавить комментарий


Защитный код
Обновить