Смекни!
smekni.com

Статистический анализ числовых величин (непараметрическая статистика) (стр. 8 из 12)

D(T) = ( 0,544 n + 0,392 m + 2,064 ) (m+n+1) - 1 .

Как легко видеть, дисперсия всегда меньше 1. Это значит, что в рассматриваемом случае гипотеза полной однородности (2) при проверке с помощью критерия Вилкоксона будет приниматься чаще, чем если она на самом деле верна.

На наш взгляд, это означает, что критерий Вилкоксона нельзя считать критерием для проверки гипотезы (2) при альтернативе общего вида. Он не всегда позволяет проверить однородность - не при всех альтернативах. Точно так же критерии типа хи-квадрат нельзя считать критериями проверки гипотез согласия и однородности - они позволяют обнаружить не все различия, поскольку некоторые из них "скрадывает" группировка.

Обсудим теперь, действительно ли критерий Вилкоксона нацелен на проверку равенства медиан распределений, соответствующих выборкам.

Пример 3. Построим семейство пар функций распределения F(x) и G(x) таких, что их медианы различны, но для F(x) и G(x) выполнена гипотеза (6). Пусть распределения сосредоточены на интервале (0 ; 1), и на нем G(x) = x , а F(x) имеет кусочно-линейный график с вершинами в точках (0 ; 0), (

, 1/2 ), (
, 3/4), (1 ; 1). Следовательно,

F(x) = 0 при x < 0 ;

F(x) = x / (2

) на [0 ;
) ;

F(x) = 1/2 + (x -

) / (4
- 4
) на [
;
) ;

F(x) = 3/4 + (x -

) / (4 - 4
) на [
; 1] ;

F(x) = 1 при x > 1.

Очевидно, что медиана F(x) равна

, а медиана G(x) равна 1/2 .

Согласно соотношению (9) для выполнения гипотезы (6) достаточно определить

как функцию
,
=
(
) , из условия

Вычисления дают

=
(
) = 3 (1 -
)/2 .

Учитывая, что

лежит между
и 1, не совпадая ни с тем, ни с другим, получаем ограничения на
, а именно, 1/3 <
< 3/5 . Итак, построено искомое семейство пар функций распределения.

Пример 4. Пусть, как и в примере 3, распределения сосредоточены на интервале (0; 1), и на нем F(x)=x, а G(x) - функция распределения, сосредоточенного в двух точках -

и 1, т.е. G(x) = 0 при x, не превосходящем
; G(x) = h на (
; 1] ; G(x) = 1 при x > 1. С такой функцией G(x) легко проводить расчеты. Однако она не удовлетворяет принятым выше условиям непрерывности и строгого возрастания. Вместе с тем легко видеть, что она является предельной (сходимость в каждой точке отрезка [0 ; 1] ) для последовательности функций распределения, удовлетворяющих этим условиям, а распределение статистики Вилкоксона для пары функций распределения примера 4 является предельным для последовательности соответствующих распределений статистики Вилкоксона, полученных в рассматриваемых условиях непрерывности и строгого возрастания.

Условие P(X < Y) = 1/2 выполнено, если h = (1 -

)-1 / 2 (при
из отрезка [0 ; 1/2] ). Поскольку h > 1/2 при положительном
, то очевидно, что медиана G(x) равна
, в то время как медиана F(x) равна 1/2 . Значит, при
= 1/2 медианы совпадают, при всех иных положительных
- различны. При
= 0 медианой G(x) является любая точка из отрезка [0 ; 1].

Легко подсчитать, что в условиях примера 4 параметры предельного распределения имеют вид

b2 =

(1-
)-1 / 4 , g2 = (1- 2
) / 4 .

Следовательно, распределение нормированной и центрированной статистики Вилкоксона будет асимптотически нормальным с математическим ожиданием 0 и дисперсией

D(T) = 3 [(n-1)

(1-
)-1 + (m-1) (1-2
) + 1] (m+n+1) - 1 .

Проанализируем величину D(T) в зависимости от параметра

и объемов выборок m и n. При достаточно больших m и n

D(T) = 3 w

(1 -
)-1 + 3 (1 - w) (1 - 2
) ,

с точностью до величин порядка (m+n)-1 , где w= n/(m+n). Значит, D(T) - линейная функция от w, а потому достигает экстремальных значений на границах интервала изменения w, т.е. при w = 0 и w = 1. Легко видеть, что при

(1-
)-1 <1-2
минимум равен 3
(1-
)-1 (при w = 1), а максимум равен 3(1 - 2
) (при w = 0). В случае
(1-
)-1 >1-2
максимум равен 3
(1-
)-1 (при w = 1), а минимум равен 3(1 - 2
) (при w = 0). Если же
(1-
)-1 =1-2
(это равенство справедливо при
=
0 = 1 - 2-1/2 = 0,293), то D(T)=3 (21/2-1)=1,2426... при всех w из отрезка [0; 1].

Первый из описанных выше случаев имеет быть при

<
0 , при этом минимум D(T) возрастает от 0 (при
=0, w=1 - предельный случай) до 3(21/2 - 1) (при
=
0 , w - любом), а максимум уменьшается от 3 (при
=0, w=0 - предельный случай) до 3 (21/2 - 1) (при
=
0 , w - любом). Второй случай относится к
из интервала (
0 ; 1/2]. При этом минимум убывает от приведенного выше значения для
=
0 до 0 (при
=1/2 , w=0 - предельный случай) , а максимум возрастает от того же значения при
=
0 до 3 (при
=1/2 , w=0).