Document 535303

advertisement
Белов А.Г.
Непараметрический медианный доверительный интервал
МГУ имени М.В.Ломоносова, факультет ВМК (г. Москва)
В экспериментальной практике при оценке наибольшего сосредоточения
(«центра») распределения наблюдаемых значений случайной величины (с.в.)
часто вместо среднего значения (математического ожидания) используют
медиану. В данной работе выводится непараметрический доверительный
интервал
для
медианы,
являющийся
альтернативой
известным
параметрическим его аналогам, приводятся модельные расчеты.
Пусть  (1)  ...   ( n ) порядковые статистики выборки   1 ,...,  n  с.в.  ,
имеющей абсолютно непрерывное распределение с функцией распределения
n
(ф.р.) F (x) и медианой med , F (med )  0.5 . Рассмотрим с.в.  n ( x)   I  , x   i  ,
i 1
которая для любого действительного числа x  R 1 равна числу элементов
выборки  , значения которых не превосходит x , где I X x — индикаторная
функция множества X . Как известно[1,с.130], с.в.  n (x) распределена по
биномиальному закону Bi n, F ( x) . Тогда событие  ( k )  x, что не менее k
элементов выборки  имеют значения, не превосходящие x , эквивалентно
событию  n ( x)  k. С учетом последнего факта справедливы следующие
равенства
P ( k )  med   ( n  k 1)   P ( k )  med 1  P ( n  k 1)  med  
P n med   k 1  P n med   n  k  1  Pk   n med   n  k  
nk
C
i k
i
n
F i med 1  F med 
n i
nk
 2  n  C ni ,
i k
где C ni — обозначает число сочетаний из n по i , k  N , k 
n 1
. Таким образом,
2
nk
для заданных k, n можно рассчитать значение Bk , n   2 n  Cni  1   , такое что
ik
P ( k )  med   ( n  k 1)   1   , 0    1.
(1)
Bk , n
Величина
является
доверительной
вероятностью
медианного
доверительного интервала (1). Для вычисления Bk , n при различных значениях
k, n можно применить рекуррентное соотношение
Bk , n   Bk  1, n  1  Bk , n  1 / 2, k  n,
B0, n   1, Bk , n   0, k  n, k , n  Z  .
Справедливость последнего следует из очевидной рекуррентной формулы
C nm  C nm1  C nm11 и последовательности следующих равенств:
nk
nk
nk
n 1k 1

n 1 k

2  n  C ni  2  n  C ni 1  2  n  C ni 11  2  n   C ni 1  C nk11   2  n   C ni 1  C nk11  
i k
i k
i k
 i  k 1

 i k

2
n
 n 1 k 1
C
i  k 1
i
n 1
2
n
 n 1 k
C
i k
i
n 1
.
Для примера в таблице ниже приведены несколько рассчитанных начальных
значений Bk , n, k, n  0,1,...,7.
k\n
0
1
2
3
4
5
6
7
0
0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1
0
0
0.5
0.75
0.875
0.9375
0.9688
0.9844
2
0
0
0
0.25
0.5
0.6875
0.8125
0.8906
3
0
0
0
0
0.125
0.3125
0.5
0.6563
4
0
0
0
0
0
0.0625
0.1875
0.3438
5
0
0
0
0
0
0
0.0313
0.1094
6
0
0
0
0
0
0
0
0.0156
7
0
0
0
0
0
0
0
0
Как видно из таблицы, для заданного n получаем множество симметричных
медианных 1    -доверительных интервалов. Чем больше величина n , тем
разнообразнее выбор вероятностей, а, следовательно, и интервалов. Так, при
n6
имеем
три
интервала

(k )
,  ( n  k 1) , k  1,2,3
с
соответствующими
доверительными вероятностями 0.9688, 0.8125, 0.5 покрытия медианы
распределения наблюдаемой с.в.  , а при n  7 имеем четыре интервала с
доверительными вероятностями 0.9844, 0.8906, 0.6563, 0.3438.
Как
известно[1,с.129],
существует
связь
между
порядковыми
 n 1 , n дробное,
статистиками  ( i ) и выборочными  -квантилями qˆ n,   
 n  ,
n целое,
являющимися выборочными асимптотически нормальными, несмещенными и
состоятельными оценками их теоретических аналогов, определяемых как
q   inf x : F ( x)    или в нашем случае непрерывной ф.р. F (q )   . Тогда
каждому доверительному интервалу (1) при заданных k, n соответствует
множество симметричных интерквантильных интервалов qˆn, , qˆn,1    для
всех
k 1
k
   , поскольку, если число n
n
n
n   k  1 , тогда
дробное, то целая его часть
k  n   1 и qˆ n,    n 1   k  , qˆ n,1      n 1 1   n n    n  k 1 .
Из этого следует, что с вероятностью 1 2  в интервал qˆn, , qˆn,1   
попадают значения с.в.  с ф.р. F (x) , а вероятность попадания значений с.в. 
левее этого интервала равна вероятности их попадания правее его и обе равны
 . В силу этого свойства интерквантильный размах Rn ,  qˆ n,1     qˆ n,  часто
используется в практике как мера разброса с.в.  . Для однозначного
k 1 k 
,  разумно взять среднее значение
определения значения  из интервала 
 n
 
n
2k  1
n 1
, k  N, k 
. Тем самым, для любого заданного n можно рассчитать
2n
2
последовательность значений  , 1  
порядков симметричных квантилей
qˆ n, , qˆ n,1   , интервал между которыми с вероятностью 1    покрывает
медиану. В следующей таблице представлены значения  для некоторых
начальных k, n .
k\n
1
2
3
4
5
6
7
1
0.5
0.25
0.167
0.125
0.10
0.083
0.071
2
0
0
0.5
0.375
0.30
0.250
0.214
3
0
0
0
0
0.5
0.416
0.357
4
0
0
0
0
0
0
0.5
В приведенной ниже таблице на примере стандартного нормального
распределения  ~ N 0,1 , для которого медиана равна среднему, показаны
результаты
модельных
расчетов
доверительного
интервала
(1)
и
соответствующих ему характеристик при различных значениях k и объемах n
сгенерированных выборок, чтобы значения Bk , n были близки к 0.95. Все
вычисления были проведены в пакете MATLAB.
n
k
Bk , n

(k )
 ( n  k 1)
1 
38
14
0.9506
0.3553
-0.6454
0.0250
0.6447
39
14
0.9635
0.3462
-0.6454
0.0579
0.6538
96
40
0.9499
0.4115
-0.2181
0.1662
0.5885
97
40
0.9589
0.4072
-0.2181
0.1662
0.5928
290
131
0.9503
0.45
-0.1182
0.1041
0.55
291
131
0.9558
0.4485
-0.1411
0.1041
0.5515
1000
474
0.9501
0.4735
-0.0541
0.0696
0.5265
1001
474
0.9532
0.4730
-0.0541
0.07
0.527
Таким
образом,
полученный
непараметрический
медианный
доверительный интервал (1) характеризует не только вероятность 1   
покрытия медианы, но и долю 1 2  содержащихся и 2 не содержащихся в
нем выборочных значений наблюдаемой с.в.  . С другой стороны, по
заданному объему n выборки можно рассчитать n квантилей с заданными
порядками, которые характеризуют не только соответствующее долевое
разбиение распределения значений с.в.  , но и вероятность покрытия медианы
n  1
любым из 
 образованных интерквантильных отрезков.
 2 
Литература:
1.Ивченко, Г.И., Медведев, Ю.И. Введение в математическую статистику:
Учебник. М.: Издательство ЛКИ, 2010. — 600 с.
Related documents
Download