Краткое сообщение - Высшая школа экономики

advertisement
М.В. Радионова
Критерий сдвиго-масштабного инварианта
для проверки нормальности данных
УДК 519.226
Аннотация. В работе найдены распределения инвариантов по выборке из генеральной совокупности, имеющей нормальное, равномерное, показательное или гамма распределение.
Предложен критерий сдвиго-масштабного инварианта для проверки гипотезы нормальности исходных данных. Методом статистического моделирования проведен анализ его
мощности при различных альтернативах. Дан сравнительный анализ этого критерия с
критериями Колмогорова-Смирнова и Жака-Бера.
Классические результаты математической статистики хорошо работают
только при достаточно строгих ограничениях, которые очень часто на практике не выполняются. Существенная часть классических результатов математической статистики опирается на предположение о принадлежности наблюдаемых величин нормальному закону распределения.
В литературе можно найти много примеров, посвященных исследованию
критериев проверки отклонений от нормального закона [1, 2, 3, 4, 5, 6].
В работе предлагается критерий проверки нормальности, основанный на
инвариантах. Имеется независимая повторная выборка X1 X 2 … X n ( n кратно
3) из генеральной совокупности X с функцией распределения F , из которой
образуются величины, называемые инвариантами выборки:
U1 
 X  X4 
 X  X k 2 
 X 2  X1 
n
U 2  5
… U k  k 1
k  
 X3  X2 
 X6  X5 
 X k  X k 1 
3
(1)
Распределение каждого из инвариантов U i не зависит от параметров сдвигамасштаба распределения случайной величины X , а зависит только от функции распределения F . Ниже в теоремах 1-4 находятся законы распределения
инварианта U1 , когда X1 X 2  X 3 имеют соответственно нормальное, равномерное, показательное и гамма-распределение.
ТЕОРЕМА 1. Если X1 X 2  X 3 - независимые одинаково распределенные случайные величины, имеющие нормальное распределение с параметрами положения и масштаба, то инвариант U1 имеет функцию распределения
G0 (u ) 
1
 2u  1 
 2u  1  
 arctg 
 arctg 

   u  0

 3 
 3 
(2)
ТЕОРЕМА 2. Если X1 X 2  X 3 - независимые одинаково распределенные случайные величины, имеющие равномерное распределение на отрезке [a b] , то инвариант U1 имеет функцию распределения
1 
1 
 3 1  u  1  u   при 0  u  1
 

G1R (u )  
1  1  1  при u  1
 3(1  u ) 3u
(3)
ТЕОРЕМА 3. Если X1 X 2  X 3 - независимые одинаково распределенные случайные величины, имеющие показательное распределение с параметром формы
 , сдвига a и масштаба b , то инвариант U1 имеет функцию распределения
1
1
1
1
1
 2  6(1  2u )  3(2  u )  3(1  u )  3(2  u )  при 0  u  1

G1E (u )  
1
1
1
1
1 



 при u  1
 6(1  2u ) 3(2  u ) 3(1  u ) 6(1  2u )
(4)
ТЕОРЕМА 4. Если X1 X 2  X 3 - независимые одинаково распределенные случай 1
x a
b
ные величины имеющие гамма-распределение с плотностью f ( x)  (bxa() ) e ,

при x  a , где  - параметр формы, то плотность распределения инварианта
U1 может быть представлена как сумма интегралов:
  y  h( y  y )dy dy  0 y 
1
3
1
3
 3 (1u ) y3 h( y1 y3 )dy1dy3 
 0 3 0
 

0

 0 y3 uy h( y1  y3 )dy1dy3   y3 0 h( y1  y3 )dy1dy3  при u  1

3
g1G (u )   

0

  y3  h( y1  y3 )dy1dy3   y3 
h( y1  y3 )dy1dy3 
 uy3

 (1 u ) y3
0

0

 

y
h
(
y

y
)
dy
dy

y
3
1
3
1
3
3
uy3
 0 h( y1 y3 )dy1dy3  при 0  u  1
 0
(5)
где h( y1 y3 )  f ( y1 )  f ( y1  uy3 )  f ( y1  (1  u) y3 ) . Для целых значений параметра 
интегралы в выражении (5) находятся аналитически, для других значений  только численно.
Построение сдвиго-масштабного критерия для проверки нормальности
исходной выборки при различных альтернативах.
Имеется независимая повторная выборка X1 X 2  X n из генеральной совокупности с неизвестной функцией распределения F ( x) . Требуется проверить
гипотезу
H 0  F ( x)  ( xa )
против
конкурирующей
гипотезы
H1  F ( x)  F1 ( x) где ( x) - функция стандартного распределения, a - параметр
сдвига,  - масштаба, F1 ( x) - функция равномерного, показательного или
гамма - распределений.
Для решения этой задачи используются различные подходы, такие как
критерии А.Н.Колмогорова и Н.В.Смирнова [1, 2]; критерии, опирающиеся
на характеризацию распределения свойствами определенных статистик выборки [3, 4, 5]; тесты, основанные на моментах третьего и четвертого порядков нормального распределения (наиболее известный представитель — это
критерий Жака-Бера [6] и другие.
Основная идея предлагаемого в статье метода состоит в следующем: вместо сложной гипотезы H 0 проверяется простая гипотеза: H 0G  F (u )  G0 (u ) где
G0 (u) определяется теоремой 1; вместо сложной конкурирующей гипотезы H1
проверяется простая гипотеза H1G  F (u )  G1 (u ) где в качестве G1 (u ) берется
одна из функций (2)-(4).
Исходная выборка X1…X n ( n кратно 3) редуцируется в выборку инвариантов (1). Для решения задачи проверки гипотезы H 0G против H 1G воспользуемся критерием отношения правдоподобия, являющийся по теореме Неймана-Пирсона наиболее мощным. Статистика критерия определяется выражением
k
L  L(U1 U 2 …U k ) 
 g (U )
i 1
k
1
i
 g (U )
i 1
0

(6)
i
где g0 (ui ) и g1 (ui ) - плотности распределений, соответствующих гипотезам
H 0G и H 1G соответственно. Гипотезу H 0G следует принять с уровнем значимо-
сти  , если L  L( ) , где L( ) определяется из условия: P( L  L( ))   .
Предложенный метод проверки гипотезы нормальности назовем критерием
сдвиго-масштабного инварианта.
Исследование мощности предложенного критерия осуществлялось с использованием метода статистического моделирования по следующей схеме:
1-ый этап. Для нахождения величин L( ) моделировалось N  104 выборок
X 1  X 2 …X n объема n , имеющих нормальное распределение (соответствующее
проверяемой H 0G ), затем по каждой выборке определялись величины U i (1) и
значение статистики L (6). L( ) полагалось равным эмпирической квантиле
порядка  N 
2-ой этап. Для нахождения мощности критерия моделировалось N  104 выборок X1 X 2 …X n объема n , имеющих законы, соответствующие гипотезам
H 1G , затем по каждой выборке определялись величины U i и значение стати-
стики
L.
Выборка из
L1  L2 … LN
была упорядочена по возрастанию
L(1)  L(2) … L( N ) и мощность критерия определялась, как статистическая вероят-
ность события L(i )  L( ) .
Для сравнения предложенного критерия рассмотрим такие критерии, как
Жака-Бера и Колмогорова-Смирнова. Статистика Жака-Бера [6] имеет вид:
JB  k[ 16 As 2  241 Es 2 ] где As и Es - коэффициенты асимметрии и эксцесса вы-
борки X 1… X k . Статистика критерия Колмогорова-Смирнова Dk [2] определяется по формуле: Dk  max( Dk  Dk ) Dk  max( ki  G0 (ui )) Dk  max(G0 (ui )  i k1)
1i  k
1i  k
1i  k
Ниже приведены таблицы с оценками мощности критериев проверки нормальности исходной совокупности при различных альтернативах.
Таблица 1
Мощность критериев при равномерной на отрезке [11] альтернативе
СМИ
Уровень
значимости
Жака-Бера
Колмогорова-Смирнова
n=30
n=60
n=90
n=30
n=60
n=90
n=30
n=60
n=90
0,1
0,159
0,182
0,207
0,001
0,175 0,814 0,101 0,104 0,106
0,05
0,090
0,102
0,123
0,000
0,004 0,351 0,051 0,052 0,054
0,02
0,039
0,046
0,081
0,000
0,000 0,014 0,021 0,022 0,023
0,01
0,025
0,023
0,031
0,000
0,000 0,000 0,011 0,013 0,014
На основе табл. 1 можно сделать следующие выводы: в случае равномерной альтернативы при малых объемах выборки (n=30 и n=60) критерий
сдвиго-масштабного инварианта (СМИ) лучше, чем критерии Жака-Бера и
Колмогорова-Смирнова, различает альтернативы, т.е. он является более
мощным критерием.
Таблица 2
Мощность критериев при показательной альтернативе с   1
СМИ
Уровень
значимости
n=30
n=60
Жака-Бера
n=90
n=30
n=60
Колмогорова-Смирнова
n=90
n=30
n=60
n=90
0,1
0,398 0,444 0,487 0,803 0,996 1,000 0,108 0,113
0,116
0,05
0,335 0,381 0,425 0,734 0,987 1,000 0,056 0,055
0,056
0,02
0,261 0,311 0,350 0,640 0,956 0,998 0,020 0,022
0,023
0,01
0,220 0,264 0,320 0,585 0,939 0,989 0,010 0,011
0,012
В случае показательной альтернативы (табл.2) наиболее мощным является
критерий Жака-Бера.
Таблица 3
Мощность критериев при альтернативе для гамма-распределения
с параметром формы   3
СМИ
Уровень
значимости
n=30
n=60
Жака-Бера
n=90
n=30
n=60
Колмогорова-Смирнова
n=90
n=30
n=60
n=90
0,1
0,433 0,455 0,668 0,278 0,653 0,864 0,230 0,275 0,313
0,05
0,402 0,428 0,454 0,222 0,556 0,782 0,145 0,176 0,208
0,02
0,351 0,366 0,372 0,165 0,447 0,688 0,078 0,096 0,120
0,01
0,225 0,288 0,294 0,148 0,391 0,611 0,046 0,063 0,078
В случае гамма-распределения с параметром формы 3 (табл. 3) наиболее
мощным при малых объемах выборки (n=30) критерий сдвиго-масштабного
инварианта лучше, чем критерии Жака-Бера и Колмогорова-Смирнова различает альтернативы.
Общий вывод: при небольших объемах исходной выборки критерий
сдвиго-масштабного инварианта является во многих случаях наиболее мощным критерием для проверки гипотезы нормальности.
Литература
1. Королюк В.С. О критериях согласия А.Н. Колмогорова и Н.В. Смирнова //
Киев. инстит. математ. РА СССР,- 1954. - 58 с.
2. Большев Л.Н. Таблицы математической статистики/ Большев Л.Н., Смирнов Н.В. // М.: Наука, 1983. - 416 с.
3. Бернштейн С.Н. Об одном свойстве, характеризующем закон Гаусса/
Бернштейн С.Н. // Тр. Ленингр. политех. института.- 1941 - вып. 3 - С. 21-22.
4. Каган А.М. Характеризационные задачи математической статистики/ Каган А.М., Линник Ю.В., Рао С.Р. // М: Наука, - 1972.- 248 с.
5. Клебанов Л.Б. О характеризации одного семейства распределений свойством независимости статистик / Клебанов Л.Б. // Теория вероятностей и ее
применение,-1973, - вып.3.- С.639-642.
6. C.M. Jarque. A Test for Normality of Observations and Regression Residuals/
C.M. Jarque, A.K. Bera. // International Statistical Review, - 1987, - vol.55. – P.
163-172.
Radionova M.V. A test of shift-scale invariant to verify the normality of data
Abstract. The paper found the distribution of invariants for a sample of the general
population with a normal, uniform, exponential or gamma-distribution. We propose a
test of shift-scale invariant to test the hypothesis normality of the original data. Using
statistical modeling analysis of power at various alternatives. The paper is a comparative analysis of the test with other criteria (Kolmogorov-Smirnov and Jarque-Bera).
Радионова Марина Владимировна
Ученая степень: нет, соискатель
Место работы, должность: ст.преподаватель кафедры экономической теории и мировой экономики Пермского государственного университета
г.Пермь
Научный руководитель: Сапожников Павел Николаевич, доктор физикоматематических наук, профессор, не работает (на пенсии), проживает в г.
Москва
Научный консультант: Чичагов Владимир Витальевич, кандидат физикоматематических наук, доцент кафедры высшей математики Пермского государственного университета г.Пермь
Специальность: 05.13.18 — «Математическое моделирование, численные
методы и комплексы программ»
Предположительные сроки защиты: декабрь 2008
Контактные реквизиты:
Адрес рабочий: 614009, г.Пермь, ул.Букирева 15, тел. (342)2396-787
Адрес домашний: 614022, г.Пермь, пр.Декабристов, д. 33 кв. 162,
тел. (342) 225-37-33, сот. 8902-800-95-63. эл.почта: M.Radionova@rambler.ru
Download