Задание № 1. Проверка статистической гипотезы о нормальном

advertisement
Задание № 1. Проверка статистической гипотезы о нормальном
распределении генеральной совокупности по критерию согласия
Пирсона.
При анализе статистических данных часто возникает проблема
создания гистограммы этих данных с целью дальнейшей проверки
гипотезы о том или другом распределении случайной величины по
какому-нибудь критерию согласия. Прежде чем заняться такой проверкой,
необходимо корректно выбрать число интервалов гистограммы.
Решающим фактором при этом является, конечно, опыт, однако для
начинающего пользу может оказать формула Штюргесса [1]:
k  1  3.32 lg N
,
(1)
где k - округленное до целого число интервалов гистограммы, N - объем
выборки.
При использовании критерия  2 обычно рассматривают выборки с
объемом не менее 100 и числом элементов ni выборки, попавших в i - ый
интервал гистограммы, не менее 5 (в противном случае интервалы
объединяют).
Кроме того, выборка должна быть репрезентативной, т.е. давать
достаточное представление об особенностях генеральной совокупности
(по крайней мере, быть случайной), а выборочные оценки должны быть:
- состоятельны, т.е. стремиться по вероятности с увеличением объема
выборки к оцениваемому параметру;
- несмещенными, т.е. их математические ожидания должны совпадать с
оцениваемыми параметрами;
- эффективными, т.е. иметь минимальную дисперсию.
Будем считать ni случайной величиной (с.в.), подчиняющейся
биноминальному закону распределения с математическим ожиданием
(м.о.) и средним квадратическим отклонением (с.к.о.)
Npi (1  pi ) , где
pi - вероятность попадания с.в. в i - ый интервал выборки. При N  1 и
pi  1 с.к.о 
Npi , а с.в. i 
нормально. Тогда
ni  Npi
можно считать распределенной
Npi
2
k
  ni  Npi 
k
0
 i pi  i 1
N
i 1
k 2 k
2
   i  
i 1
i 1
,
 n  Np  2
i
 i
(2)
,
Np
i
(3)
k
где N   ni .
i 1
В случае проверки гипотезы о нормальном распределении с.в.
существуют еще два (кроме (2)) уравнения, линейные по
ni
,
N
определяющие выборочное среднее xв и выборочное с.к.о.  в :
k n
x   i x
в
i
i 1 N
,
k n
2
2


i
 в    xi  xв 
i 1 N
где xi 
(4)
,
(5)
xi  xi 1
- середина i - го интервала выборки;
2
i  1,2,3,..., k ; x1 , x2 ,..., xk 1 - границы интервалов выборки.
Количество связей (2), (4) и (5), равное r , называются числом связей
подгонки, а число ( k  r ) - числом степеней свободы подгонки [3].
Подгонкой будем называть или подбор такого распределения P(x ) с.в. X
с плотностью распределения f 0 ( x ) , или коррекцию f 0 ( x )  f ( x ) , для
3
которых вероятности
x
i 1
p   f ( x)dx
i
0
x
i
или
x
i 1
p   f ( x)dx
i
x
i
оптимальны в смысле минимальности  2 (3).
Суть критерия согласия Пирсона состоит в сравнении числа  2 (3),
полученного по выборочным данным, с числом  q2 , определяемым из
уравнения:

   kn ( x)dx
 q2
,
(6)
где   1  P - уровень значимости гипотезы о нормальном распределении
с.в.; k n (x ) - плотность распределения  2 (3); n  k  r ; P  P 2   q2  -
доверительная вероятность;

( p)  e z z p 1dz
0
k ( x )
n
n
x
1 
x 2 e 2
n
n
2 2  
2
;
- гамма-функция Эйлера.
Вывод формулы для k n (x ) можно посмотреть, например, в работе [2].
Если  2   q2 , то гипотезу о нормальном распределении генеральной
совокупности отвергают (и принимают в противном случае).
В настоящей работе k  10, r  3,  0.05 . Интеграл (6) затабулирован в
таблицах, имеющихся во всех учебниках и задачниках по теории
вероятностей и математической статистике и, конечно, в работах [1-5]. Из
этих таблиц для n  10  3  7 и указанному значению  находим  q2  14.1.
Примерная схема выполнения такой работы могла бы быть следующей.
4
1. По формулам xi  xmin  h  (i  1) и xi  0.5xi  xi 1  вычисляются
границы xi интервалов (i  1,2,3,..., k  1) и середины xi интервалов
(i  1,2,3,..., k ) выборки.
2. По формулам (4) и (5) вычисляем xв и  в и полагаем
mx  xв , x   в .
3. Строим график плотности распределения
f ( x )
0
n
i
h N

2
  x  m  

x 
exp 

2


2
x


2 
и гистограмму относительных частот
x
.
4. Вычисляем безразмерные границы
x m
x ,i 1,2,3,...,k 1,
z  i
i
x
интервалов выборки и находим «теоретические» частоты
p  z   z ,i  2,3,4,..., k 1, p ( z )(),
i
1
2
 i 1 
 i
,
p ()( z )
10
k
где
 2
1 z
 t 
( z ) 
 exp  dt - интеграл Лапласа,
2 0
 2 


затабулированный в таблицах, содержащихся в учебниках и
задачниках по математической статистике. Зная, что ()  0.5 ,
следует соблюдать аккуратность при экстраполяции
промежуточных значений ( zi ) при пользовании таблицами,
надежнее при вычислении частот pi использовать численные
5
z
 2
1 i 1
 t 
квадратуры: p 
exp
 dt , i  2,3,4,..., k  1,

i
2 z
 2


i
z
|z |
 2
 2
2
1 2
t
1


 t 
p 
exp

dt

0
.
5

exp


 dt ,

1 2 
2
2



 2

0




z


 2
1   t 2 
1 k
 t 
p 
exp

dt

0
.
5

exp


 dt .

10 2 
2 0
 2
 2
z




k
5. По формуле (3) вычисляем  2 и сравниваем это число с  q2 . Если
 2   q2 , то гипотезу о нормальном распределении генеральной
совокупности принимаем, если  2   q2 , то гипотезу отвергаем и
переходим к следующему пункту.
6. Вычисляем центральные (выборочные) моменты 3,4 и 5 порядков по
k n
s
(
0
)
формулам: 
  i  x  x  ,s 3,4,5, и вводим поправки
s
в
 i
i 1 N
(0)  2
Шеппарда [4,5], вспоминая, что 
2
в :
(0)
2

h
7 4
2(0ш)  2(0)  ,3(0ш)  3(0) ,4(0ш)  4(0)  2 h 2 
h ,
12
2
240
(0)
5

5(0ш)  5(0)  3 h 2.
6
Полагаем далее
(0)
 ш  2ш
и сравниваем исправленные
моменты с исходными. Если отличие не превосходит 1-2%, то
поправки Шеппарда не учитываем в дальнейших вычислениях.
6
7. Вычисляем коэффициенты асимметрии, эксцесса и ресимметрии:
A 
ш
3(0ш)
3
ш
,Е 
ш
4(0ш)
4
ш
3, R 
ш
5(0ш)
5
ш
.
8. В разложении Эджворта [4,5] для плотности распределения с.в.
учитываем только члены, линейные по Aш , Еш , Rш :
A
E
(
3
)
ш
f ( z ) f ( z )
f ( z ) ш f (4) ( z )
э
0
6 0
24 0
.
R 10 А
ш f (5) ( z )
 ш
0
120
1
f ( z) 
0
2 

В этой формуле
 2
z
exp ,
 2 
ш



f (2)   z 2 1 f ( z ),
0

 0


f (3) ( z )   z 3 3z  f ( z ),
0

 0


f (4) ( z )  z 4 6 z 2 3 f ( z ),
0

 0
.
xm
 5

(
5
)
3
x.


f
   z 10 z 15z  f ( z ), z 
0

 0
ш
9. Строим график функции f э (x ) .
10.Так как функция распределения F ( z ) 
1
2
то, учитывая, что F ( m) ( z )  f ( m 1) ( z ), f (0) ( z ) 
 t2 
1
exp
   2 dt  ( z )  2 ,
z
 z2 
1
exp  , m 2
 2
натуральное, получим разложение Эджворта для функции
распределения: Fэ ( z )  F ( z ) 
Aш ( 2 )
E
R  10 Аш ( 4 )
f  ( z )  ш f ( 3) ( z )  ш
f ( z) .
6
24
120
Учитывая, что f ( s ) ()  0, s  0,1,2,.. , находим вероятности
7
piэ  Fэ ( zi 1 )  Fэ ( zi ) . Необходимо отметить, что разности
F ( zi 1 )  F ( zi ) уже были вычислены для значений zi 
xi  m x
x
.В
последнем разложении для функции распределения Fэ (z ) нужно
было бы положить zi 
k
11.Вычисляем  э2  N 
i 1
xi  m x
ш
.
ni / N  piэ  и сравниваем с  2 . При  2   2
э
q
q
piэ
гипотезу о нормальном распределении генеральной совокупности
принимаем (с учетом поправок на асимметрию, эксцесс и т.д.); в
противном случае гипотеза отвергается.
12.В отчете о проделанной работе должны быть представлены:
гистограмма относительных частот выборки, графики плотностей
распределений f (x ) и f э (x ) , значения N , mx , x , ш , Aш , Еш , Rш ,  2 ,  э2 .
В Табл.1 даны варианты заданий. Для уровня значимости 0.05
необходимо проверить гипотезу о нормальном распределении
генеральной совокупности, используя критерий Пирсона, и применяя,
если это необходимо, разложение Эджворта.
Табл.1.
№№ xmin
6
h
n1
32.21 2.57 6
n2
n3
n4
n5
n6
n7
n8
n9
n10
15
20
39
65
59
29
19
14
11
В заключение этого задания продемонстрируем на Рис.1графически
выполнение одного из вариантов Табл.1.
8
Рис.1
На Рис.1 изображены гистограмма относительных частот и графики
плотностей распределений f (x ) и f э (x ) (пунктирная кривая).
Download