t F f 0,0

advertisement
t
0,0
0,1
F(t)
0,5000
0,5398
f(t)
Ф(t)
0,3989 0,0000
0,3970 0,0797
t
F(t)
f(t)
Ф(t)
1,6 0,9452 0,1109 0,8904
1,7 0,9554 0,0940 0,9109
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,5793
0,6179
0,6554
0,6915
0,7257
0,7580
0,7881
0,3910
0,3814
0,3683
0,3521
0,3332
0,3123
0,2897
0,1585
0,2358
0,3108
0,3829
0,4515
0,5161
0,5763
1,8
1,9
2,0
2,1
2,2
2,3
2,4
0,9641
0,9713
0,9772
0,9821
0,9861
0,9893
0,9918
0,0790
0,0656
0,0540
0,0440
0,0355
0,0283
0,0224
0,9281
0,9426
0,9545
0,9643
0,9722
0,9786
0,9836
0,9
1,0
1,1
1,2
1,3
1,4
0,8159
0,8413
0,8643
0,8849
0,9032
0,9192
0,2661
0,2420
0,2179
0,1942
0,1714
0,1497
0,6319
0,6827
0,7287
0,7699
0,8064
0,8385
2,5
2,6
2,7
2,8
2,9
3,0
0,9938
0,9953
0,9965
0,9974
0,9981
0,9987
0,0175
0,0136
0,0104
0,0079
0,0060
0,0044
0,9876
0,9907
0,9931
0,9949
0,9963
0,9973
1,5
0,9332
0,1296 0,8664
3,1 0,9990 0,0033 0,9981
97,72% встречающихся значений нормально распределённой случайной величины имеют значения,
не превышающие 2t (t=µ+σ, где µ - математическое ожидание; σ – стандартное отклонение)
99,38% - µ + 2,5σ
99,87% - µ + 3σ
68,27% наиболее часто встречающихся значений нормально распределённой случайной величины
лежат в интервале от -t до +t (t=µ±σ, где µ - математическое ожидание; σ – стандартное отклонение
95,45% - в интервале µ ± 2σ
99,73% - в интервале µ ± 3σ
Эти соотношения широко используются в статистических критериях.
Например, мы можем считать аномальной
геохимическую пробу, в которой содержание
элемента индикатора превысит 3t, при этом
вероятность ошибки будет составлять всего 0,13%
t
F(t)
3,0
0,9987
Пример:
Пусть среднее фоновое содержание Pb*10-3 % на
участке равно 10 и стандартное отклонение 5.
Тогда минимально аномальное содержание для
единичной пробы будет = µ + 3σ = 10+3*5 = 25.
(для нескольких смежных проб эта граница
уменьшается до   3 / n ,
где n – число смежных проб ≤ 9.
Например, для 9 смежных проб минимально
аномальным содержанием будет µ + σ = 10+5 = 15)
Чтобы использовать эти вероятности, надо выполнить ряд условий, которые редко
осуществимы на практике.
Мы обычно не знаем истинных значений параметров распределения (μ и σ2), т.к. не можем
измерить всё множество элементов генеральной совокупности.
Вместо этого, мы оцениваем эти параметры по выборке. Наши оценки допускают некоторую
степень неопределённости, которую можно учесть, если использовать распределение с более
широкой областью значений, чем у нормального распределения.
Одно из распределений такого типа называется t – распределением Стъюдента.
Распределение Стьюдента (t – распределение)
Критерий Стьюдента был разработан английским химиком У.Госсетом (William Sealy Gosset) , когда он
работал на пивоваренном заводе Гиннеса и по условиям контракта не имел права открытой публикации своих
исследований. Поэтому публикации своих статей по t-критерию У.Госсет сделал в 1908г. в журнале
"Биометрика" под псевдонимом "Student", что в переводе означает "Студент". В отечественной же литературе
принято писать "Стьюдент". Коварная простота вычисления t-критерия Стьюдента, а также его наличие в
большинстве статистических пакетов и программ привели к широкому использованию этого критерия даже в
тех условиях, когда применять его нельзя.
 k 1
k 1


1  2   t2  2
1  
f k (t ) 
,
 k   k 
πk
Г 
2
Г
Функция плотности вероятности
 k 1
k 1
Г
 t
2  2


1
 2  1  x 
Fk (t ) 
dx,
k 
πk Г k  
 
2
Интегральная функция
Параметром распределения Стьюдента является
Число степеней свободы k , зависящее от объёма выборки.
При увеличении значения k распределение приближается к
нормальному и в пределе (при k = ) совпадает с ним.
Практически уже при k = 20 можно пользоваться таблицами
нормального распределения.
Коэффициенты вероятности t распределения Стьюдента
при заданной вероятности  и степени свободы k
Вероятность 
k
0,10
0,05
0,02
0,01
0,005
0,002
0,001
1
6,314
12,706
31,821
63,657
127,321
318,309
636,619
2
2,920
4,303
6,965
9,925
14,089
22,327
31,599
3
2,353
3,182
4,541
5,841
7,453
10,214
12,924
4
2,132
2,776
3,747
4,604
5,597
7,173
8,610
5
2,015
2,571
3,365
4,032
4,773
5,893
6,869
6
1,943
2,447
3,143
3,707
4,317
5,208
5,959
7
1,895
2,365
2,998
3,499
4,029
4,785
5,408
8
1,860
2,306
2,896
3,355
3,833
4,501
5,041
9
1,833
2,262
2,821
3,250
3,690
4,297
4,781
10
1,812
2,228
2,764
3,169
3,581
4,144
4,587
11
1,796
2,201
2,718
3,106
3,497
4,025
4,437
12
1,782
2,179
2,681
3,055
3,428
3,930
4,318
13
1,771
2,160
2,650
3,012
3,372
3,852
4,221
14
1,761
2,145
2,624
2,977
3,326
3,787
4,140
15
1,763
2,131
2,602
2,947
3,286
3,733
4,073
16
1,746
2,120
2,583
2,921
3,252
3,686
4,015
17
1,740
2,110
2,567
2,898
3,222
3,645
3,985
18
1,734
2,101
2,552
2,878
3,197
3,610
3,922
19
1,729
2,093
2,540
2,861
3,174
3,579
3,883
20
1,725
2,086
2,528
2,845
3,153
3,552
3,849
22
1,717
2,074
2,508
2,819
3,119
3,505
3,792
24
1,711
2,064
2,492
2,797
3,091
3,467
3,745
26
1,706
2,056
2,479
2,779
3,067
3,435
3,707
28
1,701
2,048
2,467
2,763
3,047
3,408
3,674
30
1,697
2,042
2,457
2,750
3,030
3,385
3,646
40
1,684
2,021
2,423
2,704
2,971
3,307
3,551
50
1,676
2,009
2,403
2,678
2,937
3,261
3,496
100
1,660
1,984
2,364
2,626
2,871
3,174
3,390
>100
1,645
1,960
2,326
2,576
2,807
3,090
3,291
–t
0
+t
t
Логнормальное распределение.
Случайная величина X имеет логнормальное распределение с параметрами μ, σ, если X = exp(Y),
где Y имеет нормальное распределение с параметрами μ, σ.
Случайная величина с логнормальным распределением является непрерывной, и принимает только
положительные значения. Графики плотности
Логнормальным законом удовлетворительно описывается
частота появления низких содержаний химических
элементов. Академик А.Н.Колмогоров теоретически
обосновал логнормальное распределение частиц при
дроблении, что используется при гранулометрическом
анализе обломочных пород.
При расчетах вначале находят натуральные или десятичные логарифмы значений случайной
величины. Далее вся работа ведется с логарифмами: вычисляют их среднее значение,
дисперсию, среднеквадратичное отклонение, асимметрию, эксцесс, а по таблицам нормального
закона определяют вероятности.
Так как логарифм нуля равен –, обычно нулевые содержания заменяют какими-то минимальными значениями,
например половиной предела чувствительности анализа.
При логнормальном распределении:

2 

M  exp   
2 


Математическое ожидание

D   2  exp 2   2 * (exp  2  1)

  exp   
2 

 
 * exp  2  1
2 
 
V  exp  2  1
В этих формулах:
Дисперсия
Стандартное отклонение
Коэффициент вариации

2
- среднее значение натуральных логарифмов исходных данных
- дисперсия натуральных логарифмов исходных данных
Геологическое приложение одномерной статистической модели.
Точечная оценка погрешности (ошибки) среднего значения
Интервальная оценка математического ожидания случайной величины.
Расчёт необходимого числа измерений n для достижения заданной
погрешности  среднего значения.
Выделение аномальных значений.
Проверка гипотез о равенстве математических ожиданий (сравнение средних).
Точечная оценка погрешности (ошибки) среднего значения
Среднее значение x из n независимых значений случайной величины x также является случайной
величиной. Если случайная величина x имеет дисперсию  2, то среднее значение x имеет
дисперсию  2 в n раз меньше. Распределение x стремится к нормальному при увеличении n.
s2
se 
n
2
Дисперсия выборочных средних значений
Стандартное отклонение выборочных средних значений se называется
стандартной ошибкой среднего или абсолютной ошибкой среднего,
Относительная погрешность среднего


se
s
V


x x n
n
В этих формулах:
x - Среднее значение случайной величины x
s
- Выборочное стандартное отклонение
V - Коэффициент вариации
V
s
x
s
n
 (x  x)
i 1
i
n 1
2
se 
s
n
Интервальная оценка математического ожидания случайной величины.
Стандартная ошибка среднего se, вычисленная по выборке, определяет интервал значений, в
пределах которого с определённой вероятностью q находится математическое ожидание 
генеральной совокупности.
  x  tq ,n se
t q ,n
- коэффициент вероятности t-распределения Стьюдента для
заданной вероятности q и объёма выборки n+1
Интервальная оценка среднего
x – t < М(х) < x + t.
При n>100:
Вероятность
q = Ф(t)
Коэффициент
вероятности t
Доверительный
интервал
0,683
1
+
0,954
2
+ 2
0,997
3
+ 3
Коэффициенты вероятности
t распределения Стьюдента
при заданной вероятности 
и степени свободы k
k
Вероятность 
0,10
0,05
0,02
0,01
0,005
0,002
0,001
1
6,314
12,706
31,821
63,657
127,321
318,309
636,619
2
2,920
4,303
6,965
9,925
14,089
22,327
31,599
3
2,353
3,182
4,541
5,841
7,453
10,214
12,924
4
2,132
2,776
3,747
4,604
5,597
7,173
8,610
5
2,015
2,571
3,365
4,032
4,773
5,893
6,869
6
1,943
2,447
3,143
3,707
4,317
5,208
5,959
7
1,895
2,365
2,998
3,499
4,029
4,785
5,408
8
1,860
2,306
2,896
3,355
3,833
4,501
5,041
9
1,833
2,262
2,821
3,250
3,690
4,297
4,781
10
1,812
2,228
2,764
3,169
3,581
4,144
4,587
11
1,796
2,201
2,718
3,106
3,497
4,025
4,437
12
1,782
2,179
2,681
3,055
3,428
3,930
4,318
13
1,771
2,160
14
1,761
2,145
15
1,763
2,131
16
1,746
2,120
17
1,740
2,110
18
1,734
2,101
19
1,729
20
1,725
22
2,650
3,012
3,372
3,852
2,093
4,221
Если вы оценили среднее значение ( x )
2,977
3,787
4,140
se )
и2,624
стандартную
ошибку ( 3,326
2,602
2,947
3,286
3,733
4,073
по 21 наблюдению,
2,583
2,921
3,252
3,686
4,015
то
интервальная
оценка математического
ожидания
2,567
2,898
3,222
3,645
3,985
совокупности
(
)

2,552
2,878
3,197
3,610
3,922
будет
равна
  x  2.086
2,540
2,861
3,174  se
3,579
3,883
2,086
2,528
2,845
3,153
3,552
3,849
1,717
2,074
2,508
2,819
3,119
3,505
3,792
24
1,711
2,064
2,492
26
1,706
2,056
28
1,701
2,048
30
1,697
2,042
40
1,684
50
1,676
100

Другими словами,
в 95 случаях
из 100
2,797
3,091
3,467математическое
3,745
2,479
2,779
3,067
3,707
ожидание совокупности,
из которой 3,435
извлечена выборка,
2,467
2,763
3,047
3,408
Будет лежать в интервале   x  2.086  s 3,674
2,457
2,750
3,030
3,385
e 3,646
2,021
2,423
2,704
2,971
3,307
3,551
2,009
2,403
2,678
2,937
3,261
3,496
1,660
1,984
2,364
1,645
1,960
2,326
2,871
3,174
3,390 СТЬЮДРАСПОБР
Значение 2,626
t можно получить
в MS EXEL
функцией
2,576
2,807
3,090
3,291
Интервальная оценка математического ожидания случайной величины.
С вероятностью 68,2% выборочное среднее будет
попадать в интервал   1
С вероятностью 95 % выборочное среднее будет
попадать в интервал   1,96
0.4
И наоборот, математическое ожидание совокупности
0.2
находится в интервале
с вероятностью 95,4%
0.0
-4
-3
-2
-1

1
  x  1se
2
3
4
Вероятность
q = Ф(t)
Коэффициент
вероятности t
Доверительный
интервал
0,682
1
± se
0,954
2
± 2se
0,997
3
± 3se
se
  x  1,96 se
q = 95 %
q = 68,2 %
Интервальная оценка математического ожидания случайной величины.
Графическая форма представления
интервальной оценки – диаграмма
размаха (ящик с усами)
Расчёт необходимого числа измерений n
для достижения заданной относительной погрешности  среднего значения
s
s
V
 e

x x n
n
2
 Vt   st 
n   
    x 
2
В этих формулах:
x - Среднее значение случайной величины x
n
s
- Выборочное стандартное отклонение
V - Коэффициент вариации
se
V
- Стандартная ошибка среднего
s
s
x
s
se 
n
t - Коэффициент вероятности распределения
Стьюдента
 (x  x)
i 1
2
i
n 1
Значения вероятностей нормального распределения
(могут использоваться в качестве приближённых значений
коэффициентов вероятности распределения Стьюдента при
объёме выборки > 30)
Вероятность
q = Ф(t)
Коэффициент
вероятности t
Доверительный
интервал
0,682
1
± se
0,954
2
± 2se
0,997
3
± 3se
Выделение аномальных значений.
Распространенный способ выделения аномальных значений называется правилом «трех
сигм» и основан на том, что случайная величина при нормальном законе распределения
практически полностью (на 99,7 %) заключена в пределах от x  3 до x  3
Если значение случайной величины отличается от среднего значения больше чем на 3, то оно
является аномальным. При этом испытуемое значение не должно участвовать в расчете среднего
значения и среднеквадратичного отклонения.
Если распределение случайной величины логнормальное, то правило «трех сигм» применяется к
логарифмам значений, что используется при геохимическом методе поисков месторождений для
выделения геохимических аномалий.
x  3s
x  3s
=1,195+3*0,5419=1,195+1,62=2,815
x  3s
=1,279+3*0,6278=1,279+1,884=3,163
=0,2787+3*0,6897=0,2787+2,0691=2,3478
e 2,3478 = 10,46
Критерий Н.В. Смирнова
x  xmin
U1 
2
sсм
Un 
xmax  x
2
sсм
Если U1 > критического значения Ua при выбранном
уровне значимости α или Un > Ua, нулевая гипотеза
отклоняется, т. е. выброс xmin или xmax не случаен, не
характерен для рассматриваемой совокупности данных. В
этом случае значение xmin или xmax исключают из
рассмотрения, а найденные ранее оценки x и s подвергают
корректировке с учетом отброшенных результатов.
x - выборочное среднее значение случайной величины
 n 1 
2
2 - смещённая выборочная дисперсия
sсм
 s2 
sсм

 n 
Использование критерия Н.В.Смирнова предполагает нормальное
нормальноераспределение
распределение
изучаемой случайной величины. Критерий действителен для наиболее широко
встречающихся случаев, при которых генеральные параметры неизвестны, а
известны лишь их оценки, произведенные на основании анализируемой выборки.
Критические значения uα для уровня значимости α и объема выборки n для отбрасывания резко выделяющихся результатов
испытаний при неизвестной генеральной дисперсии (Критерий Смирнова)
n
uα
n
α = 0.10
0.05
0.01
3
1.15
1.15
1.15
4
1.42
1.46
5
1.60
6
uα
α = 0.10
0.05
0.01
15
2.25
2.41
2.70
1.49
16
2.28
2.44
2.75
1.67
1.75
17
2.31
2.48
2.78
1.73
1.82
1.94
18
2.34
2.50
2.82
7
1.83
1.94
2.10
19
2.36
2.53
2.85
8
1.91
2.03
2.22
20
2.38
2.56
2.88
9
1.98
2.11
2.32
21
2.41
2.58
2.91
10
2.03
2.18
2.41
22
2.43
2.60
2.94
11
2.09
2.23
2.48
23
2.45
2.62
2.96
12
2.13
2.29
2.55
24
2.47
2.64
2.99
13
2.17
2.33
2.61
25
2.49
2.66
3.01
14
2.21
2.37
2.66
30
2.70
2.93
3.40
40
2.79
3.02
3.48
50
2.86
3.08
3.54
100
3.08
3.29
3.72
250
3.34
3.53
3.95
500
3.53
3.70
4.11
Критерий Титьена – Мура
Если из нормально распределенной совокупности, содержащей N значений, исключить n максимальных или
минимальных значений, то дисперсия уменьшится , и по степени ее уменьшения можно судить об аномальности
исключенных значений.
 2N - дисперсия исходной совокупности
N  n  2N n
L
, где
 2N n - дисперсия после исключения n предполагаемых аномальных значений.
N  2N
N
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
Критерий Титьена – Мура при  = 0,05
Количество исключенных значений n
1
0,003
0,051
0,125
0,203
0,273
0,326
0,372
0,418
0,454
0,489
0,517
0,540
0,556
0,575
0,594
0,608
0,624
0,639
0,696
0,730
0,762
0,784
0,802
0,820
2
3
4
5
6
7
8
9
10
0,001
0,018
0,055
0,106
0,146
0,194
0,233
0,270
0,305
0,337
0,363
0,387
0,410
0,427
0,447
0,462
0,484
0,550
0,599
0,642
0,672
0,696
0,722
0,010
0,032
0,064
0,099
0,129
0,162
0,196
0,224
0,250
0,276
0,300
0,322
0,337
0,354
0,377
0,450
0,506
0,554
0,588
0,618
0,646
0,022
0,045
0,070
0,098
0,125
0,150
0,174
0,197
0,219
0,240
0,259
0,277
0,299
0,374
0,434
0,482
0,523
0,556
0,588
0,034
0,054
0,076
0,098
0,122
0,140
0,159
0,181
0,200
0,209
0,238
0,312
0,376
0,424
0,468
0,502
0,535
0,042
0,060
0,079
0,097
0,115
0,136
0,154
0,168
0,188
0,262
0,327
0,376
0,421
0,456
0,490
0,050
0,066
0,082
0,100
0,116
0,130
0,150
0,222
0,283
0,334
0,378
0,417
0,450
0,055
0,072
0,086
0,099
0,115
0,184
0,245
0,297
0,342
0,382
0,414
0,062
0,074
0,088
0,154
0,212
0,264
0,310
0,350
0,383
0,066
0,126
0,183
0,235
0,280
0,320
0,355
Проверка гипотез о равенстве математических ожиданий
(сравнение средних).
Задача сравнения средних значений возникает при решении широкого круга геологических задач:
вопрос о комагматичности эффузивных и интрузивных образований
о принадлежности интрузивных тел к определённому магматическому комплексу
нескольких вулканических построек к одному глубинному очагу
внешний контроль опробования
вопрос о возможности замены трудоёмких и дорогих аналитических методов более быстрыми и дешёвыми
степень влияния состава пород на геохимический фон
возможность использования геофизических методов для выделения пород разного состава
Статистические методы используются в тех случаях, когда путём визуального сравнения средних
невозможно уверенно решить вопрос об их сходстве или различии. Особенно часто это бывает, когда
объем выборок невелик, а значения свойств обладают большой изменчивостью
Для решения подобных задач в статистике используются параметрические и непараметрические
критерии.
Параметрические критерии основаны на известных законах распределения (Стьюдента, Фишера и др.).
Для их применения необходимо, чтобы выборочные данные соответствовали определённому закону
распределения.
Непараметрические критерии могут использоваться при любом, в том числе и неизвестном законе
распределения. Они часто применяются при малых объёмах выборок, когда из-за недостаточного количества
данных невозможно провести тест на соответствие определённому закону распределения. Кроме того,
непараметрические методы позволяют анализировать данные, измеренные в порядковой шкале. Однако
непараметрические критерии обладают меньшей мощностью (т.е большей вероятностью принятия
ошибочного решения) и менее чувствительны.
Параметрические критерии.
t-критерий Стьюдента.
Для независимых выборок
|xy|
t
sx  y

t  x y


12  22  n1  n2  2

.

n1 n2
n1  n2

x и y - выборочные средние случайных величин x и y
s x2 и s y2 - дисперсии выборок случайных величин x и y
n x и n y - объёмы выборок случайных величин x и y
Количество степеней свободы = nx  n y  2
Для зависимых выборок
|xy|
t
sx  y
sx  y 
s x2  2rs x s y  s y2
n 1
s x2 и s y2 - выборочные дисперсии основных x и контрольных y проб
r – коэффициент линейной корреляции x и y
n – количество сравниваемых пар x и y
t-критерий Стьюдента.
Величина t распределена по закону Стьюдента с числом степеней свободы = n1+n2-2
Критерий двухсторонний.
Критические значения можно найти по таблицам
коэффициентов вероятности t распределения Стьюдента.
в пакете STATISTICA с помощью вероятностного калькулятора,
в MS EXEL с помощью функции СТЬЮДРАСПР
Если рассчитанное значение t превысит критическое при заданном уровне значимости и числе степеней
свободы = n1+n2-2, гипотеза о равенстве средних отвергается.
Ограничения применения t-критерия Стьюдента
и проверка гипотезы о равенстве дисперсий
Для использования t-критерия выборки должны быть отобраны
из совокупностей, имеющих
нормальное распределение и равные дисперсии
При этом отклонение от нормальности распределения оказывает небольшое влияние на результат,
в то время как при неравенстве дисперсий применять t-критерий не рекомендуется.
Равенство дисперсий легко проверяется с помощью F-критерия Фишера:
где s12 и s22 - дисперсии выборок, причём s12 > s22
s12
F 2
s2
(В числитель всегда ставится большая дисперсия).
Параметрами распределения Фишера являются числа
степеней свободы числителя n1 и знаменателя n2
Число степеней свободы равно объёму выборки - 1.
График плотности вероятности
F-распределения
Если рассчитанное значение F превысит критическое
при заданном уровне значимости a и числах степеней
свободы числителя и знаменателя n1 и n2, гипотеза о
равенстве дисперсий отвергается c вероятностью
ошибки = a.
Проверка равенства дисперсийй с помощью F-критерия Фишера
Критерий односторонний.
Критические значения можно найти по таблицам
коэффициентов вероятности F распределения Фишера,
в пакете STATISTICA с помощью вероятностного калькулятора,
в MS EXEL с помощью функции ФТЕСТ
Если рассчитанное значение F превысит критическое при заданном уровне значимости a и числе степеней
свободы n1, n2, гипотеза о равенстве средних отвергается с вероятностью 1-a
Непараметрические критерии сравнения средних.
Если гипотеза о равенстве дисперсий отвергается, надо применять непараметрические критерии сравнения средних.
Непараметрические методы сравнения средних основаны на замене выборочных значений
групп их рангами в обобщённой выборке.
В качестве примера можно рассмотреть U - критерий Манна-Уитни, который представляет
собой непараметрическую альтернативу t-критерию для независимых выборок.
U-статистика представляет собой общее число тех случаев, в которых элементы второй выборки
превосходят элементы первой выборки. Если гипотеза об отсутствии различий в средних значениях
верна, то при объёме выборок > 20, U-статистика распределена нормально с математическим ожиданием
mn/2 и дисперсией nm(n+m+1)/12, где n и m объёмы выборок.
Порядок вычислений:
1) разделить единый ранжированный ряд на два, состоящие соответственно из элементов первой и второй выборок;
Выборка 1
6 7
7
8
8
Выборка 2
Ранги
9
9
8
9
10
9
9
11
11
11
12
12
12
13
13
1 2,5
2,5
5
5
5
9
9
9 9
9
12
14
14
14
17
17
17
19,5
19,5
1 2
3
4
5
6
7
8
9 10
11
12
13
14
15
16
17
18
19
20
2) подсчитать отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно — на
долю элементов второй выборки;
3) определить большую из двух ранговых сумм (Tx), соответствующую выборке с nx элементов;
4) определить значение U-критерия Манна — Уитни по формуле U  n1n2  nx (nx  1)  Tx ;
5) По таблице определить критическое значение критерия для данных n1 и n2.
2
6) Сравнить рассчитанное значение с критическим и принять решение.
Гипотеза об отсутствии различий отвергается, если рассчитанное значение U окажется МЕНЬШЕ или равно
табличному критическому значению.
Критические значения критерия U Манна-Уитни
при объёме выборок > 20, U-статистика распределена нормально с математическим ожиданием mn/2
и дисперсией nm(n+m+1)/12, где n и m объёмы выборок.
Download