Робастные методы оценивания

advertisement
СОДЕРЖАНИЕ
1. Грубые ошибки…………………………………………………………………………………………
2. Устойчивые методы оценки основные понятия……………………………………………..……....
3. Методы выявления грубых ошибок………………………………………………………………..…
4. Методы исчисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера…………
Рекомендуемая литература……………………………………………………………………………….
Приложения…………………………………………………………………………….………………...
3
1 ГРУБЫЕ ОШИБКИ
В процессе обработки экономической информации, как правило, считают, что экономические
показатели подчиняются нормальному распределению. Однако практика обработки такой информации
показывает, что экономические показатели не так часто подчиняются теоретическому нормальному
распределению. Наблюдаются односторонние и двухсторонние отклонения. Статистическая информация
представляет собой смесь нескольких законов распределения с разными дисперсиями. Иногда из-за малого
объема выборки не представляется возможным достаточно точно определить вид закона, засоряющего
распределения. При применении метода наименьших квадратов небольшое число грубых ошибок может
заметно исказить значения характеристик распределения.
При решении задач статистического анализа и, в частности, при вычислении оценок параметров
распределений проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение.
Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не
согласуются с выборочными данными.
Посмотрим на примере что же такое грубые ошибки. В таблице 1 приведены данные о выручке
магазина за 10 дней.
Таблица 1- Пример грубых ошибок.
Дни
1
2
3
Выручка 25034
28673
23695
4
24679
5
26957
6
27638
7
21359
8
37689
9
43894
10
16596
Как видим значения 16596 и 43894 резко выделяются из общей совокупности. Определением
проблемы, являются эти значения ошибками или это реальные значения, занимается такой раздел
статистики как - робастные исследования.
Итак, что же такое грубая ошибка? Это резко выделяющиеся наблюдения; данные, которые резко
засоряют общую статистическую совокупность.
Методы робастного оценивания – те методы, которые позволяют получать достаточно надежные
оценки статистической совокупности с учетом неясности
закона
ее распределения и наличия
существенных отклонений в значениях данных.
В борьбе с грубыми погрешностями измерений, если они не были обнаружены в процессе
измерений, используют два подхода:
 исключение резко выделяющихся аномальных измерений из дальнейшей обработки;
 использование робастных методов обработки.
Исключение резко выделяющихся аномальных явлений имеет широкое применение, но этот
способ не может полностью удовлетворить аналитика. Причина этого в том, что из общей совокупности
можно удалить очень много значений, а следовательно полученный результат не будет соответствовать
действительности. Эта проблема ощутима и при небольших объемах совокупности.
Основы робастных методов оценки были разработаны академиками А.Н. Колмогоровым, Н.В.
Смирновым и Б.С. Ястремским. Дальнейшее развитие робастные методы получили в работах американских
и швейцарских математиков.
Грубые ошибки, в основном, появляются при сборе информации, при ее передаче либо при
нестрогих первичных экономических расчетах. Поэтому при проведении многомерного анализа очень
важное значение имеют методы устойчивого оценивания.
В настоящее время в науке используется несколько методов оценивания и обработки
экономической информации.
4
2 УСТОЙЧИВЫЕ МЕТОДЫ ОЦЕНИВАНИЯ
Методы оценивания, чувствительные к «грубым ошибкам», называются неустойчивыми.
Методы оценивания, учитывающие наличие «грубых ошибок» и позволяющие при этом
достаточно точно определять оценки параметров, называются робастными или устойчивыми. Таковыми
являются методы Хубера, Винзора, Пуанкаре и ряд других методов.
Пусть совокупность вместе с «обычными» значениями элементов содержит «грубые ошибки».
При этом основная масса элементов является реализацией случайной величины, закон распределения
которой известен с точностью до некоторого параметра. Вероятность появления этих элементов в
совокупности равна
1-ε, где ε — вероятность появления другой случайной величины — η, определяющей грубые
ошибки. Однако это условие является условным.
Например, известно, что средняя арифметическая оценка является несмещённой, состоятельной и
эффективной оценкой математического ожидания, однако её эффективность падает с увеличением числа
наблюдений, значительно удалённых от среднего значения.
Лаплас и Гаусс выявили преимущества и недостатки средней абсолютной ошибки
dN 
1
N
N
x
i 1
i
x ,
а также средней квадратической ошибки
1 N
xi  x 2 ,

N i 1
SN 
где i  1, N ;
xi - i-е значение случайной величины;
x - среднее значение случайной величины.
При наличии серии наблюдений x1 , x 2 ,..., x N
x
1
N
N
x
i 1
i
,
средняя абсолютная и средняя квадратическая ошибки определяют разные характеристики
распределения ошибок. Отношение их предельных значений для нормального распределения ошибок:
d
2

.
s

Еще в начале XIX века Ф. Бессаль отметил, что в большинстве случаев реальные распределения
имеют «утяжелённые хвосты» (наблюдения, значительно удалённые от среднего значения), по сравнению с
табличным нормальным распределением. В ХХ в. утяжеление хвоста реальных распределений отмечено во
многих наборах статистической информации. Д. Тьюки предложил свою модель для оценки характеристик
распределения с утяжеленными относительно нормальной совокупности хвостами. В ней
предусматривается наличие нормальной совокупности с математическим ожиданием μ, дисперсией  ,
которая засоряется другой нормальной совокупностью с этим же математическим ожиданием и с
2
дисперсией (3 )  9 .
Распределение Тьюки имеет вид:
2
2
x
x
F  x   1   
  
,
  
 3 
где
5
1
( x) 
2
x
e

t2
2
dt .

Часто для сравнения средней абсолютной ошибки со средней квадратической ошибкой
используется асимптотическая характеристика
s 
D N 
s
e( )  lim    ,
N 
d 
D N 
 d 
где e(ε) – относительная асимптотическая эффективность
Если засорения нет, то для определения
d N по отношению к s N .
s N требуется на 12% меньше наблюдений, чем для
определения
d N . Однако уже при малом засорении преимущество быстро падает. Наоборот, с ростом
засорения относительная эффективность d N быстро растёт. При засорении, равном 0,18%, e(0,18)=1.
Итак, легко убедиться в том, что процедуры, предусмотренные теорией нормальных ошибок, не
устойчивы к «грубым» ошибкам. Более устойчивыми оказываются процедуры, связанные с определением
средней абсолютной ошибки d N . Известен целый ряд методов исключения резко выделяющихся
наблюдений.
Наиболее доступным и распространенным является анализ измерений с точки зрения
экономической сущности полученных наблюдений. Для выявления резко выделяющихся наблюдений
имеется ряд критериев, которые являются несмещенными, инвариантными по отношению к
преобразованиям совокупности и требуют добавления константы или умножения каждого члена
совокупности на положительное число.
6
3 МЕТОДЫ ВЫЯВЛЕНИЯ ГРУБЫХ ОШИБОК
Обработку засорений производят по следующему плану:
1) Распознавание ошибок и данных;
2) Выбор метода и проведение робастного оценивания данных;
3) Критериальная и логическая проверка и интерпретация результатов устойчивого оценивания.
Простым способом для обнаружения грубых ошибок является Т – Критерия Граббса:
Tн 
xx
s
x - среднее значение. Оценка выборочной средней находится по истинным данным либо
n
x
1
x
n
s – Выборочное среднеквадратическое отклонение случайной величины.
Полученные значения
Tн сравнивают с табличными значениями процентных точек критерия
Смирнова Граббса (см. приложение А). Если Tн > Tкр , то проверяемое значение является грубой ошибкой и
относится к классу выбросов. Критерий Граббса имеет некоторые недостатки. Он не точен, и не
чувствителен к засорениям когда ошибки группируются на расстоянии от общей совокупности.
По сравнению с оценками Граббса оценками грубых ошибок признаются L- и E- критерии,
предложенные американскими статистиками Г. Тритьеном. И Г.Муром.
1. L-Критерий. Применяется для вычисления грубых ошибок в верхней части ранжированного
ряда данных:
nk
L
 (x
i 1
n
 (x
i 1
где
 xk ) 2
i
,
i
 x)
2
xi - выборка наблюдений по какому-либо одному, j-му признаку;
n – Объем выборки;
k – Число наблюдений с резко отклоняющимися значениями признака;
x - общая для выборочной совокупности данных средняя величина;
x k - средняя, которую рассчитывают по n – k наблюдениям, остающимися после отбрасывания
k грубых ошибок «сверху» ранжированного ряда данных:
nk
xk 
x
i 1
i
nk
2. L' - критерий применяется для грубых ошибок в данных, расположенных в нижней части
ранжированного ряда данных:
nk
L' 
 (x
i  k 1
n
i
 (x
i 1
 xk ) 2
,
i
 x)
2
где x - средняя рассчитанная по n-k наблюдениям, остающимися после отбрасывания k грубых
ошибок «снизу»:
7
nk
xk 
x
i  k 1
i
nk
.
3. E-критерий используется, когда в выборке имеются предположительно грубые ошибки с
наибольшими и наименьшими значениями, т.е. расположенные в верхней и в нижней части ранжированного
ряда данных:
nk
E
 (x
i  k 1
n
 (x
i 1
 xk ' ) 2
i
,
i
 x)
2
где x k ' - средняя, рассчитанная по «истинным» данным после отбрасывания из выборки
наименьших (к) и наибольших
(k ' ) - значений засоряющих совокупность данных:
nk '
xk ' 
x
i  k 1
i
n  (k  k ' )
.
Все три критерия L, L' E имеют табулированное табличные критические значения для заданного
уровня значимости α при известном объеме выборки n и предполагаемом числе ошибок К. Если
наблюденные значения критериев оказываются меньше пороговых Са,к, то ошибки в данных, признаются
грубыми. Иначе данные типичны для данной совокупности.
Пример.
Имеются данные о количестве русских автомобилей на 2000 автомобилей в 20-ти городах.
Таблица 2 – Исходные данные.
Количество автомобилей
русских
1
560
2
471,69
3
527,88
4
562,22
5
44,89
6
1606,41
7
461,59
8
670,87
9
574,77
10
624,33
11
581,58
12
479,83
13
1788,56
14
572,06
15
409
16
618,15
17
516,84
18
451,93
19
55,26
20
429,69
Сумма
12007,54
Среднее
600,38
На основе этих данных найдем обычные оценки средней и дисперсии и устойчивые оценки,
учитывающие наличие в данных грубых ошибок.
Город
8
Решение:
На первом этапе необходимо ранжировать ряд.
Таблица 3 – Ранжированный ряд данных.
Город
Количество
автомобилей русских
5
19
15
20
18
7
2
12
17
3
1
4
14
9
11
16
10
8
6
13
Сумма
Среднее
44,89
55,26
409
429,69
451,93
461,59
471,69
479,83
516,84
527,88
560
562,22
572,06
574,77
581,58
618,15
624,33
670,87
1606,41
1788,56
12007,54
600,38
В исходных данных вызывают сомнения данные 44,89; 55,26; 1606,41; 1788,56. Они отмечены
жирным шрифтом в таблице 2. Можно предположить, что эти данные записаны неверно, взяты из другой
графы отчетности или, наконец, представляют города резко отличающимися от основной совокупности
своими экологическими характеристиками. Проверим эти данные на «засорение», применив критерий
Граббса:
xx
s
T 
T1 (44,9) 
T2 (55,26) 
44.9  600.38
 1,390729634
399.42
55.26  600.38
 1,364776432
399.42
T3 (1606.41) 
1606.41  600.38
 2,518736004
399.42
T4 (1788.56) 
1788.56  600.38
 2,974754931
399.42
n
x   x / n   (  ( x  x ) / n)
2
1
2
1
Сравним полученные значения с табличным (при
Ткр=2,447 (см. приложение Б).
 =0,10)
при числе наблюдений равном 20
T1  1,390729634 < Tкр  2.447
9
T2  1,364776432 < Tкр  2.447
T3  2,518736004 > Tкр  2.447
T4  2,974754931 > Tкр  2.447
Т3(1606.41) и Т4(1788.56) больше табличных следовательно значения 1606,41 и 1788,56
аномальные. Проведем более тщательную проверку этих значений при помощи критерия Титьена и Мура:
Мы применяем Е – критерий так как имеем предположение, что имеются грубые ошибки как с
наибольшим, так и с наименьшим засорением то есть в нашем случае это 4 ошибки.
Проводятся расчеты по усеченным данным то есть данным в которых отсутствуют
предполагаемые ошибки.
18
Eн 
 (x
i 3
20
 xk ' ) 2
i
 (x
i
 x)2

(409  2128.107) 2  (429.69  2128.107) 2  ...  (670.87  2128.107) 2

(44.89  2128.107) 2  (55.26  2128.107) 2  ...  (1788.56  2128.107) 2
1
 86393,03/ 3284176,66  0,026306
18
xk ' 
x
i 3
i
n  k'

409  429.69  ...  670.87
 2128,107
16
Сравним полученные результаты с табличными данными (см. приложение В.)
Таблица Критические значения Са-оценки для E критерия Титьена и Мура (  =0,05)
Число наблюдений необходимо взять равное 20-ти и кол-во ошибок равное 4-ем 0,026 < 0,221
следовательно все значения (44,89; 55,26; 1606,41; 1788,56.) являются засорением. (Табличные данные
берем при а=0,05)
10
ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Имеются следующие данные:
Варианты
1
2
1
3
10
2
5
15
3
8
13
4
5
59
5
6
97
6
4
37
7
25
27
8
17
64
9
7
91
10
9
12
11
1
34
12
3
26
13
4
64
14
5
51
15
3
49
16
7
235
17
8
29
18
4
36
19
2
46
20
6
63
8
9
10
539,7
17
89,7
664,2
28,4
134,6
4916,4
45,4
116,6
5164,8
28,4
529,2
5432,4
34,1
870,1
5548,5
22,7
331,9
5669,7
142
242,2
5767,5
96,6
574,1
6212,7
39,8
816,3
6345,3
51,1
107,6
6731,4
5,7
305
6758,1
17
233,2
6876,3
22,7
574,1
6909
28,4
457,5
6990,6
17
439,5
7430,4
39,8
2108
7504,5
45,4
260,1
8064
22,7
322,9
19309,5
11,4
412,6
21498,9
34,1
565,1
3
1450,7
1221,9
1367,5
1456,5
116,3
4161,5
1195,8
1737,9
1489
1617,4
1506,6
1243
4633,3
1481,9
1059,5
1601,3
1338,9
1170,8
143,1
1113,1
11
1453,7
1226,9
1375,5
1461,5
122,3
4165,5
1220,8
1754,9
1496
1626,4
1507,6
1246
4637,3
1486,9
1062,5
1608,3
1346,9
1174,8
145,1
1119,1
4
179,9
221,4
1638,8
1721,6
1810,8
1849,5
1889,9
1922,5
2070,9
2115,1
2243,8
2252,7
2292,1
2303
2330,2
2476,8
2501,5
2688
6436,5
7166,3
12
38,1
45,3
43,1
136,2
195,5
126
68,9
149,7
200,6
44,2
86,8
67,5
185,9
120,5
111,2
490
74,7
86,6
93,8
139,9
5
60
53,9
60,3
64,3
5,1
183,6
52,8
76,7
65,7
71,4
66,5
54,8
204,4
65,4
46,7
70,6
59,1
81,7
6,3
49,1
13
1568,1
1362,7
1504,8
1870,1
708,7
4543,6
1427,6
2204,1
2097,8
1759,1
1768,1
1448,6
5195
1848,5
1396,2
3078,3
1571,1
1434,7
426,5
1538,8
6
10069,6
8481,6
9492
10109,6
807,2
8885,6
8300
12063,2
10335,2
11226,2
10457,6
8628
32160,8
10286,4
7354,4
11115,2
9293,6
8126,4
993,6
7726,4
14
3021,8
2589,6
2880,3
3331,6
831
8709,1
2648,4
3959
3593,8
3385,5
3275,7
2694,6
9832,3
3335,4
2458,7
4686,6
2918
2609,5
571,6
2657,9
7
18,1
15,3
17,1
18,2
1,5
52
14,9
21,7
18,6
20,2
18,8
15,5
57,9
18,5
13,2
20
16,7
14,6
1,8
13,9
15
2394,6
2044,5
2278,4
2583,6
547,5
6891,6
2077,4
3077,3
2754,7
2681,8
2568,5
2115,2
7754,3
2596
1900,2
3455,3
2289,6
2035,6
401
2042,4
Используя приемы Граббса, Титьена и Мура, определите наличие грубых ошибок в совокупности
данных.
4 МЕТОДЫ ИСЧИСЛЕНИЯ УСТОЙЧИВЫХ СТАТИСТИЧЕСКИХ ОЦЕНОК:
ПУАНКАРЕ, ВИНЗОРА, ХУБЕРА
После обнаружения выбросов в данных необходимо оценить параметры выборочной
совокупности. При этом используется два метода:
1. Ошибки отбрасываются. Они исключаются из общей совокупности и расчеты проводятся по
оставшимся данным.
2. Ошибки модифицируются, то есть ошибки заменяются на значения близкие к ним.
Пуанкаре предложил для расчета средней по усеченной совокупности (урезанной средней)
формулу:
11
1 nk
T (a) 
 xi ,
n  2k i  k 1
где
k - число грубых ошибок.
k  an - целая часть от произведения an .
n - объем выборочной совокупности за исключением ошибочных данных.
a - некоторая функция засорения выборки  (значения a смотрятся по таблице — приложение
Г).
По Винзору средняя определяется также с заранее известным
W (a) 
1
n

n  k 1
i k  2
a по формуле:

xi  k ( x k 1  x n  k ) ,
Помимо средних величин по винзорированным данным могут быть найдены и другие показатели.
Помимо рассмотренных методов оценки широкое применение имеет классический подход Хубера.
При это используется некоторая величина К, определяемая с учетом степени засорения статистической
совокупности  и определяющая шаг модификации резко отличающихся наблюдений.
Оценка средней величины по Хуберу:
ˆ  1 (  x  (n  n )k ) ,

i
2
1
n | xi |k

где  - Устойчивая оценка, определяется при помощи итеративных процедур;
k - величина, которая допускается в качестве отклонения от центра совокупности, принимает
постоянные значения с учетом удельного веса грубых ошибок в совокупности данных  ;
n1 -Численность группы наблюдений из совокупности, отличающихся наименьшими
значениями: xi    k , или значения в интервале (  ;   k );
n 2 - Численность группы наблюдений из совокупности, отличающихся наибольшими
значениями: xi    k , или значения в интервале (   k ;  );
При расчетах по приведенной выше формуле в качестве начальной оценки  может применяться
обычная средняя арифметическая или медиана, оцененная по выборке. Затем на каждой итерации
производится разделение выборочной совокупности на три части. В одну часть попадают «истинные»
признаковые значения, которые остаются без изменения (
xi    k ). В две другие части совокупности
xi    k и xi    k ) попадают «ошибки», они не исключаются из рассмотрения, а заменяются
соответственно на величины xi  k и xi  k . По «истинным» и модифицированным данным каждый раз
определяется новая оценка средней  и итерация возобновляется. Итерации повторяются до тех пор, пока
все наблюдения не оказываются в интервале «истинных» значений: xi    k

Оценка  , найденная по методу Хубера, представляется достаточно эффективной, но быстро
теряет оптимальные свойства с увеличением засорения выборки (ростом  ).
(для
Пример.
Итак, рассчитаем устойчивые оценки. Для этого построим следующую таблицу:
12
Таблица 4 – Данные об количестве автомобилей отечественного производства.
Количество
Усеченная
Винзорированные
Город
автомобилей
совокупность
данные
русских
5
409
44,89
19
409
55,26
15
409
409
409
20
429,69
429,69
429,69
18
451,93
451,93
451,93
7
461,59
461,59
461,59
2
471,69
471,69
471,69
12
479,83
479,83
479,83
17
516,84
516,84
516,84
3
527,88
527,88
527,88
1
560
560
560
4
562,22
562,22
562,22
14
572,06
572,06
572,06
9
574,77
574,77
574,77
11
581,58
581,58
581,58
16
618,15
618,15
618,15
10
624,33
624,33
624,33
8
670,87
670,87
670,87
6
670,87
1606,41
13
670,87
1788,56
Сумма
12007,54
8512,43
10672,17
Среднее
600,38
532,0266942
533,6083261
Найдем значение параметра k ( ) : k ( )  0,862 (для этого разделим кол-во ошибок (4) на
количество данных всей совокупности (20) и посмотрим значение по специальной таблице (см. приложение
Д). при значении  =0,2)
Найдем  = x = 600,38
Теперь разобьем совокупность данных на 3 группы:
1. Не значительно отличающиеся от 
2. Существенно меньше величины  .
3. Существенно превышающие  .
Затем соответствующим образом модифицируем
13
xi , если xi    k , или xi    k :
Таблица 5 – Данные разбиты на совокупности.
I Класс
xi    k
II Класс
III Класс
xi    k
xi    k
xi  601,242
Исходные значения
---
618,15
624,33
670,87
1606,41
1788,56
Модифицированные
значения
---
617,288
623,468
670,008
1605,548
1787,698

Рассчитаем оценку  по данным, модифицированным первый раз
xi  599,518
44,89
55,26
409
429,69
451,93
461,59
471,69
479,83
516,84
527,88
560
562,22
572,06
574,77
581,58
45,752
56,122
409,862
430,552
452,792
462,452
472,552
480,692
517,702
528,742
560,862
563,082
572,922
575,632
582,442

1 :

1
1  (  xi  (n2  n1)k )  0,05  (12016,17  8,62)  601,24
n | xi |k
Возобновим итерацию по данным, модифицированным на предыдущем шаге:
14
I Класс
II Класс
xi    k
xi    k
xi  602,1
Исходные значения
---
617,288
623,468
670,008
1605,548
1787,698
Модифицированные
значения
---
616,426
622,606
669,146
1604,686
1786,836
III Класс
xi    k
xi  600.34
45,752
56,122
409,862
430,552
452,792
462,452
472,552
480,692
517,702
528,742
560,862
563,082
572,922
575,632
582,442
46,614
56,984
410,724
431,414
453,654
463,314
473,414
481,554
518,564
529,604
561,724
563,944
573,784
576,494
583,304

Для второй итерации оценка  будет:

1
2 
(12024,79  (15  5)0.862)  601,67
20
Чтобы удостовериться, что многомерное значение является действительно выбросом, обычно
используют расстояние Махаланобиса:
d m  ( X  X )' 
1
(X  X )
где Х- Вектор признаковых значений, подозреваемых на выброс.
X - вектор средних значений для многомерной совокупности данных;

- Матрица ковариаций.
Критерий F для для проверки гипотезы о существенности отклонения случайного вектора Х
строиться следующим образом:
FH 
(n  m)n
1
( X  X )'  ( X  X ) .
2(n  1)m
15
Для F- критерия существуют числа
значимости
,
 1  m  n  m  1 степеней свободы. При заданном уровне
если FH  Fa .v1 .v2 , проверяемое наблюдение действительно признается аномальным. В
противном случае отклонение случайного от вектора средних значений считается приемлемым, а гипотеза о
«засорении» совокупности отбрасывается.
а) Одно из наблюдений, которое предположительно является «засорением», подвергается
проверке. Если предположение оправдывается, «выброс» устраняется из выборки;
б) по усеченной совокупности многомерных объектов определяется новый вектор средних
значений;
в) проверке подвергается следующий объект, повторяются шаги а и б, и т.д.
К выявленным грубым ошибкам в многомерной совокупности можно применять уже известные
для одномерного случая приемы обработки данных: их устранение, или винзорирование.
Итак, наиболее простые методы поиска ошибок Граббса, Титьена и Мура. Если в статистической
совокупности действительно выявлены грубые ошибки, то применяем методы Пуанкаре, Хубера и Винзора.
ВАРИАНТЫ ЗАДАНИЙ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ
Имеются сведения о размере прибыли, млн руб. (X1) и объёме основных производственных
фондов (X2) по 20 производственным предприятиям:
1
2
3
4
5
Варианты
Предприятие
X1
X2
X1
X2
X1
X2
X1
X2
X1
X2
1
75
45
75
15
18,75
11,25
1,88
1,13
11,43
6,86
2
100
60
33,33
20
25
15
2,5
1,5
15,24
9,14
3
1900
70
633,33
23,33
475
17,5
47,5
1,75
289,52
10,67
4
-450
340
-150
113,33 -112,5
85
-11,25
8,5
-68,57
51,81
5
120
75
40
25
30
18,75
3
1,88
18,29
11,43
6
50
30
16,67
10
12,5
7,5
1,25
0,75
7,62
4,57
7
40
55
13,33
18,33
10
13,75
1
1,38
6,1
8,38
8
55
20
18,33
6,67
13,75
5
1,38
0,5
8,38
3,05
9
110
470
36,67
156,67
27,5
117,5
2,75
11,75
16,76
71,62
10
35
40
11,67
13,33
8,75
10
0,88
1
5,33
6,1
11
90
30
30
10
22,5
7,5
2,25
0,75
13,71
4,57
12
70
70
23,33
23,33
17,5
17,5
1,75
1,75
10,67
10,67
13
-600
-100
-200
-33,33
-150
-25
-15
-2,5
-91,43
-15,24
14
2250
60
750
20
562,5
15
56,25
1,5
342,86
9,14
15
80
90
26,67
30
20
22,5
2
2,25
12,19
13,71
16
45
50
15
16,67
11,25
12,5
1,13
1,25
6,86
7,62
17
40
40
13,33
13,33
10
10
1
1
6,1
6,1
18
-173
-42
25
6,67
18,75
5
1,88
0,5
11,43
3,05
19
45
70
15
23,33
11,25
17,5
1,13
1,75
6,86
10,67
20
85
55
28,33
18,33
21,25
13,75
2,13
1,38
12,95
8,38
16
Варианты
Предприятие
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Варианты
Предприятие
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
6
X1
179
38
190
-51
202
39
32
32
73
30
81
210
174
91
130
39
53
-134
115
169
7
X2
151
169
174
-142
110
206
285
185
208
7
42
63
125
33
185
169
98
9
249
104
X1
39
232
140
-166
11
60
107
104
88
40
-5
27
255
145
239
216
230
168
257
178
11
X1
101
102
94
155
59
35
181
212
84
148
131
206
93
197
69
31
204
37
211
209
8
X2
251
266
257
24
29
213
82
98
22
82
110
85
164
174
267
295
155
86
258
267
X1
243
106
88
-121
88
64
77
55
48
210
243
22
192
72
204
206
24
143
111
251
12
X2
218
275
257
96
25
145
181
168
301
263
96
294
56
47
55
293
133
145
181
26
X1
94
43
159
104
16
6
153
24
144
96
72
94
-55
119
-137
111
72
77
14
60
9
X2
92
66
96
30
89
109
70
93
93
61
59
-142
117
93
72
110
69
53
113
98
X1
25
234
246
10
62
110
165
128
252
77
130
-19
197
78
152
190
251
247
94
172
X2
315
206
253
220
332
310
201
367
82
35
278
134
340
363
27
135
202
164
216
309
X1
16
25
148
12
-158
163
106
223
251
56
144
157
85
32
221
96
151
47
141
124
13
X2
159
142
53
335
126
275
272
24
188
46
188
337
39
301
-93
351
275
27
187
122
X1
235
142
20
187
16
54
12
110
243
-5
186
130
71
222
159
247
230
258
63
137
10
X2
95
54
82
-21
118
76
93
84
83
73
77
59
82
106
74
97
73
95
115
112
X1
153
136
209
78
209
232
217
97
86
205
101
250
191
134
144
51
248
153
82
189
X2
109
252
327
69
-125
265
53
283
64
307
183
201
36
315
31
93
328
117
120
255
X1
251
216
151
159
40
144
119
55
-137
121
24
86
45
34
11
178
223
121
165
134
14
X2
110
83
99
-97
56
120
91
112
112
106
98
114
67
62
52
78
114
68
112
105
15
X2
21
183
105
22
282
205
330
349
-144
176
320
153
306
124
156
121
131
198
145
323
Рассчитать обычную и устойчивую средние, используя методы Пуанкаре и Винзора, сравните
полученные результаты.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА
1. Дубров А.М. Компонентный анализ и эффективность в экономике: Учебное пособие. – М.:
Финансы и статистика. 2002. – 352 с.
2. Многомерный статистический анализ. А.М.Дубров, В.С.Мхитарян, Л.И. Трошин. – М.:
«Финансы и статистика», 2000. – 352 с.
3. Многомерный статистический анализ в экономике. Л.А.Сошникова, В.Н.Тамашевич, Г.Уебе, М.
Шеффер. – М.: «ЮНИТИ-ДАНА», 1999. – 598 с.
17
4. Прикладная статистика и основы эконометрики. С.А.Айвазян, В.С.Мхитарян. – М.: «ЮНИТИ»,
1998. – 1022 с.
5. Решение математических задач средствами Excel: Практикум / В.Я. Гельман.— СПб.: Питер,
2003.-240 с.
6. http://www.exponenta.ru
18
ПРИЛОЖЕНИЕ А
Процентные точки критерия Смирнова –Грабса (Т)
№
наблюдения
1
2
3
4
5
6
7
8
9
10
11
12
13

=0.10
1,406
1,645
1,791
1,894
1,974
2,041
2,097
2,146
2,19
2,229
2,264

=0.05
1,412
1,689
1,869
1,996
2,093
2,172
2,237
2,294
2,343
2,387
2,426

=0.025
1,414
1,71
1,917
2,067
2,182
2,273
2,349
2,414
2,47
2,519
2,562
19
№
наблюдения
14
15
16
17
18
19
20
21
22
23
24
25
26

=0.10
2,297
2,326
2,354
2,38
2,44
2,426
2,447
2,467
2,486
2,504
2,52
2,537
2,553

=0.05
2,461
2,493
2,523
2,551
2,557
2,6
2,623
2,644
2,664
2,683
2,701
2,717
2,734

=0.025
2,602
2,638
2,67
2,701
2,728
2,754
2,778
2,801
2,823
2,843
2,862
2,88
2,897
ПРИЛОЖЕНИЕ Б
Критические значения Самооценки для L и L' - критериев Титьена и Мура (  =0,05)
№ п/п
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
1
0,003
51
125
273
326
372
418
0,454
489
517
540
556
575
594
608
624
639
696
730
762
784
802
820
2
3
4
5
6
0,001
18
55
106
146
194
233
0,27
305
337
363
387
410
427
447
462
484
550
599
642
672
696
722
0,01
32
64
99
129
0,162
196
224
250
276
300
322
337
354
377
450
506
554
588
618
646
0,022
45
70
0,098
125
150
174
197
219
240
259
277
299
374
434
482
523
556
588
0,034
0,054
76
98
122
140
159
181
200
209
238
312
376
424
468
502
535
0,042
60
79
97
115
136
154
168
188
262
327
376
421
456
490
20
7
0,05
66
82
100
116
130
150
222
283
334
378
417
450
8
9
10
0,055
72
86
99
115
184
245
297
342
382
414
0,062
74
88
154
212
264
310
350
383
0,066
126
183
235
280
320
356
ПРИЛОЖЕНИЕ B
Критические значения Самооценки для E критерия Титьена и Мура (  =0,05)
№ п/п
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
1
0,001
25
81
146
208
265
314
356
386
424
455
0,484
509
526
544
562
581
597
652
698
732
758
778
797
2
3
4
5
6
7
8
9
0,001
10
34
65
99
137
172
204
234
262
0,293
317
340
362
382
398
416
493
549
596
629
658
684
0,004
16
34
57
83
107
133
156
0,179
206
227
248
267
287
302
381
443
495
534
567
599
0,01
21
37
55
73
92
0,112
134
153
170
187
203
221
298
364
417
458
492
529
0,014
26
39
53
0,068
84
102
116
132
146
163
236
298
351
395
433
468
0,018
28
0,039
52
67
78
91
105
119
186
246
298
343
381
417
0,021
30
41
50
62
74
85
146
203
254
297
337
373
0,024
32
41
50
59
114
116
214
259
299
334
0,026
33
41
89
137
181
223
263
299
21
10
0,028
68
112
164
195
233
268
ПРИЛОЖЕНИЕ Г
Значения

для расчета устойчивых оценок Т (а) – Пуанкаре и W (a) –Винзора


0
0,001
0,002
0,005
0,01
0,02
0,05
0,1
0,15
0,2
0,25
0,3
0,4
0,5
0,65
0,8
1
0
0,004
0,008
0,015
0,026
0,043
0,081
0,127
0,164
0,194
0,222
0,247
0,291
0,332
0,386
0,436
0,5
22
ПРИЛОЖЕНИЕ Д
Значения
k = f (x) для расчета устойчивой оценки Хубера


0
0,001
0,002
0,005
0,01
0,02
0,05
0,1
0,15
0,2
0,25
0,3
0,4
0,5
0,65
0,8
1
0
2,63
2,435
2,16
1,945
1,717
1,399
1,14
0,98
0,862
0,766
0,685
0,55
0,436
0,291
0,162
0
23
Download