стр.1 1. Сгруппировать выборку и записать статистические ряды абсолютных и относительных частот.

advertisement
стр.1
1. Сгруппировать выборку и записать статистические ряды абсолютных и
относительных частот.
2. Представить выборку графически: построить полигон абсолютных частот;
полигон относительных частот; нормированную гистограмму.
3. Найти оценки вариации: выборочное среднее, дисперсию, среднее
квадратическое отклонение, моду, медиану.
4. Выдвинуть и проверить с уровнем значимости α=0,05 гипотезу о
нормальном законе распределения генеральной совокупности, построить
график подобранной функции плотности (вместе с гистограммой)
5. Построить доверительные интервалы для параметров распределения
генеральной совокупности.
6. Сформулировать статистические выводы. Они должны содержать сводные
результаты по каждому пункту исследования.
Решение:
Строим группированный статистический ряд абсолютных частот.
Группированным статистическим рядом абсолютных частот называется
последовательность пар чисел (x1* , n1*) , (x2* , n2*) ,…, (xm* , nm*)
1.
где xk* — центр k-го интервала группировки и n1* — число элементов выборки,
попавших в k-й интервал.
Числа nk* ( k = 1,…,m ) называются абсолютными частотами.
Так как в основание группировки положен непрерывный количественный признак,
то число групп определяют одновременно с размером интервала.
Когда совокупность единиц более или менее однородна (вариация по
группировочному признаку мала), прибегают к равным интервалам, размер которых
приближенно определяется по формуле Стэрджесса:
n = 1 + 3,2log n
n = 1 + 3,2log 150 = 8
Находим минимальный и максимальный элемент выборки, это 102-й и 32-й
элементы соответственно, xmin = 26 и xmax = 52.
Находим длину интервала группировки
h = (xmax - xmin) / m = ( 52 - 26) / 8 = 3.25.
Здесь m = 8 - число интервалов группировки.
Находим правые границы интервалов группировки: xk = xmin + kh (к = 1,..., 8).
Получаем
29.25 32.5 35.75 39 42.25 45.5 48.75
52
Находим центры x*k интервалов группировки по формуле:
x*k = xk - h/2 (к = 1,..., 8).
Получаем
27.625 30.875 34.125 37.375 40.625 43.875 47.125 50.375
Для каждого интервала группировки (xk-1 , xk) находим число nk* элементов
выборки, попавших в этот интервал. Важно чтобы каждый элемент выборки был
отнесен к одному и только к одному интервалу, а если значение элемента попадает
на границу интервала, то будем относить его к интервалу с младшим номером.
Минимальный элемент всегда относим к первому интервалу, максимальный к
последнему. Воспользуемся приведенной ниже таблицей
Номер
Интервала
k
Центр
Интервала
xk *
Границы
Интервала
Попало в
Интервал
nk*
Номера элементов попавших в
интервал
1
2
3
4
5
1
27.62500
26.00000...
29.25000
1
102
2
30.87500
29.25000...
32.50000
10
2 3 12 30 50 60 70 96 103 133
3
34.12500
32.50000...
35.75000
24
6 16 18 19 24 25 35 37 45 51 54 85 86 91 97 104 113
114 116 118 125 138 144 147
4
37.37500
35.75000...
39.00000
33
4 11 26 28 34 40 44 48 55 65 66 69 74 79 84 93 99 105
106 121 122 127 128 129 130 134 135 136 137 141 143
146 150
5
40.62500
39.00000...
42.25000
24
5 20 27 31 38 39 47 52 53 61 67 68 75 78 87 94 109
111 115 117 120 126 132 139
6
43.87500
42.25000...
45.50000
28
1 13 15 17 21 22 33 36 41 43 46 49 56 63 64 71 77 81
88 89 95 98 100 119 131 142 145 149
7
47.12500
45.50000...
48.75000
19
8 14 29 57 58 62 73 76 83 90 92 101 107 110 112 123
124 140 148
8
50.37500
48.75000...
52.00000
11
7 9 10 23 32 42 59 72 80 82 108
Убеждаемся, что сумма всех абсолютных частот nk* равна объему выборки 150.
1+10+ ... +11 = 150
ОТВЕТ. Группированный статистический ряд абсолютных частот имеет вид:
xk*
nk*
27.625 30.875 34.125 37.375 40.625 43.875 47.125
1
10
24
33
24
28
19
xk*
nk*
50.375
11
Строим группированный статистический ряд относительных частот.
Группированным статистическим рядом относительных частот называется
последовательность пар чисел
(x1* , n1*/n) , (x2* , n2*/n) ,…, (xm* , nm*/n)
где nk*/n — относительные частоты и n - объем выборки.
Вычисляем относительные частоты nk*/n, как отношения абсолютных частот к
объему выборки. результат представим в виде таблицы:
Номер Интервала Центр Интервала *
nk nk*/n
k
xk*
1
2
3
4
1
27.62500
1 0.00667
2
30.87500
3
34.12500
10 0.06667
24 0.16000
4
37.37500
5
40.62500
6
43.87500
7
47.12500
33 0.22000
24 0.16000
28 0.18667
19 0.12667
8
50.37500
11 0.07333
Убеждаемся, что сумма всех относительных частот nk*/n равна единице.
(допускается небольшое отличие от единицы в рамках погрешности
вычислений)
0.00667+ 0.06667+ ... + 0.07333 = 1
ОТВЕТ. Группированный статистический ряд относительных частот имеет
вид:
xk*
27.625
*
nk /n 0.00667
30.875
0.06667
34.125
0.16000
37.375
0.22000
40.625
0.16000
43.875
0.18667
47.125
0.12667
xk*
50.375
nk*/n 0.07333
2. Строим полигон абсолютных частот.
Полигон абсолютных частот группированного статистического ряда
абсолютных частот — это ломаная с вершинами в точках (xk* , nk* ). Полигон
является одним из графических представлений выборки. Следует тщательно
выбрать масштабы и начальные точки на осях, чтобы полигон был максимально
наглядным.
На оси абсцисс выбираем начальную точку чуть левее точки x1* = 27.625, и
такой масштаб, чтобы на оси поместился интервал [x1* , x8* ] = [ 27.625 , 50.375]
и отчетливо различались точки xk*.
На оси ординат выбираем начало отсчета в точке 0 и такой масштаб, чтобы на
оси поместился интервал [min{n1*,…,n8* },max{n1*,…,n8* }] = [1 , 33] и отчетливо
различались точки nk*.
На оси абсцисс размещаем значения xk*, а на оси ординат значения nk*.
Наносим точки (x1*, n1* ), (x2*, n2* ),…,(x8*, n8* ) на координатную плоскость и
последовательно соединяем их отрезками. Получаем полигон, изображенный на
рисунке ниже.
Строим полигон относительных частот.
Полигон относительных частот группированного статистического ряда
относительных частот — это ломаная с вершинами в точках (xk* , nk*/n ).
Полигон является одним из графических представлений выборки. Следует
тщательно выбрать масштабы и начальные точки на осях, чтобы полигон был
максимально наглядным.
На оси абсцисс выбираем начальную точку чуть левее точки x1* = 27.625, и
такой масштаб, чтобы на оси поместился интервал [x1* , x8* ] = [ 27.625 , 50.375]
и отчетливо различались точки xk*.
На оси ординат выбираем начало отсчета в точке 0 и такой масштаб, чтобы на
оси поместился интервал
[min{n1*/n,…,n8*/n},max{n1*/n,…,n8*/n}] = [ 0.00667 , 0.22] и отчетливо
различались точки nk*/n.
На оси абсцисс размещаем значения xk*, а на оси ординат значения nk*/n.
Наносим точки (x1*, n1*/n ), (x2*, n2*/n ),…,(x8*, n8*/n ) на координатную плоскость и
последовательно соединяем их отрезками. Получаем полигон,
изображенный на рисунке ниже.
Строим гистограмму относительных частот.
Гистограмма относительных частот — это фигура, состоящая
из m прямоугольников, опирающихся на интервалы группировки. Площадь к-ro
прямоугольника полагают равной nk*/n, т.е. относительной частоте данного
интервала.
Для построения гистограммы заполним таблицу (см.ниже). Для ее заполнения
воспользуемся уже известными значениями границ интервалов и относительных
частот представленных в предыдущих двух таблицах, а значения для нового
столбца Hk (высота k-го прямоугольника) рассчитаем по формуле:Hk = (nk*/n)/h
Номер Интервала Центр Интервала Границы Интервала
nk*/n
[xk-1 , xk ]
k
xk*
Hk
1
2
3
4
5
1
27.625
26.... 29.25
0.00667 0.00205
2
30.875
29.25... 32.5
0.06667 0.02051
3
34.125
32.5... 35.75
0.16000 0.04923
4
37.375
35.75... 39
0.22000 0.06769
5
40.625
39... 42.25
0.16000 0.04923
6
43.875
42.25... 45.5
0.18667 0.05744
7
47.125
45.5... 48.75
0.12667 0.03897
8
50.375
48.75... 52
0.07333 0.02256
Убеждаемся, что сумма всех высот Hk , умноженная на h, равна единице:
0.00205+ 0.02051+ ... + 0.02256 = 0.30769 ; 0.30769* 3.25 = 1
На оси абсцисс выбираем начальную точку чуть левее точки x1 = 29.25000, и
такой масштаб, чтобы на оси поместился интервал [x1 , x8 ] = [
29.25000 , 52.00000] и отчетливо различались точки xk.
На оси ординат выбираем начало отсчета в точке 0 и такой масштаб, чтобы
отчетливо различались Hk
Для построения гистограммы относительных частот на ось абсцисс наносим
интервалы [xk-1 , xk] и, используя каждый из них как основание, строим
прямоугольник с соответствующей высотой Hk.
Получаем гистограмму, изображенную на рисунке ниже.
3. Для оценки ряда распределения найдем следующие показатели:
Показатели центра распределения.
Средняя взвешенная
Error!
Error!
Мода
Мода - наиболее часто встречающееся значение признака у единиц данной
совокупности. Максимальное значение повторений при x = 42 (f = 12).
Следовательно, мода равна 42
Медиана
Медианой (Me) называется значение признака, приходящееся на середину
ранжированной (упорядоченной) совокупности. Находим xi, при котором
накопленная частота S будет больше ∑f/2 = 76. Это значение xi = 41. Таким образом,
медиана равна 41
Показатели вариации.
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия
всех единиц исследуемой совокупности.
Error!; Error!.
Каждое значение ряда отличается от другого в среднем на 4.79
Дисперсия - характеризует меру разброса около ее среднего значения (мера
рассеивания, т.е. отклонения от среднего).
Error!
Error!
Несмещенная оценка
(исправленная дисперсия).
дисперсии
-
состоятельная
оценка
дисперсии
Error!
Error!
Среднее квадратическое отклонение (средняя ошибка выборки).
σ = D = 31.957 = 5.65
Каждое значение ряда отличается от среднего значения 40.39 в среднем на
5.65
Оценка среднеквадратического отклонения.
s = S2 = 32.17 = 5.67
4. Проверка гипотез о виде распределения.
1. Проверим гипотезу о том, что Х распределено по нормальному закону с
помощью критерия согласия Пирсона.
Error!, где n*i - теоретические частоты: Error!
Вычислим теоретические частоты, учитывая, что:
n = 150, h=4 (ширина интервала), σ = 5.65, xср = 40.39
Error!
i
xi
ui
φi
n*i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
26
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
-2.54
-1.84
-1.66
-1.48
-1.31
-1.13
-0.95
-0.78
-0.6
-0.42
-0.25
-0.0684
0.11
0.29
0.46
0.64
0.82
0.99
1.17
1.35
1.52
1.7
1.88
2.05
0,0154
0,0734
0,0989
0,1315
0,1691
0,2107
0,2516
0,2943
0,3332
0,3637
0,3867
0,398
0,3965
0,3825
0,3572
0,3251
0,285
0,242
0,2012
0,1604
0,1238
0,0925
0,0681
0,0478
1.63
7.79
10.5
13.96
17.95
22.36
26.7
31.24
35.36
38.6
41.04
42.24
42.08
40.6
37.91
34.51
30.25
25.69
21.35
17.02
13.14
9.82
7.23
5.07
Сравним эмпирические и теоретические частоты. Составим расчетную
таблицу, из которой найдем наблюдаемое значение критерия:
Error!
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
∑
ni
1
4
2
4
9
9
6
8
9
5
11
6
6
12
10
10
8
4
6
9
3
5
2
1
150
n*i
1.63
7.79
10.5
13.96
17.95
22.36
26.7
31.24
35.36
38.6
41.04
42.24
42.08
40.6
37.91
34.51
30.25
25.69
21.35
17.02
13.14
9.82
7.23
5.07
150
ni-n*i
0.63
3.79
8.5
9.96
8.95
13.36
20.7
23.24
26.36
33.6
30.04
36.24
36.08
28.6
27.91
24.51
22.25
21.69
15.35
8.02
10.14
4.82
5.23
4.07
(ni-n*i)2
0.4
14.37
72.2
99.14
80.06
178.57
428.66
539.92
695.11
1129.1
902.59
1313.52
1302.01
817.81
779.09
600.5
495.02
470.25
235.77
64.39
102.81
23.21
27.33
16.59
(ni-n*i)2/n*i
0.25
1.84
6.88
7.1
4.46
7.99
16.05
17.29
19.66
29.25
21.99
31.09
30.94
20.14
20.55
17.4
16.36
18.31
11.04
3.78
7.82
2.36
3.78
3.27
319.62
Определим границу критической области. Так как статистика Пирсона
измеряет разницу между эмпирическим и теоретическим распределениями, то чем
больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной
гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя:
[Kkp;+∞).
Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения χ2 и
заданным значениям σ, k = 24, r=2 (параметры xcp и σ оценены по выборке).
Kkp(0.05;21) = 32.67057; Kнабл = 319.62
Наблюдаемое значение статистики Пирсона попадает в критическую область:
Кнабл > Kkp, поэтому есть основания отвергать основную гипотезу. ВЫВОД:
Данные выборки распределены не по нормальному закону.
5. Интервальное оценивание центра генеральной совокупности.
Доверительный интервал для генерального среднего.
Error!
Определяем значение tkp по таблице распределения Стьюдента
По таблице Стьюдента находим:
Tтабл(n-1;α/2) = Tтабл(149;0.025) = 1.972
Error!
(40.39 - 0.91;40.39 + 0.91) = (39.48;41.3)
С вероятностью 0.95 можно утверждать, что среднее значение при выборке
большего объема не выйдет за пределы найденного интервала.
Доверительный интервал для дисперсии.
Вероятность выхода за нижнюю границу равна P(χ2n-1 < hH) = (1-γ)/2 = (10.954)/2 = 0.023. Для количества степеней свободы k = 149 по таблице распределения
χ2 находим:
χ2(149;0.023) = 185.8004.
Случайная ошибка дисперсии:
Error!
Error!
Вероятность выхода за верхнюю границу равна P(χ2n-1 ≥ hB) = 1 - P(χ2n-1 < hH)
= 1 - 0.023 = 0.977. Для количества степеней свободы k = 149, по таблице
распределения χ2 находим:
χ2(149;0.977) = 185.8004.
Случайная ошибка дисперсии:
Error!
Error!
(32.17 - 25.8; 32.17 + 25.8)
Таким образом, интервал (6.37;57.97) покрывает параметр S2 с надежностью γ =
0.954
Доверительный интервал для среднеквадратического отклонения.
S(1-q) < σ < S(1+q)
Найдем доверительный интервал для среднеквадратического отклонения с
надежностью γ = 0.954 и объему выборки n = 150
По таблице q=q(γ ; n) определяем параметр q(0.954;150) = 0
5.67(1-0) < σ < 5.67(1+0)
5.67 < σ < 5.67
Таким образом, интервал (5.67;5.67) покрывает параметр σ с надежностью γ =
0.954
Интервальное оценивание генеральной доли (вероятности события).
Доверительный интервал для генеральной доли.
(p* - ε ; p* + ε)
Error!
В этом случае 2Ф(tkp) = γ
Ф(tkp) = γ/2 = 0.954/2 = 0.477
По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.477
tkp(γ) = (0.477) = 2
Таблица 1
Доля i-ой группы fi /
∑f
Средняя ошибка выборки для
генеральной доли, ε
Нижняя гран
доли, p* - ε
0.00667
0.0267
0.0133
0.0267
0.06
0.06
0.04
0.0533
0.06
0.0333
0.0733
0.04
0.04
0.08
0.0667
0.0667
0.0533
0.0267
0.04
0.06
0.02
0.0333
0.0133
0.00667
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
Error!
3.3E-5
0.0135
0.00399
0.0135
0.0406
0.0406
0.024
0.035
0.0406
0.0187
0.0521
0.024
0.024
0.0578
0.0463
0.0463
0.035
0.0135
0.024
0.0406
0.00857
0.0187
0.00399
3.3E-5
Верхняя
граница
доли, p* + ε
0.0133
0.0398
0.0227
0.0398
0.0794
0.0794
0.056
0.0717
0.0794
0.048
0.0946
0.056
0.056
0.1
0.087
0.087
0.0717
0.0398
0.056
0.0794
0.0314
0.048
0.0227
0.0133
ВЫВОД: С вероятностью 0.954 при большем объеме выборке эти доли будут
находиться в заданных интервалах.
6. Статистические выводы:
1. Группированный статистический ряд абсолютных частот имеет вид:
xk*
nk*
27.625 30.875 34.125 37.375 40.625 43.875 47.125
1
10
24
33
24
28
19
xk*
nk*
50.375
11
Группированный статистический ряд относительных частот имеет вид:
xk*
27.625
nk*/n 0.00667
30.875
0.06667
34.125
0.16000
37.375
0.22000
40.625
0.16000
43.875
0.18667
47.125
0.12667
xk*
50.375
*
nk /n 0.07333
2.
Графики приведены в примере.
3.
Мода равна 42.
Медиана равна 41.
Выборочное среднее 4.79.
Дисперсия 31,96. Среднее квадратическое отклонение 5,65.
4.
Данные выборки распределены не по нормальному закону.
5.
Доверительные интервал для генерального среднего
= (39.48;41.3).
Доверительный интервал для дисперсии. (6.37;57.97.). Доверительный интервал для
среднего
квадратического
отклонения
(5.67;5.67).
Интервальное оценивание генеральной доли приведено в таблице 1 пункта 5.
Download