1 Первичная обработка статистических данных

advertisement
1 Первичная обработка статистических данных
1. Абстрактная и конкретная выборки.
2. Основные числовые характеристики выборки.
3. Вариационные ряды выборки.
4. Гистограмма частот.
5. Эмпирическая функция распределения.
Пусть в одинаковых условиях и независимо друг от друга
производится n измерений случайной величины . Назовем случайную
величину
теоретической случайной величиной, а ее функцию
распределения F (x ) – теоретической функцией распределения. Пусть
x1 , x2 ,..., xn – результаты измерений. Набор X ( x1 , x2 ,..., xn ) называется
конкретной выборкой объема n из распределения F (x ) .
Абстрактной выборкой объема n называется совокупность n
независимых одинаково распределенных случайных величин 1,..., n ,
распределение каждой из которых совпадает с распределением
теоретической случайной величины .
Если элементы выборки X ( x1 , x2 ,..., xn ) упорядочить по
возрастанию, получится новый набор, называемый вариационным
рядом:
x1
x2
... x n .
Если среди элементов вариационного ряда есть повторяющиеся, то
можно выделить m n его различных значений, расположив их в
порядке возрастания. Обозначим их z 1 , z 2 ,..., z m z 1 z 2 ... z m .
Число ki , показывающее, сколько раз элемент z i встретился в выборке,
называется
частотой,
ki
n
а
(частостью) этого значения, i 1,..., m
–
относительной
частотой
m
ki
n .
i 1
Статистическим рядом называется таблица, содержащая в первой
строке значения z 1 , z 2 ,..., z m , а во второй строке – частоты значений.
z1
z2
...
zm
k1
k2
...
km
Случайная величина
с рядом распределения
z1
...
zm
k1
n
...
km
n
называется эмпирической случайной величиной, а соответствующая ей
функция распределения Fn (x) – выборочной или эмпирической
функцией распределения:
0,
Fn ( z )
z
z1 ,
...
k1 ... k i
, zi
n
...
1, z z m .
z
zi 1,
Элементы выборки можно объединить в группы и построить
интервальный вариационный ряд. Для этого отрезок [ x 1 , x n ]
разбивается на k равных промежутков
Определяются
1 ,..., k .
середины промежутков li , i 1,..., k . Количество промежутков k зависит
от объема выборки n и может быть вычислено по формуле
Стерджесса:
k 1 3,32 lg n .
Далее определяются частоты интервального вариационного ряда ni –
количество элементов выборки, попавших в i -й промежуток, i 1,..., k ,
k
ni
n.
Относительные
частоты
(частости)
интервального
i 1
вариационного ряда определяются как
i
удобно представить в виде таблицы 1:
ni
, i 1,..., k . Результаты
n
Таблица 1
Интервал
Середина интервала
Частота
Относительная частота
1
2
l1
n1
n1
n
l2
n2
n2
n
...
...
...
...
k
lk
nk
nk
n
Заметим, что эмпирическая функция распределения может быть
определена как функция распределения случайной величины,
принимающей значения l1 ,..., lk с вероятностями
n
n1
,..., k соответственно.
n
n
Статистические данные, представленные в виде статистического ряда
или интервального вариационного ряда, называют группированными.
Гистограмма частот группированной выборки – это график
кусочно-постоянной функции, принимающей на каждом из интервалов
1
,...,
k
значение
ni
h
( h ( x( n) x(1) ) / k – длина интервала), i 1,..., k .
Аналогично по значениям
ni
строится гистограмма относительных
hn
частот, i 1,..., k .
Полигоном частот для данных, представленных в виде
интервального вариационного ряда, называется график ломаной с
вершинами в точках
точках li ,
li ,
ni
, а полигоном относительных частот – в
h
ni
, i 1,..., k .
hn
При увеличении объема выборки и уменьшении интервала
группирования гистограмма и полигон относительных частот могут
рассматриваться как статистические аналоги теоретической плотности
распределения.
В таблице 2 приведены основные числовые характеристики
выборки.
Таблица 2 – Основные выборочные характеристики
Выборочное среднее
Выборочная дисперсия
x
~
S2
1 n
( xi
ni1
Выборочное среднеквадратическое
отклонение
Выборочный начальный момент
k -го порядка
Выборочный центральный момент k го порядка
Выборочная мода Mo
1
n
x)
~
S
x
~
Sk
1
n
xi
i 1
1
n
2
n
xi2
(x)2
i 1
~
S2
1
n
k
n
n
x ik
i 1
n
( xi
x)k
i 1
Элемент выборки,
встречающийся с наибольшей
частотой
x(l 1) , n 2l 1;
Выборочная медиана Me
Me
x( l )
x( l
2
1)
, n 2l.
Окончание таблицы 2
~
S3
ka
~
(S )3
~
S4
ke
3
~
(S ) 4
Выборочный коэффициент
асимметрии
Выборочный коэффициент
эксцесса
Пример 1.1 В результате наблюдений над случайной величиной
получена выборка X объема n 30 :
x1
1,37
x2
0,11
x3
1,56
x4
–0,11
x5
0,23
x6
x7
x8
x9
x10
–0,76 –0,13 –0,64 –0,46 –0,88
x11
–0,56
x12
1,28
x13
1,16
x14
–0,3
x15
–0,31
x16
1,13
x17
–0,17
x18
0,6
x19
–1,16
x21
1,55
x22
0,29
x23
x24
–2,16 –0,77
x25
0,93
x26
0,01
x27
–1,56
x28
1,59
x29
x30
–1,13 –1,74
x20
2,65
Произвести статистическую обработку результатов:
1) вычислить основные числовые характеристики выборки;
2) построить интервальный вариационный ряд выборки и
гистограмму частот;
3) построить эмпирическую функцию распределения, взяв в
качестве значений середины интервалов интервального вариационного
ряда.
1) Основные числовые характеристики выборки.
Выборочное среднее:
1
30
x
30
xi
i 1
1
1,37 0,11 1,56 ... ( 1,74)
30
0,05 .
Выборочная дисперсия:
~
S2
1
30
30
xi2
i 1
( x )2
1
1,37 2
30
0,112 1,562 ... ( 1,74) 2
Выборочное среднеквадратическое отклонение:
~
S
~
S2
1,26 1,12 ;
0,052
1,26 .
Вариационный ряд выборки имеет вид:
x(1)
x(2)
x(3)
x(4)
x(5)
x(6)
x(7)
x(8)
x(9)
x(10)
–2,16 –1,74 –1,56 –1,16 –1,13 –0,88 –0,77 –0,76 –0,64 –0,56
x(11)
x(12)
x(13)
x(14)
x(15)
x(16)
x(17)
x(18)
x(19)
x(20)
–0,46 –0,31 –0,3 –0,17 –0,13 –0,11 0,01 0,11 0,23 0,29
x(21)
0,6
x(22)
0,93
x(23)
1,13
x(24)
1,16
x(25)
1,28
x(26)
1,37
x(27)
1,55
x(28)
1,56
x(29)
1,59
x(30)
2,65
Размах выборки:
x(30)
x(1)
2,65 ( 2,16) 4,81.
Выборочная медиана. Объем выборки n 30 – четное число,
поэтому воспользуемся формулой
Me
x(15)
x(15 1)
2
0,13 ( 0,11)
2
0,12 .
Перед вычислением выборочных коэффициентов асимметрии и
эксцесса найдем выборочные центральные моменты третьего и
четвертого порядков:
~
S3
~
S4
1 30
1
( xi x )3
(1,37 0,05)3 (0,11 0,05)3 ... ( 1,74 0,05)3 0,29 ;
30 i 1
30
1 30
1
( xi x ) 4
(1,37 0,05) 4 (0,11 0,05) 4 ... ( 1,74 0,05) 4 3,92.
30 i 1
30
Выборочный коэффициент асимметрии:
~
S3
~
( S )3
ka
0,29
(1,12)3
0,21 .
Выборочный коэффициент эксцесса:
ke
~
S4
~
(S ) 4
3
0,52 .
2) Построим интервальный вариационный ряд выборки. Число
интервалов вычислим по формуле Стерджесса: k 1 3,32 lg 30 6 .
Разобьем отрезок x(1) , x(30)
2,16; 2,65 на 6 равных интервалов. Длина
интервала h
x(30)
x(1)
k
2,65 ( 2,16)
6
0,8 . Результаты представим в
виде таблицы 3:
Таблица 3
Середина
интервала
Интервал
Частота
Относительная
частота
ni
zi
[ 2,16; 1,36 )
–1,76
3
[ 1,36; 0,56)
–0,96
6
[ 0,56; 0,24)
–0,16
10
[0, 24;1,04)
0,64
3
[1,04;1,84)
1,44
7
[1,84; 2,65 ]
2,245
1
ni
n
3
1
30 10
6 1
30 5
10 1
30 3
3
1
30 10
7
30
1
30
На рисунке 1 изображена гистограмма частот.
14
12
10
8
6
4
2
0
-3
-2
-1
0
1
2
3
Рисунок 1
3) Построим эмпирическую функцию распределения, взяв в
качестве значений середины интервалов интервального вариационного
ряда
0, z
1,76,
1
,
1,76 z
0,96,
10
3
,
0,96 z
0,16,
10
19
,
0,16 z 0,64,
30
11
, 0,64 z 1,44,
15
29
, 1,44 z 2,245,
30
1, z 2,245.
F ( z)
График эмпирической функции распределения изображен на рисунке 2.
1,2
F*(z)
1
0,8
0,6
0,4
0,2
z
0
-4
-3
-2
-1
0
1
2
3
4
Рисунок 2
Вопросы для самоконтроля
1. Дайте определение абстрактной и конкретной выборок.
2. Укажите основные числовые характеристики выборки: размах
выборки, выборочное среднее, выборочная дисперсия, выборочная
медиана, выборочные коэффициенты асимметрии и эксцесса.
3. Как построить интервальный вариационный ряд выборки?
4. Как построить гистограмму частот?
5. Что называется эмпирической функцией распределения?
Download