Тема№2

advertisement
ПРЕДСТАВЛЕНИЕ ВЫБОРКИ
Введение. Статистика изучает случайные явления, которые, по своей сути,
не поддаются однозначному описанию и прогнозированию. Например,
нельзя абсолютно точно предсказать, сколько человек родиться или умрёт в
стране за данный промежуток времени. Сколько студентов опоздает на
данную лекцию, занятие.
Жизнь человека, общества, цивилизации складывается из случайных
явлений. Чтобы общество было устойчивым, а жизнь предсказуемой, важно
не давать случаю слишком большой воли (любая попытка совсем исключить
из жизни случай обречена на провал).
Современные задачи планирования, управления, прогнозирования
невозможно решать, не располагая достоверными статистическими данными
и не используя статистические методы обработки этих данных. Стремление
объяснить настоящее и заглянуть в будущее всегда было свойственно
человечеству, а для решения этих задач применялись различные методы.
Статистика при описании случайных явлений использует язык науки –
математику. Это значит, что реальные ситуации заменяются вероятностными
схемами и анализируются методами теории вероятностей. Выразительная
сила математики очень велика.
Любые статистические данные всегда неполны и неточны, и другими
быть не могут. Задача статистики заключается в том, чтобы дать
обоснованные выводы о свойствах изучаемого явления, анализируя
неполные и неточные данные. Статистика доказала, что умеет справляться с
подобными проблемами.
Небольшие выборки удобно представлять в виде таблицы из двух
строк. В первой строке записывают элементы выборки (они называются
вариантами), расположенные в порядке возрастания. Во второй строке
записывают частоты вариант. Частотой варианты называется число, равное
количеству повторений варианты в выборке. Если ni – частота варианты xi,
всего в выборке k различных вариант, то n1+n2 +…+ nk=n, где n – объём
выборки. Описанная таблица называется таблицей частот или
статистическим рядом распределения выборки
Пример. С производственной линии случайным образом 36 раз отбирали 10
единиц некоторого изделия. Каждый раз отмечалось число дефектных
изделий.
Получена выборка см. табл.1
Таблица 1. Выборка
0
0
0
1
0
0
2
0
1
0
0
1
0
0
0
0
2
3
1
1
0
1
1
1
1
0
0
0
2
0
0
0
1
0
0
1
Определяем объём выборки. Здесь n=36, в выборке представлены 4 варианты
(четыре различных элементов выборки): x1=0, x2=1, x3=2, x4=3. Определим
частоты появления этих вариант и построим таблицу частот (см. табл.2):
Таблица 2. Таблица частот (статистический ряд распределения)
xi
ni
0
21
1
11
2
3
3
1
Наряду с частотами одновременно подсчитываются относительные
частоты ni/n и накопленные относительные частоты (см. табл. 3 и 4).
Таблица 3. Таблица относительных частот
xi
pi=ni/n
0
21/36
1
11/36
2
3/36
3
1/36
Отметим, что таблица относительных частот напоминает таблицу
вероятностей дискретной случайной величины. Встречается и такое название
этой таблицы: ряд распределения дискретной случайной величины.
Таблица 4. Таблица накопленных частот
xi
ni
pi=ni/n
Накопленные
относительные
частоты
0
21
21/36
1
11
11/36
2
3
3/36
3
1
1/36
21/36
32/36
35/36
36/36
Группировка данных
Если выборка извлечена из непрерывно распределённой генеральной
совокупности (ГС), причём её объём n достаточно велик, то в выборке
представлено много значений, и такую выборку неразумно представлять в
виде таблицы частот. Кроме того, при работе с непрерывными
распределёнными случайными величинами рассматривают не отдельные
значения, а некоторые интервалы этих значений. Поэтому достаточно
большую выборку, извлечённую из непрерывно распределённой ГС,
группируют по интервалам следующим образом. Весь диапазон значений
вариант разбивают на разумное число интервалов одинаковой, как правило,
ширины h. Чтобы не было недоразумений при подсчёте числа вариант
выборки, попавших в каждый интервал, левый конец каждого интервала
считают закрытым, а правый – открытым, так что интервалы имеют вид
[xi-1- xi).
Частотой i-го интервала ni называется число, равное количеству вариант
(элементов) выборки, попавших в этот интервал.
Относительной частотой i-го интервала i называется отношение ni/n. Кроме
того, вычисляют накопленные и относительные накопленные частоты для
правых границ интервалов.
Полученные числа заносят в таблицу, которая называется интервальной
таблицей частот.
Пример. У 50 новорождённых измерили массу тела с точностью до 10 г.
Результаты (в кг.) таковы:
3,7
3,75
3,38
4,22
3,58
3,85
4,03
3,3
3,75
3,98
3,7
3,75
4,15
3,58
3,88
3,78
4,18
3,95
3,55
3,78
3,6
3,8
3,5
4,08
4,05
4,45
4,75
3,88
4,03
3,4
4,2
3,25
3,71
3,24
3,8
3,87
4,1
3,15
4,05
3,06
3,33
3,55
4,15
3,56
4,38
3,76
3,35
3,8
3,05
4,2
Находим наименьшее значение выборки. Оно равно 3.05 кг. Находим
наибольшее значение выборки. Оно равно 4.75 кг. Размах выборки равен
4.75-3.05=1.7. Число интервалов равно 5.
Длина интервала h =1.7/5=0.34. Возьмём длину интервала равным 0.4.
Половина интервала равна 0.2.
Интервалы
Середина
интервала
частоты
2.8-3.2
3.2-3.6
3.6-4.0
4.0-4.4
4.4-4.8
3,0
3,4
3,8
4,2
4,6
3
14
18
13
2
Функции:
СЧЕТЗ(Диапазон),
СЧЕТЕСЛИ(Диапазон;
Критерий),
Описательная статистика в Анализе данных используется для определения
числовых характеристик выборки: выборочное среднее, выборочная медиана,
выборочная дисперсия и т.д.
Функцию СЧЕТЗ() использовать для определения объёма выборки. Функцию
СЧЕТЕСЛИ() использовать для подсчёта частот вариант в выборке.
Графическое представление выборки.
Полигон, гистограмма, кривая накопленных частот
(см. файл "Предварительная обработка")
Гистограмма
21
25
20
11
15
Series1
10
3
5
1
0
0
1
2
3
Рис. 1. Гистограмма числа бракованных изделий
Полигон
25
21
20
15
Series1
11
10
5
3
1
0
1
2
3
4
Рис. 2. Полигон числа бракованных изделий
Относит. накопл. частоты
Функция распределения
1.2
1
0.8
0.6
0.4
0.2
0
Series1
0
1
2
3
Число бракованных деталей
Рис. 3. Статистическая функция распределения бракованных деталей
Накопленные частоты
Функция распределения
40
35
30
32
35
36
2
3
25
20
21
15
10
5
0
0
1
Axis Title
Рис. 4. Статистическая функция распределения
ГИСТОГРАММА
18
20
14
15
13
Ряд1
10
3
5
2
0
3
3,4
3,8
4,2
4,6
Рис. 3. Гистограмма массы тела новорождённых
Полигон
18
20
14
15
13
10
5
Ряд1
3
2
0
3
3,4
3,8
4,2
Рис. 4. Полигон массы тела новорождённых
4,6
Функция распределения
1.2
Axis Title
1
0.8
0.6
0.96
1
4.2
4.6
0.7
0.4
0.34
0.2
0.06
0
3
3.4
3.8
Вес новорождённых, кг.
Рис. . Статистическая функция распределения
Функция распределения
Накопленные частоты
60.00
48.00
50.00
50.00
35.00
40.00
30.00
17.00
20.00
Series1
10.00 3.00
0.00
3
3.4
3.8
4.2
4.6
Вес норождённых
Рис. Функция распределения массы новорождённых детей
Задачи
Задача 1. На предприятии в порядке случайной бесповторной выборки было
опрошено 100 рабочих из 1000 и получены следующие данные об их доходе
за месяц:
Доход, у.е.
Число рабочих
до 300 300-500 500-700 700-1000 более 1000
8
28
44
17
3
Задача 2. Для изучения вкладов населения в коммерческом банке города была
проведена 5%-я случайная выборка лицевых счетов, в результате которой
получено следующее распределение клиентов по размеру вкладов:
Число вкладчиков, чел.
Размер вклада,
у.е.
3
Вариант
4
5
6
1
2
7
8
9
10
до 5000
10
80 100 50
60
30
90
20
70
40
5 000 – 15 000
40
60 150 30
40
110
75
65
90
80
15 000 – 30 000
25
35
70
90 120
90
130 140 60
95
30 000 – 50 000
30
45
40
5
80
30
60
75
20 115
свыше 50 000
15
10
30
25
50
15
25
5
10
5
Построить гистограмму, полигон, эмпирическую функцию распределения.
Найти среднее, дисперсию, среднеквадратичное отклонение.
Download