Полная версия научной работы 258 КБ

advertisement
Лабораторная работа
«Графическое представление выборки и нахождение ее числовых
характеристик»
Гугнина С.Е.
Федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования «Южно-Российский
государственный политехнический университет (НПИ) имени М.И. Платова»
Новочеркасск, Россия
Laboratory work
« A graphical representation of the sample and find its numerical characteristics»
Gugnina S.E.
Federal State Educational Institution of Higher Professional Education “SouthRussian State Technical University (NPI) of the M.I. Platov”
Novocherkassk, Russia
1. Графическое представление и расчет числовых характеристик
выборки
Важнейшими понятиями математической статистики являются понятия
генеральной совокупности и выборки.
Генеральной совокупностью наблюдаемого признака (случайной
величины) Х называют множество всевозможных значений, принимаемых
наблюдаемым признаком Х. Результаты n измерений наблюдаемого признака
(х1, х2, … , хn) называют выборкой объема n из генеральной совокупности.
Выборку можно рассматривать двояко:
а) как случайный вектор длины n, каждая компонента которого имеет
такое же распределение, как и наблюдаемый признак;
б) как на результаты измерений, т.е. набор n чисел.
Объем выборки может быть очень большим, поэтому для установления
закономерностей необходимо произвести обработку этой выборки.
Первый шаг к осмыслению закономерностей − это графическое
представление выборки, то есть построение ее гистограммы, полигона частот
и эмпирической функции распределения.
Однако выборки, имеющие похожие графические изображения, могут
различаться своими числовыми характеристиками. Выборка может
характеризоваться следующими числовыми значениями:
1.
Среднее значение. Рассчитывается по формуле
n
∑x
i
i =1
x =
n
или, если интервал варьирования разбит на N интервалов и найдены частоты
и середины частичных интервалов, то по формуле
N
х = ∑nj ⋅ xj ,
j =1
где nj − частота попадания признака в j-й интервал;
xj – середина j-го интервала группировки.
Значение х характеризует среднее значение исследуемого признака.
В Mathcad для вычисления среднего значения используется встроенная
функция mean(Х), где Х − вектор-столбец, содержащий n значений нашей
выборки.
2.
Выборочная дисперсия характеризует разброс исследуемого признака
около среднего значения х . Рассчитывается по формуле
n
S2 =
∑ (x
i
− x ) 2 /(n − 1)
i =1
или, если признаки сгруппированы и подсчитаны частоты, то по формуле
N
S = 1 /( n − 1) ⋅ ∑ n j ⋅ ( x j − x ) 2 .
2
j =1
В Mathcad для определения дисперсии выборки, значения которой
записаны в вектор-столбце X, используется встроенная функция var(X),
причем сама дисперсия определяется по формуле
S 2 = n /( n − 1) ⋅ var( X ) .
3.
Стандартное отклонение. Рассчитывается по формуле σ = S 2 , где S2
рассчитывается по трем формулам, приведенным выше, и имеет размерность
исследуемой величины.
4.
Выборочный эксцесс. Характеризует островершинность эмпирического
распределения
относительно
стандартного
нормального.
Эксцесс
стандартного нормального распределения принимается равным 0. Если
островершинность больше нормального, то это значение положительно (ek>
0). В противном случае оно отрицательно (рис. 1).
Рис. 1. Островершинность нормального распределения
Выборочный эксцесс может быть найден по формуле
ek = m4/σ4 − 3 ,
N
где m4 =
∑ n (x
j =1
j
− x) 4 /n или m4= ∑ ( xi − x ) 4 /n .
n
j
i =1
5.
Коэффициент асимметрии. Характеризует симметрию распределения
выборочных данных около центра выборки х , для стандартного нормального
распределения коэффициент асимметрии равен 0 (аS=0).
Если правая ветвь графика более пологая, то коэффициент асимметрии
аS<0, в противном случае аS>0.
Рис. 2. Асимметрия нормального распределения
Коэффициент асимметрии вычисляется по формуле
аs = m3/σ3 ,
N
где m3 =
∑ n (x
j =1
j
n
− x) /n или m3= ∑ ( xi − x ) 3 /n.
3
j
i =1
Задание. Пусть исследуется технологический процесс производства
бензина ректификационной колонной. Замеряется выход одной из фракции
готового продукта − бензина марки АИ-95. Измерения проводят с интервалом
в один час. Получена выборка (см. табл. 1) из следующих 26 значений хi (i =1,
2, … , n , · объем выборки n = 26):
Таблица 1. Выход бензина АИ-95 (%)
7,13
9,12
9,77
9,17
8,89
6,19
7,71
6,96
6,72
6,08
4,41
5,52
9,59
8,06
6,26
4,86
6,33
6,28
8,60
7,38
7,84
7,24
6,85
6,50
8,28
4,98
Требуется: 1. По данной выборке построить гистограмму, полигон
частот и эмпирическую функцию распределения.
2. Найти числовые характеристики выборки.
Для графического представления полученной выборки необходимо:
1. Найти максимальное и минимальное значения выборки xmax и xmin.
2. Вычислить размах варьирования исследуемого признака R по
формуле
R = xmax − xmin .
3. Далее следует группировка выборки. При этом интервал варьирования
[xmin, xmax] разбивается на N интервалов группировки одинаковой длины ∆, а
затем подсчитывается число попаданий признака в j-й интервал группировки
− nj, j= 1, N .
ГОСТ 11.006-74 «По правилам согласования опытного распределения с
теоретическим» рекомендует следующие значения N в зависимости от объема
выборки n:
при n =200 N =18÷20;
при n =400 N =25÷30;
при n =1000 N =35÷40.
Некоторые
авторы
рекомендуют
пользоваться
следующими
эмпирическими формулами:
N≈ n ,
N=5. lg(n) .
При этом каждый интервал группировки ∆j = (aj;bj) характеризуется
своим правым и левым концом, числом nj – попаданием признака в этот
интервал. Иногда интервал характеризуют не границами, а его средним
значением.
Проведем необходимые вычисления для нашей выборки.
1. Найдем максимальное и минимальное значения:
хmax=9,77 , хmin=4,41 .
2. Вычислим размах варьирования признака:
R = xmax− xmin = 9,77 – 4,41 = 5,36.
3. Найдем число интервалов группировки N по эмпирической формуле:
N = n = 20 ≈ 5 .
Разобьем интервал варьирования R на 5 интервалов группировки равной
длины. Длину интервала ∆ найдем по формуле: ∆ =R/N = 5,36/5 ≈ 1,072.
Дальнейшие вычисления удобно представить в табл. 2.
Таблица 2. Интервалы группировки и их характеристики
Nj
Интервал
группировки ∆j
Кол-во попаданий
в интервал
1
4,4-5,48
2
3
Частота
nj
Плотности
частот nj/∆
Относительные
частоты nj/n
│││
3
3
3/26
5,48-6,56
6,56-7,64
│││││││
││││││
7
6
7
6
7/26
6/26
4
7,64-8,72
│││││
5
5
5/26
5
8,72-9,8
∑
│││││
5
26
5
5/26
1
Чтобы значение исследуемого признака не попадало на границы
интервала группировки, примем минимальное значение признака не 4.41, а 4.4
и от этого значения начнем строить интервалы группировки длиной ∆ = 0,5
(см. второй столбец табл. 1.2).
По данным таблицы строится ступенчатая фигура, которая называется
гистограммой. При этом по оси х откладываются интервалы группировки, а по
оси y − величины nj/n.∆ . В Mathcad для построения гистограммы используют
встроенную функцию hist(⌂,⌂), которая имеет два аргумента. Первый из них −
вектор-столбец интервалов группировки, второй − вектор-столбец значений
выборки. Кроме гистограммы строят полигон частот и эмпирическую
функцию распределения. После этого находят числовые характеристики
выборки.
Mathcad-документ лабораторной работы имеет вид, представленный на
рис. 3.
Download