ПРЕДВАРИТЕЛЬНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА

advertisement
ПРЕДВАРИТЕЛЬНАЯ СТАТИСТИЧЕСКАЯ ОБРАБОТКА.
ВЫЧИСЛЕНИЕ ОСНОВНЫХ ЧИСЛОВЫХ ХАРАКТЕРИСТИК
ВЫБОРКИ
Цель работы: Ознакомление со способами построения одномерных статистических рядов и способами их графического изображения. Вычисление основных числовых и функциональных характеристик выборки.
Содержание работы: на основе экспериментальных данных выполнить следующее:
 Произвести группировку данных;
 Построить гистограмму и полигон частот;
 Определить эмпирическую функцию распределения;
 Вычислить основные числовые характеристики выборки:
a) Выборочное среднее (average ,mean);
b) Моду (mode);
c) Медиану (median);
d) Выборочную дисперсию (variance);
e) Выборочное среднее квадратичное отклонение (standard deviation);
f) Коэффициент асимметрии (skewness);
g) Коэффициент эксцесса (kurtosis).
Методические указания:
Понятия генеральной совокупности и выборки из неё являются первоначальными в статистике. Строгие определения пришли из теории вероятностей, хотя терминология математической статистики отличается от терминологии теории вероятностей.
В математической статистике вместо случайной величины принято говорить о генеральной совокупности (ГС), как о спектре1 значений X подразумеваемой случайной величины. И вместо распределения случайной величины рассуждают о распределении ГС в интегральной или дифференциальной форме. Под интегральной формой понимается функция распределения
F (x) , а под дифференциальной формой имеется в виду плотность распределения f (x) для непрерывной ГС, либо ряд распределения для дискретной
ГС.
При нестрогом подходе, под ГС понимают множество всех объектов
некоторого наблюдения в совокупности с множеством всех значений этого
наблюдения, соответствующих каждому объекту. А под выборкой объёма n
понимают множество из n объектов, реально подвергшихся наблюдению, в
[лат. Spectrum видимое, видение] – совокупность всех значений какой-либо величины, характеризующей
систему или процесс
1
совокупности с n значениями наблюдения для каждого объекта. Например,
социолог, изучающий мнение избирателей, под генеральной совокупностью
понимает множество всех избирателей данной страны, а под выборкой объёма n – множество из n человек, которых он опросил. Мы будем иметь в виду
и такую точку зрения на ГС.
В статистике о распределении ГС всегда что-нибудь неизвестно, и целью статистического анализа как раз является восстановление недостающей
информации. При этом все статистические выводы делаются по выборке
X={x1, x2, . . ., xn} (другое обозначение выборки X n  xi in1 ) наблюдений из
ГС, где n называется объёмом выборки. Как правило, выборка подразумевается обычной, т.е. представляющей собой совокупность стохастически независимых и одинаково распределённых по закону ГС наблюдений.
Основная задача статистики – получить обоснованные выводы о свойствах ГС, анализируя извлечённую из неё выборку. Описать закон распределения ГС, подобрать значения параметров этого закона, оценить всевозможные коэффициенты корреляции, если имеется несколько выборок, одинаково
ли распределены ГС или нет, одинаковы ли определённые числовые характеристики этих генеральных совокупностей или нет и т.д., и т.п.
Все перечисленные вопросы сформулированы на языке ТВ. От статистики требуют ответы и на другие вопросы, можно ли утверждать, что новое
лекарство эффективнее излечивает от некоторой болезни, чес старое? Какой
будет численность населения страны в следующем году? Существует ли
связь между значениями предела прочности и предела текучести различных
марок стали? Чтобы ответить на подобные вопросы, нужно уметь строить
подходящие вероятностные модели для реальных ситуаций. А для этого
нужно уметь представлять выборку в подходящем для изучения виде. Возникает задача описания и представления выборки.
Выборка, её представление и числовые характеристики
Пусть имеется выборка X={x1, x2, . . ., xn} объёма n, которая понимается
как последовательность n результатов независимых измерений при одинаковых условиях, где xi – значение, которое приняла случайная величина в i – ом
опыте (выборочное значение).
Опр. Результаты наблюдений x1, x2, . . ., xn расположенные в порядке возрастания называют вариационным рядом.
Небольшие выборки удобно представлять в виде таблицы из двух
строк. В первой строке записывают элементы выборки (они называются вариантами), расположенные в порядке возрастания. Во второй строке записывают частоты вариант. Частотой варианты называется число, равное количеству повторений варианты в выборке. Если ni – частота варианты xi, всего
в выборке r различных вариант, то n1+n2 +…+ nr=n, где n – объём выборки.
Описанная таблица называется таблицей частот или статистическим рядом
распределения выборки.
Опр. Статистическим рядом распределения называют таблицу 1 вида
Таблица 1
Значения
выборки, xi
Частоты, ni
x1
x2
...
xr
n1
n2
...
nr
Причём элемент x1– наблюдается n1 раз;
x2– наблюдается n2 раз;
xr– наблюдается nk раз,
r
 ni  n,
i 1
где r – число различных значений выборки.
Пример 1. Записать в виде вариационного и статистического рядов выборку
5, 3, 7, 10, 5, 5, 2, 10, 7, 2, 7, 7, 4, 2, 4. Определить размах выборки [с.179,.].
Объём выборки n=15. Упорядочив элементы выборки по возрастанию, получим вариационный ряд: 2, 2, 2, 3, 4, 4, 5, 5, 5, 7, 7, 7, 7, 10, 10. Разность между
максимальным и минимальным элементами выборки называется размахом
выборки:
R=10-2.
Различными в заданной выборке являются элементы 2, 3, 4, 5, 7, 10; и
их частоты соответственно равны 3, 1, 2, 3, 4, 2. Следовательно, статистический ряд исходной выборки можно записать в виде следующей таблицы.
Таблица 1. Таблица частот (статистический ряд распределения)
xi
2
3
4
5
7
10
ni
3
1
2
3
4
2
Для контроля правильной записи находим n1+n2+n3+n4+n5+n6=15.
Пример 2. С производственной линии случайным образом 36 раз отбирали 10
единиц некоторого изделия.
Получена выборка см. табл.1
Таблица 1. Выборка
0
0
1
0
2
0
1
2
1
0
0
0
0
3
1
0
0
0
0
2
0
0
1
1
0
0
0
1
0
1
0
1
1
0
0
1
Определяем объём выборки. Здесь n=36, в выборке представлены 4 варианты: x1=0, x2=1, x3=2, x4=3. Определим частоты появления вариант и построим таблицу частот:
Таблица 2. Таблица частот (статистический ряд распределения)
xi
ni
0
21
1
11
Таблица 3. Таблица относительных частот
xi
0
1
pi=ni/n
21/36
11/36
2
3
3
1
2
3/36
3
1/36
Отметим, что таблица относительных частот напоминает таблицу вероятностей дискретной случайной величины. Встречается и такое название
этой таблицы: ряд распределения дискретной случайной величины.
Таблица 4. Таблица накопленных частот
xi
0
1
ni
21
11
pi=ni/n
21/36
11/36
Накопленные
21/36
32/36
частоты
2
3
3/36
35/36
3
1
1/36
36/36
На основании выборочных значений можно строить эмпирические аналоги характеристик случайной величины, как функциональных – функции и
плотности распределения, так и числовых – параметров и моментов распределения. Оценки параметров распределения являются функциями от выборочных значений и называются статистиками. Выборочная функция распределения ступенчатая, со скачками в точках xi, является аналогом генеральной функции распределения F(x).
Числовые характеристики выборки
Наиболее важную из содержащихся в распределении информации
можно охарактеризовать при помощи численных величин, отвечающих на
следующие вопросы:
1. Какая величина, лежащая в диапазоне наблюдённых значений, лучше
всего характеризует наблюдения?
2. Насколько далеко друг от друга лежат наблюдённые значения?
3. В какой мере рассеивание, имеющее место по обеим сторонам от некоторого центрального значения, отличается от симметричного?
4. В какой мере рассеивание характеризуется необычно большими отклонениями?
В количественном выражении ответы на эти вопросы дают величины, известные под названием:
1) Характеристика расположения или среднее значение выборки;
2) Характеристика рассеивания или дисперсия;
3) Характеристика асимметрии или асимметрия;
4) Характеристика островершинности или эксцесс.
Последние две характеристики характеризуют форму распределения.
Математическое ожидание есть характеристика расположения значений случайной величины, среднее значение ее распределения. В этом качестве математическое ожидание служит некоторым "типичным" параметром
распределения и его роль аналогична роли координаты центра тяжести распределения массы в механике.
Основным условием использования того или иного вида средних является определенная качественная однородность изучаемой совокупности объектов. Главной определяющей чертой такой однородности является справедливость предположения о том, что вариация рассматриваемого признака носит характер случайности по отношению к тем условиям, которые определяют основные черты характеризуемого с помощью средней распределения.
Другими словами, отклонения значений признака от среднего уровня в однородной совокупности можно считать случайными. Используя различные
средние в социологических исследованиях, необходимо иметь в виду, что
выбор среднего в значительной мере зависит от типа тех шкал, по которым
получены исходные данные.
Средняя арифметическая особо чувствительна к экстремальным (выделяющимся) значениям в одном из направлений, которые называются смещенными данными. Выделяющиеся большие значения увеличивают среднюю выше уровня действительного представляющего точку центра распределения данных. Особо малые значения признаков имеют противоположный
эффект. Иногда для того чтобы исключить влияние экстремальных единиц
данных, рассчитывается усеченная средняя. Для этого просто необходимо
удалить 5% наибольших и 5% наименьших наблюдений до расчета средней
арифметической.
Экстремальные наблюдения не влияют на медиану и моду, но эти показатели не столь полезны в дальнейшем математическом и статистическом
анализе.
Средняя геометрическая лучше других подходит, когда подсчитываются "средние" темпы прироста в течение нескольких временных периодов.
Медиана – это такое значение признака, которое приходится на середину вариационного ряда. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака больше медианы, другая –
меньше медианы. Для интервального ряда с равными интервалами величина
медианы определяется так:
Если объём выборки нечетное число, т.е.
n=2k+1, то медиана является элементом со средним номером;
Использование Excel.
Для вычисления среднего используем функцию СРЕДНЕЕ(),
Для вычисления медианы используем функцию МЕДИАНА(). В скобках указываем диапазон ячеек для которых мы находим данные характеристики.
Найти среднее и медиану для выборок:
1) 1, 2, 3, 4, 5, 5;
2) 1, 2, 3, 4, 5, 5, 12.
Основные числовые характеристики выборки:
1 n
1 r
X   xi   ni  xi – выборочное среднее;
n i 1
n i 1
2
2
1 n
1 r
S 
(
x

X
)

 i
 ni  ( xi  X ) – выборочная дисперсия;
n  1 i 1
n  1 i 1
2
2
S  S - выборочное среднее квадратичное отклонение;
n
 ( xi  X )3
A  i 1
nS
3
n
 ( xi  X )
Э  i 1
nS
4
r
 ni  ( xi  X ) 3
 i 1
nS
4
- коэффициент асимметрии;
3
r
 ni  ( xi  X ) 4
 3  i 1
nS
4
 3 - коэффициент эксцесса.
Коэффициенты асимметрии и эксцесса
Теоретические сведения [1, 2, 3, 4].
Среднее и дисперсия не отражают всех особенностей кривой распределения. Одной из них является симметрия или асимметрия кривой распределения относительно, проходящей через центр тяжести. В любом симметричном распределении центральный момент произвольного порядка равен нулю.
Поэтому простейший из нечетных моментов – центральный момент третьего
порядка – может в первом приближении служить характеристикой асимметрии распределения.
Асимметрия. Асимметрия или коэффициент асимметрии (термин был впервые введён Пирсоном, 1895) является мерой несимметричности распределения. Если этот коэффициент отчетливо отличается от 0, распределение является асимметричным. Плотность нормального распределения симметрична
относительно среднего.
Асимметрию распределения принято характеризовать безразмерным
отношением

A  33 , где 3 – центральный момент третьего порядка,  - среднеквадра
тичное отклонение (корень квадратный из дисперсии), которое называется
коэффициентом асимметрии. Оценка коэффициента асимметрии (выборочный коэффициентом асимметрии) вычисляется по формуле (2). Если
А=0, то распределение симметричное. При положительном значении – правая ветвь более пологая, чем левая. И, наоборот, при отрицательном значении
коэффициента асимметрии.
Эксцесс. Эксцесс (термин был впервые введен Пирсоном, 1905) или точнее,
коэффициент эксцесса измеряет "пикообразность" распределения. Если эксцесс значимо отличен от 0, то функция плотности либо имеет более закругленный, либо более острый пик, чем пик плотности нормального распределения. Функция плотности нормального распределения имеет эксцесс рав-
ный 0. В качестве характеристики слаженности кривой распределения около
её моды используют безразмерный коэффициент эксцесса:
4
 3, где 4 – центральный момент четвёртого порядка. Оценка эксцес4
са (выборочный эксцесс) вычисляется по формуле (2).
Нормальное распределение имеет нулевой эксцесс. Положительное
значение указывает на то, что кривая распределения в окрестности моды
имеет более острую вершину, чем кривая нормального распределения с тем
же средним и дисперсией. Отрицательное значение указывает на более плоский характер вершины по сравнению с соответствующей кривой нормального закона распределения.
В случае положительной асимметрии распределение имеет длинную
правую ветвь. Средняя величина дохода больше медианы, которая в свою
очередь больше моды. Значение средней больше медианы и моды, потому
что на нее повлияли несколько очень больших значений доходов.
Э
Отрицательная асимметрия проявляется в виде более длинной левой
ветви, а величина средней меньше медианы и моды. Большинство наблюдений распределения имеют значения больше средней, но величина средней
снижается из-за нескольких очень малых наблюдений.
При симметричном распределении средняя, медиана и мода имеют одно и то же значение. (30.03.2011)
Функциональные характеристики выборки
Эмпирическая функция. Статистическим аналогом функции распределения F (x) , или эмпирической функцией распределения выборки, является
ступенчатая функция со скачками высотой
1
в каждой точке xi:
n
n( x )
,
n
где n(x) – число наблюдений, величина которых не превосходит x. Таким образом, является функцией от выборочных значений и равнее частоте события
n(x)<x при n повторных экспериментах.
Зам. Если имеется статистический ряд распределения (см. таблицу 1), то
n
F * ( x) является ступенчатой функцией со скачками высотой i , i  1,2, ..., r.
n
Построение эмпирической функции распределения позволяет детально сравнить теорию с выборочными результатами.
F * ( x) 
Гистограмма. При больших значениях n строить F * ( x) затруднительно, поэтому выборки часто подвергаются группировке. При этом отдельные
выборочные значения не даются, а указываются лишь число выборочных
значений попавших в интервалы некоторого определённого разбиения.
Статистическим аналогом плотности распределения является величина:
1 n
(1)
f * (h)   i , i  1,2,..., k.
h n
Её график получил название гистограммы. Величина f * (h) пропорциональна относительной частоте попадания случайной величины в j - й интервал, поэтому она является случайной величиной.
При построении гистограммы разбивают область значений на интервалы (классы) и для каждого интервала определяют частоту попадания в него
выборочных значений. Гистограмму строят как ступенчатую функцию, которая на каждом интервале принимает постоянное значение, которое определяется по формуле (1). По виду гистограмма представляет собой фигуру из k
смежных столбиков, с основаниями на интервалах (классах) группировки.
Причём высота каждого столбика, пропорциональна частоте наблюдений в
его интервале и обратно пропорциональна длине интервала и объёму выборки n (при этом площадь столбика получается равной относительной частоте,
а площадь гистограммы равной единице).
При разбиении на интервалы рекомендуется принимать длину интервала постоянной: h=(xmax-xmin)/k, а число интервалов k выбирать в зависимости от числа наблюдений. Значениям выборки xi, попавшим в один и тот же
интервал j, присваивается значение середины данного интервала x*j .
При выборе ширины интервала при фиксированном n необходимо по
возможности учитывать следующие положения:
1. Ширина интервала h – постоянная;
2. Число интервалов k обычно колеблется от 5 до 15. В зависимости от величины n можно использовать следующие рекомендации [1]:
k ≈1 3.2 lg n ; k≈5lg n; k≈1+3.2lg n [1] или таблицей 2 [2].
Число наблюдений
40 – 100
100 – 500
500 – 1000
1000 – 10000
таблица 2
Рекомендуемое число наблюдений
7…9
8…12
10…16
12…22
На практике количество интервалов и их размеры подбираются также с
учётом, чтобы в каждом было не менее пяти наблюдений (за исключением, возможно, крайних интервалов). Минимальное число интервалов
должно быть равным пяти, т.е. k≥5. Это связано с тем, что согласно центральной предельной теореме сумма случайных величин имеет приближённо нормальное распределение (на практике число случайных величин достаточно взять не менее пяти).
По одной выборке можно построить множество гистограмм, варьируя
n, k, h, поэтому за исключением случаев, когда n велико, гистограмма может
употребляться лишь для грубого сравнения, в то время как эмпирическая
функция распределения может быть использована для всякого детального
сравнения с теоретическим распределением.
Зам. В статистических пакетах при построении гистограммы высоту
столбиков, как правило, выбирают равной частоте попадания ni (см. рис.7).
Составляется таблица группированных данных (см. таблицу 3):
Таблица 3
№ интервала
Граница
интервалов
Частота nj
Частность,
относительная
частота nj/n
1
x1* 
…
2
h
2
x 2* 
h
2
k
x k* 
h
2
n1
n2
nk
n1/n
n2/n
nk/n
Для наглядности, сгруппированные статистические ряды представляются графиком и диаграммой. Наиболее распространёнными графиками являются полигон и гистограмма.
Для построения гистограммы выборки на оси абсцисс откладываются
h
2
частичные интервалы x *j  , на каждом из которых строится прямоугольник
с высотой
nj
.
nh
Если на гистограмме частностей соединить середины интервалов, то
полученная замкнутая ломанная образует полигон распределения частностей.
Пример. Для анализа содержания меди в новом месторождении было отобрано 80 проб. Результаты анализов (в граммах) занесены в таблицу 4:
таблицу 4
40.26
40.37
40.33
40.28
40.29
40.41
40.35
40.28
40.29
40.27
40.35
40.35
40.41
40.30
40.33
40.40
40.34
40.44
40.39
40.38
40.44
40.44
40.35
40.40
40.31
40.33
40.34
40.32
40.39
40.37
40.35
40.35
40.30
40.36
40.33
40.37
40.31
40.34
40.37
40.37
40.39
40.40
40.33
40.32
40.36
40.34
40.43
40.31
40.37
40.36
40.40
40.34
40.38
40.32
40.34
40.30
40.36
40.31
40.38
40.35
40.42
40.31
40.33
40.42
40.30
40.43
40.34
40.36
40.36
40.32
40.32
40.32
40.33
40.35
40.30
40.34
40.34
40.34
40.41
40.36
Интервалы
1.Определяем длину частичного интервала
x
 xmin 40.44  40.26
h  max

 0.04 . Число интервалов k=5.
k
5
2. За начало первого интервала примем величину, равную
a 0  x1  h / 2  40.26  0.02  40.24
Группировка исходных данных сведена в таблицу, в каждый интервал
включались те значения, числовые значения которых больше нижней границы интервала
В результате получим таблицу 5
таблица 5
1
2
3
4
5
Границы интервалов
Левая
Правая
Середины
интервалов,
Частота,
ni
xi*
40.24
40.28
40.32
40.36
40.40
Контроль:
40.28
40.32
40.36
40.40
40.44
k
 n i  n  80 ;
i 1
40.26
40.30
40.34
40.38
40.42
5
n
 ni
Относительная Накопленная
частота,
относительная
ni/n
частота
4
19
32
15
10
0.05
0.24
0.40
0.19
0.12
 1.00.
i 1
3. Строим гистограмму и полигон относительных частот
0.5
0.1
40.24 40.28 40.32 40.36 40.40 40.44
Рис.1. Гистограмма и полигон выборки
0.05
0.29
0.69
0.88
1.00
4. Для построения эмпирической функции распределения, воспользуемся
данными предыдущей таблицы
Или
0, если x  40.24
0.05, если 40.24  x  40.28

0.29, если 40.28  x  40.32
F * ( x)  
0.69, если 40.32  x  40.36
0.88, если 40.36  x  40.40

1.0, если x  40.44
F * ( x)
1
0.5
0.1
40.24 40.28 40.32 40.36 40.40 40.44
x
Рис. 2. График эмпирической функции распределения
5. Вычисляем основные числовые характеристики по таблице сгруппированных данных.
1 k
40.26  4  40.30  19  40.34  32  4038  15  40.42  10
X   ni  xi* 
 40.344
n i 1
80
2
1 k
S 
ni  ( xi*  X )  0.0018 ;

n  1 i 1
2
2
S  S  0.0018  0.042 ;
k
 ni  ( xi*  X ) 3
A  i 1
nS
3
 0.17 ;
k
 ni  ( xi*  X ) 4
Э  i 1
4
 3  0.08 .
nS
Для данного примера коэффициент асимметрии положителен, следовательно, график функции плотности распределения имеет правую ветвь более
пологую, чем левая (см. рис. 7), а вершина более пологая, чем у нормального
закона с данными параметрами (средним и дисперсией), так как коэффициент
эксцесса отрицательный.
Замечание. Все предыдущие вычисления показывают, что для подсчета числовых характеристик выборки, построения гистограмм требуется большой
объём вычислений, поэтому для статистического анализа широко используются различные статистические пакеты [4].
Статистический пакет Statgraphics
Запускаем пакет Statgraphics [5] и выберем пиктограмму Untitled в левом нижнем углу рабочего поля и инициализируем новую электронную таблицу для ввода данных. Вызываем процедуру вычисления описательных статистик Describe/Numeric Data/one variable analysis. Появится окно для задания
анализируемой переменной (рис.3). Далее, на дополнительной панели
Рис.3. Окно для задания переменной X.
инструментов нажмите кнопку табличных опций и выберите процедуру
Summary Statistics. На экране появится окно с полученными результатами.
Для того чтобы расширить выводимый список, нажмите правую копку мыши
и выберите из контекстного меню пункт Pane Options. Откроется диалоговое
окно, изображённое на рис.4.
Рис.4. Флажки для задания общих статистик выборки
Summary Statistics for X
Count = 80
Average = 40,3506
Median = 40,35
Mode = 40,34
Variance = 0,00176543
Standard deviation = 0,042017
Minimum = 40,26
Maximum = 40,44
Skewness = 0,276444
Stnd. skewness = 1,00943
Kurtosis = -0,36487
Stnd. kurtosis = -0,666158
The StatAdvisor
--------------This table shows summary statistics for X. It includes measures of
central tendency, measures of variability, and measures of shape. Of
particular interest here are the standardized skewness and
standardized kurtosis, which can be used to determine whether the
sample comes from a normal distribution. Values of these statistics
outside the range of -2 to +2 indicate significant departures from
normality, which would tend to invalidate any statistical test
regarding the standard deviation. In this case, the standardized
skewness value is within the range expected for data from a normal
distribution. The standardized kurtosis value is within the range
expected for data from a normal distribution.
Summary Statistics for X
Count = 80
Average = 40,3506
Median = 40,35
Mode = 40,34
Variance = 0,00176543
Standard deviation = 0,042017
Minimum = 40,26
Maximum = 40,44
Skewness = 0,276444
Stnd. skewness = 1,00943
Kurtosis = -0,36487
Stnd. kurtosis = -0,666158
The StatAdvisor
This table shows summary statistics for X. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are
the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality,
which would tend to invalidate any statistical test regarding the standard deviation.
In this case, the standardized skewness value is within the range expected for data
from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution.
Эта таблица показывает сводную статистику для X. Он включает меры
центральной тенденции, меры изменчивости, а также меры по форме.
Особый интерес здесь стандартизированных асимметричности и эксцесса стандартизированы, которые могут быть использованы для определения образцов происходит от нормального распределения. Значения этих
статистика за пределы диапазона от -2 до +2 указывают на значительные
отклонения от нормального закона, которое может привести к аннулированию статистических испытаний в отношении стандартного отклонения. В этом случае, стандартизированные значения асимметрии находится в пределах ожидаемых данных для нормального распределения.
Стандартизированные значения эксцесса находится в пределах ожидаемых данных для нормального распределения.
Осуществим процедуру группирования, используя возможности пакета
Statgraphics. Активизируем диалоговое окно для выбора табличных опций с
помощью пиктограммы и выбираем процедуру Frequency Tabulation. На
экране отобразится окно с результатом распределения частот. Для того чтобы
изменить параметры распределения (задать число интервалов, нижнюю и
верхнюю границу), в контекстном меню выберите пункт Pane Option рис.5.
Рис.5. .Параметры процедуры группирования.
Результат группирования и гистограмма представлены на рис.6 и 7 соответственно.
Frequency Tabulation for X
-------------------------------------------------------------------------------Lower
Upper
Relative
Cumulative Cum. Rel.
Class
Limit
Limit
Midpoint
Frequency Frequency Frequency
Frequency
-------------------------------------------------------------------------------at or below
40,2
0
0,0000
0
0,0000
1
40,2
40,2313
40,2156
0
0,0000
0
0,0000
2
40,2313
40,2625
40,2469
1
0,0125
1
0,0125
3
40,2625
40,2938
40,2781
5
0,0625
6
0,0750
4
40,2938
40,325
40,3094
16
0,2000
22
0,2750
5
40,325
40,3563
40,3406
25
0,3125
47
0,5875
6
40,3563
40,3875
40,3719
16
0,2000
63
0,7875
7
40,3875
40,4188
40,4031
10
0,1250
73
0,9125
8
40,4188
40,45
40,4344
7
0,0875
80
1,0000
above
40,45
0
0,0000
80
1,0000
-------------------------------------------------------------------------------Mean = 40,3506
Standard deviation = 0,042017
The StatAdvisor
--------------This option performs a frequency tabulation by dividing the range
of X into equal width intervals and counting the number of data values
in each interval. The frequencies show the number of data values in
each interval, while the relative frequencies show the proportions in
each interval. You can change the definition of the intervals by
pressing the alternate mouse button and selecting Pane Options. You
can see the results of the tabulation graphically by selecting
Frequency Histogram from the list of Graphical Options.
Рис. 6. Таблица частот
Рис.7. Гистограмма содержания меди
Замечание. Можно построить гистограммы двух типов. Гистограммы абсолютных частот ni и гистограммы частот в процентах (процентная гистограмма, где относительные частоты ni/n умножаются на 100.
Рис.8. Полигон
Рис. 9. Эмпирическая функция распределения содержания меди
(гистограмма накопленной относительной частоты в процентах)
Рис. 10. Процентная нормированная эмпирическая функция
распределения содержания меди
(полигон накопленной относительной частоты в процентах)
1.
2.
3.
4.
5.
6.
7.
Перечень вопросов для самопроверки степени подготовленности к данной лабораторной работе
Чем занимается математическая статистика и каковы её основные задачи?
Что называется генеральной совокупностью, выборкой?
Что называется статистическим распределением случайной величины?
Перечислите свойства эмпирической функции распределения.
В чём состоит различие между эмпирической и интегральной функций
распределений?
Назовите основные типовые характеристики выборки и приведите
формулы для их вычислений.
Какую числовую характеристику генеральной совокупности характеризует выборочное среднее, выборочное среднее квадратичное отклонение, выборочные коэффициенты асимметрии и эксцесса?
Варианты заданий.
Варианты заданий для данной лабораторной работы находятся в файле.
Литература
1. Сборник задач по математике для втузов. Под редакцией А.В. Ефимова. – М.: Наука, , 1990. – 428 с.
2. Основы кибернетики. Математические основы кибернетики. Под
ред. К.А. Пупкова. Учебное пособие для втузов. М., ВШ, 1974. с.
416.
3. Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. - Л.: Энергоатомиздат. Ленигр. отдние, 1990 г. - 288 с.
4. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: ВШ, 1977 г.
5. В. Дюк, А. Самойленко. Data Mining: учебный курс (+CD). – СПб:
Питер, 2001. – 368 с.: ил.
6. Дюк Вячеслав. Обработка данных на ПК. - М.: 1997 г. - 234 с.
7. И.А. Палий. Прикладная статистика: Учеб. пособие для вузов./И.А.
Палий. – М.: Высш. шк., 2004. – 176 с.
Related documents
Download