Лабораторная работа 9

advertisement
Лабораторная работа № 9
Вычисление статистических характеристик совокупности
данных средствами Microsoft Excel.
Цель работы: Изучение различных способов вычисления статистических характеристик
совокупности данных в электронной таблице Excel.
1. ОСНОВНЫЕ ПОЛОЖЕНИЯ.
Вычислять основные статистические характеристики совокупности данных в
электронной таблице Microsoft Excel можно различными способами:
 непосредственно по формулам (см. конспект лекций);
 используя соответствующие функции Excel;
 используя инструмент анализа данных Описательная статистика.
Величина называется случайной (СВ), если в результате испытания она принимает
из множества возможных значений одно наперед известное значение, не зависящее от
случайных причин которые заранее учесть невозможно.
Любое соотношение, устанавливающее связь между возможными значениями и их
вероятностями называется законом распределения СВ.
СВ называется дискретной, если она принимает отдельные значения с
определенными вероятностями.
СВ называется непрерывной, если она принимает отдельные значения из конечного
или бесконечного промежутка.
Функция распределения F(x) – функция определенная на всей числовой прямой и
равная вероятности того, что СВ примет значение меньше некоторого действительного
числа х.
Совокупность экспериментальных данных называется простой статистической
совокупностью или простым статистическим рядом.
Статистическая
совокупность,
распределение
которой
изучается
по
интересующему признаку, называется генеральной совокупностью.
Генеральная совокупность может содержать конечное (но очень большое) или
бесконечное число элементов.
Ее можно изучать целиком, а можно изучать некоторую ее часть – выборку.
Выборка называется случайной, если из генеральной совокупности ее элементы
выбирают наугад и это не зависит от изучаемого признака.
Пусть имеется СВ Х с возможными значениями x1 , x2 ,..., xn . В математической
статистике эти возможные значения называются вариантами.
Варианты, расположенные в порядке возрастании или убывания называются
вариационным рядом.
Пусть возможные значения (варианты) хi (i  1, n) повторяется k i (i  1, n) раз
( k1  k 2  ...  k n  k ).
Значения k i называются частотами вариант, а число k – объемом выборки.
Отношение частоты к объему выборки называется относительной частотой, т.е.
ki
.
k
Ломаная линия, соединяющая точки с координатами ( xi ; k i ) , называется полигоном
частот.
Выборочным средним СВ Х называется величина Х , рассчитываемая по формуле
1 n
X   xi  k i .
k i 1
i 
Выборочной дисперсией D называется величина, вычисляемая по формуле
1 n
( xi  Х ) 2  k i .

k i 1
Исправлений дисперсией Dиспр называется величина, вычисляемая по формуле
1 n
Dиспр 
( xi  Х ) 2  k i .

k  1 i 1
D
(  испр
Средним
 Dиспр ).
квадратическим
отклонением
называется
величина
 D
Мода (Мо) называется варианта, которая имеет наибольшую частоту.
Медианной (Ме) называется варианта, которая делит вариационный ряд на две
равные по величине части. При этом, если число вариант четное, т.е. n  2t , то
x  xt
; если число вариант нечетно, т.е. n  2t  1 , то M e  xt 1 .
M e  t 1
2

1 n
Асимметрия – это величина равная As  33 , где  3   ( xi  X ) 3  k i .
k i 1


1 n
Эксцесс - это величина равная E  44  3 , где  4   ( xi  X ) 4  k i .
k i 1

Инструмент Описательная статистика, имеющийся в пакете «Статистический
анализ» MS Excel, предназначен для оценки выборки экономических данных, когда
есть необходимость проследить характер распределения и оценить меру разброса
фактических величин вокруг среднего значения.
Загрузка пакета: Сервис→Анализ данных→Описательная статистика.
При отсутствии: Сервис→Надстройки→Пакет анализа.
Открывшееся окно диалога предлагает пользователю определиться с набором
следующих параметров:
1)
Входной диапазон (интервал) — предполагает ввод ссылки на ячейки
рабочего листа, которые содержат анализируемые данные
2) Группирование — требует установления переключателя в положение «По
столбцам» или «По строкам» в зависимости от расположения данных во входном
диапазоне.
3) Метки в первой строке/Метки в первом столбце —позволяет определить
название каждого столбца (или строки) выходной таблицы. Переключатель
устанавливается в положение «Метки в первой строке», если первая строка во входном
диапазоне содержит названия столбцов. Когда в первом столбце входного диапазона
находятся названия строк, переключатель устанавливается в положение «Метки в
первом столбце». Если входной диапазон не содержит меток то необходимые
заголовки в выходном диапазоне создаются на основе программы автоматически.
4) Уровень надежности - используется, если в выходную таблицу необходимо
включить строку для уровня надежности. Тогда в соответствующее поле диалогового
окна вводится требуемое значение. В экономических расчетах, как правило, значения
уровня надежности задают в размере 95 или 99 %. Например, значение 95 %
вычисляет уровень надежности среднего со значимостью 0,05;
5) К-й наибольший - применяется, если в выходную таблицу необходимо
включить строку для к-ro наибольшего значения входного диапазона данных.
6) К-й наименьший — применяется, если в выходную таблицу необходимо
включить строку для к-ro наименьшего значения входного диапазона данных. В
соответствующем окне вводится число k. Если k равно 1, эта строка будет содержать
минимум из набора данных.
Описательная статистика предлагает таблицу основных статистических
характеристик для одного или нескольких множеств входных значений. Выходной
диапазон этого инструмента содержит следующие статистические характеристики для
каждой переменной из входного диапазона:

среднее - является основной характеристикой центра распределения. Для
него характерно то, что все отклонения от него (положительные и отрицательные) в
сумме равняются нулю. Excel вычисляет среднее значение по средней
арифметической, суммируя ряд данных с последующим делением результата на
количество значений ряда.;

стандартная ошибка оценивает меру ошибки рассчитанного на основе
сформированной выборки среднего значения и снижается при увеличении массива
отобранных данных;

медиана;

мода;

стандартное отклонение - это квадратный корень из дисперсии.
Большое стандартное отклонение указывает на то, что значения сильно разбросаны
относительно среднего, а малое на то, что значения сосредоточены около среднего;

дисперсия;

коэффициент эксцесса;

коэффициент асимметрии;

размах (интервал) есть разность между максимальным и минимальным
значениями ряда данных, т.е. длина интервала, которому принадлежат все данные
выборки. Чем больше эта длина, тем более рассеяна кривая распределения, тем больше
колеблемость изучаемого признака;

минимальное значение - характеризует наименьшее значение во входном
диапазоне данных;

максимальное значение -отражает наибольшее значение во входном
диапазоне данных.;

сумма;

число значений;

k-e наибольшее и наименьшее значения (для любого заданного значения
К);

уровень значимости (надежности) для среднего позволяет пользователю с
заданной вероятностью определить доверительный интервал для среднего значения
совокупности данных.
2. Практическая часть
Задание. Банк имеет 5000 вкладчиков. Произведено выборочное обследование 100
вкладов, результаты которого следующие (в тыс. у. е.):
25+N
40+N
71+N
100+N
160+N
125+N
35+N
145+N
25+N
85+N
25+N
45+N
75+N
134+N
15+N
63+N
150+N
160+N
34+N
90+N
30+N
160+N
85+N
140+N
65+N
35+N
160+N
45+N
66+N
140+N
100+N
80+N
90+N
35+N
150+N
24+N
25+N
15+N
85+N
130+N
91+N
49+N
34+N
40+N
45+N
40+N
15+N
65+N
90+N
15+N
40+N
95+N
70+N
75+N
35+N
65+N
10+N
91+N
10+N
66+N
105+N
100+N
70+N
95+N
75+N
90+N
70+N
140+N
45+N
70+N
Таблица 1. Значения вкладов
120+N
124+N
45+N
90+N
78+N
100+N
80+N
26+N
75+N
25+N
120+N
80+N
140+N
35+N
40+N
120+N
68+N
70+N
15+N
26+N
15+N
45+N
34+N
96+N
35+N
91+N
15+N
80+N
34+N
71+N
где N – номер варианта (по указанию преподавателя).
Вычислить основные статистические характеристики выборки.
Последовательность действий:
1. На листе Исходные данные получить данные для исследования следующим
образом: к каждому значения Таблицы 1 добавить номер варианта, указанного
преподавателем.
2. На листе Исходные данные составить вариационный ряд распределения,
вычислив так же и относительные частоты.
3. На листе Исходные данные построить полигон частот.
4. На листе Формулы вычислить статистические характеристики данного ряда
(среднее значение, дисперсию, среднее квадратическое отклонение, моду,
медиану, асимметрию, эксцесс), используя формулы математической
статистики.
5. На листе Функции вычислить эти же показатели с использованием функций
Excel (если соответствующие функции имеются).
6. На листе Исходные данные вычислить с помощью инструмента Описательная
статистика основные статистические показатели.
3. Содержание отчета:
1.
2.
3.
4.
Название работы.
Цель работы.
Законспектировать теоретическую часть.
Заполнить следующую таблицу:
Таблица 2. Сравнение статистических показателей (характеристик), вычисленных различными способами
Показатели
Среднее
Дисперсия
…
Эксцесс
Значения показателей, вычисленные с использованием
Формул статистики
Функций Excel
Инструмента
Функция Значение Описательная статистика
Download