Лекция №6. Методы математической статистики

advertisement
Лекция №6. Методы математической статистики
Тема. Задачи математической статистики и первичная обработка данных
6.1 Задачи математической статистики
При изложении основ теории вероятностей, о вероятностях случайных событий и о
распределениях случайных величин говорилось как о чем-то заранее известном. Так в
испытаниях Бернулли считалась заданной вероятность появления события в одном
испытании, а в определении попадания случайной величины в заданный интервал
плотность вероятности считалась также заданной. На практике обычно такой
информацией не располагают, все необходимые вероятностные характеристики
случайных событий и величин оцениваются на основе проводимых экспериментов.
Такими или близкими задачами занимается математическая статистика. Более точно
математической статистикой называется наука, занимающаяся разработкой методов
получения, описания и обработки опытных данных с целью изучения закономерностей
случайных массовых явлений. Основное задание математической статистики состоит в
том, чтобы на основе ограниченного числа наблюдений над массовыми явлениями
выявить закономерности их поведения с целью дальнейшего прогнозирования.
Сам термин “ статистика” может применяться в различных значениях.
Статистика – это совокупность данных о множестве однородных объектов. Например,
данные о количестве пассажиров, пользующихся метрополитеном в течение суток.
Статистика – это совокупность методов обработки данных с целью представления
полученной информации более наглядной и понятной.
Статистика – это функция полученных экспериментальных значений, например,
среднее арифметическое этих значений; число значений, превышающих определенную
величину, и т. п. Именно в этом понимании термин “статистика” используется в
математической статистике и будет использован в дальнейшем.
В математической статистике можно выделить два направления: описательную
статистику и индуктивную статистику (статистический вывод). Описательная
статистика занимается накоплением, систематизацией и представлением опытных
данных в удобной форме. Индуктивная статистика на основе этих данных позволяет
сделать определенные выводы относительно объектов, о которых собраны данные,
или оценки их параметров. Наиболее полезное применение математической статистики
состоит в таком представлении результатов статистической обработки наблюдений,
1/8
Лекция №6. Методы математической статистики
которое позволяет принимать решения, минимизирующие риск в условиях
неопределенности.
Типичными направлениями математической статистики являются:
-
теория выборок;
теория оценок;
проверка статистических гипотез;
регрессионный анализ;
дисперсионный анализ.
6.2 Представление статистических данных
При массовом промышленном производстве часто нужно без проверки каждого
выпускаемого изделия установить, соответствует ли качество продукции стандартам.
Если количество выпускаемой продукции очень велико или проверка продукции
связана с приведением ее в негодность, то проверяется небольшое количество
изделий. На основе этой проверки нужно дать заключение о всей серии изделий.
Конечно, нельзя утверждать, что все транзисторы из партии в 1 млн. штук годны или
негодны, проверив один из них. С другой стороны, поскольку процесс отбора
образцов для испытаний, и сами испытания могут оказаться длительными по времени и
привести к большим материальным затратам объем проверки изделий должен быть
таким, чтобы он смог дать достоверное представление обо всей партии изделий,
будучи минимальных размеров.
Основным принципом математической статистики является принцип необходимой
достаточности. Он состоит в том, что из всей совокупности элементов выбирают часть,
которая подвергается исследованию (обработке). Результаты обработки
экстраполируются на генеральную совокупность.
Введем основные понятия математической статистики: генеральную совокупность и в
ыборку.
.
2/8
Лекция №6. Методы математической статистики
Генеральной совокупностью называют всю совокупность всех изучаемых однородных
объектов или экспериментальных данных. Будем обозначать через
N
число объектов или количество данных, составляющих генеральную совокупность.
Величину
N
называют
объемом генеральной совокупности
. Если
N
>>1, то есть
N
очень велико, то обычно считают
N
= ¥.
Случайной выборкой или просто выборкой называют часть генеральной совокупности,
наугад отобранную из нее. Слово "
наугад"
означает, что вероятность выбора любого объекта из генеральной совокупности
одинакова. Это важное предположение, однако, часто трудно его проверить на
практике.
Объемом выборки называют число объектов или количество данных, составляющих
выборку, и обозначают
n.
Пример. Положим, что имеется, как указывалось ранее, партия транзисторов в 1 млн.
штук, из которых 10 тысяч представляют брак. В действительности число бракованных
изделий неизвестно. Для того чтобы можно было судить хотя бы приблизительно об
относительной доле брака, отбирают и проверяют, например, 100 транзисторов. В этом
примере генеральной совокупностью является исходная партия изделий в 1 млн. штук
(
N=1000000). Выборкой является множество транзисторов, изъятых из
генеральной совокупности для контроля (
n=100). Описанная процедура
называется
выборочным контролем
качества
.
Выбор элементов генеральной совокупности можно организовать двумя способами: выб
ор без возвращения
и
3/8
Лекция №6. Методы математической статистики
выбор с возвращением
. В первом случае наугад выбирают все элементы выборки одновременно, затем
выбранные элементы обследуются. Во втором случае отбор элементов производится
поочередно. Каждый выбранный элемент обследуется и возвращается в генеральную
совокупность, после чего наугад производится отбор следующего элемента и т. д.
Заметим, что если объем выборки значительно меньше объема генеральной
совокупности (
n
<<
N
), то различие исчезает.
Определение. Выборка называется репрезентативной (представительной), если она
несет в себе характерные признаки генеральной совокупности. Если элементы
генеральной совокупности однородны, то выборка будет репрезентативной, если
каждый элемент генеральной совокупности равновозможно может попасть в выборку.
Метод исследования свойств генеральной совокупности по данным выборки называют
выборочным методом.
В дальнейшем будем считать, что элементам выборки можно приписать соответственно
числовые значения х1, х2, ... , хn. Например, в процессе контроля качества
производимых биполярных транзисторов это могут быть измерения их коэффициента
усиления по постоянному току.
При теоретико-вероятностном подходе генеральная совокупность – это случайная
величина Х, заданная на пространстве элементарных событий
с определенным на нем поле событий F и вероятностью событий р.
Числовые значения х1, х2, ... , ,хn будем рассматривать как значения случайной
величины
X . То естьпри теоретико-вероятностном
взгляде выборка – это результат ограниченного ряда наблюдений
х1
,
х2
, ... ,
хn
случайной величины
Х
4/8
Лекция №6. Методы математической статистики
.
Пусть имеются результаты измерения случайной величины Х с неизвестным законом
распределения, которые представлены в виде таблицы:
ТАБЛИЦА 6.1
xi
i
1
x1
2
x2
..
...
.
n
xn
Такую таблицу называют статистическим рядом. Статистический ряд представляет
собой первичную форму записи статистического материала, и он может быть
обработан различными способами.
6.2 Представление статистических данных
Пусть теперь Х – дискретная случайная величина, принимающая значения х1, х2, ... , х
N
,а
х1
,
х2
, ... , ,
хn
– выборка, т.е. это значения случайной величины, полученные в результате проведени
я
опытов. Будем полагать, что значение
xj
наблюдалось
nj
раз
, причем
.
5/8
Лекция №6. Методы математической статистики
Наблюдаемые значения х1, х2, ... , хn называют вариантами, а таблицу с
упорядоченными по возрастанию вариантами и соответствующими относительными
частотами
(
) называют вариационным рядом.
ТАБЛИЦА 6.2
Х=х
nj
j
n1
n2
x1
n3
x2
…
x3
…
nj
…
xj
…
nm
xm
…
…
Из определения относительной частоты следует, что
.
Если х1, х2, ... , хn – выборка реализаций непрерывной случайной величины Х или п>>1
(объем выборки большой) для дискретной случайной величины, то строится
интервальный вариационный ряд
. Методика его построения следующая.
1. Определяются максимальное
6/8
Лекция №6. Методы математической статистики
и минимальное
значения
выборки.
2.
Определяется
размах вариационного ряда
.3. Определяется количество интервалов
.Е
k – не целое,
то kокругляется
в большую
сторону до ближайшего целого числа.
4.сли
Определяется
оптимальная
ширина
интервала
, позволяющая
интервалов
по выявить
формулехарактерные
Стрэджеса: признаки Х с минимальным количеством
.5. Определяются границы интервалов [aj , aj+1 ) следующим образом:
,
(1
)6. Производится распределение вариантов по интервалам таким образом, что вариант
относят к интервалу [aj , aj+1 ), если aj
xj<
дляaj+1 . Затем,
варианты
повычисляют
интервалам,
подсчитывают
их общее число
j – гораспределив
каждого интервала
пj и
относительные
частоты
.7. Для каждого интервала вычисляют представителя интервала
(
).
ТАБЛИЦА
6.3
Номер
…
2 , ,…
i
…n2
п а3
[…
Границы
интервала
а1
, интервала1
а2aj
Частота
попадания
интервал
n1 ва2
nj … aj+1
Относительная
частота
попадания
в интервал
aj ) nm
,
а
…
Представитель интервала
7/8
Лекция №6. Методы математической статистики
…
…
Графическое
Гистограмма
[aj
строится
представление
интервального
образом.
По
ряда
осиносит
абсцисс
название
откладываются
гистограммы.
интервалы
, aj+1 ) и на каждой
относительной
частоте
изследующим
них строится
прямоугольник,
площадь
которого
равна
. Из построения
Очевидно,
полученная
случайной
величины
что
кривая
если
следует,
будет
плавно
что
соединить
площадь
приближением
левые
суммыточки
всехк кривой
прямоугольников
плотностиравна
гистограммы,
распределения
единице.то
Х. первым
Если
приближаться
число
опытов
плотности
увеличивать,
то полученная
случайной
гистограмма
величины
все Х.
более
будет частоты
Для
возникает
исследования
вида
закона
враспределения
построении
распределения
случайной
величины
по выборке
статистического
аналога
распределения.
Такой
статистический
аналог
функции
распределения
функции
называется
(эмпирической
статистической
)ф
ункцией
.Эмпирической
события
X распределения
<необходимость
x вкданном
функцией
статистическом
распределения
материале,
F*(x)
называется
то есть
закон
изменения
Для
того
чтобы
найти
значение
статистической
функции
распределения
данном х,
надо
подсчитать
число
опытов,
в(на
которых
случайная
величина
Х
значения
меньше,
чемпроизведенных
х,п
статистическая
ивОднако,
разделить
распределения
на
функция
общее
число
распределения
является
опытов.
очень
Полученная
грубым
такимпри
образом
F
(x)функции
случайной
качественный
таком
виде
характер,
не
случайной
используется
из
величины
практике.
можно
выдвинуть
Она
носит
гипотезу
вприближается
каком-то
о приближением
законе
Х
.распределения
При
увеличении
числа
опытов
n
®
¥)
F
по
вероятности
сходится
ккоторого
(x)*–и
.((риняла
свеличины
увеличением
п
остроение
*n
x)F
пользоваться
распределения.
можно
аналогичной
становится
построить
теоретической
очень
статистической
По
график
трудоемкой
полученному
эмпирической
функции
характеристикой,
операцией.
статистическому
распределения
функции
Поэтому
которая
распределения.
материалу
на
практике
(вариационному
часто
Онсмысле
имеет
кбывает
плотности
вид
ряду)
удобно
дискретной
случайной
величины
вид
функцией
скачков.
8/8
Download