1. Математическая статистика. Статистические оценки.

advertisement
1. Математическая статистика. Статистические оценки.
Предметом математической статистики является систематизация данных с
целью их практического использования. В качестве необходимого элемента математическая статистика включает методы построения вероятностных моделей.
Статистическими оценками называют функции от наблюдаемых значений.
Скалярные оценки называют точечными. К точечным оценкам предъявляется
ряд общих требований, в числе которых – требование несмещенности: математическое ожидание оценки должно быть равно оцениваемой величине.
2. Методы описательной статистики
Описательная (дескриптивная) статистика – совокупность методов обработки данных, не включающих построение параметрических моделей. Центральное положение в описательной статистике занимают методы обработки (первичного анализа) выборки (обычно – большого объема) значений одного признака.
Генеральной совокупностью будем называть произвольное числовое множество X, а выборкой – любое его подмножество xi   X . Элементы выборки
называют вариантами, а их полное число n (с учетом повторений) называют
объемом выборки. Частотой варианты xi называют число ni ее вхождений в выборку; относительной частотой называют частное от деления частоты на объем
выборки. Если все частоты вариант равны единице, то выборку называют бесповторной.
Последовательность вариант и соответствующих им частот, упорядоченная
по возрастанию, называется дискретным вариационным рядом. После его построения для бесповторной выборки оценку медианы генеральной совокупности
можно найти как значение, соответствующее «центру» ряда:
n  2k  1
 x n 1 / 2 ,

, kN .
Me   x  x
n/ 2
n / 2 1
,
n

2
k

2

Оценкой математического ожидания является выборочное среднее – среднее арифметическое вариант:
1 n
x   xi .
n i 1
Для характеристики «рассеяния» значений около «центра» используют
оценки дисперсии, среднего квадратичного и среднего абсолютного отклонения.
Несмещенная оценка дисперсии вычисляется по формуле:
1 n
2
s2 
xi  x  .


n  1 i 1
Замечание: если из каких-либо посторонних соображений для генеральной
совокупности уже известно математическое ожидание 1 , то несмещенной оцен-
1 n
xi  1 2 .

n i1
Оценка стандартного отклонения связана с оценкой дисперсии:
кой дисперсии будет величина
s  s2 ;
эта оценка не является несмещенной, на практике ее используют по причине
простоты отыскания. Если генеральная совокупность подчинена нормальному
закону, то можно найти и несмещенную оценку стандартного отклонения; для
выборки объема n  10 она отличается (в большую сторону) от s 2 на 3%, для
выборки объема n  1000 отличие составляет менее 0,03%.
Замечание. В теории случайных величин термины «стандартное отклонение» и «среднее квадратическое отклонение» равноправны. В статистике их могут наделять различным смыслом; например, термин «стандартное отклонение»
используют для обозначения величины
1 n
xi  x 2 ,
s

n  1 i 1
в то время как термином «среднее квадратическое отклонение» обозначают
величину
1 n
xi  x 2 ,
s

n i1
или наоборот. Неоднозначность можно уменьшить, добавляя всюду перед
статистическими аналогами показателей распределений (генеральных совокупностей) слово «оценка». Далее термины «стандартное» и «среднее квадратическое» отклонение считаются равноправными. В записи формул оценка обозначается буквой s, а само стандартное отклонение – буквой .
Стандартная ошибка оценки математического ожидания вычисляется как
частное от деления стандартного отклонения на корень из объема выборки:
s2
serr 
.
n
Безразмерный коэффициент вариации вычисляется как частное от деления
оценок стандартного отклонения и математического ожидания:
s2
.
v
x
Характеристиками рассеяния также являются нижняя x1/4 и верхняя x3/4
квартили – вычисляемые по выборке (т.е. являющиеся оценками квантилей)
процентные точки, для которых числа вариант, удовлетворяющих неравенствам
xi  x1 4 и xi  x3 4 , составляют 25% и 75%, соответственно.
Оценки моментов третьего и четвертого порядков и связанные с ними безразмерные оценки асимметрии и эксцесса без необходимости использовать не
следует.
Для выборки большого объема дискретный вариационный ряд теряет
наглядность. Принято выполнять группировку данных, разбивая весь диапазон
xmin  min xi ; xmax  maxxi 
изменения исследуемого признака (диапазон, включающий минимальное и
максимальное значение вариант) на l подинтервалов – разрядов, число которых
выбирают по правилу Стерджеса:
l  1  3,3 lg n ,
где n – объем выборки. При этом длины разрядов обычно равны между со-
бой:
xmax  xmin
, j  1, l , x0  xmin , xl  xmax ,
l
а границы разрядов находятся в точках
xk  xmin  kx , k  1, l  1.
Частоты nj, соответствующие каждому разряду, находятся как суммы частот
всех вариант, попавших в этот разряд; для бесповторной выборки частота равна
числу попавших в разряд вариант. Относительной частотой разряда называют
частное n j n от деления частоты разряда на объем выборки.
Графическим представлением непрерывного вариационного ряда является
гистограмма – ступенчатая фигура, состоящая из прямоугольников, основания
которых построены на соответствующих разрядах, а высоты hj равны частным от
деления относительных частот на длины разрядов:
nj
.
hj 
nx
Гистограмма позволяет сделать предварительное суждение о плотности распределении генеральной совокупности. По гистограмме обычно находят оценку
моды. Для этого на гистограмме находят прямоугольник с наибольшей высотой и
проводят из противоположных вершин его верхнего основания два отрезка к
противоположным вершинам верхних оснований соседних прямоугольников. В
качестве оценки моды принимается абсцисса точки пересечения отрезков.
x  x j  x j 1 
3. Важнейшие распределения математической статистики
Термин «статистика» используют, помимо прочего, для обозначения закона,
которому подчинена случайная величина, или же для обозначения скалярной
функции от наблюдаемых значений (близко к понятию точечной оценки, которое
является не столь общим).
Распределением (статистикой) Пирсона, или  2 -распределением, называют распределение суммы квадратов k независимых случайных величин, каждая
из которых распределена по стандартному нормальному закону. При этом число
слагаемых k называют числом степеней свободы распределения.
0,5
k 2
0,4
0,3
f  x
0,2
k 4
0,1
0
k  10
0
4
8
Рис. 3.1. Плотность
x
12
16
20
 2 -распределения
Распределением Стьюдента с k степенями свободы называется распределеU
ние частного
, где числитель подчинен стандартному нормальному закону,
kY
а под корнем находится случайная величина, подчиненная распределению Пирсона с k степенями свободы.
0,4
k  100
0,3
k 3
f  x
0,2
k 1
0,1
0
5
3
1
x
1
Рис. 3.2. Плотность распределения Стьюдента
3
5
Распределением Фишера, или F-распределением с m и n степенями свободы
n Ym
называется распределение частного
, в котором Ym и Yn – случайные велиm Yn
чины, подчиненные  2 -распределениям со степенями свободы m и n, соответственно.
m3
n  100
0,6
f  x
0,4
0,2
m  100
n3
0
0
mn3
1
2
x
Рис. 3.3. Плотность F-распределения
3
4
Download