7. Статистические оценки парам

advertisement
Теория вероятностей и
математическая статистика
Занятие 7.
Статистические оценки параметров
распределения
Преподаватель – доцент кафедры ВМ, к.ф.-м.н.,
Шерстнёва Анна Игоревна
Точечные статистические оценки
параметров распределения
Записав статистическое распределение выборки и
изобразив его графически, можно получить первоначальное представление о закономерностях, имеющих
место в генеральной совокупности.
Как оценить числовые характеристики генеральной
совокупности?
Пример.
Математическое ожидание – ?
Дисперсия – ?
Параметры распределения – ?
Выборочная характеристика
*  f ( x1 , x 2 ,, x n ),
используемая для нахождения приближённого значения
неизвестной генеральной характеристики  , называется её точечной статистической оценкой.
  *
1. Несмещённость: M (* )  
2. Эффективность:  * имеет наименьшую дисперсию
среди других оценок .
3. Состоятельность: при увеличении объёма выборки  *
стремится по вероятности к  , то есть чем больше
объём выборки, тем незначительнее отклонение  *от .
Выборочная средняя:
xi x1 x2 …
xв
ni n1 n2 …
ni xi


n
оценка математического ожидания
генеральной совокупности
xi
ni
0
6
2
6
3
2
7
6
Объём выборки: n = 20
0  6  2  6  3 2  7  6
xв 
3
20
Выборочная дисперсия:
xi x1 x2 …
ni n1 n 2 …
Dв 
2
n
(
x

x
)
 i i в
n
Dв  x 2 в  ( xв ) 2
оценка дисперсии
xi
ni
0
6
2
6
3
2
7
6
(xi – xв)2
(xi)2
9
0
1
4
0
9
16
49
п = 20
xв  3
9  6  1 6  0  2  16  6
Dв 
 7.8
20
0  6  4  6  9  2  49  6 2
Dв 
 3  7.8
20
Исправленная выборочная дисперсия:
2
n
(
x

x
)
n
n  i i
в
2
s 
Dв 

n 1
n 1
n
2
n
(
x

x
)
 i i в
n 1
Выборочное среднее квадратическое отклонение:
 в  Dв
Исправленное выборочное среднее квадратическое
отклонение:
s  s2
Мода
Для дискретной случайной величины – наиболее
вероятное по сравнению с двумя соседними значение.
Как оценить моду генеральной совокупности?
– по выборке;
– наиболее часто встречающаяся варианта.
Обозначается М0.
xi
ni
0
5
М0 = 0
1
2
2
3
xi
ni
2
5
3
8
7
7
9
5
14
8
М0 = 3, М0 = 14
У случайной величины может быть несколько мод.
Как оценить моду, если выборка задана интервальным рядом?
xi
ni
5 - 10 10 - 15 15 - 20 20 - 25 25 - 30
10
15
25
15
5
Для непрерывной случайной величины мода – это
значение, при котором плотность распределения f(x)
достигает максимума.
Гистограмма относительных частот даёт представление о плотности распределения генеральной совокупности.
Построим гистограмму относительных частот.
xi
ni
5 - 10 10 - 15 15 - 20 20 - 25 25 - 30
20
15
35
20
10
wi
0.2
0.15
0.35
0.2
0.1
wi / h
0.04
0.03
0.07
0.04
0.02
Объём выборки: n = 100
Длина интервала: h = 5
0.07
0.06
0.05
0.04
0.03
0.02
0.01
Мода – значение, при
котором плотность распределения достигает
максимума.
М0 = 18
5
10
15 18 20
25
30
0.07
0.06
0.05
0.04
0.03
0.02
0.01
mk
mk+1
mk-1
xk-1 xk M0 xk+1
5
10
15 18 20
mk  mk 1
M 0  xk 
( x k 1  xk )
2mk  (mk 1  mk 1 )
xk 1  10
xk  15
xk 1  20
mk 1  0.03
mk  0.07
mk 1  0.04
0.07  0.03
M 0  15 
(20  15)  17.857
2  0.07  (0.03  0.04)
25
30
Медиана
Медиана генеральной совокупности – такое число х, что
p( X  x )  p( X  x )  0.5
Как оценить медиану генеральной совокупности?
– такое число Ме , что количество вариант, меньших
Ме , равно количеству вариант, больших Ме
0, 0, 1, 2, 2, 2, 4, 5, 5, 5, 5, 6, 6
Ме = 4
0, 0, 1, 2, 2, 2, 3, 4, 5, 5, 5, 5, 6, 6
Ме = ?
M e  (3  4) / 2  3.5
Если п – нечётное, то M e  x( n 1) / 2 (средняя варианта).
Если п – чётное, то
M e  ( xn / 2  x( n / 2) 1 ) / 2
xi
ni
(х1, х2) (х2, х3)
n1
n2
п – объём выборки
h – длина интервала
…
…
l
i 1
xi
ni
l 1
i 1
i 1
 ni  n / 2,  ni  n / 2.
Находим такое число l, что
Пусть f   ni .
l
n/2 f
M e  xl  1 
h
nl 1
5 - 10 10 - 15 15 - 20 20 - 25 25 - 30
20
15
35
20
10
35 < 50
70 > 50
n /2 = 50
h=5
l=2
f = 35
xl+1= x3= 15 nl+1 = n3 = 35
50  35
M e  15 
 5  17.143
35
0, 0, 1, 2, 2, 2, 4, 4, 5, 5, 5, 5, 6
Ме = 4
Ряд наблюдений делится на 2 части, равные по количеству вариант.
Разделим ряд наблюдений на 4 равные части.
Получим три числа q1, q2, q3, которые оценивают,
соответственно, первый, второй и третий квартили.
На 10 равных частей:
d1, d2, … d9 – децили.
На 100 равных частей: p1, p2, … p99 – процентили.
q1
Ме
q2
q3
d1 d2 d3 d4 d 5 d6 d7 d8 d9
p10 p20 p30 p40 p50 p60 p70 p80 p90
Нахождение k-того квартиля qk,
дециля dk и процентиля pk
x1 , x2 , ..., xn – все элементы выборки
1. Находим число т:
k
k
k
 n.
для qk m   n, для dk m   n, для pk m 
100
4
10
2. Если т – целое число, то
xm  xm 1
qk  d k  pk 
2
3. Если т – не целое число, то
qk  d k  pk  x j ,
где j – первое целое число после т.
Нахождение k-того квартиля qk,
дециля dk и процентиля pk
xi
ni
(х1, х2) (х2, х3)
n1
n2
…
…
п – объём выборки
h – длина интервала
1. Находим число т:
k
k
k
 n.
для qk m   n, для dk m   n, для pk m 
100
4
10
2. Находим такое число l, что
l
l 1
i 1
l
i 1
 ni  m,  ni  m.
3. Обозначим f   ni .
i 1
m f
qk  d k  pk  xl 1 
h
nl 1
Интервальные статистические
оценки параметров распределения
  * – точечная оценка

1
2
Интервальной называют оценку, которая определяется двумя числами – концами интервала:
  (1, 2 )
1  f1 ( x1, x2 ,, xn )
2  f 2 ( x1, x2 ,, xn )
– формулы для нахождения границ интервала
по выборочным данным
Интервал (1, 2 ), который содержит в себе неизвестный параметр  с заданной вероятностью ,
называют доверительным интервалом:
p(1    2 )  
При этом вероятность  называют доверительной
вероятностью или надёжностью оценки.

*  
*
*  
(*   , *   )
p(*      *   )  p(    *   ) 
 p(|   * |  )  
Число  называют точностью оценки.
Нормальное распределение
1
f ( x) 
e
 2
( x  a )
2
2
1
F ( x) 
 2
2
x
e

a, σ – параметры распределения
f(x)
a
(X
( X) )
MM( X
( X) )a a и DD
22
( x a ) 2
2 2
dx
1. Пусть генеральная совокупность имеет нормальное
распределение
если  – известно,   a  ?
Доверительным интервалом является интервал:
t  
t   

 xв 

, xв 
n
n 

1  1  
 или
t  F 

 2 
1  

t    
2
F-1 – функция, обратная к функции нормального распределения с нулевым математическим ожиданием и
единичной дисперсией
Ф-1 – функция, обратная к функции Лапласа
2. Пусть генеральная совокупность имеет нормальное
распределение
 – неизвестно,   a  ?
Доверительным интервалом является интервал:
t  s
t  s 

 xв 

, xв 
n
n 

1  1  

t  F 

 2 
F-1 – функция, обратная к функции распределения
Стьюдента с (п – 1) степенями свободы
s – исправленное выборочное среднее квадратическое
отклонение
Контрольные вопросы
1. Что такое точечная статистическая оценка?
2. Каким требованиям должны удовлетворять точечные
статистические оценки?
3. Как находится выборочная средняя?
4. Оценкой какой характеристики генеральной совокупности
является выборочная средняя?
5. Как находится выборочная дисперсия? Исправленная
выборочная дисперсия?
6. Как находится выборочное среднее квадратическое
отклонение? Исправленное выборочное среднее
квадратическое отклонение?
7. Как оценить моду генеральной совокупности, если выборка
задана дискретным рядом? Интервальным рядом?
Контрольные вопросы
8. Как оценить медиану генеральной совокупности, если
выборка задана дискретным рядом? Интервальным рядом?
9. Как оцениваются квартили, децили, процентили?
10. Что такое интервальная статистическая оценка?
11. Какой интервал называют доверительным?
12. Что такое доверительная вероятность или надёжность
оценки?
13. Что понимают под точностью оценки?
14. Какой вид имеют формулы для интервального оценивания
математического ожидания нормального распределения?
Download