Лекция 9 Тема Содержание темы

advertisement
Лекция 9
Тема
Введение в теорию оценок.
Содержание темы
Предмет, цель и метод задачи оценивания
Точечные выборочные оценки, свойства оценок
Теоремы об оценках
Интервальные оценки и интеграл Лапласа
Основные категории
I Понятие выборочной оценки (статистики).
I Критерии
качества
эффективность.
оценок:
несмещенность,
состоятельность,
I Интервальное оценивание. Доверительный интервал и надежность
оценки (доверительная вероятность).
I Интеграл Лапласа.
Постановка задачи
Изучается случайная величина X с законом распределения,
зависящим от неизвестного параметра θ.
Например, дана равномерно распределенная случайная величина на
неизвеcтном отрезке [a, b]. Требуется оценить математическое ожидание
θ = M (X) = (a + b)/2.
Цель – определить по возможности точнее значение параметра θ
или указать с определенной вероятностью интервал, в котором этот
параметр лежит.
Например, требуется найти такой промежуток (θ1 , θ2 ), что с вероятностью
0,95 величина θ лежит в пределах θ1 < θ < θ2 .
Метод – выборочный. Он состоит в том, что делается
выборка значений случайной величины, по которой вычисляется
приближенное значение θ̃.
Выборочная оценка – статистика
Приближенное значение θ̃n , полученное
объема n, называется выборочной или
величины θ. Поскольку должен быть
вычисления, то фактически мы получаем
функции
θ̃n (X1 , . . . , Xn )
по выборке x1 , . . . , xn
статистической оценкой
предложен метод ее
формулу для некоторой
от n экземпляров случайной величины X, взятых в качестве
независимых, вычисляемых экспериментально показателей. В итоге,
любая оценка сама становится случайной величиной (любая функция
от одной случайной величины или нескольких случайных величин
сама является случайной величиной).
Определение. Формула для выборочной оценки θ̃n (X1 , . . . , Xn )
называется статистикой.
В связи с этим, термины «выборочная оценка», «статистическая
оценка», «оценка» и «статистика» считаем синонимами.
Свойства выборочных оценок. Несмещенность
Качество оценки характеризуется наличием или отсутствием
некоторых важных свойств – несмещенности, состоятельности и
эффективности.
Далее для краткости пишем θ̃ или θ̃n , подразумевая θ̃n (X1 , . . . , Xn ).
Определение. Оценка θ̃ параметра θ называется несмещенной, если
M (θ̃) = θ.
Требование несмещенности означает отсутствие некоторой системной,
постоянно присутствующей ошибки, которая бы завышала оценку (M θ̃ > θ)
или занижала ее (M θ̃ < θ). Требование несмещенности особо важно при
малом количестве наблюдений.
Определение. Если M (θ̃n ) → θ при n → ∞, то оценка называется
асимптотически несмещенной.
Свойства выборочных оценок. Состоятельность
Определение. Оценка θ̃n параметра θ называется состоятельной,
если для любого сколь угодно малого положительного числа ε имеем
lim P {|θ̃n − θ| < ε} = 1.
n→∞
Требование состоятельности означает, что при увеличении объема выборки
мы все ближе приближаемся к истинному значению параметра. Такое
стремление называется сходимостью по вероятности – вероятность
больших отличий между θ̃n и θ стремится к нулю.
Теорема. Если оценка θ̃n является несмещенной и ее дисперсия
стремится к нулю
lim D(θ̃n ) = 0,
n→∞
то оценка является и состоятельной.
Свойства выборочных оценок. Эффективность
Определение. Оценка θ̃n параметра θ называется эффективной,
если ее дисперсия D(θ̃n ) является наименьшей из всех возможных
оценок параметра θ по выборкам объема n.
Требование эффективности означает наименьший разброс вокруг своего
среднего. Это требование важно для несмещенных оценок, когда их среднее
(то есть математическое ожидание) совпадает с истинным значением
параметра. Тогда и наименьший разброс оказывается по отношению к
истинному значению параметра.
Пример. Рассмотрим некоторое событие A и в качестве параметра θ
возьмем вероятность этого события: θ = P (A). Проведем n экспериментов,
и пусть событие A произошло m раз. Тогда в качестве оценки вероятности
естественно взять фактическую частоту появления события A:
θ̃n =
m
.
n
Тогда такая оценка будет несмещенной, состоятельной и эффективной.
Это следует из того, что здесь можно все моделировать схемой Бернулли
(см. след. слайд).
Пример – схема Бернулли
В результате эксперимента проверяется произошло или нет некоторое
событие A. То есть результат эксперимента – это успех (событие произошло)
или неудача (событие не произошло). Как обычно обозначаем вероятность
успеха p = P (A) и вероятность неудачи q = P (A) = 1 − p. В одном
эксперимента получаем случайную величину X (количество успехов в одном
испытании) с рядом распределения
X
P
0
q
1
=⇒ M (X) = p,
p
D(X) = pq,
σ(X) =
√
pq.
В качестве оценки вероятности p принимается среднее арифметическое
количества успехов в n испытаниях:
θ̃n =
1
(X1 + . . . + Xn ).
n
Тогда
M (θ̃n ) =
1
(nM (X)) = p,
n
D(θ̃n ) =
1
pq
(nD(X)) =
→ 0 при n → ∞.
n2
n
Значит, такая оценка несмещенная и состоятельная. Можно доказать, что
она эффективная.
Общие теоремы
Теорема 1. Пусть X1 , . . . , Xn – выборка из генеральной совокупности X и
M (Xi ) = M (X) = µ,
D(Xi ) = D(X) = σ 2 .
Тогда выборочная средняя арифметическая
x=
1
(X1 + . . . + Xn )
n
является несмещенной и состоятельной оценкой математического ожидания
M (X).
Теорема 2. Пусть X1 , . . . , Xn – выборка из генеральной совокупности X и
M (Xi ) = M (X) = µ,
Тогда величина s2H =
n
s2 ,
n−1
D(Xi ) = D(X) = σ 2 .
где s2 =
1
n
n
P
(Xi − x)2 – выборочная
i=1
дисперсия, является несмещенной и состоятельной оценкой дисперсии
D(X).
Примечание. Именно поэтому величину s2H и называют несмещенной
оценкой дисперсии.
Интервальное оценивание параметров
Оценки, о которых говорилось выше, называются точечными, так как они
дают конкретное число – одну точку на вещественной оси. Их недостаток в
том, что они ничего не говорят о точности такого оценивания при заданном
n. Более того, при малых выборках расхождения между оценкой и истинным
значением может быть очень велико. Поэтому возникает задача – указать
интервал (θ1 , θ2 ), в который с заданной вероятностью попадает истинное
значение параметра θ.
Определение. Оценка неизвестного параметра называется интервальной,
если она определяется двумя числами – началом и концом интервала, в
который должен попадать искомый параметр.
Определение. Если указан интервал (θ1 , θ2 ), в который с заданной
вероятностью γ попадает истинное значение параметра θ, то такой интервал
называется доверительным интервалом, а вероятность γ называется
надежностью оценки или доверительной вероятностью.
Пример – использование интеграла Лапласа
Пусть дано нормальное распределение N (µ, σ) с известной дисперсией σ 2 ,
но неизвестным математическим ожиданием µ. Возьмем в качестве оценки
для µ выборочное среднее (среднюю арифметическую выборки)
x=
1
(X1 + . . . + Xn ).
n
Эта величина также имеет нормальное распределение, ее математическое
ожидание совпадает с искомым параметром M (x) = µ (оценка
несмещенная), а ее дисперсия равна, как легко подсчитать по свойствам
дисперсии
σ2
D(x) =
(оценка состоятельная).
n
Тогда величина
x−µ
Y = σ
√
n
имеет стандартное нормальное распределение N (0, 1).
Пример – использование интеграла Лапласа - II
Ищем доверительный интервал в виде (x − a, x + a). Тогда
σ
|µ − x| < a ⇔ |Y | < a √ ,
n
а вероятность последнего события равна по формуле Ньютона–Лейбница
a √σ
n
σ
σ
F (a √ ) − F (−a √ ) = 2
n
n
Z
f (t)dt,
0
где
t2
1
f (t) = √ e− 2
2π
есть плотность стандартного нормального распределения. Интеграл
Zx
Φ(x) =
f (t)dt
0
называется интегралом Лапласа (функцией Лапласа). Для его вычисления
имеются удобные таблицы.
Итак, в нашем примере вероятность попадания в доверительный интервал
(x − a, x + a) равна 2Φ(a √σn ).
Контрольные вопросы
1. Предмет, цель и метод задачи оценивания.
2. Понятие выборочной оценки (статистики).
3. Несмещенная оценка.
4. Состоятельная оценка. Теорема о состоятельности оценки.
5. Эффективность оценки.
6. Несмещенность и состоятельность оценки вероятности
успеха в схеме Бернулли.
7. Две теоремы об оценках математического ожидания и
дисперсии.
8. Интервальное оценивание. Доверительный интервал и
надежность оценки (доверительная вероятность).
9. Интеграл
Лапласа.
Вычисление
доверительной
вероятности для оценки математического ожидания
нормального распределения.
Download