Занятие10. Исследование согласия выборки с

advertisement
Иткин В.Ю. Задачи по теории надежности
Занятие 10. Исследование согласия выборки с экспоненциальным распределением
10.1. Как проверяют гипотезы
Чтобы проверить статистическую гипотезу, подбирают статистику (функцию от выборки) Z,
распределение которой зависит от правильности гипотезы. Если гипотеза верна, то Z ∈ F (z), если
нет, то ее распределение должно отличаться от F (z), причем чем сильнее отличается истинное
положение вещей от предполагаемой гипотезы, тем сильнее должно отличаться и распределение
статистики Z от F (z).
Тогда если гипотеза верна, то числовая реализация Zb должна быть в допустимой области с
заданной вероятностью 1 − α. Если Zb оказывается в критической области, то мы считаем, что
гипотеза неверна, хотя Zb и могла там оказаться с вероятностью α.
Допустимые области бывают односторонние и двусторонние. С односторонними проще – левая
граница зафиксирована наименьшим возможным значением (обычно это 0), а правая граница
вычисляется так, чтобы вероятность попадания в допустимую область была 1−α, т.е. это квантиль
F −1 (1 − α).
b = 1 − F (Z).
b Если
В статистических пакетах обычно вычисляется значимость p = P{Z > Z}
она меньше допустимого уровня значимости α, то гипотезу следует отвергнуть.
Для двусторонних областей обе границы определяются так, чтобы вероятность попадания Z
в допустимую область была 1 − α. Тогда левая граница – это квантиль F −1 (α/2), а правая –
F −1 (1 − α/2).
Если распределение F (z) симметрично относительно нуля (стандартное нормальное, t - распределение Стьюдента), то можно перейти к односторонней области для |Z|. Тогда правой границей
для |Z| будет F −1 (1 − α/2), а значимость вычисляется по формуле
³
´
b
b
p = P{|Z| > |Z|} = 2 1 − F (|Z|) .
10.2. Метод моментов
Как известно, для экспоненциально распределенной случайной величины ξ
√
1
1
Dξ
Mξ = ; Dξ = 2 ; V =
= 1.
λ
λ
Mξ
Следовательно, такого же соотношения нужно ожидать от выборочных моментов, т.е. выборочный коэффициент вариации Vb должен быть близок к 1. Однако он не будет равен 1 в точности.
Можно ли объяснить отличие Vb от единицы случайной погрешностью? Или это отличие закономерно, т.к. на самом деле выборка взята не из экспоненциального распределения? Решить эту
проблему можно с помощью следующего критерия.
Если гипотеза H0 : V = 1 верна, то статистика
µ
¶
√
x
n2
Z=
−
n
2
S (n − 1)
имеет стандартное нормальное распределение при n → ∞, Z ∈ N (0, 1).
10.3. χ2 -критерий Пирсона-Фишера
χ2 -критерий изучался в курсе математической статистики, однако некоторые тонкости нужно
пояснить. Если r параметров распределения не известны, то их нужно оценить по выборке. Числовая ось разбивается на k интервалов, затем подсчитывается количество наблюдений, попавших
1
Занятие 10. Исследование согласия выборки с экспоненциальным распределением
в каждый из интервалов. Если выборка действительно имеет предполагаемое распределение, то
статистка критерия должна иметь χ2 -распределение с k − r степенями свободы.
Границы интервалов не должны зависеть от выборки! Они могут зависеть только от уже оцененных параметров. Иначе статистика критерия не будет иметь χ2 -распределения с k−r степенями
свободы.
Если бы мы оценили границы интервалов методом максимального правдоподобия, то количество степеней свободы следовало бы еще уменьшить на количество оцененных границ, т.е. на k + 1,
т.к. мы искусственно приближали бы распределение выборки к предполагаемому закону. Получилось бы распределение с отрицательным числом степеней свободы :-). Если подбирать границы
интервалов не наилучшим образом, а “на глазок”, то количество степеней свободы пришлось бы
уменьшать на неопределенную величину. Все эти варианты не позволяют нам проверить гипотезу,
поэтому интервалы должны зависеть от выборки только через оцененные параметры.
Для проверки согласия с нормальным распределением можно разбивать диапазон
[x − 3S, x + 3S] на интервалы равной длины и добавить к ним −∞ и +∞. Для проверки
согласия с экспоненциальным распределением можно разбивать диапазон [0, x + 3 S] на интервалы равной длины и добавить к ним +∞. Количество интервалов нужно соотносить с объемом
выборки n. Для малых выборок (n < 50) интервал разбивают на 5-10 интервалов, для больших
применяют различные эмпирические формулы, например k = [ln n].
10.4. Оценка параметров распределений
Параметры распределений оценивают методами максимального правдоподобия, моментов, наименьших квадратов и др. Метод максимального правдоподобия дает наилучшие оценки, но не для
всех распределений есть аналитические формулы оценок максимального правдоподобия. Для целей сравнения выборочного и предполагаемого распределений нет необходимости в использовании
численных процедур (тем более, что они не реализованы в пакете Maple).
Для нормального и экспоненциального распределений формулы оценок максимального правдоподобия (ОМП) совпадают с формулами метода моментов, ими и следует пользоваться.
Случайная величина X имеет логнормальное распределение, если ln X распределена нормально. Поэтому для оценки параметров логнормального распределения нужно прологарифмировать
выборку, а затем оценить параметры уже нормального распределения.
Наилучшими оценками параметров равномерного на отрезке [a, b] распределения будут наименьшее и наибольшее наблюдения, b
a = min{xi }, bb = max{xi }.
Для гамма-распределения метод максимального правдоподобия приводит к численному решению нелинейного уравнения. Удобнее воспользоваться методом моментов, который дает вполне
удовлетворительные результаты.
Для распределения Гнеденко-Вейбулла удобно воспользоваться методом наименьших квадратов. В соответствии с обозначениями Maple функция распределения равна
x c
F (x) = 1 − e−( b ) .
Тогда
G(x) = ln (− ln (1 − F (x))) = c (ln(x) − ln(b)) .
Обозначим
ti = ln(xi ),
³
³
´´
Gi = ln − ln 1 − Fb(xi ) ,
где xi – наблюдения, Fb(xi ) – эмпирическая функция распределения. Методом наименьших квадратов оценим коэффициенты зависимости Gi = β0 + β1 ti . Тогда параметры распределения b и c
2
Иткин В.Ю. Задачи по теории надежности
можно найти из уравнений
β0 = −c ln(b),
β1 = c,
т.е.
−
β0
b = e β1 ,
c = β1 .
10.5. Критерии типа критерия Колмогорова
Классический критерий Колмогорова предназначен для проверки согласия выборки с полностью известным непрерывным распределением. Т.е. параметры распределения должны задаваться, а не оцениваться по выборке.
xi − x
Даже если выборку нормировать ее выборочными параметрами (т.е. yi =
для нормальSx
xi
ного распределения или yi =
для экспоненциального), критерий Колмогорова не позволяет проx
верить гипотезу согласия, поскольку выборочные характеристики такой нормированной выборки
уже будут не случайными величинами, а конкретными числами (y = 0, Sy = 1 для нормального
распределения и y = 1 для экспоненциального).
Статистика критерия Колмогорова вычисляет максимальное отличие эмпирической функции
распределения от предполагаемой,
¯
¯
√
¯
¯
K = n max ¯F (x) − Fb(x)¯ .
x
Оценка параметров приводит к искусственному сближению этих функций, и статистика K имеет
другой распределение, более “прижатое” к нулю. Причем для разных предполагаемых распределений “степень прижатости” будет разной.
Для проверки гипотезы согласия при неизвестных параметрах используют различные приближения для распределения статистики K. Например, в статье Б.Ю. Лемешко и С.Н. Постовалова1
приведены приближенные формулы для этого распределения. Если мы проверяем гипотезу согласия с экспоненциальным распределением, то статистика Колмогорова имеет приблизительно
логнормальное распределения с параметрами (-0.3477, 0.2638) (рис. 10.1).
Если мы проверяем гипотезу согласия с нормальным распределением, то все зависит от того,
какие параметры известны, а какие оценены. Если оценено только мат. ожидание, то будет гаммараспределение с параметрами (3.6448, 7.0208, 0.3164), если только дисперсия – логнормальное с
параметрами (-0.4349, 0.2337), если оценено все, то тоже логнормальное, но с параметрами (-0.4849,
0.2254).
В пакете MATLAB применен другой подход – интерполяция таблицы распределения статистики
Колмогорова, полученной методом статистического моделирования2 . Там этот критерий назван
тестом Лиллифорса.
1
Б.Ю. Лемешко, С.Н. Постовалов. О распределениях статистик непараметрических критериев согласия при
оценивании по выборкам параметров наблюдаемых законов. //Заводская лаборатория. 1998. Т. 64. - № 3. - С. 61-72.
2
Lilliefors H.W. On the Kolmogorov-Smirnov test for the exponential distribution with mean unknown.// Journal of
the American Statistical Association. Vol. 64, 1969, pp. 387–389
3
Занятие 10. Исследование согласия выборки с экспоненциальным распределением
Рис. 10.1. Распределение статистики Колмогорова
10.6. Задачи
Исследуйте распределения выборок наработки ГПА до отказа (см. файл Данные для ЛР.xls).
Для этого выполните следующие действия.
1. Вычислите выборочный коэффициент вариации. Методом моментов проверьте гипотезу о согласии с экспоненциальным распределением.
2. Постройте гистограмму и предложите закон распределения, которому эта выборка соответствует. Оцените параметры этого распределения и наложите график плотности на гистограмму.
Указание 1. Рассмотрите следующие распределения: равномерное, нормальное, логнормальное,
экспоненциальное, Гнеденко-Вейбулла, гамма-распределение.
Указание 2. Параметры гамма-распределения оцените методом моментов, параметры распределения Гнеденко-Вейбулла оцените методом наименьших квадратов (функция LinearFit в пакете
Maple).
3. Проверьте гипотезу о согласии с этим распределением по χ2 -критерию.
4. Постройте график эмпирической функции распределения на вероятностной бумаге (функция
ProbabilityPlot в пакете Maple).
5. Проверьте гипотезу о согласии с этим распределением по критерию типа Колмогорова (критерий Лиллифорса).
4
Download