Математическая статистика. Курс лекций

Ýëåêòðîííûé ó÷åáíî-ìåòîäè÷åñêèé êîìïëåêñ Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà Ó÷åáíàÿ ïðîãðàììà äèñöèïëèíû Êóðñ ëåêöèé Ïðàêòèêóì ïî ðåøåíèþ çàäà÷ Ìåòîäè÷åñêèå óêàçàíèÿ ïî ñàìîñòîÿòåëüíîé ðàáîòå Áàíê òåñòîâûõ çàäàíèé â ñèñòåìå UniTest Êðàñíîÿðñê ÈÏÊ ÑÔÓ 2009 УДК 519.22 (075) ББК 22.172я73 К84 Электронный учебно-методический комплекс по дисциплине «Математическая статистика» подготовлен в рамках реализации Программы развития федерального государственного образовательного учреждения высшего профессионального образования «Сибирский федеральный университет» (СФУ) на 2007–2010 гг. Рецензенты: Красноярский краевой фонд науки; Экспертная комиссия СФУ по подготовке учебно-методических комплексов дисциплин К84 Крупкина, Т. В. Математическая статистика [Электронный ресурс] : курс лекций / Т. В. Крупкина, А. К. Гречкосеев. – Электрон. дан. (3 Мб). – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455/405–2008 / рук. творч. коллектива Т. В. Крупкина). – 1 электрон. опт. диск (DVD). – Систем. требования : Intel Pentium (или аналогичный процессор других производителей) 1 ГГц ; 512 Мб оперативной памяти ; 50 Мб свободного дискового пространства ; привод DVD ; операционная система Microsoft Windows XP SP 2 / Vista (32 бит) ; Adobe Reader 7.0 (или аналогичный продукт для чтения файлов формата pdf). ISBN 978-5-7638-1680-8 (комплекса) ISBN 978-5-7638-1749-2 (курса лекций) Номер гос. регистрации в ФГУП НТЦ «Информрегистр» 0320902499 (комплекса) Настоящее издание является частью электронного учебно-методического комплекса по дисциплине «Математическая статистика», включающего учебную программу дисциплины, практикум по решению задач «Математическая статистика в примерах и задачах», методические указания по самостоятельной работе, контрольноизмерительные материалы «Математическая статистика. Банк тестовых заданий», наглядное пособие «Математическая статистика. Презентационные материалы». Включает в себя теоретическую основу курса и контрольные вопросы. Предназначен для студентов направлений подготовки бакалавров 010100.62 «Математика», 010500.62 «Прикладная математика и информатика», 010300.62 «Математика. Компьютерные науки» укрупненной группы 010000 «Физико-математические науки и фундаментальная информатика». © Сибирский федеральный университет, 2009 Рекомендовано к изданию Инновационно-методическим управлением СФУ Редактор Н. Ф. Ткачук Разработка и оформление электронного образовательного ресурса: Центр технологий электронного обучения Информационно-телекоммуникационного комплекса СФУ; лаборатория по разработке мультимедийных электронных образовательных ресурсов при КрЦНИТ Содержимое ресурса охраняется законом об авторском праве. Несанкционированное копирование и использование данного продукта запрещается. Встречающиеся названия программного обеспечения, изделий, устройств или систем могут являться зарегистрированными товарными знаками тех или иных фирм. Подп. к использованию 30.11.2009 Объем 3 Мб Красноярск: СФУ, 660041, Красноярск, пр. Свободный, 79 Предисловие Данное издание предназначено для обеспечения аудиторной и самостоятельной работы студентов института математики Сибирского федерального университета по изучению теоретического курса «Математическая статистика». Дисциплина размещена в учебном плане в 8-м семестре по 4 часа (2 часа лекций и 2 часа практических занятий) в неделю. Структура изложения определена учебным графиком и соответствует стандартному семестру (17 недель, 17 лекций); номер параграфа пособия соответствует номеру лекции. Дисциплина охватывает две большие темы (два модуля): выборочная теория, статистическое оценивание и проверка статистических гипотез. Первый модуль занимает 1–8-ю недели, второй 9–17-ю недели 8-го семестра. Модуль 1 «Выборочная теория» состоит из трех тем: 1) введение в математическую статистику (лекции 1, 2, 3); 2) распределения математической статистики (лекция 4); 3) статистическое оценивание (лекции 5, 6, 7, 8). Этот модуль является фундаментом следующего и посвящен введению в математическую статистику. Рассматриваются выборочные характеристики и методы статистической обработки случайной выборки, вводятся распределения Пирсона, Стьюдента, Фишера, изучаются распределения выборочных характеристик, рассматриваются простейшие методы решения одной из основных задач статистики — задачи оценивания. Вводятся понятия несмещенных, состоятельных, оптимальных и эффективных оценок, изучаются их свойства. Второй модуль «Оценивание и проверка статистических гипотез» состоит из четырех тем: 4) достаточность и оптимальность (лекции 9, 10); 5) интервальное оценивание параметров (лекция 11); 6) проверка параметрических гипотез (лекции 12, 13, 14); 7) проверка гипотез о виде распределения и о связи (лекции 15, 16, 17). Во этом модуле изложение ведется на основе теории достаточных статистик. Помимо точечного и интервального оценивания параметров рассматривается вторая важнейшая задача статистики – проверка статистических гипотез. Излагаются как общие подходы к проверке статистической гипотезы и процедуры построения критериев, так и процедуры применения критериев для проверки гипотез, а также методы сравнения статистических критериев. В этом же модуле изучаются элементы регрессионного анализа, включая оценивание параметров уравнения регрессии. Все разделы пособия включают широкий набор примеров и контрольных вопросов, которые позволят закрепить и углубить теоретические знания и получить навыки практического использования статистических методов. Приложение содержит восемь таблиц: значения функций ϕ(x), Φ0 (x), случайные числа, квантили распределения Стьюдента Tn , квантили распределения χ2n , квантили распределения Фишера F порядков α = 0, 01 и 0, 05, критические значения критерия U Манна – Уитни при уровне значимости α = 0, 05, греческий алфавит. 3 Принятые обозначения и сокращения P(A) – вероятность события A E ξ – математическое ожидание случайной величины ξ Dξ – дисперсия случайной величины ξ X = (X1 , . . . , Xn ) – выборка hFi – статистическая модель hFθ i – параметрическая модель Xk∗ – k-я порядковая статистика νn (x) – эмпирическая частота Fn (x), Fn∗ (x) – эмпирическая функция распределения ak – выборочный начальный момент k-го порядка mk – выборочный центральный момент k-го порядка X – выборочное среднее S 2 – выборочная дисперсия 2 S – исправленная выборочная дисперсия KXY – выборочная ковариация rXY – выборочный коэффициент корреляции p → − – сходится по вероятности d → − – сходится по распределению п.н. −−→ – сходится почти наверное θ̂ – оценка θ Tθ – класс несмещенных оценок параметра θ Tτ (θ) – класс несмещенных оценок параметрической функции τ (θ) I – информационное количество Фишера L – функция правдоподобия о.м.п. – оценка максимального правдоподобия о.м.м. – оценка метода моментов о.н.к. – оценка методом наименьших квадратов E – экспоненциальное семейство Iθ – доверительный интервал параметра θ M (K) – мощность критерия НКО – наилучшая критическая область н.м.к. – наиболее мощный критерий р.н.м.к. – равномерно наиболее мощный критерий КОП – критерий отношения правдоподобия π(X) – рандомизированный статистический критерий J – начало решения I – конец решения – конец доказательства 4 Лекция 1. Введение в математическую статистику Я думаю, ничего нет прекраснее этой статистики. О. Генри План лекции: предмет математической статистики, статистические модели, вариационный ряд, эмпирическая функция распределения. 1.1. Предмет математической статистики Математическая статистика – это раздел математики, который занимается разработкой методов сбора, описания и анализа экспериментальных результатов наблюдений массовых случайных явлений. Фундаментальными понятиями математической статистики являются генеральная совокупность и выборка. Определения этих понятий дадим несколько позже, пока же будем понимать под генеральной совокупностью общую совокупность объектов, подлежащих изучению, а под выборкой – часть генеральной совокупности, которую можно реально изучать. Основная задача математической статистики состоит в том, чтобы на основе анализа выборки сделать научно обоснованное заключение о генеральной совокупности. Математическая статистика выделялась в отдельную науку постепенно. Уже в работах Бернулли1 и, позднее, Лапласа2 и Пуассона3 присутствовали идеи, которые легли в основу математической статистики. Первые работы собственно по математической статистике появились в XVIII веке. Они большей частью относились к описательной статистике и содержали данные о населении и армии. Но рассматриваемые в них вопросы страхования потребовали и разработки соответствующего математического аппарата. Одним из первых ученых - статистиков был бельгиец Адольф Кетле4 . Он занимался метеорологией и астрономией и впервые применил современные методы сбора данных. Френсис Гальтон5 , английский психолог и антрополог, разработал методы статистической обработки результатов исследований. Он, кстати, был родственником Чарльза Дарвина и изучал изменчивость видов и наследственность. Гальтон стал основоположником био1 Якоб Бернулли (нем. Jakob Bernoulli; 1654–1705) – швейцарский математик, выходец из Голландии. Пьер-Симон Лаплас (фр. Pierre-Simon Laplace; 1749–1827) – французский математик, физик и астроном. 3 Симео́н-Дени́ Пуассо́н (фр. Siméon-Denis Poisson; 1781–1840) – французский физик, математик. 4 Ламбер Адольф Кетле́ (фр. Lambert Adolphe Jacques Quetelet; 1796–1874) – бельгийский математик, астроном, метеоролог и статистик, один из создателей научной статистики. 5 Фрэнсис Гальтон (Голтон) (англ. Francis Galton; 1822–1911) – английский психолог и антрополог. В математике Гальтон разработал методы статистической обработки результатов исследований (в частности, метод исчисления корреляций между переменными); ввел коэффициент корреляции и понятие регрессии. 2 5 метрии (науки, применяющей статистические методы в биологии). Биологом был и англичанин Карл Пирсон6 , разработавший теорию корреляции. Параллельно велись работы математиками русской классической школы (П. Л. Чебышев7 , А. А. Марков8 , А. М. Ляпунов9 , С. Н. Бернштейн10 ). Они использовали другие подходы к разработке математической статистики, широко используя достижения теории вероятностей. Интерес к математической статистике быстро развивался, расширялась область применения, появлялись все новые и новые задачи, требующие новых методов решения. В XX веке в блестящих работах выдающегося математика Р. Фишера11 , а также в трудах Стьюдента12 , Э. Пирсона13 были выработаны основные принципы математической статистики. Большой вклад в это внесли глубокие и обширные исследования В. И. Гливенко14 и А. Н. Колмогорова15 . В 1946 году ректор Стокгольмского университета Крамер16 издал книгу «Математические методы статистики», в которой ему удалось объединить результаты трудов англо – американской и русской школ. Эта книга представляет собой изложение математической статистики на основе теории вероятностей. 6 Карл (Чарлз) Пи́рсон (англ. Karl (Charles) Pearson; 1857–1936) – английский математик, биолог, философ. Основные труды по математической статистике (кривые Пирсона, распределение Пирсона). Разрабатывал тесты математической статистики и критерии согласия, составлял таблицы значений функций, необходимых для применения математической статистики. 7 Пафнутий Львович Чебышев (1821–1894) – величайший, наряду с Н. И. Лобачевским, русский математик XIX века. Математическая школа П. Л. Чебышева, получившая название петербургской, сыграла выдающуюся роль в прогрессе математики не только в России, но и в мире. 8 Андрей Андреевич Марков (1856–1922) – русский математик. 9 Александр Михайлович Ляпунов (1857–1918) – русский механик и математик. А. М. Ляпунов доказал центральную предельную теорему (теорему Ляпунова) при значительно более общих условиях; ввел метод характеристических функций. 10 Сергей Натанович Бернштейн (1880–1968) – русский математик. В теории вероятностей он разработал первую по времени (1917) аксиоматику, продолжил и в некотором отношении завершил исследования петербургской школы Чебышева – Маркова по предельным теоремам, разработал теорию слабозависимых величин, исследовал стохастические дифференциальные уравнения и указал на ряд применений вероятностных методов в физике, статистике и биологии. 11 Роналд Эйлмер Фи́шер (англ. Ronald Aylmer Fisher; 1890–1962) – английский статистик и генетик, один из основателей математической статистики. 12 Стью́дент (англ. Student) – псевдоним Уильяма Сили Го́ссета (англ. William Sealy Gosset; 1876– 1937) – английский математик и статистик, один из основоположников теории статистических оценок и проверки гипотез. 13 Эгон Шарп Пи́рсон (англ. Egon Sharpe Pearson; 1895–1980) – английский математик. Основные труды по математической статистике. Один из основателей (совместно с Е. Нейманом) общей теории проверки статистических гипотез, занимался вопросами статистического контроля качества массовой продукции, большое внимание уделял составлению статистических таблиц. 14 Валерий Иванович Гливенко (1896–1940) – русский математик. 15 Андрей Николаевич Колмогоров (1903–1987) – великий русский математик XX века. 16 Карл Xapальд Краме́р (шв. Karl Harald Cramer; 1893–1985) – шведский математик. Основные труды по теории вероятностей, математической статистике, математической теории страхования. 6 1.2. Статистические модели Итак, математическая статистика базируется на понятиях и методах теории вероятностей. Как и всякая математическая теория, она развивается в рамках некоторых моделей, описывающих определенный круг явлений. В теории вероятностей математические модели случайных явлений основываются на понятии вероятностного пространства, состоящего из пространства элементарных событий Ω, системы событий F и вероятности P , заданной на событиях A ∈ F. При этом считается, что вероятность P полностью определена и задача заключается в нахождении вероятностей различных сложных событий для данной вероятностной модели (исходя из известных вероятностей более простых событий и правил вывода). В математической статистике же предполагается, что вероятность P в модели наблюдаемого случайного явления не известна полностью. Известно только, что P из некоторого заданного класса вероятностей P. Способы задания класса вероятностей P могут быть различными. Если задан класс P, то говорят, что задана статистическая модель. Таким образом, статистическая модель описывает ситуации, когда в вероятностной модели изучаемого эксперимента имеется неопределенность в задании вероятности P . Задача математической статистики – уменьшить эту неопределенность, используя информацию, извлеченную из наблюдаемых исходов эксперимента. Исходным материалом всякого статистического исследования является совокупность результатов наблюдений. В большинстве случаев исходные статистические данные X = (X1 , . . . , Xn ) – результат наблюдения некоторой конечной совокупности случайных величин, характеризующей исход изучаемого эксперимента. Предполагается, что эксперимент состоит в проведении n испытаний и результат i-го эксперимента описывается случайной величиной Xi , i = 1, . . . , n. Определение 1.1. Совокупность наблюдаемых случайных величин X = (X1 , . . . , Xn ) называется выборкой, сами величины Xi , i = 1, . . . , n, – элементами выборки, а их число n – ее объемом. Реализации выборки X будем обозначать строчными буквами x = (x1 , . . . , xn ). Пусть X = {x} – множество всех возможных значений выборки X, которое называется выборочным пространством. Это пространство может совпадать с евклидовым пространством Rn или быть его частью, либо состоять из конечного или счетного числа точек из Rn . Известно, что распределение вероятностей случайной величины полностью определяется ее 7 функцией распределения и поэтому обычно статистическую модель задают в виде hX , Fi, где F – семейство функций распределения, которому принадлежит неизвестная функция распределения выборки F (x1 , . . . , xn ) = P (X1 < x1 , . . . , Xn < xn ). Обычно рассматривают ситуации, когда компоненты выборки независимы и распределены так же, как некоторая случайная величина ξ с функцией распределения Fξ (x) = F (x). Мы рассматриваем в дальнейшем только такие модели экспериментов, в которых предполагается, что проводят повторные независимые наблюдения над случайной величиной ξ. Тогда функция распределения выборки полностью определяется функцией распределения F = Fξ (x) и FX1 ,...,Xn (x1 , . . . , xn ) = F (x1 ) · . . . · F (xn ). Определение 1.2. Множество возможных значений ξ с распределением F = Fξ (x) называется генеральной совокупностью, из которой производят случайную выборку. Таким образом, мы рассматриваем генеральную совокупность как случайную величину ξ, а выборку – как n-мерную случайную величину (X1 , . . . , Xn ), компоненты которой независимы и одинаково распределены (так же, как ξ). Такие выборки называются простыми, и в дальнейшем мы ограничимся их рассмотрением. Статистическую модель hX , Fi для повторных независимых наблюдений будем обозначать еще короче в виде hFi, то есть будем указывать только класс допустимых функций распределения исходной случайной величины (множество X в данном случае указывать нет необходимости, поскольку оно полностью определяется функцией F (x)). Если функции распределения из класса F заданы с точностью до значений параметра θ (не обязательно скалярного) с множеством возможных значений Θ, то такая модель обозначается hFθ i и называется параметрической. Если модель hFθ i такова, что можно дифференцировать по θ интегралы на X , меняя порядок дифференцирования и интегрирования, то она называется регулярной. Одно из наиболее существенных условий регулярности – то, что выборочное пространство X не должно зависеть от параметра θ. В табл. 1 приведены наиболее часто используемые параметрические статистические модели. 8 Таблица 1 Наиболее известные параметрические статистические модели Обозначение модели Функция плотности или распределение вероятности Нормальная θ1 N (θ, σ) R Нормальная θ2 N (a, θ) √1 e− 2σ2 σ 2π (x−a)2 √1 e− 2θ2 θ 2π N (θ1 , θ2 ) 1 √ e θ2 2π θ1 ∈ R; θ2 ∈ R+ Γθ,β R(0, θ) R(θ1 , θ2 ) θβ xβ−1 −θx e , Γ(β) 1 , 06x6 θ 1 , θ1 6 θ2 −θ1 Kθ B(N, θ) 1 π Наименование модели Общая нормальная Гамма Равномерная Общая равномерная Коши Биномиальная (x−θ)2 R+ (x−θ1 )2 − 2 2θ2 1 1+(x−θ)2 CNx θx (1 − Множество значений Θ x>0 θ x 6 θ2 · θ)N −x , x = R+ R+ −∞ < θ1 θ2 < +∞ R (0, 1) < 0, 1, . . . , N Пуассоновская Pθ θx e−θ x! R+ Первые семь моделей относятся к непрерывным, а две последние – к дискретным. Физическая природа перечисленных распределений рассматривалась в начале курса; подробнее о ней можно узнать из работ [11, 16, 33]. Заметим, что модели «Равномерная» и «Общая равномерная» не являются регулярными, так как выборочное пространство X зависит от параметра θ и (θ1 , θ2 ) соответственно. 1.3. Порядковые статистики и вариационный ряд выборки Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x = (x1 , . . . , xn ) – наблюдавшееся значение X (или реализация вектора X). Каждой реализации x выборки X можно поставить в соответствие упорядоченную последовательность x∗1 , x∗2 , . . . , x∗n , x∗1 6 x∗2 6 . . . 6 x∗n , (1) где x∗1 = min(x1 , x2 , . . . , xn ), x∗2 – второе по величине значение из (x1 , x2 , . . . , xn ), . . . , xn = max(x1 , x2 , . . . , xn ). Последовательность (1) называют вариационным рядом реализации. Если теперь через Xk∗ обозначить случайную величину, которая для каждой реализации x выборки X принимает значение x∗k , k = 1, . . . , n, из упорядоченной последовательности (1), то 9 Xk∗ называется k-й порядковой статистикой выборки, а X1∗ и Xn∗ – экстремальными значениями выборки. Очевидно, что порядковые статистики удовлетворяют неравенствам X1∗ 6 X2∗ 6 . . . 6 Xn∗ . (2) Последовательность (2) называют вариационным рядом выборки. Таким образом, порядковая статистика – случайная величина, порождаемая выборкой по правилу (1). Последовательность (1) представляет собой реализацию вариационного ряда (2). 1.4. Эмпирическая функция распределения Пусть X = (X1 , . . . , Xn ) – выборка из генеральной совокупности наблюдаемой случайной величины с функцией распределения Fξ (x). Поставим задачу построить по выборке некоторое приближение функции Fξ (x). Введем следующее определение. Определение 1.3. Эмпирической частотой νn (x), соответствующей выборке X, называется случайная функция от x, равная числу элементов выборки X = (X1 , . . . , Xn ), значения которых меньше x. Теорема 1.1. В модели hFξ i эмпирическая частота имеет биномиальное распределение B(n; Fξ (x)). Доказательство. Будем рассматривать испытание, успехом в котором считается осуществление события {ξ < x}. Число элементов выборки X = (X1 , . . . , Xn ), значения которых меньше x, равно числу успехов в n независимых испытаниях, связанных с n элементами выборки, то есть имеет биномиальное распределение. Первый параметр этого распределения равен числу испытаний, то есть числу элементов выборки n; второй параметр равен вероятности успеха в одном испытании, то есть вероятности попадания значений ξ в интервал (−∞, x), равной P(ξ < x) = Fξ (x). Таким образом, эмпирическая частота имеет биномиальное распределение B(n; Fξ (x)). Замечание 1.1. Величину νn (x) можно представить в виде суммы независимых случайных величин, имеющих распределение Бернулли B(1, Fξ (x)); каждое слагаемое при этом является индикатором I события {Xi < x}. Теорема 1.1 позволяет найти распределение k-й порядковой статистики Xk∗ . 10 Теорема 1.2. В модели hFξ i FXk∗ (x) = n X Cni Fξi (x)(1 − Fξ (x))n−i . i=k Доказательство. FXk∗ (x) = P(Xk∗ < x) = P(νn (x) > k) = = n X i=k P(νn (x) = i) = n X Cni Fξi (x)(1 − Fξ (x))n−i . i=k Эмпирическая частота равна абсолютному числу элементов выборки, меньших x. В качестве приближения функции распределения Fξ (x) целесообразно взять относительную частоту попадания случайных величин (X1 , . . . , Xn ) в интервал (−∞, x). Определение 1.4. Эмпирической функцией распределения Fn (x), соответствующей выборке X, называется случайная функция от x, вычисляемая по формуле νn Fn (x) = , (3) n где νn – число элементов выборки X = (X1 , . . . , Xn ), значения которых меньше x. Следовательно, эмпирическая функция распределения – сжатая характеристика выборки. Для каждой реализации x = (x1 , . . . , xn ) функция Fn (x) однозначно определена и обладает всеми свойствами функции распределения: изменяется от 0 до 1; не убывает; непрерывна слева; Fn (x) = 0 при x 6 x∗1 и Fn∗ (x) = 1 при x > x∗n . При этом она кусочно-постоянна и возрастает только в точках последовательности (2). Если все составляющие вектора x различны, то  0 при x 6 x∗1 ,  k Fn (x) = (4) при x∗k < x 6 x∗k+1 , k = 1, . . . , n − 1, n  ∗ 1 при x > xn . Заметим, что эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке x∗i равна 1/n. Если же элемент x∗i встречается m раз, то величина скачка равна m/n. График функции Fn (x) имеет вид, изображенный на рис. 1. 11 Fn (x) ... O x∗1x∗2x∗3 . . . x∗n X Рис. 1. Эмпирическая функция распределения Эмпирическая функция распределения обладает важным свойством: при увеличении числа испытаний над случайной величиной ξ (увеличении объема выборки X ) она сближается с теоретической функцией F (x), то есть ее можно считать статистическим аналогом для F (x). Это показывают следующие свойства. 1. E Fn (x) = Fξ (x). = E νnn (x) , но νn (x) имеет биДоказательство. E Fn (x) = E номиальное распределение B(n; Fξ (x)) с математическим ожиданием nF (x) nFξ (x). Поэтому E Fn (x) = E νnn (x) = nξ = Fξ (x). 2. D Fn (x) = νn (x) n Fξ (x)(1 − Fξ (x)) . n νn (x) n Доказательство. Аналогично D Fn (x) = D = D νnn2(x) , но νn (x) имеет биномиальное распределение B(n; Fξ (x)) с дисперсиnFξ (x)(1−Fξ (x)) = ей nFξ (x)(1 − Fξ (x)), и D Fn (x) = D νnn2(x) = n2 Fξ (x)(1 − Fξ (x)) . n p √ 3. n(Fn (x) − Fξ (x)) ∼ N 0; Fξ (x)(1 − Fξ (x)) . Доказательство. Асимптотическая нормальность следует из ЦПТ, так как величину nFn (x) = νn (x) можно представить в виде суммы независимых случайных величин, имеющих распределение Бернулли B(1, Fξ (x)) (каждое слагаемое при этом является индикатором I события {Xi < x}). По ЦПТ для суммы одинаково распределенных незавиd n(F (x)−Fξ (x)) симых случайных величин справедливо: √ n → − u ∈ N (0, 1). nFξ (x)(1−Fξ (x)) √ d n(F (x)−Fξ (x)) Отсюда следует, что √ n → − u ∈ N (0, 1), что и означает Fξ (x)(1−Fξ (x)) асимптотическую нормальность. 12 p 4. Fn (x) → − Fξ (x). Доказательство. Это следует, например, из ЗБЧ в форме Бернулли, так как эмпирическая функция распределения Fn (x) – это частота события {X < x}, а Fξ (x) – вероятность этого события. Можно также сослаться на свойство среднего арифметического n независимых слагаемых, имеющих распределение Бернулли (ЗБЧ в форме Хинчина). п.н. 5. Fn (x) −−→ Fξ (x). Доказательство. Следует из выполнимости УЗБЧ в форме Бореля. Рассмотрим еще несколько важных свойств эмпирической функции распределения. Справедливы следующие теоремы [1, 2, 24]. Теорема 1.3 (теорема Гливенко). Пусть Fn (x) – эмпирическая функция распределения, построенная по выборке X = (X1 , . . . , Xn ) из распределения Fξ , и F (x) – соответствующая теоретическая функция распределения. Тогда для любого −∞ < x < ∞ P( lim Dn = 0) = 1, n→∞ (5) где Dn = Dn (x) = sup −∞<x<∞ |Fn (x) − F (x)|. (6) Приведем еще две предельные теоремы для эмпирической функции распределения, имеющие важное значение для проверки различных предположений (гипотез) о выборках. Теорема 1.4 (теорема Колмогорова). Если функция F (x) непрерывна, то при любом фиксированном t > 0 ∞ X √ 2 2 lim P(| nDn < t|) = K(t) = (−1)j e−2j t , n→∞ (7) j=−∞ Функция K(t) называется функцией Колмогорова, и ее можно с хорошим приближением использовать для практических расчетов уже при объеме выборки, равном или большим 20. Заметим, что теорема справедлива для любой непрерывной функции распределения и позволяет найти границы, в которых с заданной вероятностью 0 < α < 1 находится теоретическая функция F (x) (она в нашей статистической модели неизвестна). Если задана вероятность α, то при больших n с вероятностью, близкой к α, функция F (x) удовлетворяет неравенству tα |Fn (x) − F (x)| 6 √ , (8) n 13 где величина tα вычисляется как корень уравнения K(t) = α с помощью таблиц для функции K(t). Обоснование данного неравенства можно найти в [24]. Теорема 1.5 (теорема Смирнова). Пусть Fn (x) и Fm (x) – две эмпирические функции распределения, построенные на основе двух независимых выборок объемов n и m из одного и того же распределения Fξ , и Dn,m = sup |Fn (x) − Fm (x)|. (9) −∞<x<∞ Тогда если теоретическая функция F (x) непрерывна, то для любого фиксированного t > 0 p (10) lim P( nm/(n + m) Dn,m 6 t) = K(t), n,m→∞ где функция K(t) определена равенством (7). Эта теорема позволяет ответить на важный практический вопрос, можно ли считать, что две выборки получены из одного и того же распределения. Замечание 1.2. Поскольку эмпирическая функция распределения близка к теоретической, выборочные характеристики (выборочное среднее, выборочная дисперсия и другие) можно рассматривать как обычные характеристики (математическое ожидание, дисперсия и другие) случайной величины, принимающей значения X1 , . . . , Xn 1 с равными вероятностями . Таким образом, простую выборку n можно рассматривать не только как n-мерную случайную величину (X1 , . . . , Xn ), но и как одномерную дискретную величину: X X1 X2 . . . Xn . P 1/n 1/n . . . 1/n 1.5. Контрольные вопросы 1. Какая статистическая модель применима для выборки, полученной следующим образом: 10 раз подсчитывалось число гербов при бросании трех монет? 2. Какая статистическая модель применима для выборки действующих цен на литр молока в 50 различных магазинах г. Красноярска? 14 3. Дайте определение параметрической модели. 4. Является ли модель N (a, θ) параметрической? 5. Дайте определение регулярной модели. 6. Является ли модель R[θ, b] регулярной? 7. Дайте определение вариационного ряда реализации. 8. Дайте определение вариационного ряда выборки. 9. Можно ли восстановить по вариационному ряду выборку? 10. Дайте определение эмпирической функции распределения. 11. Какими свойствами обладает эмпирическая функция распределения? 12. Можно ли восстановить по эмпирической функции распределения вариационный ряд? 13. Верно ли, что все элементы простой выборки одинаково распределены? 14. Верно ли, что все элементы вариационного ряда одинаково распределены? 15 Лекция 2. Основные выборочные характеристики Дело не в числах, а в том, что вы с ними делаете. К. Мэндервилл План лекции: выборочные моменты, соответствие выборочных и теоретических характеристик, свойства X и S 2 , другие характеристики выборки, сходимость выборочных моментов. 2.1. Выборочные моменты и функции от выборочных моментов Пусть X = (X1 , . . . , Xn ) – выборка объема n из распределения F и x = (x1 , . . . , xn ) – наблюдавшееся значение X. Любая функция от X представляет собой также случайную величину с распределением, однозначно определяемым распределением вектора X. В теории вероятностей введены определения различных моментов случайной величины. Так, начальным моментом порядка k случайной величины ξ называется число αk = E(ξ)k , (11) а центральным моментом порядка k случайной величины ξ называется число µk = E(ξ − E ξ)k . (12) Введем общее обозначение для моментов: E g(ξ) (g(ξ) = (ξ)k для начальных моментов и (ξ − E ξ)k для центральных моментов k-го порядка). Каждому теоретическому моменту g(ξ) можно поставить в соответствие его статистический аналог G = G(X), вычисляемый по формуле n 1X G(X) = g(Xi ). n i=1 Случайную величину G называют эмпирической или выборочной характеристикой, соответствующей теоретической характеристике g. Если g(ξ) = ξ k , то G – выборочный начальный момент k-го порядка, который будем обозначать ak . Определение 2.1. Выборочным начальным моментом k-го порядка называют случайную величину n 1X k ak = X . n i=1 i 16 (13) Определение 2.2. Если k = 1, то величину a1 называют выборочным средним и обозначают символом X, n 1X X= Xi . n i=1 Значения случайной величины X при конкретной реализации x выборки X будем обозначать строчной буквой (x). Напомним, что теоретические моменты случайной величины ξ обозначают греческими буквами, а соответствующие им выборочные – латинскими. Определение 2.3. Выборочным центральным моментом k-го порядка называют случайную величину n 1X (Xi − X)k . mk = n i=1 (14) Определение 2.4. При k = 2 величину m2 называют выборочной дисперсией и обозначают S 2 : n 1X S = (Xi − X)2 . n i=1 2 Выборочная дисперсия характеризует разброс значений. Определение 2.5. Выборочным среднеквадратическим отклонением называют случайную величину v u n √ u1 X 2 S= S =t (Xi − X)2 . n i=1 Среднеквадратическое отклонение – линейная мера разброса выборочных значений. При рассмотрении свойств плотности распределения непрерывных величин вводили такие характеристики, как коэффициенты асимметрии A и эксцесса E. Если график плотности распределения симметричен, то A = 0. По значению A судят о степени отклонения от симметрии, по знаку A – о правосторонней (A > 0) или левосторонней (A < 0) асимметрии. Для нормального распределения E = 0, и поэтому о кривых плотности с E = 0 говорят, что у них нормальный эксцесс. Если E > 0 (E < 0), то эксцесс кривой положительный, то есть кривая плотности островершинна (отрицательный, то есть кривая плотности плосковершинна). 17 Пусть задана выборка X из распределения непрерывной случайной величины ξ. Тогда для нее можно определить выборочные коэффициенты b и эксцесса E b по следующим формулам. асимметрии A Определение 2.6. Выборочным коэффициентом асимметрии называется величина b = m3 . A (15) S3 Определение 2.7. Выборочным коэффициентом эксцесса называется величина b = m4 − 3. E (16) S4 Аналогично можно ввести и другие характеристики, например, абсолютные моменты. Необходимо помнить, что выборочные характеристики вводятся соответственно теоретическим характеристикам случайной величины (табл. 2). Таблица 2 Соответствие выборочных и теоретических характеристик Теоретические характеристики a = Eξ математическое ожидание σ2 = D ξ дисперсия αk = E ξ k начальный k-й момент µk = E(ξ − E ξ)k центральный k-й момент A = σµ33 коэффициент асимметрии E = σµ44 − 3 коэффициент эксцесса Выборочные характеристики P X = n1 ni=1 Xi выборочное среднее P S 2 = n1 ni=1 (Xi − X)2 выборочная дисперсия P ak = n1 ni=1 Xik начальный выборочный k-й момент P mk = n1 ni=1 (Xi − X)k центральный выборочный k-й момент b = m33 A S выборочный коэффициент асимметрии b = m44 − 3 E S выборочный коэффициент эксцесса 2.2. Свойства выборочного среднего X и S 2 Выборочные характеристики являются случайными величинами, и поэтому можно говорить о их распределениях (выборочных распределениях) и изучать различные характеристики этих распределений. 18 Будем считать, что выборка взята из совокупности с математическим ожиданием E ξ = a и дисперсией D ξ = σ 2 ; тогда E Xi = a, D Xi = σ 2 для любого элемента выборки Xi , при этом случайные величины Xi независимы. n 1P Свойства X = Xi . n i=1 1. E X = a. Доказательство. P E X = E( n1 Xi ) = 1 n P E Xi = 1 n P a= na = a. n σ2 . n Доказательство. 2. D X = Поскольку Xi независимы и распределены так же, как случайная величина ξ, то 1X 1 2 σ2 D X = D( Xi ) = 2 nσ = . n n n p 3. X → − a. Доказательство. n P p 1 − a, по ЗБЧ в форме Хинчина. Xi → n i=1 п.н. 4. X −−→ a. Доказательство. 5. √ (X−a) n σ 1 n n P p Xi → − a, по критерию УЗБЧ Колмогорова. i=1 ∼ N (0, 1). Доказательство. Согласно обозначениям ξ ∼ N (a, σ) X −a √ = σ/ n 1 n n P n P i=1 i=1 Xi − a √ = σ/ n ξ−a d − σ → u ∈ N (0, 1), Xi − na d √ → − u ∈ N (0, 1), по ЦПТ. σ/ n Рассмотрим свойства выборочной дисперсии S 2 . 19 1. 2 2 SX+c = SX . Доказательство. 1X (Xi + c − X + c)2 = [X + c = n 1X 1X 1X 1X 2 (Xi +c) = Xi + c = X +c] = (Xi −X)2 = SX = . n n n n 2 SX+c = 2. 2 2 SkX = k 2 SX . Доказывается аналогично. 3. S2 = 1X 2 Xi − (X)2 . n Доказательство. 1 X 2 2X X 1X 2 2 2 (Xi − 2XXi + X ) = Xi − Xi + X = S = n n n 1X 2 1X 2 2 2 2 = Xi − 2X + X = Xi − X . n n 2 4. S 2 = min c Доказательство. X X (Xi − c)2 = 1X (Xi − c)2 . n X 2 (Xi − X + X − c)2 = 2 (Xi − X) + n(X − c) + 2(X − c) X (Xi − X), P X X X Xi (Xi − X) = Xi − nX = Xi − n = 0, n 1X 1X (Xi − c)2 = (Xi − X)2 + (X − c)2 = S 2 + (X − c)2 > S 2 . n n 20 5. (n − 1)µ2 . (17) n Доказательство. Сделаем сдвиг величины X на E X (что не изменяет 2 дисперсии); тогда D X = E X 2 и D X = E X . 2 1 X 2 1X 2 2 S = Xi − X = Xi − X . n n 1 X σ2 n−1 2 2 2 2 2 ES = = ·σ . E Xi − E(X ) = D X − D X = σ − n n n E S2 = 6. (n − 1)2 2 DS = n3 (n − 3) 2 µ . µ4 − n−1 2 (18) Доказательство. По-прежнему будем делать сдвиг величины X на E X; тогда все центральные моменты нечетных порядков равны 0. По свойствам выборочной дисперсии 2 1 X 2 1X 2 2 Xi − X = S = Xi − nX , n n E S 2 = µ2 − nµ2 n−1 = µ2 . 2 n n Таким образом, 1 X 2 2 2 2 DS = 2 E Xi − nX − n n−1 n 2 µ22 . (19) Обозначим X X 2 X 2 2 2 4 J =E Xi2 − nX =E Xi2 − 2nX Xi2 + n2 X = (20) = E1 + E2 + E3 . 1) E1 = E X Xi2 2 =E X Xi4 + X i,j i6=j 21 Xi2 Xj2 = nµ4 + n(n − 1)µ22 . 2) E2 = −2n E X 2X Xi2 X X 2 2n =− 2E Xi Xi2 = n 2 2 X 2 2 Xi = − nµ4 + n(n − 1)µ22 . =− E n n 3) 4 E3 = n2 E X = n2 E P Xi 4 n4 1 = 2 n X X 1 = 2E Xi4 + C42 Xi2 Xj2 = n i<j 6n(n − 1) 2 nµ4 + µ2 . 2 Подставим найденные значения в (21). J = nµ4 + n(n − 1)µ22 − 2µ4 − 2(n − 1)µ22 + µ4 3(n − 1) 2 + µ2 . n n (21) Подставляя (21) в (19), окончательно находим: 2 (n − 1) J µ22 = D S2 = 2 − n n 2(n − 1) 2 µ4 n − 1 2 2 µ2 + + µ2 − 2 µ4 − = n n n n2 2 2 1 2 µ4 3(n − 1) 2 2 µ − µ + µ − µ = + 3+ 2 2 2 n n3 n n2 2 µ4 − µ22 2(µ4 − 2µ22 ) µ4 − 3µ22 (n − 1)2 (n − 3) 2 = − + = µ4 − µ . n n2 n3 n3 n−1 2 (22) Таким образом, 1 D S2 = O . n Следствие. Отсюда легко получить дисперсию S 2 для нормального распределения N (a, σ) : D S2 = 3σ 4 − σ 4 2(3σ 4 − 2σ 4 ) 3σ 4 − 3σ 4 2σ 4 2σ 4 − + = − 2 = n n2 n3 n n 2σ 4 (n − 1) 2(n − 1) 4 = = σ . n2 n2 22 Мы использовали найденные ранее значения моментов нормального распределения: µ2 = σ 2 , µ4 = 3σ 4 , (общая формула: µ2k = (2k − 1)!! · σ 2k ). Часто используется также дисперсия исправленной выборочной дисперсии. Найдем ее: n2 2 2 DS = D S = σ4. 2 (n − 1) n−1 2 (23) 2.3. Другие характеристики выборки Определение 2.8. Выборочной модой называется значение mo , чаще всего наблюдающееся: ni (m0 ) = max ni . i Определение 2.9. Выборочной медианой называется значение me , равное среднему члену вариационного ряда: me = X[∗n ]+1 . 2 Определение 2.10. Выборочной квантилью порядка q, 0 < q < 1 называется значение Xq , равное члену вариационного ряда с номером [nq] + 1. Вычисление выборочных характеристик связи между величинами X и Y . Выборочная ковариация KXY : P KXY = XY − X · Y , где XY = n1 ni=1 Xi Yi . Выборочный коэффициент корреляции rXY : r= KXY . sX sY Выборочное уравнение линейной регрессии Y на X: sY Ŷ − Y = r (X − X). sX Выборочное уравнение линейной регрессии X на Y : sX X̂ − X = r (Y − Y ). sY 23 2.4. Сходимость выборочных моментов и функций от них Для практических приложений важное значение имеет вопрос о поведении выборочных характеристик при возрастании объема выборки n. По аналогии с эмпирической функцией распределения можно ожидать, что при неограниченном возрастании n выборочные моменты будут сходиться по вероятности к соответствующим теоретическим моментам. Действительно, пусть случайная величина ξ имеет все моменты αk . Соответствующие им выборочные моменты обозначим ank , чтобы подчеркнуть зависимость от n. Все ank представляют собой случайные величины и при фиксированном k для каждого n имеют одинаковые математические ожидания αk и дисперсии α2k −αk2 . Это следует из соотношений n n E ank 1X = E Xik = E ξ k = αk ; n i=1 (24) n D ank 1X 1 E ξ 2k − (E ξ k )2 α2k − αk2 k k = D Xi = D ξ = = . n i=1 n n n (25) Но тогда из закона больших чисел вытекает, что ank сходится по вероятности к αk при n → ∞. Поэтому выборочные моменты ank можно использовать в качестве приближенных значений для соответствующих теоретических моментов. Аналогичное утверждение справедливо вообще для любых непрерывных функций от конечного числа величин. Напомним формулировку соответствующей теоремы. Теорема 2.1. Пусть ϕ(x1 , . . . , xm ) — непрерывная функция. Тогда, если последовательность {ξkn } сходится по вероятности к ξk , то и последовательность {ϕ(ξ1n , . . . , ξmn )} сходится по вероятности к ϕ(ξ1 , . . . , ξm ): p p ξkn → ξk ⇒ ϕ(ξ1n , . . . , ξmn ) → ϕ(ξ1 , . . . , ξm ). (26) Теорема 2.1 имеет важное значение, поскольку из нее следует, в частности, что любые центральные выборочные моменты, коэффициенты асимметрии и эксцесса при неограниченном увеличении объема выборки сходятся по вероятности к соответствующим теоретическим характеристикам. Действительно, из (14), используя бином Ньютона, можно получить mk = k X l (−1)l Ckl X ak−l , l=0 24 (27) то есть любой центральный выборочный момент можно представить в виде непрерывной функции от выборочных моментов, которые сходятся по вероятности к теоретическим моментам. С другой стороны, центральные теоретические моменты выражаются через теоретические моменты также по аналогичной (27) формуле: k µk = E(ξ − E ξ) = k X (−1)k−l Ckl α1l αk−l . (28) l=0 Таким образом, все условия теоремы 2.1 выполняются. Аналогичные рассуждения справедливы для коэффициентов асимметрии и эксцесса. До сих пор мы рассматривали сходимость выборочных характеристик к соответствующим теоретическим. Однако важное значение имеет и вопрос о поведении распределений выборочных характеристик для больших выборок. Легко видеть, что каждый выборочный момент ak представляет собой сумму n независимых и одинаково распределенных случайных величин, и поэтому к нему можно применить центральную предельную теорему. В этой связи приведем теорему. Теорема 2.2. Распределение выборочного момента ak при n → ∞ сходится к нормальному распределению. Теорема 2.2 означает, что выборочное распределение случайной величины ak при n → ∞ является приближенно нормальным. Последнее обстоятельство позволяет при больших выборках оценить вероятность, с которой значения выборочного момента отклонятся от теоретического на величину, не большую ε. Правда, при этом необходимы значения теоретических моментов. Действительно, для любого ε > 0 при n → ∞ вероятность события r n P |ak − αk | < ε → 2Φ(ε) − 1, α2k − αk2 где Φ(t) – функция распределения закона N (0, 1). Следовательно, вероятность события r n |ak − αk | < ε α2k − αk2 при больших n примерно равна 2Φ(ε)−1. Для центральных выборочных моментов mk при n → ∞ также справедливо утверждение о сходимости их выборочных распределений к нормальному (доказательство этого утверждения можно найти в работе [35]). Например, распределениеp выборочной дис2 персии Sn сходится к нормальному распределению N (µ2 , (µ4 − µ2 2 )/n). 25 2.5. Контрольные вопросы 1. Дайте определение выборочного среднего. 2. Докажите, что в любом распределении E X = E ξ. σ2 . n 4. Приведите формулу для вычисления выборочного среднего по статистическому ряду. 3. Докажите, что D X = 5. Приведите формулу для вычисления выборочной дисперсии по статистическому ряду. 6. Укажите два различных способа найти выборочную дисперсии по вариационному ряду. 7. Как изменятся выборочные дисперсия и среднее квадратическое отклонение, если прибавить к каждому элементу выборки постоянную c? 8. Как изменятся выборочные дисперсия и среднее квадратическое отклонение, если умножить каждый элемент выборки на постоянную c? 9. Что характеризует выборочный коэффициент асимметрии? 10. Выразите выборочный центральный момент 3-го порядка через выборочные начальные моменты. 11. Как называется средний член вариационного ряда? 12. Квантилью какого порядка является медиана? 13. Каково асимптотическое распределение выборочного среднего в модели Пуассона hPλ i? 14. Каково точное распределение выборочного среднего в модели Пуассона hPλ i? 26 Лекция 3. Группировка выборки Единица – ноль, единица – вздор, голос единицы – тоньше писка. В. Маяковский План лекции: группировка выборки, гистограмма и полигон частот, пример группировки выборки, поправки Шеппарда. 3.1. Гистограмма и полигон частот Кроме эмпирической функции распределения существуют и другие способы наглядного представления и сжатия статистических данных. Одним из таких способов является построение гистограммы. Пусть нам дана реализация (x1 , . . . , xn ) выборки X из Fξ . Интервал [x∗1 , x∗n ] разбивают на подынтервалы [a0 , a1 ], [a1 , a2 ], . . . , [ak−1 , ak ], где a0 = x∗1 , ak = x∗n . Затем подсчитывают число nj координат реализации (элементов выборки), попавших в каждый подынтервал [aj−1 , aj ], j = 1, . . . , k, то есть подсчитывают частоту попадания статистических данных в каждый подынтервал. Иначе говоря, данные группируют. На каждом подынтервале, n как на основании, строят прямоугольники площади nj , для чего берут высоn ту прямоугольника равную nhjj , где hj – длина j-го подынтервала (на практике обычно длину каждого подынтервала полагают равной h). Полученную при этом фигуру называют гистограммой (рис. 2). Y O X Рис. 2. Гистограмма и полигон частот Поскольку площадь каждого прямоугольника есть не что иное, как относительная частота попадания выборочных значений в соответствую27 щий интервал, то по теореме Бернулли она будет сходиться по вероятности при n → ∞ к вероятности попадания значения случайной величины ξ в соответствующий интервал. Если случайная величина ξ непрерывная и f (x) ее плотность, то огибающая (верхняя граница) гистограммы является статистическим аналогом для теоретической плотности f (x). В методе гистограмм неизвестная плотность распределения приближается кусочно-постоянными функциями. Но точность приближения можно улучшить, если применить кусочно-линейные функции. Для этой цели строят полигон частот. Полигон частот – это ломаная линия, проходящая через середины верхних границ прямоугольников гистограммы. Построенная таким образом кусочно-линейная функция также является статистическим аналогом теоретической плотности (рис. 2). Можно Pi−1 построить также кумуляту – ломаную с вершинами в точках 1 (ai ; n j=1 nj ). Кумулята дает представление о графике функции распределения, а гистограмма и полигон – о графике плотности распределения. Еще раз отметим, что интерпретация графических характеристик как статистических аналогов вероятностных характеристик имеет смысл и обоснование только для выборки X из непрерывного распределения F . 3.2. Пример группировки выборки Рассмотрим на примере, как сгруппировать выборку, состоящую из 1000 элементов. Пусть для определенности минимальный элемент выборки равняется xmin = 0, 01, а максимальный xmax = 10, 65. Определим сначала число интервалов k. Рекомендуется брать k такое, k−1 что 2 ∼ n. В данном примере n = 1000. 210 = 1024 ∼ 1000; k − 1 = 10, k = 11. Выберем число интервалов k = 11. 2. Определим длину интервала h: xmax − xmin h= . k Находим 10, 65 − 0, 01 h= ≈ 0, 967. 11 3. Найдем границы интервалов группировки x0 = xmin , xi = x0 + hi, i = 1, ..., k и составим таблицу группировки. Внесем границы интервалов в столбец «Интервал». Подсчитаем, сколько элементов выборки попало в каждый интервал и заполним в таблице столбец «Численность ni ». 28 Остальные столбцы рассчитываются по столбцу численностей. Они пригодятся при построении графических характеристик. ni n № Интервал Численность ni 1 0, 01 − 0, 98 2 0, 98 − 1, 94 3 1, 94 − 2, 91 4 2, 91 − 3, 88 5 3, 88 − 4, 85 6 4, 85 − 5, 81 7 5, 81 − 6, 78 8 6, 78 − 7, 75 9 7, 75 − 8, 72 10 8, 72 − 9, 68 11 9, 68 − 10, 65 ni nh nj 1 n Pi Ниже показана заполненная таблица. Обратите внимание, что сумма элементов столбца «Численность ni » должна равняться n, а сумма элементов столбца « nni » должна равняться 1. № 1 2 3 4 5 6 7 8 9 10 11 Интервал Численность ni 0, 00 − 0, 09 80 0, 09 − 0, 18 81 0, 18 − 0, 27 93 0, 27 − 0, 36 85 0, 36 − 0, 45 87 0, 45 − 0, 54 87 0, 54 − 0, 63 87 0, 63 − 0, 72 106 0, 72 − 0, 81 99 0, 81 − 0, 90 89 0, 90 − 0, 99 106 29 ni n ni nh 0,080 0,081 0,093 0,085 0,087 0,087 0,087 0,106 0,099 0,089 0,106 0,007 0,007 0,008 0,008 0,008 0,008 0,008 0,010 0,009 0,008 0,010 nj 1 n Pi 0,080 0,161 0,254 0,339 0,426 0,513 0,600 0,706 0,805 0,894 1,000 3.3. Поправки Шеппарда Выборочные моменты можно приближенно найти по формулам k 1X X≈ X i ni , n i=1 k P 1X ms ≈ (X i − X)s ni , в частности s2 = n1 k1 (X i − X)2 ni , где суммиn 1 k 1X s as ≈ X i ni , n 1 рование ведется по всем интервалам. Попробуем оценить погрешность при использовании этих приближенных формул. Будем считать, что интервалы охватывают всю числовую ось (ni могут быть равными 0). Пусть δ – случайная точка из отрезка [0, h], примем ее за середину некоторого интервала, тогда границы этого интервала будут δ − h/2, δ + h/2; а границы i-го интервала вправо от δ: δ + (i − 1/2)h, δ + (i + 1/2)h. Эти границы – случайные величины, как функции δ. Середины интервалов имеют координаты: X i = δ + ih. ∞ 1 X Имеем ãs = ni (δ + ih)s . Выражение в правой части имеет два n i=−∞ источника случайности: ni и δ. Найдем E ãs : 1 E ãs = h = 1 h Z dδ 0 h dδ 0 ∞ X h Z E n i n −∞ (δ + ih)s /δ = δ+(i+1/2)h Z ∞ X f (x) dx · (δ + ih)s = −∞ 1 h Z h dδ 0 ∞ X −∞ δ+(i−1/2)h δ+(i+1/2)h Z (δ + ih)s f (x) dx. δ+(i−1/2)h Пусть δ + ih = y, тогда E ãs = 1 h = ∞ X −∞ 1 h h h y+ 2 y+ 2 Z Z∞ Z 1 y s dy f (x) dx = y s dy f (x) dx = h (i+1)h Z ih Z∞ −∞ −∞ y− h2 h y− h2 x+ 2 Z Z∞ (x + h2 )s+1 − (x − h2 )s+1 1 s f (x) dx y dy == · f (x) dx. h s+1 x− h2 −∞ 30 Вычислим E ã1 : E ã1 = 1 h Z∞ Z∞ (x + h2 )2 − (x − h2 )2 · f (x) dx = 2 −∞ xf (x) dx = E ξ = a. −∞ Таким образом, оценка является точной. Далее 1 E ã2 = h (x + h2 )3 − (x − h2 )3 · f (x) dx = 3 −∞ ∞ Z 3 2 x + 3x2 h2 + 3x h4 + 1 = h 1 = h Z∞ −∞ Z∞ 3x2 h + 3 h3 4 h3 8 2 − (x3 − 3x2 h2 + 3x h4 − 3 Z∞ · f (x) dx = −∞ h2 x2 f (x) dx + 12 −∞ h3 8) · f (x) dx = Z∞ f (x) dx = a2 + h2 . 12 −∞ Получили более точную оценку для ã2 : k 1X 2 h2 a2 = x̄ ni − . n i=1 i 12 ≈ Выпишем еще некоторые формулы: ≈ a3 = k 1X 3 h2 X x̄ ni − x̄i ni , n i=1 i 4n m1 ≡ 0, k h2 1X 2 m2 = (x̄i − x̄) ni − , n i=1 12 ≈ 2 (поправка равна − h12 ) k 1X m3 = (x̄i − x̄)3 ni , n i=1 ≈ k (поправки нет) k 1X h2 X 7h4 4 2 m4 = (x̄i − x̄) ni − (x̄i − x̄) ni + . n i=1 2 i=1 240 ≈ Применяются также интерполяционные формулы для нахождения выборочных медианы, квантилей и моды по группированной выборке. 31 Медианным называется интервал, в котором накопленная сумма частот впервые достигает 21 . Выборочной группированной медианой называется значение m∗e : m∗e = xe + h · n/2 − (n1 + . . . + nme −1 ) , nme где n – объем выборки, h – длина интервала группировки, xe – левая граница медианного интервала, ni – численность i-го интервала, nme – численность медианного интервала. Квантильным порядка q интервалом называется интервал, в котором сумма накопленных частот впервые достигает значения q. Выборочной группированной квантилью называется значение Xq∗ : Xq∗ = X(q) + h · nq − (n1 + · · · + n(q)−1 ) , n(q) где X(q) – левая граница квантильного интервала, n(q) – численность квантильного интервала, n1 , · · · , n(q)−1 – численности интервалов, предшествующих квантильному. Модальным называется интервал, имеющий наибольшую численность. Выборочной группированной модой называется значение m∗0 : m∗0 = x0 + h · nm0 − nm0 −1 , 2nm0 − nm0 −1 − nm0 +1 где x0 – левая граница модального интервала, nm0 – численность модального интервала, nm0 −1, , nm0 +1 – численности интервалов слева и справа от модального. Пример 3.1. Дан группированный статистический ряд величины Х: X 1 − 5 5 − 9 9 − 13 13 − 17 ni 2 8 9 1 Найти приближенно квантиль порядка 0, 4. J Квантильным интервалом является второй, так как в этом интервале сумма накопленных частот впервые достигает значения 0, 4. Его левая граница X0,4 = 5. 20 · 0, 4 − 2 ∗ X0,4 =5+4· = 8. 8 I 32 3.4. Контрольные вопросы 1. Каким образом при группировке выборки можно найти оптимальное число интервалов? 2. Каким образом при группировке выборки рассчитывается длина интервала? 3. Какие графические характеристики выборки дают представление о графике плотности? 4. Какие графические характеристики выборки дают представление о графике функции распределения? 5. Чему равняется площадь под гистограммой частот? 6. Можно ли восстановить по гистограмме относительных частот вариационный ряд? 7. Можно ли восстановить по гистограмме частот группированный ряд? 8. Дайте определение медианного интервала. 9. Дайте определение модального интервала. 10. Дайте определение квантильного интервала порядка 0,3. 11. Что уточняют поправки Шеппарда? 12. Чему равна поправка Шеппарда для группированного первого начального момента? 13. Чему равна поправка Шеппарда для группированного второго начального момента? 14. Как изменится поправка Шеппарда для группированного второго начального момента при увеличении длины интервала группировки? 33 Лекция 4. Важные распределения математической статистики Мы встретимся еще с одним значением слова «статистика» – так называют функцию от элементов выборки из некоторой генеральной совокупности. М. Кендалл, А. Стюарт «Теория распределений» План лекции: распределение хи-квадрат, распределение Стьюдента, распределение Фишера, теорема Фишера, теоремы о распределении выборочных характеристик. Рассмотрим некоторые функции от выборки X = (X1 , . . . , Xn ) из нормального распределения, которые играют важную роль в математической статистике. Для данных функций (статистик) удается получить в явном виде их функции распределения и плотности вероятностей. Вообще говоря, задача о распределении вероятностей для случайной функции от выборки X = (X1 , . . . , Xn ) в конечном виде решается крайне редко и функции от выборки из нормального распределения составляют приятное исключение. Нормальное распределение часто используют в прикладных исследованиях при построении математической модели изучаемого явления. Теоретическим обоснованием данного факта может служить центральная предельная теорема. Любую характеристику изучаемого явления, которая представима в виде суммы значительного числа случайных одинаково распределенных факторов, можно приблизительно считать случайной величиной с нормальным законом распределения. О роли нормального распределения в статистике хорошо и подробно написано в работах [16, 33]. Прежде чем рассматривать распределения функций от выборки из нормальной генеральной совокупности, введем определения распределений для трех специальных функций от нормальных случайных величин. 4.1. Распределения хи-квадрат, Стьюдента, Фишера 1. Распределение хи-квадрат (χ2 ). Среди гамма-распределений Γα,β выделяют особый класс, который часто используют в статистических исследованиях. Определение 4.1. Гамма-распределение с параметрами α = 21 , β = n2 называется распределением хи-квадрат с n степенями свободы и обозначается χ2n . Соответствующая случайная величина обозначается тем же символом χ2n , а ее плотность имеет вид n x 2 −1 − x fχ2 (x) = n n e 2 , x > 0. (29) 2 2 Γ( 2 ) 34 На рис. 3 изображены графики плотности распределения хи-квадрат при некоторых значениях n. fχ2n (x) O X Рис. 3. Плотность распределения χ2n при разных значениях параметра n При увеличении числа степеней свободы график плотности становится все ближе к симметричному. Свойства распределения хи-квадрат 1. Характеристическая функция ϕχ2n (t) = (1 − 2it)−n/2 . Доказательство. Для гамма-распределения Γα, β с функцией плотности αβ −αx β−1 fξ (x) = e x при x > 0, Γ (β) где Γ(β) – гамма-функция, определяемая для всех β > 0 соотношением Z∞ Γ(β) = tβ−1 e−t dt, 0 характеристическая функция, как известно, равна ϕξ (t) = Подставляя значения параметров α = 12 , β = n2 , получим ϕξ (t) = 1 1 − 2it n/2 β α α−it . = (1 − 2it)−n/2 . 2. E χ2n = n, D χ2n = 2n. Доказательство. Из общих формул для распределения Γα, β (E ξ = β β 2 2 α , D ξ = α2 ) получаем E χn = n, D χn = 2n. 3. При n > 2 распределение χ2n имеет моду m0 = n − 2. Доказательство. Достаточно проверить, что в этой точке достигается максимум плотности распределения. 35 4. Сумма квадратов независимых случайных величин, распределенных по закону N (0, 1), распределена по закону хи-квадрат с числом степеней свободы, равным числу слагаемых, то есть n X ξi2 = χ2n . i=1 Доказательство. Пусть ξ – случайная величина с распределением N (0, 1). Найдем распределение случайной величины ξ 2 . Легко видеть, что для x 6 0 функция распределения равна нулю, а для x > 0 √ √ √ √ Fξ 2 (x) = P (ξ 2 < x) = P (− x 6 ξ < x) = Φ( x) − Φ(− x), (30) где Φ(x) – функция стандартного нормального распределения. √ √ √ x 1 1 1 fξ 2 (x) = Fξ02 (x) = √ (ϕ( x) + ϕ(− x)) = √ ϕ( x) = √ e− 2 . 2 x x πx (31) 1 1 Если рассмотреть распределение Γ( 2 , 2 ), то получим следующую формулу для ее плотности: x 1 f (x) = √ e− 2 , πx x > 0. (32) Сравнивая (32) с плотностью в (31), получаем, что случайная величина ξ 2 имеет распределение Γ( 21 , 12 ). Таким образом, случайная величина ξ 2 имеет распределение Γ( 12 , 12 ) с характеристической функцией (1 − 2it)−1/2 , а сумма квадратов n независимых случайных величин, распределенных по нормальному закону N (0, 1), имеет характеристическую функцию, равную произведению характеристических функций слагаемых17 , то есть (1 − 2it)−n/2 , что соответствует распределению Γ( 12 , n2 ) = χ2n . 5. Сумма независимых случайных величин, распределенных по закону хи-квадрат, распределена также по закону хи-квадрат с числом степеней свободы, равным сумме степеней свободы слагаемых, то есть χ2n + χ2m = χ2n+m . (33) Доказательство. Характеристическая функция суммы ϕχ2n +χ2m (t) = ϕχ2n (t) · ϕχ2m (t) = (1 − 2it)−n/2 · (1 − 2it)−m/2 = (1 − 2it)− а это характеристическая функция χ2n+m . 17 Можно просто вспомнить о суммируемости гамма-распределения. 36 n+m 2 , 6. χ2n − n √ ∼ N (0, 1). 2n Доказательство. Pn 2 χ2n − n ξ −n √ √ i = i=1 , 2n 2n 1 1 величины ξi2 независимы и имеют одинаковое распределение PnΓ( 2 ,22) с математическим i=1 ξi = Pn 2 ожиданием 1 и дисперсией 2. Поэтому E n, D i=1 ξi = 2n и по ЦПТ Pn 2 i=1 ξi − n d √ → − u ∈ N (0, 1). 2n 7. χ2n p −→ ξ ≡ 1 (вырожденное в точке 1 распределение). n Доказательство. Пусть ξ1 , . . . , ξn независимы и имеют стандартное нормальное распределение. Тогда E ξi2 = D ξ = 1, и по ЗБЧ χ2n ξ12 + . . . + ξn2 p = −→ 1. n n Пример 4.1. Используя свойства распределения χ2n , найдем D S 2 и D S̄ 2 в N (a, σ). J χ2n−1 · σ 2 D χ2n−1 · σ 4 nS 2 2(n − 1)σ 4 2 2 2 = χ , S = , D S = = . n−1 σ2 n n2 n2 χ2n−1 · σ 2 D χ2n−1 · σ 4 2(n − 1)σ 4 2 2 2 S̄ = , D S̄ = = = σ4. 2 2 (n − 1) (n − 1) (n − 1) n−1 (34) (35) I 2. Распределение Стьюдента. Рассмотрим последовательность независимых случайных величин ξ, ξ1 , . . . , ξn , распределенных по нормальному закону N (0, 1). Определение 4.2. Распределением Стьюдента Tn с n степенями свободы называется распределение случайной величины ξ tn = q Pn 2 i=1 ξi n 37 . (36) Можно случайную величину t определить как отношение ξ tn = q , χ2 n где χ2 – случайная величина, независимая от ξ и распределенная по закону χ2n . Очевидно, что оба определения эквивалентны. Плотность распределения Стьюдента fTn (x) (рис. 4) нетрудно найти с помощью метода вычисления плотности распределения частного двух независимых величин (см. соответствующую задачу в § 4 практикума по решению задач). Приведем окончательную формулу для плотности распределения Стьюдента: Γ( n+1 1 1 2 ) · , fTn (x) = √ · πn Γ( n2 ) (1 + xn2 ) n+1 2 x ∈ R. (37) fTn (x) O X Рис. 4. Плотность распределения Стьюдента fTn (x) Свойства распределения Стьюдента (см. задачи § 5 практикума по решению задач). 1. Распределение Стьюдента симметрично. n при n > 2, 2. E Tn = 0, D Tn = n−2 ∞ при n 6 2. d 3. tn → − u ∈ N (0, 1) 4. У распределения Стьюдента Tn существуют только моменты порядков меньших n, при этом все существующие моменты нечетного порядка m = 2k + 1 равны нулю. 38 Замечание 4.1. При n = 1 распределение Стьюдента совпадает с распределением Коши. Замечание 4.2. Распределение Стьюдента можно рассматривать при n ∈ R+ . 3. Распределение Фишера – Снедекора18 . Рассмотрим две независимые случайные величины χ2n и χ2m , имеющие хи-квадрат распределение с n и m степенями свободы соответственно. Определение 4.3. Распределением Фишера – Снедекора (F распределением или распределением дисперсионного отношения Фишера) с n, m степенями свободы называется распределение случайной величины 2 Fn,m = χn n . χ2m m (38) Функцию и плотность распределения Fn,m (x) (рис. 5) можно найти, используя тот же способ, что и для распределения Стьюдента. Окончательно формулу для расчета плотности распределения Снедекора записывают в виде n n n2 Γ( n+m ) 2 −1 x 2 fFn,m (x) = · n x ∈ R+ . (39) n+m , m · nx m Γ( 2 )Γ( 2 ) (1 + m ) 2 fFn,m (x) O X Рис. 5. Плотность распределения Фишера fFn,m (x) Из свойств распределения Фишера отметим следующие (см. сответствующие задачи § 5 практикума по решению задач). 1. E Fn,m = m m−2 2. D Fn,m = 2m2 (n+m−2) n(m−2)2 (m−4) при m > 2. при m > 4. 18 Джордж Уоддел Снедекор (англ. George Waddel Snedecor; 1881–1974) – американский математик и статистик, ученик Рональда Фишера. 39 3. При n > 2 распределение Fn,m имеет моду m0 = (n−m)m n(m+2) . d 4. При n → ∞, m → ∞ fn,m → − ξ ≡ 1 (вырожденное в точке 1 распределение). 5. Если fn,m имеет распределение Фишера Fn,m , то 1/fn,m имеет распределение Фишера Fm,n . Выясним распределение выборочных характеристик нормальной выборки. 4.2. Теорема Фишера Легко видеть, какое распределение имеет выборочное среднее, найденное по выборке из совокупности с нормальным распределением N (a, σ). Теорема 4.1. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ). Тогда: 1. 2. Xi −a σ n P i=1 ∈ N (0; 1); Xi −a 2 σ ∈ χ2n ; 3. X ∈ N (a, √σn ); 4. √ (X−a) n σ ∈ N (0, 1). Доказательство. 1. Нормальное распределение инвариантно относительно линейного преобразования, поэтому величина ui = Xiσ−a нормально распределена; параметры этого распределения находятся как математическое ожидание и корень из дисперсии ui , очевидно, они равны соответственно 0 и 1. 2. По свойству 4 распределения χ2 сумма квадратов независимых случайных величин, распределенных по закону N (0, 1), распределена по закону хи-квадрат с числом степеней свободы, равным числу слагаемых, то есть 2 n n X X Xi − a 2 ui = ∈ χ2n . σ i=1 i=1 40 3. Линейная комбинация нормальных величин есть нормальная величина. 2 По свойствам среднего выборочного E X = a, D X = σn , это определяет параметры распределения. √ √ (X−a) n (X−a) n = 0, D = 1. 4. Очевидно, E σ σ Какое распределение имеет выборочная дисперсия, найденная по выборке из совокупности с нормальным распределением N (a, σ)? На этот вопрос отвечает теорема, доказанная Р. Фишером. Теорема 4.2 (теорема Фишера). Пусть X1 , . . . , Xn – выборка из рас2 2 пределения N (a, σ). Тогда 1) величина nS σ 2 имеет распределение χn−1 ; 2) X, S 2 независимы. Доказательство. Нам потребуются две леммы. Лемма 1. Пусть вектор X = (X1 , . . . , Xn )T состоит из n независимых случайных величин с нормальным распределением N (0, σ), C – ортогональная матрица размерности n × n (CC T = C T C = E) и Y = CX. Тогда и координаты вектора Y = (Y1 , . . . , Yn )T независимы и имеют нормальное распределение N (0, σ), причем n X Xi2 = i=1 n X Yi2 . i=1 Доказательство. Нормальное распределение инвариантно относительно линейного преобразования. E Y = E(C · X) = C · E X = 0, где 0, конечно, означает нулевой столбец размерности n. Найдем ковариационную матрицу KY . Заметим сначала, что, поскольку величины X1 , . . . , Xn независимы и имеют одинаковую дисперсию σ 2 , ковариационная матрица KX = σ 2 E. KY = E(Y · Y T ) = E(CX · (CX)T ) = E(CX · X T C T ) = = C E(X · X T )C T = CKX C T = C · σ 2 E · C T = σ 2 CC T = σ 2 E. Отсюда следует, что величины Y1 , . . . , Yn также независимы и имеют одинаковую дисперсию σ 2 . Докажем последнее утверждение леммы 1. n X Yi2 T T T T T = Y Y = (CX) CX = X C CX = X X = i=1 n X i=1 41 Xi2 . Лемма 2 (лемма Фишера). Пусть даны p линейных комбинаций, p < n:   Y1 = c11 X1 + c12 X2 + . . . + c1n Xn , ··· ························ ,  Yp = cp1 X1 + cp2 X2 + . . . + cpn Xn . коэффициенты которых удовлетворяют условию ортонормальности, а вектор X = (X1 , . . . , Xn )T состоит из n независимых случайных P величин с n 2 нормальным распределением N (0, σ). Тогда величина Q(X) = i=1 Xi − Pp 2 i=1 Yi распределена как сумма (n − p) квадратов независимых величин, имеющих распределение N (0, σ). 0 Доказательство. Дополним матрицу Cp×n коэффициентов линейных комбинаций до ортогональной матрицы Cn×n , и пусть Y = CX. Тогда по лемме 1 n n X X 2 Xi = Yi2 , i=1 и Q(X) = n X Xi2 p X − i=1 Yi2 i=1 = n X i=1 Yi2 − i=1 p X Yi2 = i=1 n X Yi2 . i=p+1 Доказательство пункта 1 теоремы Фишера. 2 nS = n X Xi − X 2 = Xi2 − i=1 Положим Y1 = Статистика nS 2 = 2 Xi2 − X = i=1 i=1 n X = n X X X X √ 1 + √ 2 + . . . + √n n n n 2 . X1 X2 Xn √ + √ + ... + √ . n n n Pn 2 2 i=1 Xi −Y1 и по лемме 2 распределена как сумма (n−1) квадратов независимых величин, имеющих распределение N (0, σ): 2 (40) nS = n X Yi2 , Yi ∈ N (0, σ). i=2 Тогда статистика n 2 n−1 X nS 2 X Yi = = Zi2 , Zi ∈ N (0, 1) = χ2n−1 . 2 σ σ i=2 i=1 42 Доказательство пункта 2 теоремы Фишера. X выражается через Y1 , а S 2 через Y2 , . . . , Yn , но по лемме 1 Yi с разными индексами независимы, следовательно, независимы X и S 2 как функции независимых величин. Замечание 4.3. Обратите внимание, что в выражении для S 2 присутствует X, то есть они функционально зависимы. Тем не менее, они, как только что доказано, являются независимыми случайными величинами. Это свойство характерно только для нормального распределения. 4.3. Теоремы о распределении выборочных характеристик Теорема Фишера позволяет делать статистические выводы относительно дисперсии генеральной совокупности. На практике часто возникают ситуации, когда дисперсия генеральной совокупности неизвестна и необходимо делать выводы относительно математического ожидания. В этом случае оказывается полезной следующая теорема. Теорема 4.3. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ) и функция от выборочных среднего и дисперсии t определена равенством √ X −a t= n−1 . (41) S Тогда величина t, так называемое «стьюдентово отношение»19 , имеет распределение Tn−1 . Доказательство. По определению, распределением Стьюдента Tn с n степенями свободы называется распределение случайной величины ξ t = q Pn 2 i=1 ξi n , где ξ, ξ1 , . . . , ξn распределены по нормальному закону N (0, 1) и независимы. Представим величину t в виде: √ r (X − a) n n−1σ t= · . σ n S 19 Распределение стьюдентова отношения впервые было получено Стьюдентом, затем эти результаты были строго доказаны Р. Фишером. 43 (X − a) √ имеет распределение N (0; 1); обознаn чим его ξ. Представим второй сомножитель в виде r r n−1σ √ σ2 = n−1 . n S nS 2 Первый сомножитель 2 2 По теореме Фишера величина nS σ 2 имеет распределение χn−1 . Таким образом, второй сомножитель равен r √ 1 σ2 q = . n−1 χ2n−1 nS 2 n−1 Тогда √ (X − a) n 1 ξ t= ·q 2 =q 2 , χn−1 χn−1 σ n−1 n−1 и очевидно, что эта величина имеет распределение Стьюдента Tn−1 . Замечание 4.4. Такое же распределение имеет тождественно рав√ . ная t статистика n X−a S Пусть нам необходимо выяснить, взяты ли две выборки из одного нормального распределения или из различных. Для ответа на этот вопрос важное значение имеет теорема (4.4). Теорема 4.4. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из 2 , SY2 – выборочные средние и дисперраспределения N (a, σ), а X, Y , SX сии, и пусть r mn(m + n − 2) X −Y p t= . (42) 2 + mS 2 m+n nSX Y Тогда величина t имеет распределение Стьюдента с m + n − 2 степенями свободы. Теорема доказывается аналогично теореме (4.3). Если имеются две выборки из различных нормальных распределений, то представляет интерес следующая теорема 4.5. Теорема 4.5. Пусть X = (X1 , . . . , Xn ) ∈ N (ax , σ) и Y = (Y1 , . . . , Ym ) ∈ N (ay , σ) независимы. Тогда 2 S¯X Z = ¯2 = fn−1,m−1 , SY 44 то есть Z распределено по закону Фишера с n − 1, m − 1 степенями свободы. Доказательство. По определению распределения Фишера fn,m χ2n /n = 2 . χm /m Из теоремы Фишера следует, что χ2n−1 Тогда Z= χ2n−1 σ 2 (n − 1)S¯2 ¯ 2 = ⇒S = . σ2 n−1 χ2n−1 σ 2 n−1 χ2m−1 σ 2 m−1 = χ2n−1 n−1 χ2m−1 m−1 = fn−1,m−1 . S¯2 Таким образом, когда дисперсии совпадают, величина Z = S¯X2 не заY висит от неизвестного параметра σ и имеет распределение Fn−1, m−1 . Статистика 2 S¯X S¯Y2 20 носит название «дисперсионное отношение» и связана с именем Фишера . Эта теорема является частным случаем следующей: Теорема 4.6. Пусть X1 , . . . , Xn и Y1 , . . . , Ym – независимые выборки из 2 распределений N (a1 , σ1 ), N (a2 , σ2 ), а SX , SY2 – выборочные дисперсии. Тогда случайная величина F = 2 n(m − 1)σ22 SX m(n − 1)σ12 SY2 (43) распределена по закону Фишера Fn−1, m−1 . Доказывается теорема 4.6 аналогично предыдущей. 4.4. Контрольные вопросы 1. Каково распределение суммы квадратов десяти независимых случайных величин, распределенных по нормальному закону N (0, 1)? 20 Фишер использовал для дисперсионного отношения величину Z, связаннyю с F равенством e2Z = F ; Z-распределение было табулировано Фишером, F -распределение – Снедекором. 45 2. Каково распределение суммы пяти независимых случайных величин, каждая из которых распределена по закону χ2n ? 3. Изобразите схематически на одном чертеже графики плотностей распределений плотности χ2n1 , χ2n2 при n1 < n2 . 4. Чему равняются математическое ожидание и дисперсия распределения χ2n ? 5. Дайте определение распределения Стьюдента Tn . 6. Чему равняются математическое ожидание и дисперсия распределения Стьюдента? 7. Если нарисовать на одном чертеже графики плотности распределения N (0, 1) и плотности распределения Стьюдента, чем они будут отличаться? 8. Каковы отличия графиков плотностей T3 и T4 ? 9. Как определяется распределение Фишера? 10. Пусть X1 , . . . , Xn – выборка из распределения N (a, σ). Каково рас√ (X−a) n пределение величин X, X − a, ? σ 11. Сформулируйте теорему Фишера. 46 Лекция 5. Точечное статистическое оценивание Мораль здесь такова: позаботься о смысле, а слова позаботятся о себе сами. Льюис Кэрролл 21 План лекции: оценки параметров, несмещенность, состоятельность. 5.1. Оценки параметров Мы уже умеем по выборкам (X1 , . . . , Xn ) вычислять выборочные статистические характеристики. По значениям этих характеристик можно делать вывод о соответствующих характеристиках генеральной совокупности (теоретических). Например, найденное по выборке X дает представление о значении математического ожидания E ξ; S 2 о значении дисперсии D ξ и т. д. При этом для каждой характеристики требуется своя формула. Возможен другой подход. Заметим, что все числовые характеристики случайных величин X1 , . . . , Xn зависят от параметра θ. Так, например, если X ∈ Eλ , то E(X) = 1 , λ D(X) = 1 . λ2 Все другие числовые характеристики также выражаются через λ. Если мы найдем (приближенно) значение λ, то сумеем оценить значение любой теоретической характеристики. Тогда возникает проблема оценки параметров генеральной совокупности. При решении этой проблемы мы будем использовать функции от выборки g(X1 , . . . , Xn ). Функции от выборки принято называть статистиками. Статистикой можно назвать любую функцию θ = θ(X1 , . . . , Xn ), которая не зависит от параметра θ. Условимся еще, что все упоминаемые функции измеримы. Всякая статистика – функция от выборки g(X1 , . . . , Xn ) и сама является случайной величиной. Как случайная величина она имеет закон распределения, зависящий от закона распределения случайной величины ξ из генеральной совокупности. В теории оценивания предполагается следующая модель: известно, что функция распределения случайной величины ξ принадлежит классу функций Fθ c неизвестным параметром (в общем случае векторным) θ ∈ Rk . Задача заключается в выборе такой статистики g(X1 , . . . , Xn ), значения которой при заданной реализации (x1 , . . . , xn ) приближаются к значению па21 «Алиса в стране чудес». 47 раметра θ. Получение приближенного значения будем называть оцениванием. Определение 5.1. Выборочная числовая характеристика (статистика) θ̂ = g(X1 , . . . , Xn ), применяемая для оценивания неизвестного параметра θ генеральной совокупности, называется его точечной оценкой. Таким образом, оценка – это статистика, предназначенная для оценивания неизвестного параметра θ. Некоторые оценки мы уже рассматривали. Пример 5.1. X – оценка E ξ; S 2 – оценка D ξ. Замечание 5.1. В дальнейшем для оценок параметра θ будут часто ∼ использоваться обозначения θ̂, θ и θ∗ . В общем случае для неизвестного параметра θ может существовать много оценок θ̂, которые близки к θ. Например, во многих распределениях математическое ожидание E ξ является параметром (очевидные примеры – нормальное и пуассоновское распределения). Оценками для E ξ могут быть такие статистики как выборочное среднее, выборочные мода и медиана (и не только они). Необходимо выбрать среди всех оценок данного параметра θ «наилучшую» в некотором смысле, то есть удовлетворяющую некоторым заданным условиям или обладающую некоторыми свойствами. Обратите внимание, что в определении оценки (статистика, применяемая для оценивания неизвестного параметра) не оговорена близость оценки к оцениваемому параметру. Широкое определение, включающее в себя и совершенно неподходящие для использования в качестве оценок функции, – это характерный для математической статистики прием. Теперь надо выбрать из всего множества статистик самые лучшие. «Чтобы что-то ненужное продать, надо сначала что-то ненужное купить» (Кот Матроскин). И прежде всего надо выяснить, что нужное, а что ненужное, то есть выяснить критерии качества оценок. Рассмотрим желательные для оценок свойства, чтобы иметь возможность сравнивать оценки и из всего множества статистик отбирать самые подходящие. 48 5.2. Несмещенность Гайавата, как обычно, Вверх свои направил стрелы. Он так ловко это сделал, Что остался несмещенным, Но при этом, к сожаленью, В цель ни разу не попал. М. Кендалл22 Определение 5.2. Статистика θ̂ = g(X1 , . . . , Xn ) называется несмещенной оценкой для параметра θ, если для любого θ ∈ Θ E θ̂ = θ. Замечание 5.2. Математическое ожидание находится в предположении, что верна модель Fθ , то есть что параметр равен θ. Иногда это подчеркивают, записывая Eθ θ̂, но мы этот знак будем опускать. Несмещенность – свойство оценок при фиксированном объеме выборки n. Это свойство означает, что в среднем оценка дает правильный результат, отсутствует смещение. Пример 5.2. θ̂ = X – несмещенная оценка для θ = E ξ, так как E X = E ξ. Например, в Pλ X – несмещенная оценка λ. Класс всех несмещенных оценок параметра θ будем обозначать Tθ . Если E θ̂ 6= θ, то оценка называется смещенной и ее смещение равно E θ̂ − θ. Определение 5.3. Статистика θ̂ = g(X1 , . . . , Xn ) называется асимптотически несмещенной оценкой для параметра θ, если для любого θ ∈ Θ при n → ∞ E θ̂ → θ. Пример 5.3. Пусть параметром распределения является его дисперсия. Исследовать на несмещенность оценку S 2 дисперсии σ 2 . J По (17) (n − 1)µ2 n−1 2 = σ , n n является асимптотически несмещенной оценкой для E S2 = следовательно, S 2 дисперсии.I 22 Отрывок из поэмы Кендалла про Гайавату и статистические оценки. 49 5.3. Состоятельность – Состоятельность – это богатство? – Нет, это гораздо лучше. Консультация на экономическом факультете Для несмещенных оценок возможна ситуация Гайаваты – все отдельные результаты неверны, так что само по себе это свойство еще не делает оценку пригодной. При использовании той или иной оценки желательно, чтобы точность оценивания увеличивалась бы при возрастании объема выборки. Определение 5.4. Статистика θ̂ = g(X1 , . . . , Xn ) называется состоятельной оценкой θ, если для любого θ ∈ Θ p g(X1 , . . . , Xn ) −→ θ. (44) Свойство состоятельности означает, что оценка делается точнее при увеличении количества данных. Пример 5.4. θ̂ = X – состоятельная оценка θ = E ξ, так как по закону больших чисел в форме Хинчина среднее независимых одинаково распределенных случайных величин сходится по вероятности при n → ∞ к E ξ. Например, в Pλ : X – состоятельная оценка λ. Таким образом, выборочное среднее является состоятельной оценкой математического ожидания в любом распределении. Для исследования состоятельности оценок часто применяют следующие теоремы (см. задачи § 6 практикума по решению задач). Теорема 5.1. Если E θ̂ = θ и D θ̂ → 0 при n → ∞, то θ̂ – состоятельная оценка θ. Таким образом, несмещенная оценка, дисперсия которой стремится к 0 с ростом выборки, является состоятельной. Часто применяется также теорема с ослабленными условиями: Теорема 5.2. Если E θ̂ → θ при n → ∞ и D θ̂ → 0 при n → ∞, то θ̂ – состоятельная оценка θ. Смысл ослабленного условия, очевидно, в том, что оценка может быть смещенной, но асимптотически несмещенной. Следующая теорема утверждает, что непрерывные функции от состоятельных оценок тоже состоятельны. 50 Теорема 5.3. Если θ̂ – состоятельная оценка θ, а f – непрерывная функция, то f (θ̂) – состоятельная оценка f (θ). Доказательство. Вспомним теорему о сходимости по вероятности функций случайных величин. Пусть f (x) – непрерывная функция. Тогда если последовательность {ξn } сходится по вероятности к ξ, то и последовательность {f (ξn )} сходится по вероятности к f (ξ): p p ξn → ξ ⇒ f (ξn ) → f (ξ). p p По условию θ̂ → θ, следовательно, по теореме и f (θ̂) → f (θ), что и означает состоятельность f (θ̂). 3 Пример 5.5. В Pλ статистика X – состоятельная оценка λ3 , поскольку X – состоятельная оценка λ. п.н. Замечание 5.3. Если θ̂ → θ, то θ̂ называется сильно состоятельной оценкой θ. Пример 5.6. Дана выборка (X1 , . . . , Xn ) из распределения B(N, p). Исследовать на несмещенность и состоятельность оценки параметра n 2X1 + 3X2 1 P X1 в) p: а) ; б) Xi . N 5N 5N i=1 J Все оценки являются несмещенными, так как n 2X1 + 3X2 1 X X1 =E =E Xi = p. E N 5N nN i=1 В случаях а) и б) оценки, очевидно, не являются состоятельными (хотя бы потому, что они не зависят от объема выборки n). В случае в) оценка состоятельна по теореме 5.1, поскольку оценка несмещена и ее дисперсия стремится к 0 при n → ∞. I 5.4. Контрольные вопросы 1. Дайте определение несмещенной оценки. 2. Дайте определение состоятельной оценки. 51 3. Дайте определение асимптотически несмещенной оценки. 4. Каким образом можно выяснить, является ли оценка несмещенной? 5. Каким образом можно выяснить, является ли оценка состоятельной? P 6. При каком k оценка p̂ = k ni=1 xi является несмещенной в B(N, p)? 7. Приведите 2 примера несмещенных оценок параметра a в N (a, σ). 8. Приведите пример смещенной оценки параметра a в N (a, σ). 9. Приведите примеры смещенной и несмещенной оценок параметра σ в N (a, σ). 10. Приведите 2 примера несмещенных оценок параметра p в B(N, p). 11. Приведите 2 примера несмещенных оценок параметра λ в Pλ . 12. Верно ли, что X в любом распределении является несмещенной оценкой математического ожидания? 13. Верно ли, что X в любом распределении является состоятельной оценкой математического ожидания? 14. Чем отличается сильно состоятельная оценка от состоятельной? 15. Верно ли, что X в любом распределении является сильно состоятельной оценкой математического ожидания? 52 Лекция 6. Неравенство Рао – Крамера Хоть простота нужнее людям, Но сложное понятней им. Б. Пастернак План лекции: оптимальность оценок, неравенство Рао – Крамера и его обобщения, различные формы информационного количества Фишера, эффективные оценки. Может существовать несколько оценок, являющихся и несмещенными, и состоятельными. Как сравнить их и выбрать лучшую? 6.1. Оптимальность оценок Определение 6.1. Пусть выбран критерий близости оценки к неизвестному параметру θ. Оценка θ̂ параметра θ называется оптимальной по данному критерию в рассматриваемом классе оценок, если она минимизирует выбранный критерий. Пример 6.1. За критерий близости оценки к параметру θ можно взять E(θ̂ − θ)2 , где θ̂ = g(X1 , . . . , Xn ) − оценка θ. (45) Обратите внимание: если оценка θ̂ несмещена, то E(θ̂ − θ)2 = D θ̂, где наименьшая дисперсия соответствует наиболее устойчивой оценке, которая меньше других меняется от выборки к выборке. Несмещенные оценки с минимальной дисперсией оценки особенно важны; мы будем называть их просто оптимальными. Определение 6.2. Несмещенная оценка θb параметра θ называется ∼ ∼ оптимальной оценкой, если D θb 6 D θ, ∀θ ∈ Θ, где θ – произвольная несмещенная оценка θ. 6.2. Неравенство Рао – Крамера В случае регулярной статистической модели можно указать нижнюю границу дисперсий несмещенных оценок параметра θ. 2 ,...,xn ,θ) Определение 6.3. Величина ∂ ln f (x1 ,x называется вкладом вы∂θ ∂ ln f (x,θ) борки, а величина называется вкладом одного элемента вы∂θ борки. 53 Замечание 6.1. Плотность понимается в обобщенном смысле; для дискретных распределений вместо f (x1 , x2 , . . . , xn , θ) используется P (x1 , x2 , . . . , xn , θ). Определение 6.4. Информационным количеством Фишера называется величина I, равная 2 ∂ ln f (x1 , x2 , . . . , xn , θ) . (46) I=E ∂θ Для дисперсий несмещенных оценок параметра θ справедлива теорема: Теорема 6.1 (неравенство Рао – Крамера). В регулярной модели hFθ i для любой оценки θ̂ ∈ Tθ выполняется неравенство 1 D θ̂ > . I (47) Доказательство. Будем использовать упрощенные обозначения: Z+∞ Z+∞ Z f (x1 , x2 , . . . , xn , θ) = f ; ... dx1 . . . dxn = dx. −∞ −∞ 1. По свойству плотности Z f dx = 1. (48) θ̂f dx = E θ̂ = θ. (49) 2. Из несмещенности оценки Z 3. Продифференцируем (48) по параметру. Это возможно, так как модель регулярна. Z ∂f dx = 0. (50) ∂θ 4. Домножим (50) на θ: Z θ ∂f dx = 0. ∂θ 5. Продифференцируем (49) по параметру: Z ∂f θ̂ dx = 1. ∂θ 54 (51) (52) 6. Вычтем (52) – (51): Z ∂f dx = 1. ∂θ ∂f 1 ∂f ∂ ln f ∂ ln f = ⇒ =f . ∂θ ∂θ f ∂θ ∂θ (θ̂ − θ) 7. Подставим в (53) выражение для ∂f ∂θ : Z ∂ ln f (θ̂ − θ) f dx = 1. ∂θ Введем следующие обозначения: ∂ ln f θ̂ = ϕ1 , θ = E ϕ1 , = ϕ2 . ∂θ (53) (54) 8. Из курса теории вероятностей известно: E[(ϕ1 − E ϕ1 )(ϕ2 − E ϕ2 )] = cov(ϕ1 , ϕ2 ). (55) Так как Z Z ∂f 1 ∂f 1 ∂f ∂ ln f (50) =E = f dx = dx = 0, E ϕ2 = E ∂θ ∂θ f ∂θ f ∂θ R ln f получим, что (θ̂ − θ) ∂ ∂θ f dx совпадает с ковариацией, то есть: ∂ ln f cov θ̂, = 1. (56) ∂θ 9. Из свойства коэффициента корреляции вытекает неравенство Коши – Буняковского: p |cov(ϕ1 , ϕ2 )| 6 D ϕ1 D ϕ2 . (57) Значит, s 16 ∂ ln f D(θ̂) D . ∂θ (58) 10. Преобразуем последнее выражение: 1 (59) . ln f D ∂ ∂θ 2 2 ∂ ln f ∂ ln f ∂ ln f 2 ∂ ln f D =E −E =E =I ∂θ ∂θ ∂θ ∂θ 1 =⇒ (D θ̂) > . I Важное следствие: в неравенстве Рао – Крамера равенство достигаln f ется тогда и только тогда, когда θ̂ и ∂ ∂θ линейно зависимы (докажите это). D(θ̂) > 55 6.3. Формы информационного количества Фишера Для проверки эффективности оценок удобно использовать следующие формулы информационного количества Фишера I, легко получаемые из (46): 2 ∂ ln f (x, θ) I = nE ; (60) ∂θ 2 ∂ ln f (x, θ) I = −n E . (61) ∂θ2 Обратите внимание, что в этих формулах f (x, θ) – одномерная плотность. Докажем сначала две формулы для вычисления информационного количества Фишера с помощью многомерной плотности. 1. Z ∞ I= −∞ ∂f ∂θ 2 1 dx. f (62) Доказательство. Z ∞ 2 Z ∞ 2 ∂ ln f ∂f ∂ ln f 1 ∂f 1 1 = dx = = f dx = ∂θ f ∂θ ∂θ f ∂θ f −∞ −∞ 2 Z ∞ ∂ ln f f dx = I ∂θ −∞ | {z } 2 ln f E( ∂ ∂θ ) 2. ∂ 2 ln f I = −E ∂θ2 . (63) Доказательство. ∂ ln f ∂f 1 = ; ∂θ ∂θ f 2 ∂ 2 ln f 1 ∂f 1 ∂ 2f =− 2 + ; ∂θ2 f ∂θ f ∂θ2 # 2 Z ∞ 2 2 Z ∞" ∂ ln f ∂ ln f 1 ∂f 1 ∂ 2f E = f dx = − 2 + f dx = 2 ∂θ2 f ∂θ f ∂θ2 −∞ ∂θ −∞ Z ∞ 2 Z ∞ 2 1 ∂f ∂ f =− dx + dx = −I. 2 f ∂θ ∂θ | −∞ {z } | −∞ {z } =0 I По (50) R∞ ∂f −∞ ∂θ dx = 0, а тогда и R∞ 2 ∂ f −∞ ∂θ2 dx 56 = 0. Теперь можно доказать соотношение (60): 2 ∂ ln f (x, θ) I = nE . ∂θ Доказательство. 2 Z ∞ Z ∞ ∂ ln f (x1 , . . . , xn , θ) I= ... f (x1 , . . . , xn )dx1 . . . dxn ; ∂θ −∞ −∞ Yn f (x1 , . . . , xn , θ) = f (xi , θ); i=1 ln f (x1 , . . . , xn , θ) = ln ∞ Z ∞ Pn Z i=1 ∂ ... −∞ Z −∞ ∞ = Z ∞ ... −∞ Yn ln f (xi , θ) ∂θ +2 i6=j | f (xi , θ) = n i=1 ∂θ −∞ i=1 f (xi , θ)dx1 . . . dxn = i=1 f (xi , θ)dx1 . . . dxn + {z } Σ1 ∞ −∞ Z ∞ ... −∞ ln f (xi , θ); i=1 2 Y 2 n X ∂ ln f (xi , θ) Yn | n Z X i=1 n X ∂ ln f (xi , θ) ∂ ln f (xj , θ) Yn f (xi , θ)dx1 . . . dxn . i=1 ∂θ ∂θ {z } Σ2 Каждое слагаемое Σ1 имеет вид 2 Z ∞ Z ∞ Z ∞ ∂ ln f (x1 , θ) f (x2 )dx2 . . . f (xn )dxn = f (x1 )dx1 ∂θ −∞ −∞ −∞ Z ∞ так как по свойству плотности f (x)dx = 1 = −∞ Z ∞ = −∞ ∂ ln f (x, θ) ∂θ 2 f (x)dx. Первое слагаемое Σ2 равно произведению двух интегралов Z ∞ Z ∞ ∂ ln f (x1 , θ) ∂ ln f (x2 , θ) f (x1 )dx1 f (x2 )dx2 ∂θ ∂θ −∞ −∞ и n − 2 интегралов вида Z ∞ f (xi )dxi , −∞ 57 и поэтому первое слагаемое имеет вид Z ∞ Z ∞ ∂f (x1 , θ) ∂f (x2 , θ) dx1 dx2 · 1 . . . · 1 = 0. ∂θ ∂θ −∞ −∞ Получаем, что n Z X i=1 +2 n Z X i6=j ∞ Z ... −∞ ∞ ∞ −∞ ∞ ∂ ln f (xi , θ) ∂θ 2 Y n i=1 f (xi , θ)dx1 . . . dxn + ∂ ln f (xi , θ) ∂ ln f (xj , θ) Yn ... f (xi , θ)dx1 . . . dxn = i=1 ∂θ ∂θ −∞ −∞ 2 2 n Z ∞ X ∂ ln f (x, θ) ∂ ln f f (x)dx = n E . ∂θ ∂θ i=1 | −∞ {z } ∂ ln f 2 E( ∂θ ) Z Аналогично доказывается соотношение (61): 2 ∂ ln f (x, θ) . I = −n E ∂θ2 6.4. Эффективные оценки Определение 6.5. Несмещенная оценка θ̂ параметра θ называется эффективной оценкой θ, если для любого θ ∈ Θ 1 D θ̂ = . I (64) Замечание 6.2. Если оценка является эффективной, она является оптимальной. Обратное, вообще говоря, не верно. Пример 6.2. Исследовать на эффективность оценку â = X в нормальной статистической модели, если второй параметр известен и равен σ. J Вычислим I. (x−a)2 1 f (x) = ϕa,σ (x) = √ e− 2σ2 , σ 2π 1 (x − a)2 √ ln f (x) = ln − , 2σ 2 σ 2π 58 ∂ ln f (x, θ) x − a = . ∂θ σ2 2 n ∂ ln f (x, θ) E(X − a)2 I = nE = 2. =n 4 ∂θ σ σ Найдем нижнюю границу дисперсий: 1 σ2 = . I n Вычислим дисперсию X. P DX = D Xi n P = D Xi σ2 = . n2 n D X = I1 , следовательно, оценка эффективна. I Замечание 6.3. Для дискретной случайной величины вместо f (x) используется P (ξ = x). Пример 6.3. Доказать, что оценка λ̂ = X в Pλ эффективна. J D λ̂ = DX λ = . n n ln Pλ (X) = X ln λ − λ − ln X! n X I = −n E 2 = . λ λ Получили, что D λ̂ = I1 , то есть оценка X является эффективной.I В регулярной статистической модели для несмещенных оценок можно рассматривать показатель эффективности. Определение 6.6. Показателем эффективности несмещенной оценки θ̂ параметра θ называется число e(θ̂) = 1 I D θ̂ . Очевидно, 0 < e(θ̂) 6 1. Для эффективных оценок e(θ̂) = 1. 59 (65) 6.5. Байесовский и минимаксный подходы к сравнению оценок Пока что мы сравнивали несмещенные оценки параметра по их дисперсии D θ̂ для любого θ ∈ Θ, а произвольные оценки по величине d(θ̂) = E(θ̂ − θ)2 (так называемый среднеквадратический подход). Оценку θ̂1 в соответствии со среднеквадратическим подходом мы считаем лучшей, чем θ̂2 , если E(θ̂1 − θ)2 < E(θ̂2 − θ)2 ∀θ ∈ Θ. Таким образом, задача сравнения оценок приводит к вопросу о сравнении функций d(θ̂). Однако множество функций d(θ̂) в общем случае неупорядоченное. Как же сравнить оценки, у которых разность d(θ̂1 ) − d(θ̂2 ) при различных значениях параметра меняет знак? Существуют два подхода, которые позволяют упорядочить множество всех оценок с помощью одной числовой характеристики – это байесовский и минимаксный подходы. В качестве числовой характеристики используется среднее или максимальное значение dθ̂ по множеству Θ значений параметра θ. Первый из этих способов называется байесовским, второй – минимаксным. В первом случае неизвестный параметр θ рассматривается как случайная величина с некоторой (априорной) плотностью распределения q(t). Определение 6.7. Байесовской оценкой параметра θ, соответствующей априорному распределению с плотностью q(t), называется оценка θ∗ , определенная формулой (66): Z θ∗ = E(θ/X) = tq(t/X)dt. (66) По свойствам условного математического ожидания для байесовской оценки безусловное среднеквадратическое уклонение E(θ∗ − θ)2 принимает наименьшее возможное значение. Это означает, что если параметр θ – случайная величина с плотностью распределения q(t), то байесовская оценка является наилучшей в среднеквадратическом смысле. Пример 6.4. Пусть в модели hB(N, p)i параметр N известен, а параметр p имеет априорное бета-распределение: B(α, β). Найдем по измеренному значению X ∈ B(N, p) байесовскую оценку p̂. J Совместная плотность fX,p и равна произведению одномерной плотности p на условную плотность X/p при фиксированном значении p: fX,p = Γ(α + β) α−1 p (1 − p)β−1 · CNX pX (1 − p)N −X = Γ(α)Γ(β) 60 Γ(α + β) X+α−1 p (1 − p)N −X+β−1 . Γ(α)Γ(β) Одномерная плотность X равна Z 1 Γ(α + β) Γ(α + X)Γ(N − X + β) fX (x) = fX,p dp = CNX , Γ(α)Γ(β) Γ(N + α + β) 0 = CNX это бета-биномиальное распределение. Найдем условную плотность p/X: fp/X = fX,p Γ(N + α + β) pX+α−1 (1 − p)N −X+β−1 . = fX Γ(X + α)Γ(N − X + β) Это бета-распределение B(X + α, N − X + β). Байесовская оценка p̂ равна математическому ожиданию E(p/X). Вспомним, что для бетараспределения математическое ожидание равно отношению первого параметра к их сумме и получим p̂ = X +α . α+β+N Заметим, что математическое ожидание априорного распределения, то есть α априорная оценка до наблюдений, равна α+β , а оценка по наблюдению, игX норирующая априорное распределение, равна N . Байесовская оценка находится между ними. I Определение 6.8. Минимаксной оценкой параметра θ называется оценка θ̄∗ , если для любой оценки θ̂ справедливо sup d(θ̄∗ ) 6 sup d(θ̂). θ∈Θ (67) θ∈Θ При минимаксном оценивании добиваются наилучшего результата в наихудшем случае; поэтому минимаксная оценка будет байесовской при наихудшем априорном распределении (доставляющем самые большие средние потери). 6.6. Контрольные вопросы 1. Дайте определение оптимальной оценки. 2. Дайте определение эффективной оценки. 3. Какова связь между эффективностью и оптимальностью? 4. Введите определение асимптотически эффективной оценки. 61 5. Каким образом можно выяснить, является ли оценка эффективной? 6. В любой ли модели существует эффективная оценка? 7. Каковы особенности регулярной статистической модели? 8. Является ли регулярной нормальная модель? 9. Существует ли эффективная оценка в равномерной модели R[0, θ]? 10. В любой ли регулярной модели существует эффективная оценка? 11. Может ли смещенная оценка быть эффективной? 12. Может ли смещенная оценка быть асимптотически эффективной? 62 Лекция 7. Методы получения оценок Дело к тому же минутное, если с умом. М. Щербаков План лекции: метод максимального правдоподобия, примеры, некоторые свойства оценок максимального правдоподобия, метод моментов, некоторые свойства оценок метода моментов. 7.1. Метод максимального правдоподобия Метод максимального правдоподобия для получения точечных оценок был предложен Р. Фишером. Пусть генеральная совокупность определяется случайной величиной ξ с функцией распределения F (x, θ) и задана выборка (X1 , . . . , Xn ). Суть метода состоит в нахождении такого значения θ∗ неизвестного параметра θ, при котором вероятность реализации (x1 , . . . , xn ) вектора (X1 , . . . , Xn ) была бы максимальна. Пусть ξ – непрерывная случайная величина с плотностью f (x, θ), где θ – неизвестный параметр. Тогда f (x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ) – плотность распределения вектора (X1 , . . . , Xn ). Определение 7.1. Для непрерывной случайной величины функция L(x1 , . . . , xn , θ) = f (x1 , θ) · . . . · f (xn , θ), (68) рассматриваемая при фиксированных (x1 , . . . , xn ) как функция параметра θ, называется функцией правдоподобия. Для дискретной случайной величины закон распределения задается вероятностями P (ξ = xi ) = pi ; ξ p x1 x2 . . . xn p1 p2 . . . p n Пусть имеется выборка (x1 , . . . , xn ). Тогда функция правдоподобия для дискретной случайной величины определяется в виде L(x1 , . . . , xn , θ) = P (ξ = x1 ) · . . . · P (ξ = xn ). 63 (69) Определение 7.2. Оценка θ∗ , обеспечивающая по параметру θ максимум функции правдоподобия, называется оценкой максимального правдоподобия параметра θ (о.м.п.) Для дискретной случайной величины это условие означает максимум вероятности получения реализации (x1 , . . . , xn ) при θ = θ∗ , а для непрерывной величины плотность пропорциональна вероятности. Пусть L(x1 , . . . , xn , θ) дифференцируема по θ для любой реализации (x1 , . . . , xn ) и достигает максимума по θ во внутренней точке Θ. ∂L =0 ∂θ или ∂L = 0, ∂θi (70) i = 1, . . . , k, если θ ∈ Rk . Функции L и ln L достигают максимума при одном и том же значении θ, поэтому вместо отыскания максимума функции L часто удобнее находить максимум функции ln L и решать уравнение правдоподобия ∂ ln L = 0. ∂θ (71) В результате решения уравнения правдоподобия мы найдем критическую точку, необходимо еще убедиться, что это точка максимума. Пример 7.1. Найдем о.м.п. параметра α в распределении Γα, β при известном β. J n Y n Y αβ −αxi β−1 L= f (xi ) = e xi = Γ(β) i=1 i=1 ! ( ) β n n n Y X α = · xβ−1 · exp −α xi . i Γ(β) i=1 i=1 ln L = nβ ln α − n ln Γ(β) + (β − 1) n X ln xi − α n X i=1 ∂ ln L nβ = − ∂α α n X xi = 0 =⇒ i=1 β P n 1 n i=1 ∂ 2 ln L nβ = − <0 ∂α2 α2 α= =⇒ α= 64 xi . i=1 xi = β . x̄ β – точка максимума x̄ =⇒ α̂ = β – о.м.п. x̄ I 7.2. Примеры Рассмотрим другие примеры использования метода максимального правдоподобия. Пример 7.2 (дискретная модель). Найдем о.м.п. параметра распределения Пуассона. J n Y P e−λn λ xi L= Pλ (xi ) = Q . (x !) i i=1 X Y ln L(X, λ) = −λn + xi ln λ − ln (xi !). Найдем max ln L(X, λ) : P xi ∂ ln L(X, λ) = −n + = 0. ∂λ λ P xi Получаем λ̂ = = x̄. Очевидно, это точка максимума, так как n ∂ 2 ln L <0 ∂λ2 =⇒ x̄ – о.м.п. λ. I Пример 7.3 (двумерный параметр). Пусть величина ξ распределена по нормальному закону, то есть имеет распределение Nθ , где θ = (a, σ). Найдем о.м.п. параметра θ. J Функция правдоподобия для ξ имеет следующий вид: 1 e− L(x1 , . . . , xn ) = √ n (σ 2π) Pn 2 i=1 (xi −a) 2σ 2 . Найдем логарифмическую функцию правдоподобия: ln L(x, a, σ) = −n(ln σ + 0, 5 ln 2π) − n X (xi − a)2 i=1 65 2σ 2 . Найдем частные производные по a и по σ и приравняем их к нулю: ( Pn (xi −a) ∂ ln L(x,a,σ) = = 0, i=1 σ 2 ∂a Pn (xi −a)2 ∂ ln L(x,a,σ) n = − σ + i=1 σ3 = 0. ∂σ Pn Pn Из первого уравнения выразим a : (x − a) = 0 ⇒ i i=1 i=1 xi − n · a = 0, n 1X xi = x̄. â = n i=1 Из второго уравнения выразим σ 2 : nσ 2 = Pn i=1 (xi − a)2 , n 1X (xi − a)2 = S 2 , σ b = S. σb2 = n i=1 Остается убедиться, что точка (x̄, S 2 ) – точка максимума. Для этого надо составить матрицу вторых производных ! 2 2 A(a, σ) = ∂ ln L(x,a,σ) ∂a2 ∂ 2 ln L(x,a,σ) ∂σ∂a ∂ ln L(x,a,σ) ∂a∂σ ∂ 2 ln L(x,a,σ) ∂σ 2 и проверить отрицательную определенность матрицы A в точке (a, σ) = (x̄, S). I Пример 7.4 (нерегулярная модель). Найдем о.м.п. параметра θ = (a, b) в распределении R[a, b]. J L= n Y i=1 f (xi ) = n Y i=1 1 1 = . b − a (b − a)n ∂ ln L ∂θ не обращается в 0. Но функция L монотонна по a и по b. Поэтому она достигает своего наибольшего значения при минимально возможном значении b и максимально возможном значении a. Таким образом, о.м.п. будут â = ymin = x∗1 , b̂ = xmax = x∗n . I Следует заметить, что не всегда существует максимум функции L по параметру и не всегда возможно найти аналитическое решение уравнения правдоподобия (71). 66 7.3. Некоторые свойства оценок максимального правдоподобия 1. Cвойство инвариантности. Если оценивается некоторая взаимно одb Это нозначная параметрическая функция τ (θ), то ее о.м.п. τd (θ) = τ (θ). свойство вполне очевидно, так как точки максимума L, найденные по θ и по τ (θ), совпадают. Из свойства инвариантности следует, что для нахождения о.м.п. можно выбирать наиболее удобную параметризацию, а о.м.п. получать затем с помощью соответствующих преобразований. Пример 7.5. Найдем в условиях примера (7.1) о.м.п. α3 . J По свойству инвариантности 3 β c3 = (b α α)3 = . x̄ I 2. Оценки максимального правдоподобия асимптотически несмещены, состоятельны и при некоторых дополнительных предположениях о модели асимптотически нормальны. (Дополнительные предположения касаются мажорируемости третьей производной f по параметру и обычно выполняются в регулярных моделях.) 3. Если оценки максимального правдоподобия асимптотически нормальны, то они и асимптотически эффективны, то есть 1 D θ̂ → . I 7.4. Метод моментов Идея метода: выборочные моменты принимают в качестве оценок для моментов распределения случайной величины ξ, которые суть функции от неизвестного параметра θ (в общем случае многомерного). Рассмотрим случайную величину ξ с плотностью f (x, θ) и выборку объема n (x1 , . . . , xn ). У случайной величины ξ существуют моменты α1 , . . . , αr , которые являются функциями от θ. Выборочные моменты ak вычисляют по формуле n 1X k ak = X . n i=1 i 67 Приравнивая выборочные и теоретические моменты, получаем уравнения относительно параметра θ. Пусть уравнения однозначно и непрерывно разрешимы относительно θ. Решая эти уравнения, получаем оценку θ̂параметра θ. Эта оценка называется оценкой метода моментов и обозначается о.м.м. Пример 7.6 (показательное распределение). J Найдем о.м.м. параметра показательной модели. Плотность распределения ξ f (x, a) = λe−λx , x > 0, где λ – неизвестный параметр. Как мы знаем, α1 = E ξ = Приравняем α1 (λ̂) и a1 1 λ̂ 1 , λ a1 = X. =X и получим оценку для λ: λ̂ = 1 . X I Пример 7.7 (гамма-распределение). J В распределении Γα, β Eξ = β , α Dξ = β̂ α̂ = X β . α2 Запишем систему уравнений            β̂ = S2 2 (α̂) Решив эту систему, получим оценки 2 X α̂ = 2 , S X β̂ = 2 . S I 68 Пример 7.8 (равномерное распределение). J Рассмотрим равномерное распределение R[a, b], где a и b – неизвестные параметры. Можно записать систему, разрешить ее относительно относительно параметров, а потом вместо теоретических моментов подставить выборочные. a+b (b − a)2 Eξ = , Dξ = , 2 12 (b − E ξ)2 . a = 2 E ξ − b =⇒ D ξ = 3 √ √ Отсюда b = E ξ + σ 3, a = E ξ − σ 3. Окончательно: √ √ â = X − s 3, b̂ = X + s 3. I Оценки метода моментов не единственны, можно брать различные моменты и получать различные о.м.м. Пример 7.9 (равномерное распределение R(0, θ)). JНайдем о.м.м. по математическому ожиданию (первому моменту α1 ): θ θ̂ =⇒ a1 = , θ̂ = 2a1 , или θ̂ = 2x̄. 2 2 Найдем о.м.м. по k-му моменту αk : Zθ p θk k1 ⇒ θ̂ = k (k + 1)ak . αk = x dx = θ k+1 α1 = 0 I 7.5. Некоторые свойства оценок метода моментов Из свойств оценок метода моментов отметим их состоятельность. Теорема 7.1. Пусть θ̂ = g(a1 , . . . , ak ) – оценка параметра θ, полученная по методу моментов, причем функция g −1 непрерывна. Тогда θ̂ состоятельна. Доказательство. Если θ̂ = g(a1 , . . . , ak ), то θ = g(α1 , . . . , αk ). По свойству выборочных моментов ak сходятся по вероятности к αk при n → p ∞. Тогда и g(a1 , . . . , ak )−→g(α1 , . . . , αk ) по теореме 2.1 о сходимости по вероятности: p p ξkn → ξk ⇒ ϕ(ξ1n , . . . , ξmn ) → ϕ(ξ1 , . . . , ξm ), p то есть θ̂−→θ. 69 7.6. Контрольные вопросы 1. Дайте определение функции правдоподобия. 2. Чем отличается функции правдоподобия от n-мерной плотности в непрерывной модели? 3. Как найти функцию правдоподобия в дискретной модели? 4. В чем состоит идея метода максимального правдоподобия? 5. Запишите уравнение правдоподобия. 6. Существует ли о.м.п. в нерегулярной модели? 7. Верно ли, что о.м.п. единственна? 8. Каким образом можно найти о.м.м.? 9. Верно ли, что о.м.м. единственна? 10. Какими свойствами обладают о.м.п.? 11. Какими свойствами обладают о.м.м.? 12. Любая ли оценка, полученная методом моментов, является состоятельной? 13. Запишите известные вам о.м.п. для параметров различных моделей. 14. Запишите некоторые известные вам о.м.м. для параметров различных моделей. 15. Приведите пример совпадающих о.м.м. и о.м.п. 16. Приведите пример не совпадающих о.м.м. и о.м.п. 70 Лекция 8. Оценивание параметрической функции Есть разные пути, а истина одна. Jay Thunder План лекции: неравенство Рао – Крамера для параметрической функции, эффективная оценка параметрической функции, теоремы об эффективных оценках, экспоненциальное семейство. 8.1. Неравенство Рао – Крамера для параметрической функции Определение эффективной оценки параметра 6.5 можно распространить и на параметрическую функцию. Рассмотрим задачу оценивания заданной параметрической функции τ (θ) в модели hFθ i. Предположим, что модель hFθ i регулярна, функция τ (θ) дифференцируема и пусть Tτ (θ) – класс всех несмещенных оценок τ (θ). Тогда для дисперсий несмещенных оценок параметрической функции τ (θ) справедливо неравенство Рао – Крамера для параметрической функции. Теорема 8.1. Пусть hFθ i – регулярная модель, T (x) ∈ Tτ (θ) – оценка параметрической функции τ (θ). Тогда выполняется неравенство (τ 0 )2 . (72) I Доказательство проводится как в теореме (6.1). Доказательство. По-прежнему используем упрощенные обозначеD T (x) > ния: Z+∞ Z+∞ Z f (x1 , x2 , . . . , xn , τ (θ) = f ; ... dx1 . . . dxn = dx. −∞ −∞ По свойству плотности Z f dx = 1. Из несмещенности оценки Z T (x)f dx = E T (x) = τ (θ). (73) (74) Продифференцируем (73) по параметру. Это возможно, так как модель регулярна. Z ∂f dx = 0. (75) ∂θ 71 Домножим (75) на τ (θ): Z ∂f dx = 0. ∂θ Продифференцируем (74) по параметру: Z ∂f T (x) dx = τ 0 (θ). ∂θ Вычтем (77) – (76): Z ∂f dx = τ 0 (θ). (T (x) − τ (θ)) ∂θ τ (θ) ∂f ∂ ln f Подставим в (78) выражение для ∂f ∂θ : ∂θ = f ∂θ . Z ∂ ln f (T (x) − τ (θ)) f dx = τ 0 (θ). ∂θ Полученный интеграл совпадает с ковариацией, то есть ∂ ln f = τ 0 (θ). cov T (x), ∂θ (76) (77) (78) (79) (80) Из свойства коэффициента корреляции вытекает неравенство Коши – Буняковского: s ∂ ln f τ 0 (θ) 6 D(T (x)) D . ∂θ Преобразуем последнее выражение: (τ 0 (θ))2 D T (x) > . ln f D ∂ ∂θ 2 2 ∂ ln f ∂ ln f ∂ ln f 2 ∂ ln f =E −E =E =I D ∂θ ∂θ ∂θ ∂θ (τ 0 (θ))2 =⇒ D T (x) > . I Определение 8.1. Статистика T (x) ∈ Tτ (θ) называется эффективной оценкой параметрической функции τ (θ), если 0 где (τ (θ))2 D T (x) = , I 2 ∂ lnf (X) I=E . ∂θ2 72 (81) Из доказательства неравенства Рао – Крамера вытекает важное следствие: равенство 0 (τ (θ))2 D T (x) = (82) I имеет место тогда и только тогда, когда T (x) – линейная функция вклада выборки, то есть ∂lnf (X) + τ (θ), T (x) = a(θ) ∂θ где a(θ) – некоторая функция от θ. Это следствие можно переформулировать так: Теорема 8.2. Статистика T (x) ∈ Tτ (θ) является эффективной оценкой параметрической функции τ (θ) тогда и только тогда, когда T (x) – линейная функция вклада выборки, то есть T (x) = a(θ) ∂lnf (X) + τ (θ), ∂θ где a(θ) – некоторая функция от θ. Мы уже рассматривали некоторые свойства оценок – несмещенность, состоятельность, оптимальность, эффективность. Одна из задач статистики – исследовать, обладает ли конкретная оценка этими свойствами. Подытожим, что нам известно о методах решения такой задачи. Исследовать оценку на несмещенность можно напрямую, по определению. Доказать, что оценка состоятельна, можно с помощью теорем 5.1– 5.3. Эти теоремы дают достаточные условия состоятельности. Можно использовать и происхождение оценки: о.м.п. и о.м.м. состоятельны. Для доказательства того факта, что оценка не является состоятельной, надо показывать, что нарушается определение сходимости по вероятности. Эффективность оценки мы умеем проверять по определению, вычисляя дисперсию оценки и информационное количество Фишера. Про оптимальность нам известно меньше всего, а для проверки оптимальности единственный (пока) инструмент – утверждение: «Эффективная оценка является оптимальной. Обратное, вообще говоря, не верно.» Почему это так? Несмещенная оценка θ оптимальна, если она имеет наименьшую дисперсию среди всех несмещенных оценок θ, и эффективна, если она имеет минимальную возможную дисперсию, совпадающую с границей Рао – Крамера. Разница примерно как между наименьшим значением из 73 реально существующих и теоретическим минимумом. Теоретический минимум, соответствующий эффективной оценке, может и не достигаться в данной модели, оптимальной же оценке соответствует минимальное значение из реально существующих. Кроме этого, эффективные оценки рассматриваются только в регулярных моделях, а оптимальные существуют и в нерегулярных. 8.2. Другой подход к эффективным оценкам Мы пойдем другим путем. В.И. Ульянов При исследовании эффективности, помимо прямого применения неравенства Рао – Крамера, можно использовать его следствие (теорема 8.2): Статистика T (x) ∈ Tτ (θ) является эффективной оценкой параметрической функции τ (θ) тогда и только тогда, когда T (x) – линейная функция вклада выборки, то есть T (x) = a(θ) ∂lnf (X) + τ (θ), 23 ∂θ (83) где a(θ) – некоторая функция от θ . Посмотрим внимательно на (83). Оказывается, функциональная часть эффективной оценки, зависящая от X, равна ∂ ln f (X) . ∂θ Важно помнить, что X тут – многомерная величина. Попробуем применить этот подход. Пример 8.1. Пусть ξ распределена по нормальному закону N (θ, σ). Функция плотности 1 e− f (X) = f (x1 , . . . , xn ) = f (x1 ) · . . . · f (xn ) = √ n (σ 2π) Pn 2 i=1 (xi −θ) 2σ 2 J Найдем логарифм плотности ln f (X) = −n(ln σ + 0, 5 ln 2π) − n X (xi − θ)2 i=1 23 f (X) можно записывать как L (функция правдоподобия). 74 2σ 2 . . Найдем частную производную по θ: n ∂ ln f (X) X (xi − θ) = . 2 ∂θ σ i=1 Функциональная часть представляет из себя n X xi . i=1 Таким образом, эффективная оценка любой функции параметра θ = a Pn должна зависеть от i=1 xi (или, что то же самое, от X.) С учетом того, что эффективная оценка должна быть несмещенной, это означает, что эффективных оценок существует немного.I Теорема 8.3. В модели hFθ i эффективные оценки могут существовать только для одного класса функций, то есть может существовать τ (θ) такая, что ∀ u(θ) ∈ {aτ (θ) + b | a, b − const} существует эффективная оценка, и если T (x) – эффективная оценка τ (θ), то aT (x) + b – эффективная оценка функции u(θ) = aτ (θ) + b. Для всех других функций параметра θ эффективных оценок не существует. Например, если θ имеет эффективную оценку, то у θ2 уже не может существовать эффективная оценка. Теорему несложно доказать напрямую, к тому же она является следствием теоремы об эффективных оценках в экспоненциальном семействе (8.4), которую мы сейчас рассмотрим. 8.3. Экспоненциальное семейство Нормальные герои всегда идут в обход. Песня из к/ф «Айболит-66» Определение 8.2. Говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству (коротко будем записывать это f ∈ E), если f (x) представима в виде f (x, θ) = eA(x)·B(θ)+C(x)+D(θ) . (84) Теорема 8.4. Для того чтобы в модели существовала эффективная оценка, необходимо и достаточно, чтобы модель принадлежала экспоненциальному семейству. При этом эффективной оценкой является статистика n 1X T (x) = A(xi ), n i=1 75 и она оценивает параметрическую функцию D0 (θ) τ (θ) = − 0 . B (θ) Доказательство. Достаточность. Пусть f (x, θ) ∈ E. Тогда ln L = n X ln f (xi , θ) = B(θ) i=1 n X A(xi ) + i=1 n X C(xi ) + nD(θ). i=1 n X ∂ ln L = B 0 (θ) A(xi ) + nD0 (θ). ∂θ i=1 Pn 1 ∂ ln L D0 (θ) i=1 A(xi ) = − 0 . n nB 0 (θ) ∂θ B (θ) (85) По (83) несмещенная оценка T (x) параметрической функции τ (θ) является ее эффективной оценкой тогда и только тогда, когда ∂ ln L + τ (θ), ∂θ где a(θ) – некоторая функция от θ. Сравнивая (85) и (86), видим, что Pn D0 (θ) i=1 A(xi ) T (x) = , τ (θ) = − 0 . n B (θ) T (x) = a(θ) (86) Следовательно, статистика n 1X T (x) = A(xi ) n i=1 является эффективной оценкой параметрической функции τ (θ) = − D0 (θ) , B 0 (θ) и других эффективных оценок в этой модели нет (с точностью до линейного преобразования). Необходимость. Пусть в модели hFθ i существует эффективная оценка T (x). Покажем, что модель принадлежит экспоненциальному семейству. Поскольку T (x) эффективна, T (x) = a(θ) ∂ ln L(X) + τ (θ), ∂θ 76 отсюда T (x) − τ (θ) ∂ ln L(X) = . a(θ) ∂θ Выразим L(X): Z Z T (x) τ (θ) ln L(X) = dθ − dθ, a(θ) a(θ) Z Z 1 τ (θ) L(X) = exp T (x) dθ − dθ . a(θ) a(θ) Сравним (87) с определением экспоненциального семейства: (87) L(x) = exp{A(x) · B(θ) + C(x) + D(θ)}. Видим, что Z A(x) = T (x), B(θ) = dθ , C(x) = 0, D(θ) = − a(θ) Z τ (θ) dθ. a(θ) Пример 8.2. Докажем, что N (a, σ) принадлежит экспоненциальному семейству по каждому из параметров, взятых отдельно, и найдем эффективные оценки. J (x−a)2 x2 x·a a2 1 √1 f (x) = √ · exp− 2σ2 = expln σ 2π − 2σ2 + σ2 − 2σ2 . σ 2π Пусть параметром будет a, тогда a 1 x2 a2 A(x) = x, B(a) = 2 , C(x) = ln √ − 2 , D(a) = − 2 . σ 2σ σ 2π 2σ Следовательно, распределение N (θ, σ) принадлежит экспоненциальному семейству. Найдем эффективную оценку параметрической функции от параметра θ = a : D0 (a) a 1 τ (a) = − 0 = : = a, B (a) σ σ n n 1X 1X T (x) = A(xi ) = xi = x̄. n i=1 n i=1 Получили, что x̄ является эффективной оценкой a. Пусть параметром будет σ, тогда A(x) = (x − a)2 , B(σ) = − 1 1 , C(x) = 0, D(σ) = − ln σ − ln 2π. 2σ 2 2 77 Следовательно, распределение N (a, θ) также принадлежит экспоненциальному семейству. Найдем эффективную оценку параметрической функции от параметра θ = σ : D0 (a) 1 1 τ (σ) = − 0 = : 3 = σ2, B (a) σ σ n n 1X 1X T (x) = A(xi ) = (xi − a)2 . n i=1 n i=1 P По теореме 8.4 оценка σb2 = n1 ni=1 (xi − a)2 эффективна. I Определение 8.3. В случае многомерного параметра θ = (θ1 , . . . , θk ) и непрерывной параметрической модели говорят, что распределение с плотностью f (x) принадлежит экспоненциальному семейству, если f (x) представима в виде k X Ai (x) · Bi (θ) + C(x) + D(θ)}. f (x) = exp{ i=1 Чтобы сделать представление по возможности более однозначным, мы будем предполагать, что функции линейно не зависимы на 0. Примером могут служить семейства нормальных распределений N (θ1 , θ2 ), гамма-распределений Γθ1 ,θ2 . 8.4. Контрольные вопросы 1. Укажите три способа поиска эффективной оценки. 2. Дайте определение вклада выборки. 3. Дайте определение экспоненциального семейства. 4. Принадлежат ли экспоненциальному семейству распределения N (a, θ), N (θ, σ), N (θ, θ)? 5. Принадлежит ли экспоненциальному семейству биномиальное распределение B(N, θ)? 6. Принадлежит ли экспоненциальному семейству распределение Пуассона? 7. Запишите закон распределения Пуассона в экспоненциальном виде. 78 8. Существует ли эффективная оценка в биномиальном распределении? 9. Укажите необходимые и достаточные условия существования эффективной оценки. √ 10. Могут ли в одной модели статистики X и X являться эффективными оценками (возможно, различных параметрических функций)? 11. Могут ли в одной модели статистики X и S 2 являться эффективными оценками (возможно, различных параметрических функций)? P 12. Могут ли в одной модели статистики X и 2 Xi являться эффективными оценками (возможно, различных параметрических функций)? 13. Запишите плотность показательного распределения в экспоненциальном виде. 14. Какая параметрическая функция имеет в показательной модели эффективную оценку? 15. Какая статистика является в показательной модели эффективной оценкой ? 79 Лекция 9. Достаточные статистики – Достаточная статистика – это статистика, которой достаточно для оценивания. – Смысл верный, теперь дайте определение. С устного экзамена План лекции: определения и примеры, критерий достаточности, свойства достаточных статистик, свойства оценок максимального правдоподобия. 9.1. Определение и примеры Напомним, что мы по-прежнему рассматриваем параметрическую модель hFθ i. Определение 9.1. Статистика T = T (X) называется достаточной для параметра θ, если условное распределение (плотность или вероятность) случайной величины X = (X1 , . . . , Xn ) (выборки) при условии T (X) = t не зависит от параметра θ. Это означает, что в дискретном случае условная вероятность P (X = x/T (X) = t), а в непрерывном случае условная плотность fX/T (X)=t (x) не зависит от параметра θ, вся информация о θ, имеющаяся в выборке, содержится в T (X). Рассмотрим подробнее дискретный случай. Поскольку P (A/B) = P (X = x/T (X) = t) = ( = P (AB) , P (B) P (X = x, T (X) = t) = P (T (X) = t) P (X=x) P (T (X)=t) , x : T (x) = t x : T (x) 6= t, 0, так как для x : T (x) = t событие {X = x, T (X) = t} влечет событие {X = x}. Таким образом, в дискретной модели статистика T (X) достаточна, если P (X = x) (88) P (T (X) = t) не зависит от параметра для x таких, что T (x) = t. 80 Пример 9.1. Исследуем на достаточность статистику P n T = n1 i=1 Xi в Pλ . J Надо показать, что P (X=x) P (T (X)=t) не зависит от параметра λ. P (X = x) = P (X1 = x1 , .., Xn = xn ) = n Y P (Xi = xi ) = i=1 = n Y e−λ λxi xi ! i=1 Случайная величина Pn i=1 Xi −λn P λ xi . = Q (xi !) e имеет распределение Pλn , значит, P (T = t) = P ( n X i=1 e−nλ (nλ)tn Xi = nt) = . (tn)! P P e−λn λ xi (tn)! ( xi )! P (X = x) P . =Q =Q P (X/T = t) = P (T = t) (xi !)e−nλ (nλ)tn (xi !)n xi Полученное P выражение не зависит от параметра λ, следовательно, стати1 стика T = n ni=1 Xi = x̄ является достаточной. I Для непрерывных величин распределение задается плотностью. В этом случае также достаточно показать, что fX (x) fT (t) (89) не зависит от параметра θ. f (x,t) fX (x) Замечание 9.1. X,T fT (t) не равно fT (t) , но отличается множителем, не зависящим от θ (якобианом), следовательно, статистика T (x) достаточна тогда и только тогда, когда ffXT (x) (t) не зависит от θ. Пример 9.2. Пусть (X1 , . . . , Xn ) – выборка из показательного распределения Eα с параметром α. Исследуем на достаточность статиPn стику T (x) = i=1 Xi . J Надо показать, что fX (x) fT (t) fX (x) = fX (x1 , . . . , xn ) = не зависит от параметра α. n Y fXi (xi ) = i=1 n Y i=1 81 αe−αxi = αn e−α P xi . Чтобы найти fT (t), найдем распределение суммы n показательно распределенных случайных величин. Характеристическая функция показательного распределения Eα ϕXi (t) = α . α − it Тогда характеристическая функция статистики T (x) = изведению характеристических функций слагаемых, n α ϕT (t) = , α − it Pn i=1 Xi равна про- но это характеристическая функция гамма-распределения Γα, n . Плотность гамма-распределения Γα, β равна αβ −αx β−1 e x , fξ (x) = Γ(β) где Γ(β) = R +∞ 0 x > 0, xβ−1 e−x dx. Соответственно плотность T (t) равна αn −αt n−1 fT (t) = e t , Γ(n) t > 0, или, поскольку Γ(n) = (n − 1)! ∀n ∈ N, αn fT (t) = e−αt tn−1 , (n − 1)! t > 0. Найдем отношение плотностей. fX (x) = fT (t) P αn e−α xi (n − 1)! = , n α n−1 −αt tn−1 t e (n−1)! что не зависит от α. I 9.2. Критерий достаточности С холодным вниманьем посмотришь вокруг – какая-то скука, читатель и друг! Когда же посмотришь с вниманьем горячим, увидится все совершенно иначе. Т. Кибиров Существует удобный критерий достаточности статистики – теорема Неймана – Фишера о факторизации. 82 Теорема 9.1 (теорема факторизации). В модели hFθ i статистика T (X) является достаточной для параметра θ тогда и только тогда, когда L(x, θ) = g(T (x), θ) · h(x). Замечание 9.2. Представление L(x, θ) в таком виде (множитель g может зависеть от θ, а от x зависит лишь через T (x), а множитель h от параметра θ не зависит) называется факторизацией распределения. Факторизация не единственна. При h ≡ 1 говорят о тривиальной факторизации. Докажем теорему для дискретной модели. Доказательство. 1. Пусть T (X) – достаточная статистика. Возьмем t такое, что T (x) = t. L(x, θ) = P (X = x), и, поскольку {X = x} ⊆ {T (X) = t}, L(x, θ) = P (X = x) = P (X = x, T (X) = t). По теореме умножения P (X = x, T (X) = t) = P (T (X) = t) · P (X = x/T (X) = t). По определению достаточной статистики, P (X = x/T (X) = t) не зависит от параметра, то есть P (X = x/T (X) = t) = h1 (x, t) = h1 (x, T (x)) = h(x). Функция P (T (X) = t) зависит от параметра, поскольку вычисляется по закону распределения. Но от x она зависит только через T (x), то есть P (T (X) = t) = g(T (x), θ). Тогда L(x, θ) = P (T (X) = t)P (X = x/T (X) = t) = g(T (x), θ)h(x). Получена факторизация распределения. 2. Пусть L(x, θ) = g(T (x), θ)h(x). P (X = x/T (X) = t) = P (X = x, T (X) = t) P (X = x) = = P (T (X) = t) P (T (X) = t) 83 L(x, θ) P = L(x, θ) = x:T (x)=t = g(T (x), θ)h(x) g(t, θ)h(x) P P = = g(T (x), θ)h(x) g(t, θ) h(x) x:T (x)=t x:T (x)=t h(x) P , h(x) x:T (x)=t что не зависит от θ. Следовательно, T (x) – достаточная статистика. Пример 9.3. Пусть (X1 , . . . , Xn ) – выборка из нормального распределения N (a, σ). Найдем достаточную статистику для двумерного параметра θ = (a, σ). J Функция правдоподобия имеет следующий вид: P (x −a)2 1 1 − 2σi 2 √ L= e e− = √ n n (σ 2π) (σ 2π) где T (x) = n X x2i , i=1 P 2 P xi −2a xi +na2 2σ 2 n X = g(T (x), θ), ! xi . i=1 I 9.3. Свойства достаточных статистик Да как же это может быть, Сократ, чтобы ни одна из двух вещей не имела какого-то свойства, а затем чтобы это самое свойство, которого ни одна из них не имеет, оказалось в обеих? Платон, «Диалог с Гиппием» Свойство 1. Всякая эффективная оценка является достаточной статистикой. Доказательство. Пусть T (x) – эффективная оценка параметрической функции τ (θ). Тогда T (x) = a(θ) ∂ ln L(X) + τ (θ), ∂θ где a(θ) – некоторая функция от θ. ∂ ln L(X) T (x) − τ (θ) = . ∂θ a(θ) Z T (x) − τ (θ) ln L(x) = dθ; a(θ) 84 R L(x) = e T (x)−τ (θ) a(θ) dθ и при фиксированном T (x) = t L(x) = g(t, θ). Получили тривиальную факторизацию. Пример 9.4. В N (a, σ) X является эффективной оценкой a. J Следовательно, X является достаточной статистикой для a.I Свойство 2. Любая взаимно однозначная функция от достаточной статистики T является достаточной статистикой. Доказательство. Пусть H = ϕ(T ); T = ϕ−1 (H). L(x, θ) = g(T (x), θ)h(x) = g(ϕ−1 (H), θ)h(x) = g1 (H, θ)h(x). По теореме факторизации H = ϕ(T ) является достаточной статистикой. Пример 9.5. J В примере 9.3 наряду с T (x) = (T1 , T2 ) = n X x2i , i=1 n X ! xi i=1 достаточной статистикой будет являться и статистика H(x) = (S 2 , x̄), поскольку H(x) является взаимно однозначной функцией от T (x). I Определение 9.2. Достаточная статистика, являющаяся функцией любых других достаточных статистик, называется минимальной. Это достаточная статистика наименьшей размерности, представляющая исходные данные в наиболее сжатом виде. Минимальная достаточная статистика является самой экономной. Вернемся к оценкам максимального правдоподобия и выясним еще некоторые их свойства. 85 9.4. Свойства оценок максимального правдоподобия Настоящие свойства обнаруживаются лишь тогда, когда наступает время проявить их. Л. Фейербах Свойство 1. Связь с эффективными оценками. Если для скалярного параметра θ существует эффективная оценка T (x), то T (x) совпадает с о.м.п. θ̂. Доказательство. Пусть T (x) – эффективная оценка параметра θ. Это справедливо тогда и только тогда, когда T (x) = a(θ) ∂ ln L(X) + θ. ∂θ Решим уравнение правдоподобия ∂ ln L = 0. ∂θ ∂ ln L T − θ = = 0 ⇒ θ̂ = T. ∂θ a(θ) Покажем, что это точка максимума. Поскольку для эффективной оценки ρT, ∂ ln L = +1, ∂θ коэффициент линейной зависимости a(θ) > 0, и при переходе через критическую точку θ̂ = T производная меняет знак с плюса на минус, что является достаточным условием максимума. Свойство 2. Связь с достаточными статистиками. Если T (x) – достаточная статистика, а о.м.п. θ̂ существует и единственна, то θ̂ является функцией от T (x). Доказательство. По факторизационному критерию достаточности статистика T (x) является достаточной для параметра θ тогда и только тогда, когда L(x, θ) = g(T, θ) · h(x). Запишем уравнение правдоподобия: ∂ ln L ∂ ln g(T, θ) = = 0. ∂θ ∂θ Очевидно, решение этого уравнения θ̂ должно быть функцией T : θ̂ = θ̂(T ). 86 Следствие. Если о.м.п. θ̂ существует и единственна, то θ̂ является функцией минимальной достаточной статистики. Утверждение вытекает из того, что по свойству 2 о.м.п. θ̂ является функцией любой достаточной статистики). 9.5. Контрольные вопросы 1. Дайте определение достаточной статистики. 2. Укажите метод доказательства по определению достаточности статистики в непрерывной модели. 3. Укажите метод доказательства по определению достаточности статистики в дискретной модели. 4. Сформулируйте теорему факторизации. 5. Верно ли, что достаточная статистика единственна? 6. Верно ли, что всякая достаточная статистика является эффективной оценкой? 7. Верно ли, что всякая эффективная оценка является достаточной статистикой? 8. Существует ли достаточная статистика в нерегулярной модели? 9. В любой ли модели существует достаточная статистика? 10. Приведите пример достаточной статистики для параметра показательного распределения. 11. Приведите 2 примера достаточных статистик для параметра p биномиального распределения. 12. Приведите 3 примера достаточных статистик для параметра закона Пуассона. 13. Дайте определение минимальной достаточной статистики. 87 Лекция 10. Оптимальные оценки Несмещенная оценка θb параметра θ называется оптимальной оценкой, ∼ ∼ если D θb 6 D θ, ∀θ ∈ Θ, θ ∈ Tθ . Определение План лекции: свойства оптимальных оценок, достаточные статистики и оптимальные оценки, полные статистики. 10.1. Свойства оптимальных оценок И эта ее единственность делает ее более превосходной. Леонардо да Винчи Теорема 10.1 (теорема единственности). Если оптимальная оценка существует, то она единственна. Доказательство. Пусть у функции τ (θ) существуют две оптимальные оценки T1 (x) и T2 (x). Оптимальные оценки по определению являются несмещенными, поэтому E(T1 (x)) = E(T2 (x)) = τ (θ). Рассмотрим новую оценку 2 : T3 = T1 +T 2 T1 + T2 E(T3 ) = E = τ (θ). 2 D T1 + D T2 + 2cov(T1 , T2 ) T1 + T2 = D(T3 (x)) = D . 2 4 Поскольку T1 (x) и T2 (x) – оптимальные оценки, их дисперсии минимальны и равны между собой; пусть D T1 = D T2 = d. По свойству ковариации p cov(T1 , T2 ) 6 D T1 · D T2 = d (неравенство Коши – Буняковского). Тогда d + d + 2cov(T1 , T2 ) 6 d. 4 T3 (x) – несмещенная оценка, и ее дисперсия не больше минимальной, следовательно, она тоже оптимальна. Тогда ее дисперсия в точности равна d, и в неравенстве достигается равенство. Но это возможно только, если √ cov(T1 , T2 ) = D T1 · D T2 , что означает линейную зависимость T1 , T2 . Пусть T1 = aT2 + b. D T1 = a2 D T2 , но D T1 = D T2 , следовательно, a2 = 1. cov(T1 , T2 ) = d > 0 (положительная связь), значит, a > 0 и a = 1. E T1 = E T2 + b, следовательно, b = 0. Окончательно получаем: T1 = aT2 + b = T2 (если есть две оптимальные оценки, то они совпадают). D(T3 (x)) = 88 Теорема 10.2. Пусть T (x) – оптимальная оценка некоторой параметрической функции τ (θ), а H(x) такая статистика, что E(H(x)) = 0, ∀θ ∈ Θ. Тогда cov(T (x), H(x)) = 0 ∀ θ ∈ Θ. Доказательство. Рассмотрим T 0 (x) = T (x) + λH(x), λ ∈ R. E T 0 (x) = E T (x) + λ E H(x) = E T (x) = τ (θ), то есть T 0 ∈ Tτ . D T 0 (x) = D T (x) + λ2 D H(x) + 2λcov(T (x), H(x)) > D T (x) (поскольку T 0 (x) несмещенная оценка, а T (x) оптимальная). λ2 D H(x) + 2λcov(T (x), H(x)) > 0. Это квадратное неравенство относительно λ, справедливое при всех значениях λ. Коэффициент при λ2 положительный, значит, дискриминант не больше 0, то есть cov2 (T (x), H(x)) 6 0. Следовательно, cov(T (x), H(x)) = 0. Теорема 10.3. Если T1 (x) – оптимальная оценка параметрической функции τ1 , а T2 (x) – оптимальная оценка параметрической функции τ2 , то T = a1 T1 (x) + a2 T2 (x) – оптимальная оценка параметрической функции τ = a1 τ1 + a2 τ2 . Доказательство. Очевидно, E T = a1 E T1 (x) + a2 E T2 (x) = a1 τ1 + a2 τ2 = τ. Пусть S – произвольная несмещенная оценка функции τ . Рассмотрим разность S − T : E(S − T ) = E S − E T = τ − τ = 0. Теперь рассмотрим ковариацию: cov(T, S −T ) = cov(a1 T1 +a2 T2 , S −T ) = a1 cov(T1 , S −T )+a2 cov(T2 , S −T ). Тогда по теореме 10.2 cov(T, S − T ) = 0 (нулю равно каждое слагаемое в силу оптимальности T1 , T2 ). С другой стороны, cov(T, S − T ) = cov(T, S) − D T, значит, D T = cov(T, S). Но √ cov(T, S) 6 D T · D S. √ Следовательно, D T 6 D T · D S, или D S > D T. Это верно для любой несмещенной оценки S, значит, T – оптимальная оценка. 89 10.2. Достаточные статистики и оптимальные оценки – Это верный подход, – Благозвон произнес, Торопливо вмешавшись опять, – Это правильный путь, если хочешь всерьез Настоящего Снарка поймать! Льюис Кэрролл, «Охота на Снарка» Оказывается, что оптимальная оценка, если она существует, является функцией от достаточной статистики. Точнее говоря, для любой несмещенной оценки, не являющейся функцией от достаточной статистики, можно указать несмещенную оценку, зависящую от достаточной статистики, дисперсия которой меньше, чем дисперсия исходной оценки. Это доказывает следующая теорема. Теорема 10.4 (теорема Pao – Блекуэлла – Колмогорова). Пусть T (X) – достаточная статистика, d(X) – несмещенная оценка θ, ϕ(T ) = E (d(X)/T (X) = t). Тогда D d(X) > D ϕ(T ). Доказательство. Схема доказательства. (1) Покажем, что ϕ(T ) не зависит от θ и, значит, может служить оценкой θ. (2) Покажем, что ϕ(T ) – несмещенная оценка θ. (3) Докажем, что D d(X) > D ϕ(T ). Для простоты записи обозначим fX/T (X)=t = fT . (1) ϕ(T ) не зависит от θ, так как Z ϕ(T ) = E (d(X)/T (X) = t) = d(x)fT (x)dx. (fT (x) не зависит от θ, так как T (x) – достаточная статистика). (2) ϕ(T ) ∈ Tθ , так как E[ϕ(T )] = ET [EX (d(X)/T (X) = t)] = E(d(X)) = θ. Использована формула из курса теории вероятностей Eη [Eξ (ξ/η)] = E ξ. (3) Вычислим дисперсию d(X) : D d(X) = E(d(X) − θ)2 = E(d(X) − ϕ(T ) + ϕ(T ) − θ)2 = 90 = E(d(X) − ϕ(T ))2 + E(ϕ(T ) − θ)2 + 2 E[(d(X) − ϕ(T ))(ϕ(T ) − θ)]. Рассмотрим последний член: E[(d(X) − ϕ(T ))(ϕ(T ) − θ)] = E[(d(X) − ϕ(T ))ϕ(T )] − θ E[(d(X) − ϕ(T )) = = E[(d(X) − ϕ(T ))ϕ(T )], так как E d(X) = E ϕ(T ), и последний член обращается в 0. E[(d(X) − ϕ(T ))ϕ(T )] = ET (EX [(d(X) − ϕ(T ))ϕ(T )/T (X) = t]). ϕ(T ) можно вынести за знак матожидания по X : ET (EX [(d(X) − ϕ(T ))ϕ(T )/T (X) = t]) = = ET (ϕ(T ) EX [(d(X) − ϕ(T ))/T (X) = t]) . Рассмотрим отдельно математическое ожидание по X : EX [(d(X) − ϕ(T ))/T (X) = t] = EX [d(X)/T (X) = t] − EX [ϕ(T )/T (X) = t] По условию EX [d(X)/T (X) = t] = ϕ(T ). Но и EX [ϕ(T )/T (X) = t] = ϕ(t) = ϕ(T ), поэтому ET (EX [(d(X) − ϕ(T ))/T (X) = t]) = ET (ϕ(T ) − ϕ(T )) = ET (0) = 0, D d(X) = E(d(X) − ϕ(T ))2 + E(ϕ(T ) − θ)2 . E(ϕ(T ) − θ)2 , очевидно, равно D ϕ(T ), а E(d(X) − ϕ(T ))2 > 0, поэтому D d(X) > D ϕ(T ). Выделим очевидное следствие этой теоремы. Теорема 10.5. Оптимальная оценка, если она существует, необходимо является функцией от достаточной статистики. Доказательство. Если это не так, можно получить оценку, у которой дисперсия не больше и которая является функцией от достаточной статистики. Она тоже будет оптимальной, но оптимальная единственна. Следовательно, оптимальную оценку надо искать среди функций от минимальной статистики. Оказывается, свойство минимальности статистики тесно связано со свойством полноты. 91 10.3. Полные статистики Да поразит тя пуще грома Ужасна, сильна аксиома!24 Определение 10.1. Статистика T называется полной, если для всякой (ограниченной) функции ϕ(T ) из того, что E ϕ(T ) = 0 следует, что ϕ(T ) ≡ 0. Из определения25 следует теорема единственности. Теорема 10.6. Если T (x) полна, то для любой функции τ (θ) существует единственная несмещенная оценка, зависящая от T (x). Доказательство. Пусть для некоторой τ (θ) существуют две несмещенные оценки, зависящие от T (x) : ϕ1 и ϕ2 . E ϕ1 = E ϕ2 = τ (θ). Тогда E(ϕ1 − ϕ2 ) = 0 ⇒ ϕ1 − ϕ2 ≡ 0, (по определению полной статистики), то есть ϕ1 ≡ ϕ2 . Следующая теорема указывает на связь между понятиями полноты и минимальности (доказательство можно посмотреть в (1)). Теорема 10.7. Всякая полная достаточная статистика S является минимальной достаточной статистикой. Это означает, что при поиске оптимальных оценок может быть плодотворным использование полных статистик. Действительно, справедлива теорема: Теорема 10.8. Если существует полная достаточная статистика, то всякая функция от нее является оптимальной оценкой своего математического ожидания. Доказательство. По теореме Pao – Блекуэлла – Колмогорова оптимальная оценка, если она существует, является функцией от достаточной статистики. Пусть T – полная достаточная статистика, ϕ(T ) – некоторая функция от нее; обозначим ее математическое ожидание τ (θ) = E[ϕ(T )]. Тогда 24 25 Из пародии на Ломоносова двухсотлетней давности. Это и есть то определение, которому эпиграф предлагает поразиться. 92 ϕ(T ) ∈ Tτ (Tτ – множество несмещенных оценок τ (θ)). Оптимальная оценка по определению принадлежит Tτ . Обе оценки, ϕ(T ) и оптимальная, является функциями T. Но по теореме 10.6 существует единственная несмещенная оценка, зависящая от T . Следовательно, они совпадают и ϕ(T ) является оптимальной оценкой своего математического ожидания τ (θ). Итак, если оценивается заданная параметрическая функция τ (θ), то оптимальная несмещенная оценка – такая функция H(T (x)) от полной достаточной статистики T (x), которая удовлетворяет уравнению несмещенности E H(T (x)) = τ (θ). Это уравнение либо имеет единственное решение, либо решений нет. В последнем случае класс Tτ несмещенных оценок τ (θ) пуст. 10.4. Контрольные вопросы 1. Дайте определение оптимальной оценки. 2. Верно ли, что оптимальная оценка единственна? 3. Чему равна ковариация оптимальной оценки и любой статистики, имеющей нулевое математическое ожидание? 4. Сформулируйте линейное свойство оптимальных оценок. 5. Сформулируйте теорему Pao – Блекуэлла – Колмогорова. 6. Даны достаточные статистики T1 и T2 . Может ли существовать оптимальная оценка, которая является функцией от T1 , но не является функцией от T2 ? 7. Дайте определение полной статистики. 8. Укажите связь между полной и минимальной достаточными статистиками. 9. Для какой параметрической функции полная достаточная статистика является оптимальной оценкой? 10. Запишите уравнение несмещенности. 93 Лекция 11. Интервальные оценки Винер сказал: «Чем более вероятно сообщение, тем меньше оно содержит информации». Такие плакаты ты увидишь в любом зале ожидания. А. и Б. Стругацкие «Дни кракена» План лекции: понятие интервального оценивания параметров, построение доверительного интервала с помощью центральной статистики, доверительные интервалы для параметров нормального распределения, примеры расчетов, асимптотический метод. 11.1. Понятие интервального оценивания параметров Доверительный интервал среднего балла экзамена: с достоверностью 0,95 – [72; 74], с достоверностью 1 – [0; 100]. Консультация на экономическом факультете Мы рассмотрели точечные оценки неизвестных параметров распределения наблюдаемой случайной величины. Всякая оценка параметра представляет собой функцию от выборки, которая для данной реализации выборки равна конкретному значению оценки, принимаемому за приближенное значение параметра. Возникает вопрос, насколько близка данная оценка к неизвестному параметру распределения. Ответить на этот вопрос можно только в вероятностном смысле. Например, указать такой интервал, внутри которого с высокой вероятностью 1 − α находится точное значение параметра. Построение таких интервалов называют интервальным или доверительным оцениванием, а соответствующий интервал – доверительным интервалом параметра или интервальной оценкой параметра. Таким образом, (1 − α)-доверительный интервал – случайный интервал, который с вероятностью 1 − α накрывает истинное значение параметра θ. Уровень значимости α обычно берут равным одному из чисел 0,001; 0,005; 0,01; 0,05; 0,1. Уровень значимости выражает ошибку доверительного интервала. Чем меньше α, тем больше доверительная вероятность и тем надежнее доверительный интервал, но более надежный интервал является более широким и менее информативным. Стандартный уровень значимости α = 0, 05. Рассмотрим доверительное оценивание скалярного параметра θ. Пусть X = (X1 , . . . , Xn ) – выборка из генеральной совокупности наблюдаемой случайной величины ξ с функцией распределения F (x, θ). Определение 11.1. Интервал I = [I1 (X); I2 (X)], (где I1 (X) < I2 (X)) называют доверительным интервалом значимости α для параметра 94 θ (0 < α < 1), если выполняется условие P (I1 (X) 6 θ 6 I2 (X)) = 1 − α. (90) Число 1 − α называется доверительной вероятностью, а I1 (X), I2 (X) – нижней и верхней доверительными границами26 . Таким образом, (1 − α)-доверительный интервал – случайный интервал, который с вероятностью 1 − α накрывает истинное значение параметра θ. Заметим, что границы интервала не зависят от параметра θ, а зависят только от выборки27 . Введем сразу же понятие асимптотического доверительного интервала для параметра θ. Определение 11.2. Интервал I = [I1 (X); I2 (X)], (где I1 (X) < I2 (X)) называют асимптотическим доверительным интервалом значимости α для параметра θ (0 < α < 1), если выполняется условие lim P (I1 (X) 6 θ 6 I2 (X)) = 1 − α. n→∞ (91) В этом случае говорят об асимптотической значимости α и об асимптотической доверительной вероятности 1 − α. Определенные выше интервалы являются двусторонними. Можно рассматривать и односторонние интервалы: P (I1 (X) 6 θ) = 1 − α или P (θ 6 I2 (X)) = 1 − α. Существуют различные подходы к построению доверительных интервалов. Рассмотрим метод нахождения доверительных интервалов, основанный на понятии центральной статистики. Пусть распределение наблюдаемой случайной величины имеет плотность f (x) и пусть существует такая функция от выборки и параметра G(X, θ), что: 1) распределение случайной величины G(X, θ) не зависит от θ; 2) при каждом x функция G(X, θ) непрерывна и строго монотонна по параметру θ. Такую случайную функцию называют центральной статистикой. (Обратите внимание, что центральная статистика зависит от параметра.) 26 Если увидите в определении доверительного интервала строгое неравенство – вспомните про «пресловутую меру нуль». 27 Границы интервала случайны, а параметр неслучаен, поэтому говорить «параметр θ попадает в интервал» было бы неверно. Аналогия: на колышек (неслучайный параметр) набрасывают кольцо (случайный интервал). Не колышек попадает в кольцо, а кольцо накрывает колышек. 95 11.2. Построение доверительного интервала Красота нашей жизни – в теории. М. М. Жванецкий Обозначим через g(X, θ) плотность распределения центральной статистики. Функция g(X, θ) не зависит от параметра θ (по определению центральной статистики), и поэтому для любого заданного 0 < α < 1 можно подобрать такие числа g1 и g2 , g1 < g2 , что P (g1 6 G(X, θ) 6 g2 ) = 1 − α. (92) Если определили g1 и g2 , то можно составить уравнения относительно θ: G(X, θ) = g1 , G(X, θ) = g2 . Поскольку G(X, θ) – строго монотонная по θ функция, то каждое из уравнений имеет по одному решению T1 (X), T2 (X). Положим I1 (X) = min{T1 (X), T2 (X)}, I2 (X) = max{T1 (X), T2 (X)}. Тогда события {g1 6 G(X, θ) 6 g2 } и {I1 6 θ 6 I2 } совпадают и, следовательно, совпадают их вероятности, то есть P (I1 6 θ 6 I2 ) = 1 − α. (93) Поэтому [I1 ; I2 ] – доверительный интервал для параметра θ значимости α (доверительной вероятности 1 − α). Таким образом, для построения доверительного интервала параметра θ надо взять статистику G(X, θ), такую, что она сама монотонно зависит от параметра θ, а ее распределение от θ не зависит, записать уравнение P (g1 6 G(X, θ) 6 g2 ) = 1 − α, и разрешить неравенство под знаком вероятности относительно параметра θ. Монотонность функции G(X, θ) дает теоретическую возможность разрешить уравнение (хотя и не гарантирует, что это легко сделать). 96 11.3. Доверительные интервалы для параметров N (a, σ) И теперь в лесу дремучем Бродит грустный Гайавата, Непрестанно размышляя, Вспоминает он нормальный Тот закон распределенья Отклонений и ошибок... М. Кендалл 1. Рассмотрим построение доверительного интервала для математического ожидания θ1 = a в модели N (θ1 , θ2 ) = N (a, σ). Пусть X = (X1 , . . . , Xn ) – выборка из данного распределения. Из рассмотренной ранее теоремы следует, что случайная величина t = t(X, a) = √ n−1· a−X S имеет распределение Стьюдента с n − 1 степенью свободы Tn−1 и эту величину t можно считать центральной статистикой для θ1 . Найдем такие t1 и t2 , (t1 < t2 ), что √ a−X P t1 6 n − 1 · 6 t2 = 1 − α. s (94) Это можно сделать неоднозначно, решением является любая пара t1 , t2 , такая, что FT (t2 ) − FT (t1 ) = 1 − α, где FT (x) – функция распределения Стьюдента. Разрешим левую часть (94) относительно a: s s P X+√ · t1 6 a 6 X + √ · t2 = 1 − α. n−1 n−1 Отсюда доверительный интервал для a = θ1 : s s I= X+√ · t1 , X + √ · t2 , n−1 n−1 (95) где FT (t2 ) − FT (t1 ) = 1 − α. Минимизируем длину интервала l(I) = √ S · (t2 − t1 ) при этом условии. По методу Лагранжа для нахождения n−1 условного экстремума рассмотрим функцию ψ(λ) = √ s · (t2 − t1 ) + λ · (FT (t2 ) − FT (t1 ) − 1 + α) n−1 97 и составим систему уравнений  ∂ψ s   − λ · fT (t1 ) = 0, = −√    ∂t1 n − 1    ∂ψ s =√ + λ · fT (t2 ) = 0,  ∂t n − 1 2      ∂ψ   = FT (t2 ) − FT (t1 ) − 1 + α = 0, ∂λ где fT (x) – плотность распределения Стьюдента. Из первых двух уравнений получаем, что fT (t1 ) = fT (t2 ). Поскольку распределение Стьюдента симметрично относительно 0, то t2 = −t1 = t, FT (t) − FT (−t) = 2FT (t) − 1 = 1 − α. Отсюда FT (t) = 1 − α2 , t = tn−1, 1− α2 (квантиль распределения Стьюдента Tn−1 порядка 1 − α2 ). Получили доверительный интервал минимальной длины i h s s √ √ α α Ia = X − n−1 · tn−1, 1− 2 , X + n−1 · tn−1, 1− 2 . (96) Замечание 11.1. Вместо минимизации длины, которую не всегда удается осуществить, можно использовать центральный интервал, в котором g1 = G α2 , g2 = G1− α2 . Целесообразно считать, что вероятность попадания случайной величины правее g2 равна вероятности ее попадания левее g1 . Обычно, если распределение G симметрично, центральный интервал совпадает с интервалом минимальной длины. Это относится, например, к доверительному интервалу (96). 2. Найдем доверительный интервал значимости α для параметра θ1 = a нормального распределения N (θ1 , σ) при известном σ. √ n В качестве статистики G можно взять G = (a−X) . Известно, что σ √ (a − X) n = u ∈ N (0, 1). σ Поэтому P u α2 6 √ a−X n· 6 u1− α2 σ = 1 − α. Разрешим относительно a, учитывая, что u α2 = −u1− α2 : 98 σ σ P X − √ · u1− α2 6 a 6 X + √ · u1− α2 = 1 − α. n n h i σ σ √ √ α α Ia = X − n · u1− 2 , X + n · u1− 2 . (97) 3. Построим теперь доверительный интервал для σ = θ2 в модели N (θ1 , θ2 ). Из теоремы Фишера следует, что случайная величина nS 2 nS 2 = 2 σ2 θ2 имеет распределение χ2n−1 , то есть она зависит от θ2 , а ее распределение от неизвестных параметров не зависит. Поэтому данную функцию от выборки с учетом ее монотонности можно считать центральной статистикой. Тогда nS 2 p g1 6 2 6 g2 = 1 − α, σ и g1 , g2 находят, решая данное уравнение. Распределение χ2 задано таблично, и значения квантилей можно взять из таблиц. Для центрального доверительного интервала справедливо g1 = z α2 , g2 = z1− α2 , где zq – квантиль порядка q распределения статистики G. Тогда g1 , g2 находят по таблице как решения уравнений Fχ2n−1 (x) = α , 2 Fχ2n−1 (x) = 1 − α . 2 Решениями являются квантили g1 = χ2n−1, α , g2 = χ2n−1,1− α . Разре2 2 шая неравенство в левой части уравнения (3) относительно неизвестной дисперсии, получаем 2 2 nS nS P 6 σ2 6 = 1 − α. (98) g2 g1 Отсюда доверительный интервал для дисперсии σ 2 значимости α: nS 2 nS 2 Iσ2 = χ2 , 2 α , (99) α χ n−1,1− 2 99 n−1, 2 и доверительный интервал для среднеквадратичного отклонения σ значимости α: "r # r nS 2 nS 2 , Iσ = . (100) 2 2 χ χ α α n−1,1− 2 n−1, 2 4. Найдите самостоятельно доверительный интервал значимости α для параметра θ2 = σ нормального распределения N (a, θ2 ) при известном a. Напоминание: в качестве статистики G надо взять такую статистику, которая монотонно зависит от параметра σ, причем ее распределение от Подсказка: попробуйте поработать со статистикой G = Pnσ неXзависит. i −a i=1 σ . 11.4. Примеры расчетов Имеется три разновидности людей: те, которые умеют считать, и те, которые этого не умеют28 . Закон Уинкорна Пример 11.1. Федеральные центры оздоровительного питания изучают потребление населением биологически активных добавок (БАД). Было опрошено 4 группы по 100 покупателей каждая. В среднем из 100 опрошенных встречалось 60 человек употребляющих БАД, причем σ = 10. Каков доверительный интервал значимости α = 0, 05 для числа людей, употребляющих БАД, на 100 опрошенных? J Требуется найти доверительный интервал значимости α = 0, 05 для параметра a нормального распределения N (a, σ] при известном σ = 10; воспользуемся вышеприведенной формулой: σ σ Ia = X − √ · u1− α2 ; X + √ · u1− α2 = n n 10 10 = 60 − √ · u0,975 ; 60 − √ · u0,975 = 4 4 10 10 = 60 − · 1, 96; 60 − · 1, 96 = 2 2 = [60 − 9, 8; 60 + 9, 8] = [50, 2; 69, 8]. 28 На самом деле, конечно, это 10 разновидностей. 100 I СПРАВКА. Квантили N (0, 1) : u0,.95 = 1, 64, u0,975 = 1, 96, u0,995 = 2, 58. Пример 11.2. В условиях предыдущего примера как изменился бы доверительный интервал, если бы те же данные были получены по 25 группам численностью 100 человек каждая? J σ σ Ia = X − √ · u1− α2 ; X + √ · u1− α2 = n n 10 10 = 60 − √ · u0,975 ; 60 − √ · u0,975 = 25 25 10 10 = 60 − · 1, 96; 60 − · 1, 96 = 5 5 = [60 − 3, 92; 60 + 3, 92] = [56, 08; 63, 92]. Длина интервала равна 3, 92 · 2 = 7, 84, а в предыдущем примере длина доверительного интервала равнялась 9, 8 · 2 = 19, 6, то есть новый интервал в 2,5 раза короче.I 11.5. Асимптотические доверительные интервалы Надпись «Нет в жизни счастья» он смыл бесповоротно. Счастье было! Вот оно было! Прямо перед нами! Ю. Коваль, «Суер-Выер» Параметр произвольного распределения можно оценить так же, как параметр нормального распределения, если известно распределение некоторой статистики, зависящей от параметра и его оценки (эту информацию можно найти в справочниках, а можно вывести самим). Другой способ связан с использованием асимптотического метода (это и есть заявленное счастье. Почти всегда можно обойтись нормальным распределением). Если θ̂ асимптотически нормальна и несмещена (например, является о.м.п.), то θ̂ − θ d p → u ∈ N (0, 1). D θ̂ θ̂ − θ 1 − α = p u α2 6 p 6 u1− α2 D θ̂ 101 ! . (101) Разрешим относительно θ, получим доверительный интервал значимости α. p Кстати, длина его пропорциональна D θ̂ и минимальна, когда минимальна D θ̂, то есть при эффективной θ̂. Пример 11.3. Построим асимптотический доверительный интервал для параметра распределения Пуассона λ уровня значимости α. J Для этого рассмотрим статистику √ n(X − λ) d √ S= → u ∈ N (0, 1) λ и найдем из уравнения P (I1 6 λ 6 I2 ) = 1 − α доверительный интервал [I1 , I2 ]. P (uα/2 6 S 6 u1−α/2 ) = 1 − α; √ n(X − λ) √ 6 u1−α/2 . uα/2 6 λ Так как −uα/2 = u1−α/2 , то √ n(X − λ) 6 u1−α/2 , √ λ n(X − λ)2 6 u21−α/2 , λ 2 nλ2 − λ(2nX + u21−α/2 ) + nX 6 0. Решая относительно λ последнее неравенство, получаем интервал q 2nX + u2 2 1−α/2 ± u1−α/2 4nX + u1−α/2 . 2n I Замечание 11.2. Точный доверительный интервал для параметра распределения Пуассона λ можно найти, используя точное распределение X. Пример 11.4. Найдем асимптотический доверительный интервал для параметра λ показательного распределения Eλ уровня значимости α. 102 1 1 . Чтобы не искать дисперсию , X X 1 изменим параметризацию, возьмем за параметр . В силу инвариантности λ 1 о.м.п., оценка равна X. Тогда λ J Вспомним, что о.м.п. λ равна λ̂ = 1 X − √ d λ = √n(λX − 1) −→ n u ∈ N (0, 1), 1 λ и дальше, как в предыдущих примерах (только вычисления проще).I 11.6. Контрольные вопросы 1. Чем отличается интервальная оценка от точечной? 2. Дайте определение доверительного интервала. 3. Что выражает уровень значимости? 4. Что выражает доверительная вероятность? 5. Как связана доверительная вероятность с длиной доверительного интервала? 6. Дайте определение центральной статистики. 7. В чем состоят преимущества использования центральной статистики для построения доверительного интервала? 8. В чем отличия доверительных интервалов математического ожидания нормального распределения при известной и неизвестной дисперсии? 9. Какой информацией надо располагать, чтобы построить доверительный интервал для математического ожидания нормального распределения? 103 Лекция 12. Основные понятия теории проверки гипотез Чтобы правильно задать вопрос, надо знать большую часть ответа. Роберт Шекли План лекции: основные понятия, примеры математических формулировок гипотез, общая схема проверки параметрических гипотез, ошибки первого и второго рода, мощность критерия. 12.1. Основные понятия Определение 12.1. Статистической гипотезой (в дальнейшем просто гипотезой) называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Задача разработки рациональных методов проверки статистических гипотез – одна из основных в математической статистике. Если для исследуемого явления (процесса, стратегии) сформулирована та или иная гипотеза H0 (основная, нулевая), то задача состоит в том, чтобы сформулировать такое правило, которое позволяло бы по имеющимся результатам наблюдений отклонить или принять (точнее, не отклонить) эту гипотезу. Нулевая гипотеза H0 обычно соответствует естественному, наиболее ожидаемому состоянию (норме). Определение 12.2. Правило, согласно которому проверяют гипотезу H0 (отвергают или не отвергают), называется статистическим критерием проверки гипотезы H0 . Таким образом, разработка правил и их обоснование с точки зрения оптимальности и составляюет предмет теории проверки статистических гипотез. Определение 12.3. Любая гипотеза о распределении наблюдаемой случайной величины, которая может оказаться истинной, но отличается от основной гипотезы, называется альтернативной гипотезой. Определение 12.4. Статистическая гипотеза называется простой, если однозначно фиксирует распределение наблюдений. Иначе это сложная гипотеза. 104 Основная идея проверки статистической гипотезы: чтобы построить критерий, возьмем статистику T = T (X) (функцию от результатов наблюдений), такую, что известно ее распределение при условии, что проверяемая гипотеза H0 верна. Если же гипотеза H0 не верна, распределение T должно отличаться от распределения T /H0 (распределения T при условии, что верна H0 ). Эта функция T , являющаяся случайной величиной, называется статистикой критерия. Дальше мы вычислим значение статистики T по выборке. Поскольку известно распределение T /H0 , можно оценить вероятность наблюдаемого значения. И если эта вероятность слишком мала, мы делаем вывод, что столь маловероятное значение не должно было наблюдаться. Но оно наблюдается, это факт. Следовательно, распределение, из которого мы исходили, T /H0 – неверно. Значит, неверна гипотеза H0 и она отвергается. Разумеется, принятое решение может быть ошибочным (например, случайно произошло маловероятное событие). Ошибки, которые могут возникать при проверке гипотез, будут подробно рассмотрены позднее. 12.2. Примеры математических формулировок гипотез Количество разумных гипотез, способных объяснить любой феномен, бесконечно. Постулат гипотез 1. Гипотеза о виде распределения. Пусть проводят n независимых наблюдений над некоторой случайной величиной ξ с неизвестной функцией распределения F (x). Нулевая гипотеза может иметь вид H0 : F (x) = F0 (x), где F0 (x) полностью задана, или H0 : F (x) ∈ {F}, где {F} – заданное семейство функций распределения. При этом обычно семейство {F} задают в параметрическом виде: {Fθ }. Здесь Fθ = F (x, θ). 2. Гипотеза однородности. Произведено k серий независимых наблюдений. Если можно считать, что закон распределения наблюдений от серии к серии не меняется, то говорят, что статистические данные однородны. Пусть Fl (x) – функция распределения29 наблюдений l-й се29 Функции распределения наблюдений, как правило, неизвестны, а то мы бы просто их сравнили. Задача как раз в том, чтобы сравнить их не зная. 105 рии, l = 1, . . . , k. Гипотеза однородности имеет вид H0 : F1 (x) ≡ · · · ≡ Fk (x). 3. Гипотеза независимости. Наблюдается двумерная случайная величина (ξ, η) с неизвестной функцией распределения Fξ,η (x, y), проверяется предположение о независимости компонент (ξ, η): H0 : Fξ,η (x, y) = Fξ (x)Fη (y). 4. Гипотеза случайности. Результат эксперимента описывают случайной n-мерной величиной X = (X1 , . . . , Xn ) с неизвестной функцией распределения F (x). Для выяснения, можно ли рассматривать X как случайную выборку из распределения некоторой случайной величины ξ (то есть являются ли компоненты Xi независимыми и одинаково распределенными), проверяют гипотезу случайности: H0 : F = FX1 = · · · = FXn = Fξ . 5. Параметрические гипотезы. Это один из наиболее важных классов гипотез30 . Определение 12.5. Статистическая гипотеза называется параметрической, если она представляет собой предположение о том, что неизвестный параметр распределения имеет наперед заданное значение или множество значений. Под параметром θ, как обычно, понимается вектор θ = (θ1 , . . . , θr ). В этом случае класс допустимых распределений наблюдаемой случайной величины ξ имеет вид {F (x, θ1 ), . . . , F (x, θr )} и гипотезы относятся к неизвестным скалярным параметрам θi , i = 1, . . . , r – ко всем или к части их. Рассмотрим несколько вариантов параметрических гипотез. Пример 12.1. J 1. H0 : θ1 = · · · = θr . 2. H0 : θ = θ0 , где θ0 – фиксированное известное значение. 3. H0 : g(θ) = g(θ0 ), где g(t) – функция. 30 Надо иметь в виду, что рассмотренные примеры не представляют из себя исчерпывающего перечня возможных гипотез. 106 I Пример 12.2. J H0 : θ0 ∈ Θ0 (сложная гипотеза). Альтернативная гипотеза : H1 : θ = θ1 , где θ1 6= θ0 – простая гипотеза, а варианты θ > θ0 или θ < θ0 или θ ∈ Θ1 задают сложные альтернативные гипотезы.I Пример 12.3. Для нормального распределения N (θ1 , θ2 ): J H0 : θ1 = θ10 , θ2 = θ20 – простая гипотеза, а H0 : θ1 = θ10 – сложная гипотеза, так как θ2 – свободный параметр.I 12.3. Общая схема проверки параметрических гипотез Природа в ответ на наши вопросы отвечает «нет» громко, а «да» тихо. Фольклор Рассмотрим процесс проверки гипотезы на примере параметрической гипотезы. Пусть (X1 , . . . , Xn ) – выборка объема n из распределения F (x, θ), θ ∈ Θ, а (x1 , . . . , xn ) – реализация. Сформулированы гипотезы (сложные в общем виде): H0 : θ ∈ Θ0 – нулевая, H1 : θ ∈ Θ1 – альтернативная. Пока будем для ясности рассматривать простые гипотезы, когда каждое из множеств Θ0 , Θ1 содержит только одну точку: H0 : θ = θ0 – нулевая, H1 : θ = θ1 – альтернативная. Необходимо построить критерий, то есть правило, по которому для каждой реализации x можно было бы принять H0 или отвергнуть H0 (принять H1 ). Тем самым выборочная область X = {(x1 , . . . , xn )} разбивается на две части V и V : V ∩ V = ∅, V ∪ V = X, где V состоит из тех (x1 , . . . , xn ), для которых H0 принимают, а множество V состоит из тех (x1 , . . . , xn ), для которых принимают H1 . Множество V называют областью принятия гипотезы H0 , а V – областью ее отклонения или критической областью. Тогда критерий формулируется следующим образом: пусть x – наблюдаемая реализация выборки, тогда при x ∈ V гипотезу H0 отвергают (в пользу альтернативной гипотезы H1 ); если же x ∈ V , то H0 не отвергают. 107 Обратите внимание: если x ∈ V , то гипотезу H0 отвергают (громкое «нет»). В противном случае (x ∈ / V ) мы не можем утверждать, что гипотеза подтвердилась, тем более – что она доказана, можно сказать только, что гипотеза H0 не отвергается (тихое «да»). С практической точки зрения это означает, что гипотезу H0 можно использовать дальше и опираться на нее при получении различных выводов. Для простоты мы будем иногда говорить о принятии гипотезы, вкладывая в это смысл «гипотеза не отвергается». Критерий, определяемый критической областью V , называют критерием KV . Обозначим через Hd статистическое решение, тогда определение критерия 12.2 может быть конкретизировано следующим образом: KV (x) = Hd (x) = H1 , H0 , x ∈ V, x∈V. Обычно критическую область V задают с помощью статистики T (x), для которой распределение известно точно или приближенно. Однако нет необходимости непременно связывать понятие критерия со статистикой, поскольку в конечном счете нас интересует соответствие между x и принимаемым статистическим решением. Это соответствие можно задать функцией ϕ(x), которая принимает значение 1, когда следует отвергнуть H0 , и значение 0, когда H0 не отвергается: H1 , ϕ(x) = 1, KV (x) = Hd (x) = (102) H0 , ϕ(x) = 0. В процессе проверки гипотезы можно принять правильное решение или совершить ошибку. 12.4. Ошибки первого и второго рода Авторизованный пользователь классифицируется как нарушитель – ошибка первого рода, нарушитель классифицируется как авторизованный пользователь – ошибка второго рода. Рольф Т. Моултон Определение 12.6. Вероятностью ошибки первого рода называется вероятность отклонить H0 , когда H0 верна. 108 Эта вероятность обозначается α и называется еще уровнем значимости31 критерия или размером критерия. Очевидно, α = P (Hd = H1 /H0 ) = P (X ∈ V /H0 ), (α равняется вероятности того, что X принадлежит критической области V при условии, что верна H0 ). Определение 12.7. Вероятностью ошибки второго рода называется вероятность принять H0 , когда H0 не верна. Вероятность ошибки второго рода обозначается β. Очевидно, β = P (Hd = H0 /H1 ) = P (X ∈ V /H1 ), (β равняется вероятности того, что X не принадлежит критической области V при условии, что верна H1 ). Пример 12.4. При контроле качества продукции возможны ошибки: изделие, удовлетворяющее стандарту, отбраковывают с вероятностью γ, а бракованное изделие принимают с вероятностью δ. Если ввести для данного изделия две гипотезы: H0 : {изделие годное} и H1 : {изделие бракованное}, и в качестве критерия выбора использовать контроль продукции, то γ – вероятность ошибки 1-го рода, а δ – вероятность ошибки 2-го рода данного критерия. Подумаем, что изменится, если гипотезы являются сложными. Простой гипотезе соответствует единственное распределение, а сложной – множество распределений. Пусть H0 – сложная гипотеза и ей соответствуют распределения F1 , . . . , Fm (для параметрической гипотезы Fi = Fθi ). Тогда вероятность α = P (Hd = H1 /H0 ) = P (X ∈ V /H0 ) будет зависеть от того, при каком именно из распределений F1 , . . . , Fm вычисляется вероятность. Если гипотез больше двух, например, имеются гипотезы H1 , . . . , Hk , то говорят, что произошла ошибка i-го рода, если гипотеза Hi отвергнута 31 Некоторые математики, например, А.А. Боровков, называют уровнем значимости величину 1 − α, и это обоснованно, поскольку α – малое число, а 1 − α, как правило, близка к 1 (чтобы у хорошего критерия значимость была высокой). Но мы используем традиционную терминологию, в которой уровень значимости означает ошибку и должен быть низким у хорошего критерия. Из контекста всегда бывает ясно, какой смысл вкладывает автор в это понятие. 109 критерием, в то время как она верна. Вероятностью ошибки i-го рода называется число αi (KV ) = P(Hd (X) 6= Hi /Hi верна) = PHi (KV (X) 6= Hi ). При рассмотрении простых параметрических гипотез H0 : θ = θ0 , H1 : θ = θ1 используют обозначения α = P (X ∈ V /θ0 ), β = P (X ∈ V /θ1 ). Иногда удобно использовать обозначения α1 = α, α2 = β. Ошибки первого и второго рода взаимосвязаны; при попытке уменьшить одну из ошибок критерия другая, как правило32 , увеличивается (рис. 6). fZ (x) fZ/H0 fZ/H1 β α V O x Рис. 6. Ошибки первого (α) и второго (β) рода Из рис. 6 видно, что если передвигать границу критической области d вправо, вероятность ошибки первого рода α уменьшается, но зато вероятность ошибки второго рода β увеличивается. Вероятности этих ошибок можно выразить через функцию мощности критерия. Определение 12.8. Функцией мощности критерия KV называется функция W (V, θ) = P (X ∈ V ), θ ∈ Θ. (103) В случае простых гипотез Θ = {θ0 , θ1 }. Через W (V, θ) легко вычислить α = P (X ∈ V /θ0 ) = W (V, θ0 ) 32 Как правило, но не всегда. 110 (104) – вероятность совершения ошибки первого рода и β = P (X ∈ V /θ1 ) = 1 − P (X ∈ V /θ1 ) = 1 − W (V, θ1 ) (105) – вероятность совершения ошибки второго рода. Таким образом, α, θ = θ0 , W (V, θ) = 1 − β, θ = θ1 . Величину 1 − β будем называть мощностью критерия KV и обозначать M (KV ) или просто M (K). Тогда ( α, θ = θ0 , W (V, θ) = M (K), θ = θ1 . Замечание 12.1. Понятие мощности критерия введено для случая простых H0 , H1 ; существенно, что множество Θ1 состоит из единственной точки θ1 . 12.5. Контрольные вопросы 1. Дайте определение статистической гипотезы. 2. Приведите примеры статистических гипотез. 3. Что такое нулевая и альтернативная гипотезы? 4. Что такое простая и сложная гипотезы? 5. Приведите примеры простых и сложных гипотез. 6. Что выражает уровень значимости при проверке гипотезы? 7. Что выражает доверительная вероятность? 8. Дайте определение ошибки первого рода. 9. Как связаны уровень значимости и вероятность ошибки первого рода? 10. Дайте определение ошибки второго рода. 11. Можно ли неограниченно уменьшать вероятность ошибки первого рода? 111 12. Можно ли неограниченно уменьшать вероятность ошибки второго рода? 13. Дайте определение мощности критерия. 14. Как связаны мощность критерия и вероятность ошибки второго рода? 15. Сформулируйте гипотезу о виде распределения. 16. Сформулируйте гипотезу однородности. 17. Сформулируйте гипотезу независимости. 18. Сформулируйте гипотезу случайности. 19. Какие гипотезы называются параметрическими? 20. Приведите примеры параметрических гипотез. 112 Лекция 13. Подходы к сравнению критериев Следующее замечательное утверждение, по недоразумению называемое леммой, заявляет, что оптимальные во всех трех смыслах (минимаксные, байесовские, наиболее мощные) критерии могут быть построены в самом общем случае простым выбором различных констант в одном и том же критерии – критерии отношения правдоподобия. Н. И. Чернова План лекции: сравнение мощности критериев, критерий Неймана – Пирсона, состоятельность критерия, рандомизированные критерии, байесовские и минимаксные критерии, лемма Неймана – Пирсона. 13.1. Сравнение мощности критериев Желательно выбрать критерий так, чтобы вероятности всех ошибок были по возможности малы33 (речь идет об ошибках первого и второго рода в случае двух гипотез, ошибках i-го рода в общем случае). Напомним, что ошибка i-го рода состоит в отвержении критерием гипотезы Hi в то время как она верна. Ошибки i-го рода связаны между собой: при попытке уменьшить одну из ошибок критерия другие обычно (но не обязательно) увеличиваются. На множестве всех критериев для проверки гипотез H1 , . . . , Hk можно ввести частичный порядок следующим образом. Определение 13.1. Критерий K1 мощнее критерия K2 , если для всех i = 1, . . . , k вероятности ошибок αi (K1 ) 6 αi (K2 ) и хотя бы для одного i имеет место строгое неравенство. Данное понятие легко распространить на случай нескольких критериев. Определение 13.2. Пусть значения всех ошибок, кроме одной (i-й), зафиксированы и все критерии, имеющие данные ошибки, образуют класс S. Критерий K называется наиболее мощным критерием (н.м.к.) в классе S, если αi (K) 6 αi (K 0 ) ∀K 0 ∈ S. Для ясности далее будем рассматривать две простые гипотезы. В этом случае определение означает, что лучше тот критерий, у которого хотя бы одна из ошибок строго меньше, а вторая не больше соответствующих ошибок другого критерия. Однако не любые критерии сравнимы в этом смысле, например, типичной является ситуация: α1 (K1 ) 6 α1 (K2 ), но α2 (K1 ) > 33 Употребляется также выражение «малая ошибка», имеющее смысл «ошибка, имеющая малую вероятность». 113 α2 (K2 ). Один из подходов к решению этой проблемы – зафиксировать одну из ошибок и минимизировать вторую. Что для нас критичнее: совершить ошибку первого или второго рода? Вспомним пример 12.4, что опаснее, забраковать годное (ошибка первого рода), или пропустить негодное (ошибка второго рода)? Обычно (но не всегда) для практики важнее не совершить ошибку второго рода. Поэтому поступают таким образом: фиксируют ошибку первого рода на достаточно низком безопасном уровне и выбирают критическую область V так, чтобы ошибка второго рода была бы минимальна (что соответствует наибольшей вероятности отклонения гипотезы H0 , когда она неверна), то есть была бы максимальна функция мощности критерия при H1 . В случае, когда альтернативная гипотеза H1 простая, наилучшим будет критерий, который имеет наибольшую мощность среди всех других критериев с заданным уровнем значимости α. Если альтернативная гипотеза H1 сложная, то мощность критерия будет функцией, определенной на классе простых альтернатив, составляющих H1 . Определение 13.3. Равномерно наиболее мощным критерием (р.н.м.к.) размера α называется статистический критерий с заданным размером (уровнем значимости) α для проверки сложной гипотезы H0 против сложной альтернативы H1 , мощность которого не меньше мощности любого другого статистического критерия, предназначенного для проверки H0 против H1 и имеющего тот же размер α. Таким образом, р.н.м.к. – это критерий, имеющий наибольшую мощность при каждой альтернативной гипотезе из класса H1 . Такой критерий не обязательно существует и не обязательно единствен. Наиболее мощные критерии существуют в случае двух простых гипо34 тез . Определение 13.4. В случае двух простых гипотез наилучшей критической областью (НКО) называется область V , которая при заданном уровне значимости α обеспечивает min β – ошибки второго рода. Таким образом, НКО – критическая область, обеспечивающая максимальную мощность, и критерий, использующий НКО, является наиболее мощным критерием (н.м.к.). 34 В случае когда альтернативная гипотеза простая, вместо термина р. н. м. к. используют термин «наиболее мощный критерий» (н.м.к.). 114 НКО можно найти с помощью следующей теоремы. 13.2. Критерий Неймана – Пирсона Теорема 13.1 (критерий Неймана – Пирсона). Пусть Fθi абсолютно непрерывны и fθi > 0, i = 1, 2; H0 : θ = θ0 , H1 : θ = θ1 . Тогда НКО заданного уровня значимости α состоит из точек выборочного пространства, удовлетворяющих неравенству L(x, θ1 ) > cα , L(x, θ0 ) (106) где cα – константа, зависящая от α, L – функция правдоподобия. Доказательство. Пусть V – критическая область, удовлетворяющая (106), то есть L(x, θ1 ) > cα , V = x: L(x, θ0 ) и пусть V1 – некоторая другая критическая область того же уровня значимости α. Рассмотрим Z W (V1 , θ1 ) = P (X ∈ V1 /θ1 ) = L(x, θ1 ) dx = V1 Z = Z L(x, θ1 ) dx + V1 V L(x, θ1 ) dx. V1 V Теперь найдем W (V, θ1 ): Z W (V, θ1 ) = P (X ∈ V /θ1 ) = L(x, θ1 ) dx = V Z = Z L(x, θ1 ) dx + V1 V L(x, θ1 ) dx. V V1 Выразим одну функцию мощности через другую: Z Z W (V1 , θ1 ) = W (V, θ1 ) + L(x, θ1 ) dx − L(x, θ1 ) dx. V1 V 115 V V1 По условию точки области V удовлетворяют условию L(x, θ1 ) > cα L(x, θ0 ). Значит, это верно и для подмножества V области V V1 . Соответственно, точки области V ( в частности, точки V1 V ) удовлетворяют противоположному условию: L(x, θ1 ) < cα L(x, θ0 ). Таким образом, −L(x, θ1 ) 6 −cα L(x, θ0 ), x ∈ V V1 , L(x, θ1 ) < cα L(x, θ0 ), x ∈ V1 V . Тогда Z Z L(x, θ0 ) dx − cα W (V1 , θ1 ) 6 W (V, θ1 ) + cα V1 V L(x, θ0 ) dx = V V1   Z Z L(x, θ0 ) dx −  = W (V, θ1 ) + cα  V1 V  L(x, θ0 ) dx . (107) V V1 Рассмотрим теперь два последних интеграла: Z Z Z L(x, θ0 ) dx = L(x, θ0 ) dx − L(x, θ0 ) dx, V1 V V1 V1 V Z Z Z L(x, θ0 ) dx − L(x, θ0 ) dx = V V V1 L(x, θ0 ) dx. V1 V Подставим в (107):   Z Z W (V1 , θ1 ) 6 W (V, θ1 ) + cα  L(x, θ0 ) dx − L(x, θ0 ) dx . V1 Но Z Z L(x, θ0 ) dx − V1 V L(x, θ0 ) dx = α, V так как это вероятность совершения ошибки первого рода, см. (104). Окончательно получаем W (V1 , θ1 ) 6 W (V, θ1 ), то есть критическая область V , заданная неравенством (106), обеспечивает максимальную мощность, или, что то же, минимальную ошибку второго рода. Следовательно, V – наилучшая критическая область (НКО). 116 Определение 13.5. Построенный критерий вида ( 1) H0 , L(x,θ L(x,θ0 ) < c, Hd (X) = 1) H1 , L(x,θ L(x,θ0 ) > c (108) называется критерием отношения правдоподобия (КОП) или критерием Неймана – Пирсона. Смысл критерия вполне прозрачен: действительно, функция правдоподобия выражает вероятность получения данной выборки. В случае, когда L(x, θ1 ) больше L(x, θ0 ), альтернативная гипотеза более вероятна. По критерию мы должны принимать H1 , если L(x, θ1 ) больше L(x, θ0 ) в c «раз», причем c находится по заданному уровню значимости. Наилучшая критическая область, получаемая в результате решения неравенства (106), обычно имеет вид V = {x : T (x) 6 C}, или {x : T (x) > C}, или {x : |T (x)| > C}, где C – критическое значение статистики T (x) (берется из таблиц распределения). Пример 13.1. hN (θ, σ)i. H0 : θ = a0 , H1 : a = a1 , a1 > a0 . Найти НКО. J L(x, θ1 ) = L(x, θ0 ) √1 e− (σ 2π)n √1 e (σ 2π)n Pn 2 i=1 (xi −a1 ) 2σ 2 Pn (x −a )2 − i=12σi2 0 1 2 2 = e− 2σ2 (na1 −na0 −2(a1 −a0 ) P xi ) > cα . X 1 2 2 (na − na − 2(a − a ) xi > ln cα . 1 0 1 0 2σ 2 Выразим член, содержащий статистику (функцию от x), и переобозначим для простоты константу: X −2(a1 − a0 ) xi 6 b. − a1 > a0 , поэтому X xi > d (где d – новая константа). Таким образом, мы нашли статистику X T (x) = xi и форму НКО: V = {x : X 117 xi > d}. (109) Чтобы найти границу критической области, перейдем к P стандартной статистике (то есть к статистике, которая зависит от T (x) = xi и распределение которой нам известно). Такой статистикой является Z= X − a0 √ n. σ P Ранее было показано, что Z ∈ N (0, 1). Неравенство xi > d равносильно неравенству Z > u, где u – новая константа. Поэтому НКО, заданная через Z, будет иметь форму V = {x : Z > u}. По заданному α из соотношения α = P (Z ∈ V /a0 ) = P (Z > u) найдем u: P (Z > u) = 1 − FZ (u) = 1 − Φ(u) = α, следовательно, Φ(u) = 1 − α, u = u1−α , а НКО: X − a0 √ n > u1−α . σ I Пример 13.2. В условиях предыдущего примера найти мощность критерия. J В предыдущем примере была найдена НКО для проверки гипотез H0 : a = a0 , H1 : a = a1 , a1 > a0 в нормальной модели hN (θ, σ)i: X − a0 √ n > u1−α . σ По определению, мощность критерия M (K) равна 1 − β, где β = P (T (x) ∈ V /θ1 ) = 1 − P (T (x) ∈ V /θ1 ). Тогда M (K) = P (T (x) ∈ V /θ1 ). √ 0 Статистика T (x) в данном случае равна X−a n, θ1 = a1 , а критическая σ область V = [u1−α , ∞). Таким образом, X − a0 √ M (K) = Pa1 n > u1−α . σ 118 (Pa1 означает, что вероятность рассчитывается на основе модели N (a1 , σ).) X − a0 √ σu1−α n > u1−α = Pa1 X > √ + a0 = M (K) = Pa1 σ n σu1−α = 1 − Pa1 X < √ + a0 . n Вспомним, что в N (a1 , σ) X имеет распределение N (a1 , √σn ). Тогда ! σu √1−α + a0 − a1 σu1−α σu1−α n √ + a0 = Φ Pa1 X < √ + a0 = FX √σ n n n и M (K) = 1 − Φ σu √1−α n + a0 − a1 √σ n ! . Можно слегка преобразовать последнее выражение, используя свойство Φ(x): Φ(−x) = 1 − Φ(x), и свойство квантилей стандартного нормального распределения: uα = −u1−α . Окончательно получим √ (a1 − a0 ) n . M (K) = Φ uα + σ I Пример 13.3. В условиях предыдущего примера найти мощность критерия H0 : a = 1, H1 : a = 2, в нормальной модели hN (θ, 2)i по выборке объема n = 100 при уровне значимости α = 0, 05. J ! √ (2 − 1) 100 M (K) = Φ u0,05 + . 2 Из таблиц находим (или вспоминаем), что u0,05 = −1, 64. ! √ (2 − 1) 100 = Φ(3, 36) = 0, 999610288. M (K) = Φ −1, 64 + 2 Как видим, мощность данного критерия (то есть его способность правильно отвергнуть гипотезу) практически равна 1.I Замечание 13.1. Критерий Неймана – Пирсона применим и к простым гипотезам о виде распределения. 119 13.3. Состоятельность критерия Важным желательным свойством критерия является увеличение его мощности при возрастании объема выборки. Пусть имеется выборка X = (X1 , . . . , Xn ), Xi ∈ F и проверяется простая основная гипотеза H0 против сложной альтернативы H1 . Любой критерий для различения этих гипотез K имеет вполне определенную ошибку 1-го рода α(K) = P (Hd 6= H0 /H0 ) = PF0 (Hd 6= H0 ). Но ошибка 2-го рода может быть вычислена только если известно конкретное распределение выборки (одна из альтернатив). Будем рассматривать ошибку второго рода как функцию от H1 : βH1 (K) = PH1 (K = H0 ). Сначала зафиксируем H1 . Определение 13.6. Критерий K для проверки гипотезы H0 против простой альтернативы H1 называется состоятельным, если β(K) = PH1 (Hd (X) = H0 ) → 0 при n → ∞. Эквивалентная формулировка этого определения в терминах мощности M (K): критерий K для проверки гипотезы H0 против простой альтернативы H1 называется состоятельным, если M (K) = PH1 (Hd (X) = H1 ) → 1 при n → ∞. Теперь представим сложную альтернативу как объединение простых альтернатив H1 6= H0 по всем возможным H1 . Определение 13.7. Критерий K для проверки гипотезы H0 против сложной альтернативы H1 называется состоятельным, если для любой простой альтернативы H1 βH1 (K) = PH1 (Hd (X) = H0 ) → 0 при n → ∞. Пример 13.4. В условиях примеров 13.1–13.3 проверить состоятельность критерия. J В примерах рассматривается критерий со статистикой Z= X − a0 √ n, σ 120 для проверки гипотезы H0 : a = 1 против простой альтернативы H1 : a = 2, в нормальной модели hN (θ, 2)i по выборке объема n при уровне значимости α = 0, 05. Как найдено выше, √ √ (a1 − a0 ) n n M (K) = Φ uα + = Φ −1, 64 + . σ 2 M (K) → 1 при n → ∞. Следовательно, критерий состоятелен. I 13.4. Рандомизированные критерии Критерий Неймана – Пирсона в случае дискретных распределений Соответствующие рассуждения можно провести и для дискретных распределений. Однако в силу дискретности распределения выборки при попытке разрешить неравенство L(x, θ1 ) > cα L(x, θ0 ) мы можем столкнуться с тем, что нельзя получить точное значение α за счет выбора границы cα в неравенстве L(x, θ1 ) > cα L(x, θ0 ) (поскольку случайная величина изменяется скачкообразно и возможно, что включив в V очередную точку, мы еще не достигнем уровня α, а включив следующую – превзойдем его). В этом случае можно несколько изменить уровень значимости, а если желательно иметь вероятность ошибки первого рода, равной точно α, то надо использовать на пограничном множестве рандомизированный критерий. Определение 13.8. Пусть имеются гипотезы H0 , . . . , Hk . Рандомизированным статистическим критерием π = π(X) называется измеримая функция π(X), сопоставляющая выборке X набор вероятностей гипотез: X π(X) = {π0 (X), . . . , πk (X)}, πi (X) ∈ [0, 1], πi (X) = 1. i 121 При каждом X функция π(X) указывает вероятности πi (X) принятия гипотез Hi , i = 0, k. Далее надо промоделировать случайную величину со значениями, равными номерам гипотез, и вероятностями πi (X). Принимается гипотеза, номер которой получен в результате моделирования. В случае двух гипотез для рандомизированного критерия достаточно задать одну функцию (будем задавать вероятность π1 (X) принятия альтернативы H1 .) Обычный статистический критерий есть частный случай рандомизированного, когда все πi (X) равны 0 и лишь одно равно 1. Такие критерии называются нерандомизированными. Пример 13.5. Пусть по одному наблюдению x надо проверить гипотезу H0 о том, что выборка взята из равномерного распределения R[0, 1] при альтернативной гипотезе H1 : R[1, 2]. Критерий имеет вид   α, x ∈ [0, 1], K(x) =  1, x ∈ [1, 2]; J Это рандомизированный критерий, функция π1 (x) = K(x), π0 (x) = 1 − K(x). Размер этого критерия равен вероятности π1 (X) принятия альтернативы H1 в случае, когда верна H0 , то есть когда x ∈ [0, 1]. По условию эта вероятность равна α. Мощность критерия равна вероятности π1 (x) принятия альтернативы H1 в случае, когда верна H1 , то есть когда x ∈ [1, 2], значит, мощность равна 1. I Пример 13.6. Рассмотрим второй критерий для проверки той же гипотезы:  x ∈ [α, 1],  0, G(x) =  1, x ∈ [0, α] ∪ [1, 2]. J По-прежнему функция π1 (x) = K(x), π0 (x) = 1 − K(x), но это нерандомизированный критерий, так как функции принимают лишь значения 0 и 1. Вероятность π1 (x) в случае, когда верна H0 , равна PH0 (x ∈ [0, α]) = Px∈[0,1] (x ∈ [0, α]) = α, это размер критерия. Мощность критерия равна 1. Таким образом, оба критерия имеют одинаковый размер α и наибольшую возможную мощность, то есть являются н.м.к. I Замечание 13.2. Поскольку критерий K(x) полностью определяется функцией π(x), он часто и обозначается π(x). Напомним, что в случае двух гипотез π(x) означает вероятность π1 (X) принятия альтернативы H1 . 122 Рандомизированный критерий отношения правдоподобия в теореме Неймана – Пирсона имеет вид:  L(x,θ1 )  0,  L(x,θ0 ) < c,      1) 1, L(x,θ > c, π(X) = (110) L(x,θ 0)        p, L(x,θ1 ) = c. L(x,θ0 ) 1) Если отношение L(x,θ L(x,θ0 ) строго меньше или строго больше c, то принимаются гипотезы H0 или H1 соответственно. Если же это отношение равно c, то гипотеза H1 принимается с вероятностью p. Уровень значимости (размер критерия) L(x, θ1 ) L(x, θ1 ) α(π) = P >c +p·P =c . L(x, θ0 ) L(x, θ0 ) Вероятности, как обычно для ошибки первого рода, рассчитываются при распределении H0 . Заметим, что данное выражение представляет из себя математическое ожидание π(X): L(x, θ1 ) L(x, θ1 ) >c +p·P = c = E(π(X)). α(π) = 1 · P L(x, θ0 ) L(x, θ0 ) Требуемый уровень значимости α, c и p связаны уравнением L(x, θ1 ) L(x, θ1 ) P >c +p·P = c = α. L(x, θ0 ) L(x, θ0 ) Пусть PH0 L(x, θ1 ) L(x, θ1 ) > c = α0 ; PH0 = c = p0 . L(x, θ0 ) L(x, θ0 ) Тогда α − α0 . (111) p0 Найдем мощность этого критерия (вероятности рассчитываются при распределении H1 ): L(x, θ1 ) L(x, θ1 ) > c + p · PH1 =c . M (K) = 1 − β = PH1 L(x, θ0 ) L(x, θ0 ) α0 + p · p0 = α, p = Если обозначить L(x, θ1 ) L(x, θ1 ) PH1 > c = α1 ; PH1 = c = p1 , L(x, θ0 ) L(x, θ0 ) 123 то M (K) = α1 + p · p1 , или, с учетом (111), (α − α0 )p1 . p0 Этот критерий является наиболее мощным [2]. M (K) = α1 + 13.5. Байесовские и минимаксные критерии В теории проверки гипотез так же, как и в теории оценок ( 6.5), применяются байесовский и минимаксный подходы. Напомним, что при первом подходе сравнивают средние некоторой величины, а при втором ее максимальные значения. Упомянутая величина в оценивании представляет собой среднеквадратическое отклонение от параметра, а в теории проверки гипотез – вероятность ошибки. Как известно, вероятностью ошибки i-го рода называется число αi (K) = P(Hd (X) 6= Hi /Hi верна) = PHi (K(X) 6= Hi ). Байесовский подход предполагает, что распределение, из которого извлечена выборка X, было выбрано случайно. Гипотезы H1 , . . . , Hk являются случайными событиями; обозначим вероятности (априорные) этих событий через P(Hj ). По формуле полной вероятности найдем вероятность ошибки: X αK = P(Hj )αj (K). j Определение 13.9. Критерий K называют байесовским критерием, если он минимизирует вероятность ошибки αK . Таким образом, байесовский критерий имеет наименьшую среднюю ошибку среди всех критериев. Этот подход можно применять также, если известны не вероятности гипотез, а потери от ошибочного решения при каждой гипотезе. Пусть величина Rj составляет потерю в случае (K(X) 6= Hj )/(Hj верна). Тогда математическое ожидание риска X RK = Rj αj (K). j В данном случае критерий K называют байесовским, если он минимизирует средний риск RK . 124 Пример 13.7. Пусть в нормальной модели hN (θ, 1)i по одному наблюдению проверяется гипотеза H0 : θ = a0 = 1, против гипотезы H1 : θ = a1 = 4, причем априорные вероятности гипотез равны. Предлагается критерий H1 , X > d, (112) K(X) = H0 , X < d. При каком d вероятность ошибки критерия будет минимальной? JНайдем полную вероятность ошибки критерия. X αK = P(Hj )αj (K) = 1/2α + 1/2β = j = 1/2(PH0 (X > d) + PH1 (X < d)) = 1/2(1 − Φ1,1 (d) + Φ4,1 (d)) = Z d−1 d−1 d−4 +Φ = 1/2 1 − = 1/2 1 − Φ ϕ(t) dt . 1 1 d−4 Вычитаемый интеграл достигает максимального значения при симметричных относительно 0 пределах, то есть при 4 − d = d − 1, откуда d = 2, 5.I Определение 13.10. Критерий K называют минимаксным, если max{αi (K)} 6 max{α(K 0 )} для любого критерия K 0 . i i Пример 13.8. В условиях примера 13.7 при каком d будет минимален максимум {α, β}? J Посмотрим на рис. 7, на котором изображены плотности, соответствующие гипотезам, и вероятности ошибок 1-го и 2-го рода критерия K(X). fZ/H0 fZ/H1 β α O a0 d a1 Рис. 7. Связь между ошибками первого и второго рода 125 α = PH0 (K(X) = H1 ) = PH0 (X > d), β = PH1 (K(X) = H0 ) = PH1 (X < d). Будем передвигать границу критической области d. При этом α и β изменяются непропорционально, поскольку рассчитываются исходя из разных распределений, но тем не менее видно, что при d → ∞ вероятность ошибки 1-го рода α → 0, но вероятность ошибки 2-го рода β → 1. Если же d → −∞, то β → 0, но α → 1. Максимум (α, β) будет минимален, когда они будут равны. Это достигается, когда граница критической области занимает среднее положение при d = 2, 5.I Минимаксный критерий имеет самую маленькую максимальную ошибку среди всех критериев. Справедлива следующая теорема35 . Теорема 13.2 (лемма Неймана – Пирсона). Пусть проверяется простая гипотеза H0 против простой гипотезы H1 . Существуют постоянные c и p, при которых критерий отношения правдоподобия π(X) (110) является 1) минимаксным критерием; числа c и p следует выбрать так, чтобы вероятности ошибок первого и второго рода были одинаковы; 2) байесовским критерием при заданных априорных вероятностях p1 , p2 ,; число p может быть любым, а c выбирается равным отношению p1 /p2 ; 3) для любого 0 < α0 < 1 наиболее мощным критерием уровня значимости α0 ; числа c и p должны быть выбраны так, чтобы уровень значимости равнялся α0 . Пример 13.9. Рассмотрим критерий, используемый в примерах 13.7, 13.8: hN (θ, 1)i, H0 : θ = a0 = 1, H1 : θ = a1 = 4, n = 1; H1 , X > d, K(X) = H0 , X < d. J Согласно (109) данный критерий эквивалентен нерандомизированному КОП при n = 1 (конечно, с другой константой c): ( 1) 1, L(x,θ 1, x > d, L(x,θ0 ) > c, K(x) = ∼ π(x) = L(x,θ1 ) 0, x < d. 0, L(x,θ < c. 0) 35 Именно этой теореме посвящен эпиграф к данной главе. С ее доказательством можно познакомиться в учебниках [1], [2]. 126 Установим связь между константами c и d: L(x, θ1 ) = L(x, θ0 ) √1 e− 2π √1 e 2π (xi −a1 )2 22 (x −a )2 − i 20 1 2 2 = e− 2 (a1 −a0 −2(a1 −a0 )x) > c. 1 − (a21 − a20 − 2(a1 − a0 )x > ln c. 2 a21 − a20 1 x > ln c + = d. 2 a1 − a0 0 Значению c = 1 соответствует d = a1 +a = 2, 5. По лемме критерий будет 2 байесовским при c = p1 /p2 . В условиях примера 13.7 априорные вероятности гипотез равны 1/2 и c = 1. И действительно, мы получили в примере 13.7, что полная вероятность ошибки критерия минимальна при d = 2, 5, что соответствует c = 1. Пример 13.4 подтверждает, что при c = 1 минимален максимум {α, β}, то есть критерий будет минимаксным.I Итак, для двух простых гипотез H0 : θ = θ0 против H1 : θ = θ1 существует наиболее мощный критерий (при выполнении условий теоремы) и им является КОП. Рассмотрим теперь случай, когда нулевая гипотеза простая, а альтернативная сложная односторонняя, например, H1 : θ > θ0 . Из примера 13.1 видно, что в нормальной модели критическая область не зависит от конкретного значения a1 = θ1 , то есть критерий максимизирует мощность при любом θ1 ∈ Θ1 и поэтому является р.н.м.к. Очевидно, то же будет верно при сложной альтернативе H1 : θ > θ0 . Это верно и для некоторых других моделей; выясним достаточные условия. Если T (x) – достаточная статистика, то L(x, θ) = g(T (x), θ) · h(x) и отношение правдоподобия имеет вид g(T (x), θ1 ) . g(T (x), θ0 ) Определение 13.11. Модель имеет монотонное отношение правдоподобия, если отношение правдоподобия l(x) = g(T (x), θ1 )/g(T (x), θ0 ) является монотонной функцией достаточной статистики T (x). 127 Теорема 13.3. Для моделей с монотонным отношением правдоподобия и гипотезы H0 : θ = θ0 против односторонней альтернативы θ1 ∈ Θ1 существует р.н.м.к., совпадающий с критерием Неймана – Пирсона для проверки гипотезы H0 против произвольной фиксированной альтернативы из Θ1 . Доказательство. Пусть для определенности H1 : θ > θ0 , а отношение правдоподобия – возрастающая функция T (x). Тогда неравенство l(x) > c эквивалентно неравенству T (x) > bα , причем граница bα определяется заданным уровнем значимости α и не зависит от конкретной альтернативы. Поэтому критерий Неймана – Пирсона одновременно является р.н.м.к. при сложной односторонней альтернативе. Теорема 13.4. Если модель принадлежит экспоненциальному семейству с плотностью, представимой в виде f (x, θ) = eA(x)·B(θ)+C(x)+D(θ) , и функция B(θ) строго монотонна, то критерий Неймана – Пирсона является р.н.м.к. P Доказательство. Статистика T (x) = ni=1 A(xi ) является достаточной статистикой. Отношение правдоподобия l(x) = eT (x)·(B(θ1 )−B(θ0 ))+n(D(θ1 )−D(θ0 ) , если B(θ) монотонна, то это модель с монотонным отношением правдоподобия. Иначе обстоит дело при двусторонней альтернативе θ 6= θ0 . Здесь теорема Неймана – Пирсона дает различные односторонние оптимальные критерии и р.н.м.к. не существует. Потребуем, чтобы критерий размера α имел мощность не меньше α; такой критерий называется несмещенным. Задачу построения оптимального критерия иногда удается решить в классе несмещенных критериев. Объединим две соответствующие односторонние критические области размером α/2 и таким образом получим критерий размера α. Пример 13.10. Пусть в нормальной модели проверяется H0 : a = θ = a0 (против θ 6= a0 ). J Статистикой критерия является Z= X − a0 √ n, σ 128 а критическая область представляет из себя объединение левосторонней и правосторонней областей:. V = {X : X − a0 √ X − a0 √ n 6 uα/2 } ∪ {X : n > u1−α/2 }. σ σ Этот критерий имеет мощность не меньше α, то есть является несмещенным. I На рис. 8 показан график мощности такого критерия. W (θ) 1 α 0 θ0 θ Рис. 8. Мощность двустороннего критерия Критерий обладает наибольшей мощностью среди всех несмещенных критериев уровня значимости α, то есть является р.н.м. несмещенным критерием. 13.6. Контрольные вопросы 1. Дайте определение наиболее мощного (в некотором классе) критерия (н.м.к.). 2. Дайте определение р.н.м.к. 3. Дайте определение наилучшей критической области. 4. Сформулируйте теорему Неймана – Пирсона. 5. Запишите критерий отношения правдоподобия. 6. Каковы особенности применения теоремы Неймана – Пирсона к дискретным распределениям? 129 7. Дайте определение рандомизированного статистического критерия. 8. Приведите примеры рандомизированного и нерандомизированного статистического критерия. 9. В чем состоит минимаксный подход в теории проверки гипотез? 10. В чем состоит байесовский подход в теории проверки гипотез? 11. Дайте определение минимаксного критерия. 12. Дайте определение байесовского критерия. 13. Сформулируйте лемму Неймана – Пирсона. 14. Какой критерий называется несмещенным? 15. Дайте определение модели с монотонным отношением правдоподобия. 16. Приведите достаточные условия существования р.н.м.к. 130 Лекция 14. Критерии проверки гипотез о параметрах нормального распределения Каждый уверен, что все распределения – нормальные. Экспериментаторы – потому, что они думают, что это математическая теорема, математики – потому, что они думают, что это экспериментальный факт. Фольклор План лекции: схема проверки параметрических гипотез, гипотезы о параметрах одного распределения, гипотезы о параметрах двух независимых распределений, гипотеза о средних для парных совокупностей, примеры. 14.1. Алгоритм проверки параметрических гипотез Для проверки параметрических гипотез (не обязательно в нормальной модели) можно применять следующий алгоритм. 1. Сформулировать статистическую параметрическую модель, нулевую и альтернативную гипотезы, задать уровень значимости α. 2. Выбрать статистику Z(x), такую, что она сама зависит от параметра θ, а ее распределение при верной H0 от θ не зависит и различается при H0 и при H1 . 3. Найти критическую область V . 4. Рассчитать по выборке значение статистики Zв . 5. Если Zв попадает в критическую область V , то нулевая гипотеза отвергается (в пользу альтернативной). Если Zв не попадает в критическую область V , то нулевая гипотеза не отвергается. 6. Сформулировать ответ в терминах вопроса. Замечание 14.1. Гипотеза H0 отвергается или не отвергается с уровнем значимости α. Возникают вопросы: 1) как выбрать статистику Z и 2) как найти критическую область. Подчеркнем, что ответ на первый вопрос зависит от H0 , а ответ на вопрос о форме критической области зависит от альтернативной гипотезы H1 . Есть по крайней мере три доступных способа получения ответов. 131 1. В [27] подробно расписано, какая статистика берется для каждой H0 и какая критическая область берется для каждой H1 . Эта информация вкратце приведена и ниже. 2. Если применить теорему Неймана – Пирсона и найти для данной H1 НКО – получится доказательство этих результатов. 3. Наконец, можно выбрать статистику, просто исходя из здравого смысла – в качестве статистики берем функцию Z, зависящую от параметра и его оценки, распределение которой нам известно и чувствительно к тому, верна H0 или нет. Критическая область должна быть смещена в направлении распределения Z при H1 . 14.2. Гипотезы о параметрах одного распределения Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ). Перечислим критерии проверки гипотез о параметрах нормального распределения. Замечание 14.2. В данной таблице индекс «0» внизу означает, что значение параметра известно. Например, N (a, σ0 ) – дисперсия известна, а математическое ожидание неизвестно. Индекс «0» вверху означает предполагаемое значение параметра. В последнем столбце указывается распределение Z при условии, что верна H0 (Z/H0 ). Пусть наблюдаемая случайная величина принадлежит классу нормальных распределений N (θ1 , θ2 ) ∼ N (a, σ). Рассмотрим выборку X = {(x1 , . . . , xn )}, элементы которой независимы и имеют распределение N (a, σ). Гипотеза о дисперсии. H0 : σ = σ 0 . Статистическая модель Статистика Z Z/H0 hN (a0 , σ)i P (xi −a0 )2 (σ 0 )2 χ2n hN (a, σ)i nS 2 (σ 0 )2 χ2n−1 132 Гипотеза о среднем. H0 : a = a0 Статистическая модель Статистика Z Z/H0 √ hN (a, σ0 )i (x̄−a0 ) n σ0 N (0, 1) hN (a, σ)i √ (x̄−a0 ) n s̄ Tn−1 14.3. Гипотезы о параметрах двух независимых распределений Рассматриваются две независимые случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn1 )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn2 )} ∈ N (a2 , σ2 ). Гипотеза о дисперсии. H0 : σ1 = σ2 . Статистическая модель Статистика Z (s̄1 )2 (s̄2 )2 , hN (a0 , σ)i, hN (a, σ)i Z/H0 s1 > s2 . Fn1 −1,n2 −1 Замечание 14.3. Этот критерий называется критерием Фишера. Гипотеза о средних. H0 : a1 = a2 Модель Статистика Z r x̄−ȳ hN (a, σ0 )i (известны σ1 , σ2 ) hN (a, σ)i(σ1 , σ2 неизвестны, но гипотеза H0 : σ1 = σ2 не отвергается) hN (a, σ)i(σ1 , σ2 неизвестны, и гипотеза H0 : σ1 = σ2 отвергается) Z/H0 N (0, 1) 2 2 σ1 σ2 n1 + n2 x̄−ȳ r 2 s̄2 1 (n1 −1)+s̄2 (n2 −1) ( 1 + 1 ) n1 +n2 −2 n1 n2 r x̄−ȳ s̄2 s̄2 1 2 n1 + n2 √ Tn1 +n2 −2 Tν , где ν ≈ 2 s̄2 1 + s̄2 n1 n2 2 s̄2 1 n1 !2 s̄2 2 n2 n1 +1 + !2 −2 n2 +1 Замечание 14.4. Критерий, использующий статистику, отмечен√ ную галочкой ( ), называется критерием Стьюдента. 133 14.4. Гипотеза о средних для парных совокупностей Рассматриваются две случайные величины и выборки наблюдений этих величин X, Y : X = {(x1 , . . . , xn )} ∈ N (a1 , σ1 ), Y = {(y1 , . . . , yn )} ∈ N (a2 , σ2 ), причем Xi и Yi связаны, например, через объект наблюдения. Перейдем к разности случайных величин; тогда d = X − Y, d ∈ N (ad , σd ). Очевидно, ad = a1 − a2 . Обычно σd неизвестно. Гипотеза H0 : a1 = a2 ∼ H0 : ad = 0. Модель Статистика Z hN (a, σ)i √ d¯ n s̄d = Z/H0 P √ P P d2i n−1 n di −( di )2 Tn−1 Замечание 14.5. Этот критерий называется критерием Стьюдента для парных выборок. 14.5. Примеры Пример 14.1 (проверка гипотезы о математическом ожидании). По выборке объема n = 113 проверить гипотезу о том, что выборка взята из нормального распределения с математическим ожиданием 10. Дисперсия известна и равна 57, 56. Рассчитанное по выборке среднее x̄ = 9, 279. J 1. Пусть α = 0, 05. hN (a, σ0 )i, σ0 = p 57, 56. H0 : a = 10; H1 : a < 1036 . 2. В нашем примере параметр a, оценка параметра – X, известно распределение функции √ (X − a) n Z(x) = . σ 3. Если верна H0 : a = 10, то Z(x) ∈ N (0, 1). Если же верна H1 : a = a1 < 10, то распределение X ∈ N (a1 , σ) смещено влево относительно распределения X при нулевой гипотезе N (10, σ) и, значит, влево смещено и √ (X−a) n Z(x) = . Поэтому критическая область левосторонняя. σ 36 Альтернативная гипотеза формулируется как H1 : a < 10, поскольку x̄ = 9, 279 < 10, и у нас возникает вопрос – не будет ли математическое ожидание меньше 10. 134 Замечание 14.6. Нельзя рассуждать так: знак < означает, что область левостороняя. Можно было взять для критерия статистику √ (a−X) n Z1 (x) = , и при том же знаке < область была бы правосторонσ няя. Лучше рассуждать так: при H1 значения Z(x) меньше, поэтому область левостороняя. Итак, критическая область V = {x : Z(x) 6 u0,05 }, то есть V = {x : Z(x) 6 −1, 64}. 4. √ (X − a) n . Z(x) = σ √ (9, 279 − 10) 113 √ Zв = ≈ −1, 01. 57, 76 5. Zв не попадает в критическую область V , поскольку −1, 01 > −1, 64. Следовательно, с уровнем значимости α = 0, 05 нулевая гипотеза H0 не отвергается. 6. Вывод: данная выборка может быть взятой из совокупности с математическим ожиданием 10. I В примере (14.1) статистику и критическую область выбирали «на глаз» (третий способ). В следующем примере это будет сделано с помощью теоремы Неймана – Пирсона. Пример 14.2 (проверка гипотезы о дисперсии). По выборке объема n = 100 проверить гипотезу о том, что выборка взята из нормального распределения с дисперсией 2. Математическое ожидание известно и равно −1, выборочная дисперсия оказалась меньше 2. J 1.hN (a0 , σ)i, a0 = −1, α = 0, √05. Гипотезы: H0 : σ = σ0 = 2 ≈ 1, 4142; H1 : σ = σ1 < 1, 4142. 2-3. По теореме Неймана – Пирсона найдем НКО: L(x, σ1 ) > cα , L(x, σ0 ) 1 √ n − P100 i=1 (xi −a)2 2 2σ1 L(x, σ1 ) ( σ1 2π ) exp = P100 (xi −a)2 > cα , L(x, σ0 ) − 2 ( σ √1 2π )n exp i=1 2σ0 0 135 − − P100 exp 100 X i=1 i=1 (xi −a)2 P100 (xi −a)2 2 + 2 i=1 2σ1 2σ0 > c1 , 1 2 1 (xi − a) ( − ) > c2 . 2σ1 2σ0 Так как рассматривается случай σ1 < σ0 , значит, − 100 X 1 2σ1 − 1 2σ0 > 0. Тогда (xi − a)2 > c3 , i=1 100 X (xi − a)2 6 c4 . i=1 Таким образом, статистика должна включать функцию 100 X (xi − a)2 i=1 и область левосторонняя. Перейдем к стандартной статистике: (xi − a) ∈ N (0, σ0 ), (xi − a) ∈ N (0, 1), σ0 100 1 X Z= 2 (xi − a)2 ∈ χ2100 σ0 i=1 (это справедливо при условии, что верна H0 ). Vk = {Z < χ20,05; 100 }. Из таблиц находим χ20,05; 100 = 77, 929, значит, Vk = {Z < 77, 929} 4. Подсчитаем 100 100 1 X 1X Zв = 2 (xi − a)2 = (xi + 1)2 = 88, 248225537 . σ0 i=1 2 i=1 5. Следовательно, zв ∈ / Vk , а значит, гипотеза H0 не отвергается. 6. Можно считать, что дисперсия равна 2. I 37 Значение найдено по выборке, которая здесь не приводится. 136 14.6. Контрольные вопросы 1. Даны количества покупателей в день для первого и второго магазина X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей числа покупателей. Сформулируйте нулевую и альтернативную гипотезы для получения ответа на вопрос: «Больше ли покупателей в первом магазине?» 2. Даны количества покупателей в день для первого и второго магазина X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей числа покупателей. Сформулируйте нулевую и альтернативную гипотезы для получения ответа на вопрос: «Одинакова ли посещаемость магазинов покупателями?» 3. Даны количества покупателей в день для первого и второго магазина X = (x1 , . . . , xn ), Y = (y1 , . . . , ym ), которые можно рассматривать как выборки из генеральных совокупностей числа покупателей. Сформулируйте нулевую и альтернативную гипотезы для получения ответа на вопрос: «Можно ли считать, что колебания числа покупателей в этих двух магазинах примерно одинаковы?» 4. Какую гипотезу проверяет критерий Стьюдента? 5. Какую гипотезу проверяет критерий Фишера? 6. Какую гипотезу проверяет критерий Стьюдента для парных выборок? 7. Имеются данные о числе продаж товара и числе распространенных рекламных листовок в ряде городов. Сформулируйте нулевую и альтернативную гипотезы для проверки содержательной гипотезы: «Распространение листовок повышает продажи товара». 137 Лекция 15. Непараметрические критерии Есть правила для выбора решения, но нет правила для выбора этих правил. Правило о правилах План лекции: непараметрические критерии, критерий знаков, ранговый U -критерий. 15.1. Непараметрические критерии для проверки параметрических гипотез Критерии, рассмотренные выше, получены с помощью теоремы Неймана – Пирсона и основаны на нормальном распределении генеральной совокупности (точном или приближенном). Для других статистических моделей также можно применить этот способ (исходя из других распределений). Но существуют критерии, которые не предполагают знания вида распределения генеральной совокупности и могут применяться в любой модели. Они называются непараметрическими. Непараметрические критерии основаны на статистиках, распределение которых не зависит от истинного распределения F (или не зависит от параметра θ, если X ∈ Fθ ). Для проверки гипотез о параметрах применяются, например, порядковые непараметрические критерии, которые строятся по статистикам вариационного ряда, не зависящим от конкретных значений членов вариационного ряда. Используется тот факт, что при H0 все перестановки значений равновероятны, и с помощью комбинаторики подсчитывается вероятность конкретного расположения. Рассмотрим в качестве примера критерий знаков. 15.2. Критерий знаков Пусть X = {(x1 , . . . , xm )}, Y = {(y1 , . . . , ym )} – парные выборки. Гипотеза H0 : FX = FY (выборки относятся к одной и той же генеральной совокупности). Содержательная интерпретация: некоторый показатель снимался с m объектов до (X) и после (Y ) некоторого воздействия. H0 : воздействие не повлияло на показатель. Выбросим из выборки пары с равными значениями (xi , yi ); пусть их осталось n. Тогда если H0 справедлива, то 1 P (xi − yi > 0) = P (xi − yi < 0) = . 2 138 Статистикой критерия является Z = min(n− , n+ ), где n− – число отрицательных разностей xi − yi , n+ – число положительных разностей xi − yi . Z имеет распределение B(n, 21 ). Зададим α: ∗ P (Z < z ∗ ) = z X k=1 n 1 Cnk = α. 2 Можно решать это уравнение относительно z ∗ , а можно по данному Zв найти P (Z < Zв ). Если P (Z < Zв ) 6 α, то H0 отвергается с уровнем значимости α. Пример 15.1. У группы студентов проверялись знания элементарной математики через полгода (X) и через полтора года (Y ) после окончания школы (max = 60 баллов). Xi 40 35 41 55 46 60 51 43 Yi 30 30 38 21 49 53 37 21 Знак (Xi − Yi ) + + + + − + + + JЗададим α = 0, 05. H0 : знания не изменились. Тогда 1 P (xi − yi < 0) = . 2 Zв = min(1, 7) = 1. 8 8 1 1 1 P (Z < Zв ) = P (Z = 0 ∪ Z = 1) = + C8 ≈ 0, 035 < 0, 05. 2 2 H0 отвергается, знания ухудшились.I Критерий знаков проверяет гипотезу однородности для парных выборок, являясь, таким образом, непараметрическим аналогом критерия Стьюдента для парных выборок. Это достаточно грубый критерий, поэтому его обычно применяют на стадии предварительного анализа. Пары (Xi , Yi ), образующие выборки, могут быть составлены искусственно, но можно использовать только выборки X и Y одинакового объема. 139 Непараметрические аналоги имеются для каждого параметрического критерия. Рассмотрим теперь непараметрический аналог критерия Стьюдента для независимых выборок. 15.3. Ранговый U -критерий Ранговый U -критерий38 был предложен в 1945 году Френком Уилкоксоном39 (F. Wilcoxon). В 1947 году он был существенно переработан и расширен Х. Б. Манном (H. B. Mann) и Д. Р. Уитни (D. R. Whitney). Область применения теста хорошо отражена в названии статьи Манна и Уитни: «On a test whether one of two random variables is stochastically larger than the other»40 . Критерий Уилкоксона проверяет гипотезу H0 о том, что две выборки извлечены из общей генеральной совокупности. В частности, он применим к проверке гипотезы о равенстве средних для независимых выборок. Данные должны быть числовыми или «полуколичественными» (так называют данные, которые не выражаются числами, но могут быть упорядочены, проранжированы.) Элементы первой выборки попарно сравниваются с элементами второй выборки и подсчитывается число инверсий. Алгоритм определяет, достаточно ли мала зона перекрещивающихся значений между двумя ранжированными рядами значений в первой и второй выборках. Чем меньше значение статистики, тем вероятнее, что различия между выборками достоверны. Распределение генеральной совокупности предполагается непрерывным (используется свойство рангов элементов выборки из непрерывного распределения – все возможные последовательности рангов равновероятны). 1. Алгоритм вычисления статистики U -критерия. Составим единый ранжированный ряд из обеих сопоставляемых выборок, расставив их элементы по степени нарастания признака. Обозначим все элементы одной выборки буквой А, и все элементы другой выборки буквой В. Предположим, нам кажется, что в правой части объединенного ряда больше элементов А. Посчитаем для каждого элемента А число элементов В, которые расположены правее его, и сложим эти числа. Получим значение статистики U = Un1 ,n2 , которое будет сравниваться с табличным. При 38 Другие названия: критерий Уилкоксона (англ. Wilcoxon test), U -критерий Манна – Уитни (англ. Mann – Whitney U-test), критерий Манна – Уитни – Уилкоксона (англ. Mann – Whitney – Wilcoxon, MWW), критерий суммы рангов Уилкоксона (англ. Wilcoxon rank-sum test) или критерий Уилкоксона – Манна – Уитни (англ. Wilcoxon – Mann – Whitney test). Часто пишут также Вилкоксон вместо Уилкоксон. 39 Френк Уилкоксон (англ. Frank Wilcoxon; 1892–1965) – американский химик и статистик. 40 Хорошо американцам – у них приняты простые выражения! 140 верной гипотезе H0 случайная величина Un1 ,n2 распределена одинаково для всех непрерывных генеральных совокупностей. Гипотезу H0 отвергают, если выборочное значение статистики Un1 ,n2 значимо отклоняется от ожидаемого. Критические значения содержатся в табл. 12. Пример 15.2. Пусть объединенный ряд таков: ВАААААВВВВВА. J В правой части ряда больше элементов В. Правее первого В расположены 6 элементов А, правее второго В – один элемент А, то же относится к остальным элементам В. Выборочное значение статистики U равно 6+1+1+1+1+1=11. I Для больших выборок удобнее другой метод нахождения значения статистики U . 2. Алгоритм вычисления статистики U -критерия. Составим единый ранжированный ряд из обеих сопоставляемых выборок, в нем будет N = n1 + n2 элементов, где n1 – количество элементов первой выборки, а n2 – второй выборки. Припишем каждому значению в объединенном ряду ранги (по возрастанию). Подсчитаем отдельно сумму рангов, пришедшихся на долю элементов первой выборки, и отдельно – на долю элементов второй выборки. Определим бо́льшую из двух ранговых сумм (Sx ), объем выборки, которой соответствует эта сумма, обозначим nx (x = 1 или 2). Найдем значение статистики U -критерия Манна – Уитни по формуле U = n1 · n2 + nx ·(n2x +1) − Sx . Пример 15.3. Вычислим значение статистики U для объединенного ряда из предыдущего примера: ВАААААВВВВВА. J Расставим ранги 1(В), 2(А), 3(А), 4(А), 5(А), 6(А), 7(В), 8(В), 9(В), 10(В), 11(В), 12(А). Сумма рангов элементов выборки А равна SA = 2 + 3 + 4 + 5 + 6 + 12 = 32. Сумма рангов элементов выборки В равна SB = 1 + 7 + 8 + 9 + 10 + 11 = 46. Бо́льшей из двух ранговых сумм является SB , значит, Sx = SB = 46. Выборка B содержит 6 элементов, поэтому nx = 6. 6·7 − 46 = 11. U =6·6+ 2 I Значение статистики критерия, найденное любым из этих способов, сравнивается с критическим, которое определяется по таблице для данных n1 и n2 . Если полученное значение U меньше табличного или равно ему для избранного уровня статистической значимости, то признается наличие существенного различия между уровнем признака в рассматриваемых выборках (принимается альтернативная гипотеза). Если же полученное значение 141 U больше табличного, принимается нулевая гипотеза. Достоверность различий тем выше, чем меньше значение U . Пример 15.4. Проверим гипотезу о том, что выборки А и В с объединенным рядом из предыдущих примеров (ВАААААВВВВВА) имеют одинаковое генеральное среднее (взяты из совокупностей с одинаковым математическим ожиданием). JКритическое значение при n1 = 6, n2 = 6 равняется 5 для уровня значимости α = 0, 05. Таким образом, нулевая гипотеза отвергается. I Распределение U для обоснования этого критерия может быть получено из соотношения между производящими функциями частот [20]. Ограничения применимости критерия: в каждой из выборок должно быть не менее трех значений признака. Допускается, чтобы в одной выборке было два значения, но во второй тогда не менее пяти. Таблицы составлены только до n = 60, поэтому в каждой выборке должно быть не более 60 значений параметра. При больших n можно использовать нормальную аппроксимацию. Недостатком всех непараметрических методов является меньшая (относительно параметрических) мощность. Однако критерий Манна – Уитни по сравнению с критерием Стьюдента оказывается лишь слегка менее мощным: если мы применяем эти два критерия к нормальным выборкам, асимптотическая эффективность критерия Манна – Уитни составляет относительно критерия Стьюдента 3/π ≈ 0, 95 [30]. Преимуществом этого критерия (как и вообще непараметрических методов) является возможность применения к различным распределениям. Напомним, что критерий Стьюдента пригоден только для выборок из нормального распределения. Кроме того, ранговые критерии обладают устойчивостью к выбросам. Наличие небольшого числа выбросов (причем они могут быть очень большими) мало влияет на результат при использовании U -критерия, но весьма значительно при использовании критерия Стьюдента41 . 15.4. Контрольные вопросы 1. Что такое непараметрический критерий? 2. Каким требованиям должны удовлетворять статистики, используемые в непараметрических критериях? 41 Свойство устойчивости, в частности, к выбросам, называют робастностью (от англ. robust – крепкий, грубый). 142 3. Сформулируйте недостатки и преимущества непараметрических критериев относительно параметрических критериев. 4. Какую гипотезу проверяет критерий знаков? 5. Какую гипотезу проверяет критерий Уилкоксона? 6. Какую гипотезу проверяет критерий Уилкоксона для парных выборок? 7. Приведите пример парных выборок. 8. Приведите пример парных выборок с искусственно составленными парами. 9. Даны оценки одной и той же группы студентов за две контрольные работы. Какие критерии можно применить для получения ответа на вопрос: «Одинакова ли успеваемость?» 10. Даны оценки двух групп студентов за контрольную работу. Какие критерии можно применить для получения ответа на вопрос: «Одинакова ли успеваемость?» 11. Какие критерии называются робастными? 143 Лекция 16. Критерии согласия Нет ничего практичнее хорошей теории. Роберт Кирхгоф План лекции:построение критериев согласия, критерий согласия Колмогорова, критерий согласия χ2 Пирсона, проверка гипотезы однородности: критерий Колмогорова – Смирнова, проверка гипотезы независимости: критерий χ2 Пирсона. Пусть сформулирована только одна гипотеза H0 о виде распределения и требуется проверить, согласуются ли имеющиеся статистические данные с гипотезой или же они ее опровергают. Критерии, применяемые для проверки гипотез о виде распределения (простых или сложных) против сложных альтернатив с использованием статистик, характеризующих отклонение эмпирических данных от соответствующих гипотезе H0 теоретических значений, называются критериями согласия. Как обычно, должны выполняться условия: распределение такой статистики в случае справедливости H0 можно определить точно или приближенно и оно не должно зависеть от неизвестного нам распределения генеральной совокупности. Пусть дана выборка X = (X1 , . . . , Xn ), описывающая результат изучаемого эксперимента. Предположим, T = T (X) – статистика, удовлетворяющая вышеупомянутым условиям. Пусть G – множество всех значений статистики G = {t : t = T (x), x ∈ X}. (113) Определим для малого α > 0 подмножество G \ V, V ⊆ G так, чтобы вероятность осуществления события {T (x) ∈ V } в случае справедливости гипотезы H0 удовлетворяла бы условию P (T (x) ∈ V /H0 ) = α. (114) Если окажется, что t ∈ V , то в предположении справедливости гипотезы H0 произошло маловероятное событие и эта гипотеза должна быть отвергнута как противоречащая статистическим данным. В противном случае нет основания отказываться от рассматриваемой гипотезы и следует считать, что наблюдения не противоречат гипотезе (согласуются с ней). Как и при проверке параметрических гипотез, статистика T (X), определенная выше, называется статистикой критерия, V – критической областью критерия, α – уровнем значимости критерия (вероятностью ошибочного отвержения гипотезы H0 , когда она верна). Статистика T (X) должна быть функцией отклонения эмпирического распределения от 144 теоретического. Требуется, чтобы эта функция сходилась к какому-то собственному распределению, если верна проверяемая гипотеза, и неограниченно возрастала, если гипотеза не верна. Гипотеза принимается или отвергается в зависимости от величины данной функции отклонения. 16.1. Построение критериев согласия Критерий согласия K для проверки гипотезы H0 : F = F0 против сложной альтернативы H1 : F 6= F0 можно построить следующим образом: K(X) = H0 , если |Z(X)| < C; , H1 , если |Z(X)| > C. (115) где Z(X) = Z(X, F0 ) – функция, характеризующая отклонение эмпирического распределения от предполагаемого F0 . Если для данной выборки модуль функции отклонения принимает малые значения, то это свидетельствует в пользу нулевой гипотезы H0 : F = F0 , если же отклонения большие, то в пользу альтернативной гипотезы H1 : F = F1 . Функция Z(X), очевидно, является случайной величиной (как функция выборки X). Для нахождения вероятностей ошибок надо знать распределение этой функции в случаях, когда верны гипотезы H0 и H1 . Однако гипотеза H1 является сложной и вероятность ошибки второго рода может быть вычислена только если известно конкретное распределение выборки F1 6= F0 (одна из альтернатив). Выходом из положения будет использование статистики, сильно возрастающей при n → ∞, когда гипотеза H0 неверна. Если же гипотеза H0 верна, то распределение Z(X) должно быть известно точно или приближенно (Z(X) ∈ G или Z(X) → ξ ∈ G). Найдем ошибки этого критерия. Ошибка первого рода αK = PH0 (|Z(X)| > C). По условию эта вероятность равна или стремится к P(|ξ| > C). Выберем постоянную C так, чтобы P(|ξ| > C) = α (мы можем это сделать), тогда ошибка первого рода равна α (или стремится к α). Ошибка второго рода βK = PH1 (|Z(X)| < C). Поскольку мы выбрали Z(X) так, что при верной гипотезе p H1 Z(X) −→ ∞ при n → ∞, то βK = PH1 (|Z(X)| < C) → 0. Следовательно, критерий согласия имеет уровень значимости α (точный или асимптотический42 ) и является состоятельным. 42 Критерий K является критерием асимптотического уровня α, если αK → α при n → ∞. 145 16.2. Критерий согласия Колмогорова Для построения этого критерия нам потребуются две теоремы. Теорема 16.1 (теорема Колмогорова). Если функция F (x) непрерывна, то при любом фиксированном t > 0 ∞ X √ 2 2 lim P (| nDn 6 t|) = K(t) = (−1)j e−2j t , n→∞ (116) j=−∞ где Dn = Dn (X) = sup −∞<x<∞ |Fn (x) − F (x)|. (117) Функция K(t) называется функцией Колмогорова. Теорема 16.2 (теорема Гливенко – Кантелли). Пусть X = (X1 , . . . , Xn ) – выборка объема n из неизвестного распределения с функцией распределения F , и Fn – эмпирическая функция распределения, построенная по этой выборке. Тогда p sup |Fn (y) − F (y)| −→ 0, при n → ∞. y∈R Замечание 16.1. Если функция распределения F непрерывна, то скорость сходимости к нулю в теореме Гливенко – Кантелли имеет по1 рядок √ (это видно из теоремы Колмогорова). n Пусть x = (x1 , . . . , xn ) – выборка из генеральной совокупности с неизвестной функцией непрерывного распределения F (x). Выдвинута простая гипотеза H0 : F (x) = F0 (x), где F0 (x) задана. Рассмотрим построение критерия согласия. В качестве статистики критерия выбирают следующую функцию отклонения эмпирического распределения от теоретического: √ √ Z(X) = nDn = n sup |(Fn (x) − (F (x)|. (118) x Покажем, что Z(X) удовлетворяет оговоренным ранее необходимым условиям: если гипотеза H0 верна, то распределение Z(X) должно быть известно точно или приближенно, а когда гипотеза H0 неверна, Z(X) → ∞ при n → ∞. Особенностью статистики Dn является тот факт, что ее распределение (при справедливости гипотезы H0 ) не зависит от вида функции F (x). 146 При n → ∞, если H0 – верная гипотеза, распределение статистики в соответствии с теоремой Колмогорова сходится к функции Колмогорова K(t), таким образом, известно асимптотическое распределение. Если гипотеза H0 неверна, то есть Xi ∈ F1 6= F0 , то по теореме Глиp венко – Кантелли Fn (y) −→ F1 (y) для любого y при n → ∞. Поскольку F0 6= F1 , найдется y такое, что |F1 (y) − F0 (y)| > 0. Для таких y p |Fn (y) − F0 (y)| −→ |F1 (y) − F0 (y)| > 0. Поэтому при n → ∞ Z(X) = √ p n sup |Fn (y) − F0 (y)| −→ ∞. y √ Итак, с помощью статистики Z(X) = nDn можно построить критерий согласия H0 , если |Z(X)| < C; K(X) = , H1 , если |Z(X)| > C. осталось рассчитать C. Распределение Колмогорова табулировано, так что для заданного уровня значимости α с помощью таблиц для функции K(t) можно найти C = t∗ такое, что α = P(ξ > t∗ ). Критическая граница t∗ находится из решения уравнения K(t∗ ) = 1 − α. Так, t∗ = t∗α = 1, 3581 при α = 0, 05; t∗α = 1, 6276 при α = 0, 01. Мы построили критерий √ H0 , если nDn < t∗ ; √ K(X) = H1 , если nDn > t∗ . Критическая область имеет вид V = [t∗ , ∞). Таким образом, при заданном уровне значимости α правило проверки гипотезы H0 сводится к следующему: если значение статистики t̂ = Dn (x) = max |Fn∗ (x) − F0 (x)| удовлетвоx ряет неравенству √ n · t̂ > t∗ , то H0 отвергают, в противном случае делают вывод, что статистические данные не противоречат гипотезе. При практических расчетах значения K(t) можно применять уже при n > 20. Критерий согласия Колмогорова применяют для непрерывных функций распределения F (x). В конкретных задачах величину α берут равной 0,01; 0,005; 0,001. 147 Пример 16.1. Рассмотрим использование критерия Колмогорова для проверки при α = 0, 05 гипотезы: выборка объема n = 113 взята из распределения N (10; 76). J Критерий применяется к негруппированной выборке. В первом столбце содержатся упорядоченные значения выборки P x, во втором – эмпириче∗ ская функция распределения, равная Fn (x) = nni , в третьем - предполагаемая теоретическая функция распределения F0 (x), равная в данном случае Φ10;76 (x) = Φ( x−10 76 ). В четвертом столбце содержатся модули разностей теоретической и эмпирической функций распределения |Fn∗ (x) − F0 (x)|, а в пятом – они же, упорядоченные по убыванию. Поэтому максимальное значение модуля разности, равное значению статистики t̂ – первый элемент пятого столбца. Приведена только часть таблицы, содержащей n = 113 строк. x -175,2 -158,002 ... -17,7772 ... 162,7886 163,7419 177,3939 Fn∗ (x) 1/113=0,00885 2/113=0,017699 ... 0,433628 ... 0,982301 0,99115 1 F0 (x) 0,007408 0,013534 ... 0,357373 ... 0,977804 0,978459 0,986187 |Fn∗ (x) − F0 (x)| 0,001441481 0,004165511 ... 0,07625536 ... 0,004496574 0,012691171 0,013813193 max |Fn∗ (x) − F0 (x)| 0,076255 0,076191 ... 0,050072 ... 0,002554 0,001441 0,000197 t̂ = max |Fn∗ (x) − F0 (x)| = 0, 07625536 √ n · t̂ = 0, 810605598. Критическое значение t∗ = 1, 358. Поскольку 0, 810605598 < 1, 358, гипотеза о распределении N (10; 76) не отвергается. I 16.3. Критерий согласия χ2 Пирсона Критерий согласия χ2 Пирсона43 также проверяет гипотезу H0 : F (x) = F0 (x), но его можно применять для любых распределений. Чтобы воспользоваться этим критерием, выборочные данные предварительно группируют. Пусть ni – число значений, попавших в i-й интервал, i = 43 Не запутайтесь в Пирсонах! Критерий согласия разработан Карлом Пирсоном, классиком математической статистики. А общую теорию проверки статистических гипотез совместно с Е.Нейманом создавал его сын, Эгон Пирсон. 148 1, . . . , k, n – объем выборки, pi – теоретическая вероятность попадания одного элемента выборки в i-й интервал. Однако в теоретическом распределении могут быть неизвестные параметры (θ1 , . . . , θr ), что обычно и встречается на практике. Тогда по выборке (x1 , . . . , xn ) первоначально находят оценки (θ1∗ , . . . , θr∗ ) и затем по F (x, θ1∗ , . . . , θr∗ ) вычисляют теоретические вероятности pi . Если H0 верна, то относительные частоты nni при больших n близки к pi (теорема Бернулли). За меру расхождения между распределением выборки и теоретическим распределением целесообразно принять (в соответствии с методом наименьших квадратов) величину k X i=1 ci n i n − pi 2 , (119) где ci – коэффициенты. Пирсон показал [3], что если взять ci = pni и если (θ1∗ , . . . , θr∗ ) – оценки максимального правдоподобия, то полученная статистика критерия k X (ni − npi )2 (120) Z= np i i=1 при n → ∞ стремится к распределению χ2 с ν = k − r − 1 степенями свободы. На практике предельное распределение χ2k−r−1 можно использовать уже при n > 50 и npi > 4. Критическую область задаем в виде V = [t∗ , ∞). Тогда Fχ2l−r−1 (t∗ ) = 1 − α. (121) Критическую границу находим из решения последнего уравнения. Таким образом, критерий согласия χ2 имеет вид: если значение статистики Zв = Pk (ni −npi )2 удовлетворяет неравенству i=1 npi Zв > t∗ , гипотезу H0 отвергают, в противном случае гипотеза H0 не противоречит условиям испытаний. Иначе говоря, H0 , если Zв < t∗ ; K(X) = H1 , если Zв > t∗ . Пример 16.2. Рассмотрим использование критерия Пирсона для проверки гипотезы о нормальности на основе выборки объема n = 113 из примера (16.1) при α = 0, 05. 149 J Первый столбец табл. 16.3 содержит границы интервалов группировки; второй – нормированную переменную ti , ti = yi −x̄ s ; третий – значение Φ(ti ); четвертый – вероятность pi , pi = Φ(ti+1 ) − Φ(ti ); пятый – теоретическую численность i-го интервала nTi = npi и т. д. В последнем столбце содержатся значения Zi = (ni − nTi )2 /nTi . Выборочное P значение статистики равно сумме элементов последнего столбца: Zв = Zi . 1 yi -175,2 -131,126 -87,052 -42,977 1,097 45,171 89,245 133,320 177,394 2 ti -2,149 -1,616 -1,083 -0,55 -0,017 0,516 1,0495 1,583 2,1645 3 Φ(ti ) 0,018 0,059 0,151 0,3086 0,513 0,714 0,863 0,948 0,985 4 pi 0,041 0,092 0,1576 0,2044 0,201 0,149 0,085 0,037 5 nTi 4,633 10,396 17,809 23,097 22,713 16,837 9,605 4,181 6 ni 6 11 18 21 24 12 13 8 7 ni − nTi 1,367 0,604 0,1912 -2,0972 1,287 -4,837 3,395 3,819 8 (ni − nTi )2 1,868689 0,364816 0,036557 4,398248 1,656369 23,39657 11,52603 14,58476 9 Zi 0,403343 0,035092 0,002053 0,190423 0,072926 1,389593 1,200003 P3,488343 Zi ≈ 6, 78 P Выборочное значение статистики Zв = Zi ≈ 6, 78. Критическое значение: квантиль распределения хи-квадрат χ2 с числом степеней свободы ν = k − r − 1. При вычислении теоретических вероятностей pi использовались оценки двух параметров (a и σ), поэтому r = 2 и ν = 8 − 2 − 1 = 5. Квантиль χ25 порядка 0, 95 равна 11, 07, то есть t∗ = 11, 07. Критическая область V – интервал [11, 07, +∞). Выборочное значение статистики меньше критического, следовательно, гипотеза о нормальном распределении не отвергается.I Пример 16.3. Число выпадений герба при 20 бросаниях двух монет распределилось следующим образом: Количество гербов 0 1 2 Число подбрасываний ni 4 8 8 pi 0, 25 0, 5 0, 25 npi 5 10 5 J pi – вероятность того, что при бросании двух монет выпало i гербов, i = 0, 1, 2. 2 X (ni − npi )2 Zв = = np i i=0 (4 − 5)2 (8 − 10)2 (8 − 5)2 = + + = 2, 4. 5 10 5 150 α = 0, 05. t∗ = χ2l−r−1; 0,95 = χ23−0−1; 0,95 = χ22; 0,95 = 5, 99 (последнее значение нашли по таблице). Zв < t∗ , следовательно, гипотезу H0 не отвергают.I 16.4. Проверка гипотезы однородности: критерий Колмогорова – Смирнова Теорема 16.3 (теорема Смирнова). Пусть Fn (x) и Fm (x) – две эмпирические функции, построенные на основе двух независимых выборок объемов n и m из одного и того же распределения Fξ , и Dn,m = sup −∞<x<∞ |Fn (x) − Fm (x)|. (122) Тогда если теоретическая функция F (x) непрерывна, то для любого фиксированного t > 0 p (123) lim P (| nm/(n + m)Dn,m 6 t| = K(t), n,m→∞ где функция K(t) определена равенством (116). Эта теорема позволяет ответить на важный практический вопрос, можно ли считать, что две выборки получены из одного и того же распределения. Есть две выборки X = (X1 , . . . , Xn ) и Y = (Y1 , . . . , Ym ), причем Xi ∈ Fx , Yi ∈ Fy , и распределения Fx , Fy , вообще говоря, неизвестны. Проверяется сложная гипотеза H0 : Fx = Fy против альтернативы H1 : Fx 6= Fy . Если Fx , Fy имеют непрерывные функции распределения, применим критерий Колмогорова – Смирнова. Пусть Fn,x и Fm,y – эмпирические функции распределения, построенные по выборкам X и Y , r nm Z(X, Y ) = max |Fn,x (t) − Fm,y (t)|. n+m t Если гипотеза H0 верна, то Z(X, Y ) ⇒ ξ ∈ K (распределение, имеющее функцию распределения Колмогорова) при n, m → ∞. 151 p Замечание 16.2. Если верна гипотеза H1 , то Z(X, Y ) −→ ∞ при n, m → ∞. Если случайная величина ξ имеет функцию распределения K(y), то по заданному α найдем C такое, что α = P(ξ > C). Построен критерий согласия Колмогорова – Смирнова: H0 , Z(X, Y ) < C; Hd = H1 , Z(X, Y ) > C. Если число выборок больше двух, то для проверки гипотезы однородности можно пользоваться одним из вариантов критерия χ2 Пирсона44 . 16.5. Проверка гипотезы независимости: критерий χ2 Пирсона Не волнуйся, голова! Теперь будет думать компьютер. Гомер Симпсон По выборке (X, Y ) = ((X1 , Y1 ), . . . , (Xn , Yn )) значений двух наблюдаемых совместно величин ξ и η в n экспериментах будем проверять гипотезу H0 : ξ и η независимы. Сгруппируем значения ξ в k интервалов, а значения η в m интервалов и подсчитаем эмпирические частоты для каждого интервала двумерной группировки (i = 1, . . . , k, j = 1, . . . , m). (Здесь µi,j – число пар (X, Y ), попавших в клетку δix × δjy , и т. д.) Y X δ1x δ2x .. . δkx Σ δ1y δ2y ... y δm Σ µ1,1 µ1,2 . . . µ1,m b1 µ2,1 µ2,2 . . . µ2,m b2 ... µk,1 µk,2 . . . µk,m bk a1 a2 . . . am n Если гипотеза H0 верна, то теоретические вероятности попадания пары (X1 , Y1 ) в любую из областей δix × δjy равны произведению вероятностей: pi,j = P((X1 , Y1 ) ∈ δix × δjy ) = P(X1 ∈ δix )P(Y1 ∈ δjy ) = pxi pyj , 44 Критерий Пирсона применяется для проверки разных гипотез – согласия, однородности, независимости. 152 и по ЗБЧ частоты должны быть близки к вероятностям: bi ≈ pxi , n aj ≈ pyj , n µi,j ≈ pi,j . n Статистикой критерия служит функция, учитывающая различия межb i aj : ду µi,j и n ! k X m k X m 2 2 X X µ (µi,j − (bi aj )/n) i,j Z(X, Y ) = n =n −1 . b a b a i j i j i=1 j=1 i=1 j=1 Поэтому значительная разница может служить основанием для отклонения гипотезы независимости. Если гипотеза H0 верна, то Z(X, Y ) ⇒ χ2(k−1)(m−1) при n → ∞. 16.6. Контрольные вопросы 1. Что такое критерий согласия? 2. Изложите схему построения критерия согласия. 3. Можно ли проверить гипотезу о виде распределения с помощью параметрического критерия? 4. Дайте определение критерия асимптотического уровня α. 5. Какую гипотезу проверяет критерий согласия Пирсона? 6. Какая статистика используется в критерии согласия Пирсона? 7. Какую гипотезу проверяет критерий согласия Колмогорова? 8. Какая статистика используется в критерии согласия Колмогорова? 9. Каковы ограничения на статистическую модель и выборку для применения критериев согласия Пирсона и Колмогорова? 10. Сформулируйте теорему Колмогорова. 11. Сформулируйте теорему Гливенко – Кантелли. 12. Сформулируйте теорему Смирнова. 13. Какую гипотезу проверяет критерий Колмогорова – Смирнова? 153 14. Для каждого из трех текстов имеются данные о частотах, с которыми встречаются в тексте различные служебные слова и знаки препинания. Какой критерий можно применить для проверки содержательной гипотезы: «Эти три текста принадлежат одному автору»? 15. В условиях предыдущего вопроса какую статистику можно использовать для проверки содержательной гипотезы: «Эти три текста принадлежат одному автору»? 16. Датчик случайных чисел выдал N чисел 0, 1, . . . , 9. Среди них число i встречалось ni раз (n0 +. . .+n9 = N ). Как проверить гипотезу о случайности чисел? 154 Лекция 17. Оценка параметров уравнения регрессии Все модели неправильны, но некоторые полезны. Джордж Бокс План лекции: метод наименьших квадратов, общая модель линейной регрессии, свойства оценок метода наименьших квадратов, нормальная регрессия. 17.1. Метод наименьших квадратов Пусть Y – случайная величина, Xi , i = 1, . . . , k – контролируемые (неслучайные) переменные. При этом значения величины Y зависят не только от значений Xi , но и от других факторов, в том числе таких, которые не поддаются контролю. Поэтому для фиксированного значения X ∗ величина Y подвержена некоторому разбросу (рис. 9). Y O X Рис. 9. Данные для отыскания регрессионной зависимости Модель (функциональная зависимость) известна из предварительных соображений с точностью до параметров: Y = f (X1 , . . . , Xk , θ1 , . . . , θs ) + ε, где θi , i = 1, . . . , s – параметры, ε – вектор ошибок. Набор данных имеет вид Y1 = f (X11 , . . . , X1k , θ1 , . . . , θs ) + ε1 , ... Yn = f (Xn1 , . . . , Xnk , θ1 , . . . , θs ) + εn , где Xij – значение j-й переменной при i-м измерении. Будем считать, что E ε = 0 и ошибки некоррелированы: Kε = covε = E(εεT ) = σ 2 En . 155 По методу наименьших квадратов (МНК) оценки параметров выбираются так, чтобы минимизировать сумму квадратов ошибок, то есть оцениваются из условия P R = ni=1 (Yi − f (Xi1 , . . . , Xik , θ1 , . . . , θs ))2 → min, ∂R = 0, j = 1, . . . , s. ∂θj Линия Y = f (X1 , . . . , Xk , θ1 , . . . , θs ) называется линией регрессии Y на X . 45 17.2. Общая модель линейной регрессии Наиболее часто используются линейные по параметрам модели вида Y = θ1 · a1 (X1 ) + θ2 · a2 (X2 ) + . . . + θk · ak (Xk ) + ε. (Если ak (Xk ) ≡ 1, будет свободный член.) Рассмотрим основной случай, когда ai (Xi ) = Xi . Одномерный случай (k = 1) представлен на рис. 10. Y εi O X Рис. 10. Иллюстрация модели линейной регрессии В общем случае исходные данные имеют вид Y1 = X11 θ1 + . . . + X1k θk + ε1 ... Yn = Xn1 θ1 + . . . + Xnk θk + εn 45 или Y = X · θ + ε, Термин «регрессия» введен Ф. Гальтоном (1886). Он установил, что особенности роста родителей проявляются и у их детей, но в среднем в меньшей степени. У родителей низкого или высокого роста рост детей оказывается несколько ближе к среднему, то есть (в среднем) у низких дети выше, а у высоких родителей – ниже. Гальтон назвал это явление «возвратом» (regression). 156 где   Y1 Y =  ...  , Yn   X11 . . . X1k X =  ... . . . ...  , Xn1 . . . Xnk   ε1 ε =  ...  . εn Кроме того, E ε = 0, E(εεT ) = σ 2 En . Сумма квадратов ошибок или остаточная дисперсия R = K(θ) = X (Yi − k X Xij θj )2 → min, j=1 что эквивалентно R = (Y − Xθ)T (Y − Xθ) → min . Предположим, что матрица X T X не вырождена и найдем оценку θ из условия n X X ∂R Xil (Yi − Xij θj ) = 0, l = 1, . . . , k. = −2 ∂θl i=1 Имеем X T (Y − Xθ) = 0 ⇐⇒ X T Y = X T Xθ ⇐⇒ θ̂ = (X T X)−1 · X T Y. Уравнение X T Xθ = X T Y называется нормальным уравнением метода наименьших квадратов, а θ̂ = (X T X)−1 · X T Y – оценкой параметров линейной регрессии методом наименьших квадратов (о.н.к.). Теорема 17.1. Пусть θ̂ – любое решение нормального уравнения. Тогда min R(θ) = R(θ̂). Если |X T X| = 6 0, то о. н. к. единственна и равна T −1 T θ̂ = (X X) · X Y . Доказательство. Пусть θ – произвольное фиксированное значение θ; тогда R(θ) = (Y − Xθ)T (Y − Xθ) = [Y − Xθ + X(θ − θ)]T [Y − Xθ + X(θ − θ)] = = R(θ) + 2(θ − θ)T (X T Y − X T Xθ) + (θ − θ)T X T X(θ − θ). При θ = θ̂ = (X T X)−1 · X T Y средний член обращается в 0 и R(θ) = R(θ̂) + (θ̂ − θ)T X T X(θ̂ − θ) > R(θ̂), (124) так как матрица X T X неотрицательно определена. Равенство достигается при θ = θ̂, следовательно, это и есть точка минимума. Единственность следует из однозначной разрешимости нормального уравнения при невырожденной матрице X T X . 157 На рис. 11 изображена расчетная линия регрессии ŷ = a0 + a1 x, среднее значение зависимой переменной y и три точки, соответствующие заданному значению переменной xi : наблюдаемое значение yi , вычисленное по регрессии ŷi = a0 + a1 xi , и среднее значение ȳ. Y yi ŷ=a0 +a1 x ȳ O ŷi ȳ xi X Рис. 11. Фактическое, расчетное и среднее значения зависимой переменной y Пример 17.1. Найдем оценку параметра линейной модели Y = X ·θ +ε по данным: X 0 1 2 3 4 . Y −1, 2 0, 1 3, 0 4, 9 7, 3 J Напомним, что X и Y в формулах – это векторы-столбцы (как бы ни были они заданы в условиях). θ̂ = (X T X)−1 · X T Y.   0 1    XT X = 0 1 2 3 4 ·   2  = 30; 3 4   −1, 2  0, 1     = 50; XT Y = 0 1 2 3 4 ·  3, 0    4, 9  7, 3 θ̂ = (X T X)−1 · X T Y = 5/3; Ŷ = 5/3X ≈ 1, 7X. I 158 Пример 17.2. Найдем в условиях предыдущего примера величину R̂, равную сумме квадратов ошибок. J R̂ = X (Yi − θ̂Xi )2 = i X (Yi − Ŷi )2 , i где Ŷi – значения, вычисленные по уравнению регрессии Ŷ = 1, 7X. X 0 1 2 3 Y −1, 2 0, 1 3, 0 4, 9 Ŷ 0 1, 7 3, 4 5, 1 |Y − Ŷ | 1, 2 1, 6 0, 4 0, 2 X R̂ = (Yi − Ŷi )2 = 4, 45. 4 7, 3 . 6, 8 0, 5 i I Пример 17.3. Найдем по данным примера 17.1 оценки параметров линейной модели Y = X · θ + θ1 + ε. J Будем считать, что переменная X двумерна, и рассматривать модель Y = X1 · θ + X2 θ1 + ε, где X2 ≡ 1. X1 0 1 2 3 4 X2 1 1 1 1 1 . Y −1, 2 0, 1 3, 0 4, 9 7, 3 θ̂ = (X T X)−1 · X T Y. 30 10 5 −10 0, 1 −0, 2 XT X = ; (X T X)−1 = 1/50 · = . 10 5 −10 30 −0, 2 0, 6   −1, 2  0, 1    50 0 1 2 3 4 T  X Y = ·  3, 0  = 14, 1 . 1 1 1 1 1  4, 9  7, 3 0, 1 −0, 2 50 2, 18 θ̂ = (X T X)−1 · X T Y = · = ; −0, 2 0, 6 14, 1 −1, 54 159 Ŷ = 2, 18X − 1, 54. Y O X Рис. 12. Графическое изображение данных (примеры 17.1–17.3) Найдем для этой модели величину R̂, равную сумме квадратов ошибок: R̂ = X (Yi − i 2 X Xij θj )2 = j=1 X (Yi − Ŷi )2 , i где Ŷi – значения, вычисленные по уравнению регрессии Ŷ = 2, 18X − 1, 54 (рис. 12). X 0 1 2 3 4 Y −1, 2 0, 1 3, 0 4, 9 7, 3 . Ŷ −1, 54 0, 64 2, 82 5 7, 18 |Y − Ŷ | 0, 34 0, 54 0, 18 0, 1 0, 12 X R̂ = (Yi − Ŷi )2 = 0, 4640. i Как видим, ошибка при использовании модели со свободным членом примерно в 10 раз меньше. Причина этого понятна из рис. 12. Очевидно, модель без свободного члена (Y = X · θ + ε) не является адекватной. I В одномерном случае для нахождения параметров линейной модели Y = X · θ + θ1 + ε удобно использовать следующие формулы, получаемые из 160 соотношения θ̂ = (X T X)−1 · X T Y (или непосредственно путем отыскания минимума функции R = R(θ, θ1 ) с помощью частных производных): θ̂ = SSxy , θ̂1 = y − θ̂ · x, SSxx (125) где SSxy P P ( i xi )( i yi ) = (xi − x)(yi − y) = xi yi − , n i i P X X ( i xi )2 2 2 xi − . SSxx = (xi − x) = n i i X X Пример 17.4. Найдем оценки параметров линейной модели Y = X ·θ + θ1 + ε по данным примера 17.1, используя формулы (125). J SSxy P P ( i xi )( i yi ) 10 · 14, 1 = x i yi − = 50 − = 21, 8. n 5 i P 2 X ( 100 i xi ) SSxx = x2i − = 30 − = 10. n 5 i X θ̂ = θ̂1 = y − θ̂ · x = 21, 8 SSxy = = 2, 18. SSxx 10 14, 1 − 2, 18 · 2 = 2, 82 − 4, 36 = −1, 54. 5 Полученный ответ Ŷ = 2, 18X − 1, 54 совпадает с ответом примера 17.3. I 17.3. Свойства оценок МНК 1. Несмещенность. E θ̂ = E[(X T X)−1 X T Y ] = E[(X T X)−1 X T (Xθ + ε)] = = (X T X)−1 X T X(E θ + E ε) = E θ + E ε = θ. 2. Kθ̂ = σ 2 (XT X)−1 . Имеем Kθ̂ = E[(θ̂ − θ)(θ̂ − θ)T ]. 161 Так как θ̂ − θ = (X T X)−1 X T (Xθ + ε) − θ = = (X T X)−1 X T Xθ + (X T X)−1 X T ε − θ = = θ + (X T X)−1 X T ε − θ = (X T X)−1 X T ε, то Kθ̂ = E[(X T X)−1 X T ε · εT X(X T X)−1 ] = (X T X)−1 X T · E[ε · εT ] · X(X T X)−1 ] = X T X)−1 X T · σ 2 E · X(X T X)−1 ] = = σ 2 E · (X T X)−1 (X T X)(X T X)−1 = = σ 2 · (X T X)−1 . Использовалось, что X T X и (X T X)−1 – симметрические матрицы, и ((X T X)−1 )T = (X T X)−1 . 3. Оценивание остаточной дисперсии R(θ̂). T E R(θ̂) = E[(Y − X θ̂) (Y − X θ̂)] = X D Yi = nσ 2 . Из равенства (124) имеем R(θ) = R(θ̂) + (θ̂ − θ)T X T X(θ̂ − θ), и E R(θ) = E R(θ̂) + E(θ̂ − θ)T X T X(θ̂ − θ), T T E(θ̂ − θ) X X(θ̂ − θ) = k X aij E(θˆi − θi )T X T X(θˆj − θj ) = i,j=1 = k X i,j=1 aij cov(θˆi , θˆj ) = k X (−1) aij σ 2 aij = σ 2 tr(Ek ) = kσ 2 . i,j=1 Подставляя kσ 2 в (126), получаем: nσ 2 = E R(θ̂) + kσ 2 , откуда E R(θ̂) = (n − k)σ 2 . 162 (126) Таким образом, несмещенной оценкой для остаточной дисперсии σ 2 является статистика R(θ̂) [(Y − X θ̂)T (Y − X θ̂)] b 2 σ = = . n−k n−k Вектор U = Y − X θ̂ называют остаточным вектором, а его компоненты – остатками. Остаточный вектор можно записать в виде U = (En − X(X T X)−1 X T )Y, а несмещенная оценка для остаточной дисперсии σ 2 тогда имеет вид Y (En − X(X T X)−1 X T )Y T b 2 σ = , n−k (127) поскольку (En − X(X T X)−1 X T )T (En − X(X T X)−1 X T ) = (En − X(X T X)−1 X T ). 4. Теорема Гаусса – Маркова. Теорема 17.2 (теорема Гаусса – Маркова). В классе несмещенных линейных оценок оценки МНК имеют наименьшую дисперсию. Доказательство. Надо доказать, что в ковариационной матрице Kθ̂ , где θ̂ – оценка МНК, по диагонали стоят элементы не больше чем в Kθ̄ , где θ̄ – произвольная несмещенная линейная оценка. Оценка, линейная от наблюдения, имеет вид θ̄ = T y, где T – матрица, элементы которой константы. Сравним Kθ̂ и Kθ̄ : Kθ̂ = σ 2 (X T X)−1 , Kθ̂ = E[(θ̄ − θ)(θ̄ − θ)T ]. Но E θ̄ = E[T (Xθ + ε)] = E T Xθ + T E ε = T Xθ, значит, T X = E. Тогда θ̄ − θ = T (θX + ε)) − θ = θT X + T ε − θ = T ε. Значит, E[(θ̄ − θ)(θ̄ − θ)T ] = E[(T ε)(T ε)T ] = E[(T ε · εT T T )] = σ 2 · T · T T . Сравним диагональные элементы матриц (X T X)−1 для θ̂ и T · T T для θ̄. Рассмотрим матрицу A = T − (X T X)−1 X T , тогда AT = T T − X · (X T X)−1 , 163 откуда A · AT = (T − (X T X)−1 X T )(T T − X · (X T X)−1 ) = T · T T − −(X T X)−1 X T · T T − T · X · (X T X)−1 + (X T X)−1 X T X · (X T X)−1 = = T · T T − (X T X)−1 − (X T X)−1 + X T X −1 = = T · T T − (X T X)−1 (так как T X = E и X T T T = (T X)T = E). Но в матрице AAT диагональные элементы больше либо равны 0, так как это скалярные квадраты строк. Следовательно, диагональные элементы T · T T больше либо равны диагональным элементам (X T X)−1 , то есть дисперсии оценок θ̂ метода наименьших квадратов – наименьшие в классе линейных несмещенных оценок. Это означает, что о.н.к. оптимальны в данном классе. 17.4. Нормальная регрессия Раньше мы предполагали, что ошибки ε1 , . . . , εn некоррелированы, имеют нулевые математические ожидания и одинаковую положительную дисперсию: E ε = 0, Kε = covε = E(εεT ) = σ 2 En . Для нахождений вероятностей отклонений о.н.к. от истинных значений рассматриваемых параметров, расчета доверительных интервалов, проверки гипотез необходимо сделать дополнительные предположения о виде распределения случайного T вектора Y = Y1 . . . Yn . Поскольку Y = X ·θ +ε, где X – неслучайная переменная, закон распределения Y определяется законом распределения ε. Будем считать, что ошибки подчиняются нормальному закону распределения N (0, σ) (распределение Y будет тогда тоже нормальным, с математическим ожиданием Xθ). В данной параметрической модели можно найти оценку параметра θ с помощью метода максимального правдоподобия. Возникает вопрос, как связаны о.м.п. и о.н.к. Легко видеть, функP что максимум Pk 2 ции P 2правдоподобия достигается при минимуме R = (Yi − j=1 Xij θj ) = εi , таким образом, оценки максимального правдоподобия совпадают с оценками наименьших квадратов. Из теоремы Гаусса – Маркова известно, что о.н.к. оптимальны в классе несмещенных линейных оценок. В нормальной модели справедливо и более сильное утверждение: оценки МНК имеют наименьшую дисперсию в классе всех несмещенных оценок [2]. Выясним, каково распределение θ̂ и связанных с ней статистик. Спра164 ведлива теорема, напоминающая теорему Фишера и лежащая в основе теории нормальной регрессии. Теорема 17.3. В нормальной регрессионной модели 1) величина θ̂ имеет многомерное нормальное распределение с вектором математических ожиданий θ и ковариационной матрицей σ 2 (X T X)−1 ; 2) статистика T σ (−1) θ̂l −θl √ – соответствующий элемент , где all (−1) all −1 матрицы (X X) , имеет распределение N (0; 1) для l = 1, . . . , k; 3) случайные величины θ̂ и R(θ̂) независимы; 4) случайные величины R(θ̂) и R(θ) − R(θ̂) независимы; 5) статистика R(θ)−R(θ̂) σ2 6) статистика R(θ̂) σ2 имеет распределение χ2k ; имеет распределение χ2n−k . Доказательство. 1) Так как θ̂ линейно выражается через нормально распределенный случайный вектор ε, то закон распределения θ̂ также нормален. Параметры этого распределения уже вычислены выше: E θ̂ = θ, Kθ̂ = σ 2 (XT X)−1 . Следовательно, величина θ̂ имеет многомерное нормальное распределение с вектором математических ожиданий θ и ковариационной матрицей σ 2 (X T X)−1 . 2) Тогда каждый из выборочных коэффициентов регрессии θ̂l , l = √ (−1) 1, . . . , k, имеет распределение N (θl ; σ all ), где all – соответствующий элемент матрицы (X T X)−1 , а статистика θ̂l − θl q (−1) σ all имеет распределение N (0; 1). 3) Будем использовать следующую лемму [2]. Лемма. Пусть X = (X1 , . . . , Xn ) – выборка из распределения N (0, 1). Рассмотрим квадратичную форму Q = X T AX размерности n с действительной и симметричной матрицей коэффициентов A и линейную 165 форму T = BX, где B есть матрица порядка m × n. Если BA = O (O – матрица с нулевыми элементами), то функции Q и T независимы. По предположению, ошибки ε имеют дисперсию σ 2 ; будем рассматривать нормированные ошибки ε∗ = ε/σ: θ̂ = (X T X)−1 · X T Y = θ + (X T X)−1 X T ε = = θ + σ(X T X)−1 X T ε/σ = θ + σ(X T X)−1 X T ε∗ . Это линейная форма с матрицей B = (X T X)−1 X T . R(θ̂) = (Y − X θ̂)T (Y − X θ̂) = U T U, что равно, по (127), U T U = Y (En − X(X T X)−1 X T )Y T . Подставим сюда Y = Xθ + ε и раскрыв скобки, получим, что X T (En − X(X T X)−1 X T ) = (En − X(X T X)−1 X T )X = 0. Тогда R(θ̂) = (ε/σ)T (En − XA−1 X T )ε/σ, = (ε∗ )T (En − XA−1 X T )ε∗ ; 2 σ это квадратичная форма с действительной и симметричной матрицей коэффициентов A = En − X(X T X)−1 X T . Условие BA = O выполняется, так как BA = (X T X)−1 (En − X(X T X)−1 X T ) = O. По лемме θ̂ и R(θ̂) независимы. 4) Из равенства (124) имеем R(θ) − R(θ̂) = (θ̂ − θ)T X T X(θ̂ − θ). Статистика R(θ) − R(θ̂ зависит от выборки только через θ̂, но θ̂ и R(θ̂) независимы, значит, независимы и R(θ̂) и R(θ) − R(θ̂). θ̂) 5) Тот факт, что статистика R(θ)−R( имеет распределение χ2k , вытекает σ2 из представления R(θ) − R(θ̂) = (θ̂ − θ)T X T X(θ̂ − θ), где θ̂ распределено по нормальному закону. 166 6) Статистика R(θ̂) σ2 также имеет распределение χ2 в силу представле- ния R(θ̂) = (ε∗ )T (En − X(X T X)−1 X T )ε∗ , 2 σ однако надо выяснить число степеней свободы этого распределения. Известна теорема [2]. Пусть Q = X T AX и rangA = r 6 n. Если матрица идемпотентна (A2 = A), то Q имеет распределение χ2r и при этом r = trA. В данном случае A = En − X(X T X)−1 X T , идемпотентность этой матрицы мы уже проверяли. Найдем ее след. trA = trEn − tr(X(X T X)−1 X T ) = n− = trEk = n − k. Следовательно, по данной теореме R(θ̂) σ2 имеет распределение χ2n−k . 17.5. Интервальное оценивание Рассмотренная теорема позволяет построить доверительный интервал для коэффициентов регрессии θ̂l , l = 1, . . . , k так же, как строили раньше интервал для среднего нормального закона с неизвестной дисперсией – на основе стьюдентова отношения: s n−k (θ̂l − θl ), tl = (−1) all R(θ̂) (−1) где all – соответствующий элемент матрицы (X T X)−1 . Очевидно, что статистика tl (как частное независимых величин с распределением N (0; 1) в числителе и χ2n−k в знаменателе) имеет распределение Стьюдента Tn−k . Доверительный интервал для коэффициента регрессии θl имеет вид s s   (−1) (−1) all all Iθl = θ̂l − tn−k,1− α2 R(θ̂); θ̂l + tn−k,1− α2 R(θ̂) . n−k n−k Пример 17.5. Найдем доверительный интервал для коэффициента регрессии θ в линейной модели Y = X · θ + θ1 + ε. J Данные имеют вид x= x1 . . . xn 1 ... 1 167 . XT X = x1 . . . xn 1 ... 1  x1 ·  ... x1  P 2 P 1 xi ..  = P xi . . xi n 1 Определитель матрицы X T X равен X X X T 2 2 |X X| = n xi − ( xi ) = n (xi − x)2 ; тогда обратная матрица (xT x)−1 : (X T X)−1 = (−1) Нас интересует элемент all (−1) all = 1 − |X T X| n P P −P xi . xi x2i обратной матрицы: n 1 P P = . n (xi − x)2 (xi − x)2 Таким образом, доверительный интервал для коэффициента регрессии θ равен   s s R(θ̂) R(θ̂) θ̂ − tn−2,1− α . α P P ; θ̂ + t n−2,1− 2 2 (n − 2) (xi − x)2 (n − 2) (xi − x)2 P 2 R(θ̂) – это сумма квадратов ошибок: R(θ̂) = i (yi − ŷi ) , окончательно получаем доверительный интервал для θ: s P 2 i − ŷi ) i (y α P θ̂ ± tn−2,1 2 (n − 2) (xi − x)2 или, в обозначениях регрессионного анализа, θ̂ ± tn−2,1− α2 Sθ̂ , где s Sθ̂ = P ŷi )2 . (xi − x)2 i− i (y P (n − 2) I Рассматривая доверительные области для линейных комбинаций параметров, можно получить для одномерной линейной модели доверительные интервалы для среднего и индивидуального значения [2]. 168 Доверительный интервал для среднего значения y при фиксированном x0 : s ŷ ± t n−2,1− α2 (x0 − x)2 1 P + ; n (xi − x)2 S (128) доверительный интервал для индивидуального значения y при фиксированном x0 : s (x0 − x)2 1 α P ŷ ± tn−2,1− 2 S 1 + + , (129) n (xi − x)2 где sP − ŷi )2 . (n − 2) i (yi S= Можно рассматривать интервалы как функции x0 = x (рис. 13). Y (b) (a) (a) (b) O X Рис. 13. Доверительные интервалы среднего (a) и индивидуального значения (b) Чем дальше x0 от x, тем шире доверительные интервалы (128, 129). Очевидно, интервал для индивидуального значения y задает более широкую область. 17.6. Контрольные вопросы 1. Опишите общую модель регрессии. 2. Опишите общую модель линейной регрессии. 3. Опишите модель полиномиальной регрессии. 169 4. Какая модель называется линейной по параметрам? 5. Как свести модель полиномиальной регрессии к общей модели линейной регрессии? 6. В чем суть метода наименьших квадратов? 7. Сформулируйте свойство несмещенности о.н.к. параметров уравнения регрессии. 8. Запишите ковариационную матрицу оценок метода наименьших квадратов. 9. Сформулируйте теорему Гаусса – Маркова. 170 Библиографический список [1] Боровков, А. А. Математическая статистика. Оценка параметров. Проверка гипотез / А. А. Боровков. – М. : ФИЗМАТЛИТ, 2007. – 704 с. [2] Ивченко, Г. И. Математическая статистика : учеб. пособие / Г. И. Ивченко, Ю. И. Медведев . – М. : Высш. шк., 1984. – 248 с. [3] Крамер, Г. Математические методы статистики / Г. Крамер. – М. : Мир, 1975. – 648 c. [4] Крупкина, Т. В. Математическая статистика в примерах и задачах : практикум по решению задач / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск: ИПК СФУ, 2009. – 104 с. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [5] Крупкина, Т. В. Математическая статистика : метод. указания / Т. В. Крупкина, Г. А. Федоров. – Красноярск : ИПК СФУ, 2009. – 52 с. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [6] Чернова, Н. И. Математическая статистика : учеб. пособие / Н. И. Чернова ; Новосиб. гос. ун-т. – Новосибирск, 2007. – 148 с. Дополнительная литература [7] Андерсон, Т. Введение в многомерный статистический анализ / Т. Андерсон – М. : Гос. изд. физ.-мат. лит., 1963. – 500 с. [8] Беклемишев, Д. В. Курс аналитической геометрии и линейной алгебры / Д. В. Беклемишев. – М. : ФИЗМАТЛИТ, Наука, 2007. – 307 с. [9] Бешелев, С. Д. Математико-статистические методы экспертных оценок С. Д. Бешелев, Ф. Г. Гурвич. – М. : Статистика, 1980. – 263 с. / [10] Большев, Л. Н. Таблицы математической статистики / Л. Н. Большев, Н. В. Смирнов. – М. : Наука, 1983. – 415 с. [11] Вентцель, Е. С. Теория вероятностей и ее инженерные приложения : учеб. пособие / Е. С. Вентцель, Л. А. Овчаров. – 2-е изд., стереотип. – М. : Высш. шк., 2000. – 480 с. 171 [12] Вирт, Н. Алгоритмы и структуры данных / Н. Вирт. – СПб. : Невский диалект, 2001. – 352 с. [13] Володин, Б. Г. Сборник задач по теории вероятностей, математической статистике и теории случайных функций : учеб. пособие / Б. Г. Володин, М. П. Ганин, И. Я. Динер, Л. Б. Комаров, А. А. Свешников, К. Б. Старобин ; под ред. А. А. Свешникова. – М. : Наука. Гл. ред. физ.-мат. лит., 1970. – 632 с. [14] Вуколов, Э. Л. Основы статистического анализа. Практикум по статистическим методам и исследованию операции с использованием пакетов STATISTICA и EXCEL : учеб. пособие / Э. Л. Вуколов. – 2-е изд., испр. и доп. – М. : ФОРУМ, 2008. – 464 с. [15] Гихман, И. И. Теория вероятностей и математическая статистика : учебник / И. И. Гихман, А. В. Скороход, М. И. Ядренко. – 2-е изд., перераб. и доп. – Киев. : Выща шк., 1988. – 439 с. [16] Гнеденко, Б. В. Курс теории вероятностей : учебник / Б. В. Гнеденко. – 8-е изд., испр. и доп. – М. : Едиториал УРСС, 2005. – 448 с. [17] Емельянов, Г. В. Задачник по теории вероятностей и математической статистике : учеб. пособие / Г. В. Емельянов, В. П. Скитович. – Л. : Изд-во Ленингр. ун-та, 1967. – 331 с. [18] Зорич, В. А. Математический анализ. Т. 1, 2 / В. А. Зорич. – М. : МЦНМО, 2007. – 1458 с. [19] Кендалл, М. Теория распределений / М. Кендалл, А. Стюарт. – М. : Наука. Гл. ред. физ.-мат. лит., 1966. – 588 с. [20] Кендалл, М. Статистические выводы и связи / М. Кендалл, А. Стюарт. – М. : Наука. Гл. ред. физ.-мат. лит., 1973. – 899 с. [21] Кибзун, А. И. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами : учеб. пособие / А. И. Кибзун, Е. Р. Горяинова, А. В. Наумов, А. Н. Сиротин. – М. : ФИЗМАТЛИТ, 2002. – 224 с. [22] Климов, Г. П. Теория вероятностей и математическая статистика / Г. П. Климов. – М. : Изд-во Моск. ун-та, 1983. – 328 с. [23] Кнут, Д. Искусство программирования. Т. 3. Сортировка и поиск /Д. Кнут. – М. : Вильямс, 2000. – 822 с. [24] Козлов, М. В. Введение в математическую статистику : учеб. пособие / М. В. Козлов, А. В. Прохоров. – М. : МГУ, 1987. – 264 с. [25] Коршунов, Д. А. Сборник задач и упражнений по математической статистике : учеб. пособие / Д. А. Коршунов, Н. И. Чернова. – Новосибирск : Изд-во Ин-та математики, 2004. – 128 с. 172 [26] Крупкина, Т. В. Конспект лекций по теории вероятностей : учеб. пособие / Т. В. Крупкина. – Красноярск : КрасГУ, 1996. – 87 с. [27] Крупкина, Т. В. Теория вероятностей, математическая статистика и эконометрика : учеб. пособие : в 2 кн. Кн. 1 / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : КрасГУ, 1999. – 216 с. [28] Крупкина, Т. В. Теория вероятностей и математическая статистика : учеб. пособие : в 2 ч. Ч. 1 / Т. В. Крупкина, В. П. Малый. – Красноярск : КрасГУ, 1991. – 80 с. [29] Леман, Э. Теория точечного оценивания / Э. Леман. – М. : Наука, 1991. – 448 с. [30] Никитин, Я. Ю. Асимптотическая эффективность непараметрических критериев / Я. Ю. Никитин. – М. : Наука, 1995. – 240 с. [31] Орлов, А. И. Экспертные оценки : учеб. пособие / А. И. Орлов. – М. : ИВСТЭ, 2002. – 31 с. [32] Орлов, А. И. Прикладная статистика : учебник / А. И. Орлов. – М. : Экзамен, 2004. – 656 с. [33] Пугачев, В. С. Теория вероятностей и математическая статистика : учеб. пособие / В. С. Пугачев. – М. : ФИЗМАТЛИТ, 2002. – 496 с. [34] Севастьянов, Б. А. Курс теории вероятностей и математической статистики : учебник / Б. А. Севастьянов. – М. : Наука. Гл. ред. физ.-мат. лит., 1982. – 255 с. [35] Феллер, В. Введение в теорию вероятностей и ее приложения : учебник : в 2 т. Т. 1 / В. Феллер . – 2-е изд., перераб. и доп. – М. : Мир, 1984. – 528 с. [36] Ширяев, А. Н. Вероятность : учеб. пособие / А. Н. Ширяев. – М. : Наука, 1989. – 610 с. [37] Фихтенгольц, Г. М. Курс дифференциального и интегрального исчисления : в 3 томах / Г. М. Фихтенгольц. – М. : ФИЗМАТЛИТ, 2001. (т. 1 – 616 с.; т. 2 – 810 с.; т. 3 – 662 с.) [38] СТО 4.2-07-2008. Система менеджмента качества. Общие требования к построению, изложению и оформлению документов учебной и научной деятельности [Текст] / разраб. : Т. В. Сильченко, Л. В. Белошапко, В. К. Младенцева, М. И. Губанова. – Введ. впервые 09.12.2008. – Красноярск : ИПК СФУ, 2008. – 47 с. [39] Каталог лицензионных программных продуктов, используемых в СФУ / сост. : А. В. Сарафанов, М. М. Торопов. – Красноярск : Сиб. федер. ун-т, 2008. – Вып. 1–4. [40] Стандарт организации СТО СФУ 7.2.04-2007. Электронные образовательные ресурсы на базе гипертекстовых технологий со встроенной системой компьютерной проверки знаний тестированием. Требования к структуре, организации и интерфейсу / разраб. : К. Н. Захарьин, А. В. Сарафанов, А. Г. Суковатый и др. – Красноярск : Сиб. 173 федер. ун-т, 2007. Утвержден и введен в действие приказом ректора СФУ № 659 от 15.11.2007 г. [41] Захарьин, К. Н. Электронные презентационные материалы / А. В. Сарафанов, К. Н. Захарьин, А. Г. Суковатый. – Красноярск, 2008. [42] Учебно-методические комплексы дисциплин. Основные компоненты : метод. рекомендации / сост. : Л. И. Вейсова, С. И. Почекутов, А. В. Сарафанов, А. Ю. Смолин. – Красноярск : ИПК СФУ, 2008. – 12 с. [43] Каталог инновационных учебно-методических комплексов дисциплин и электронных ресурсов / сост. : К. Н. Захарьин, А. В. Сарафанов, А. Г. Суковатый, А. С. Теремов, М. В. Шипова. – Красноярск : ИПК СФУ, 2008. – Вып. 1. – 298 с. Электронные и интернет-ресурсы [44] Унифицированная система компьютерной проверки знаний тестированием UniTest версии 3.0.0 : руководство пользователя / А. Н. Шниперов, Б. М. Бидус. – Красноярск, 2008. [45] Математическая статистика. [Электронный ресурс] : электрон. учеб.-метод. комплекс по дисциплине / Т. В. Крупкина, А. К. Гречкосеев. – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [46] Математическая статистика. Банк тестовых заданий. Версия 1.0 [Электронный ресурс] : контрольно-измерительные материалы / Т. В. Крупкина, Е. С. Кирик, Г. А. Федоров. – Красноярск : ИПК СФУ, 2009. – (Математическая статистика : УМКД № 14552008 / рук. творч. коллектива Т. В. Крупкина). [47] Чернова, Н. И. Лекции по математической статистике : учеб. пособие / Н. И. Чернова. – Новосибирск : НГУ, 2002 (Internet). Перечень наглядных и других пособий, методических указаний и материалов по техническим средствам обучения [48] Математическая статистика. Презентационные материалы. Версия 1.0 [Электронный ресурс] : наглядное пособие /Т. В. Крупкина, А. К. Гречкосеев. – Красноярск: ИПК СФУ, 2009. – (Математическая статистика : УМКД № 1455-2008 / рук. творч. коллектива Т. В. Крупкина). [49] Интерактивные технические средства обучения: практическое руководство / сост. : А. Г. Суковатый, К. Н. Захарьин, А. В. Казанцев, А. В. Сарафанов. – Красноярск : ИПК СФУ, 2009. – 84 с. 174 Таблица 3 1 2 Значения функции ϕ (x) = √ e−x /2 2π x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2, 0 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3, 0 x 3 Сотые доли x 4 5 39862 39844 39505 39448 38762 38667 37654 37524 36213 36053 34482 34294 32506 32297 30339 30114 28034 27798 25647 25406 23230 22988 20831 20594 18494 18265 16256 16038 14146 13943 12188 12001 10396 10226 08780 08628 07341 07207 06077 05960 04980 04879 04041 03955 03246 03174 02582 02522 02033 01984 01585 01545 01223 01191 00935 00910 00707 00687 00530 00514 00393 00381 Десятые доли x 0 1 2 3 4 5 00443 00327 00238 00172 00123 00084 0 39894 39695 39104 38139 36827 35207 33322 31225 28969 26609 24197 21785 19419 17137 14973 12952 11092 09405 07895 06562 05399 04398 03548 02833 02240 01753 01358 01042 00792 00595 00443 1 39892 39654 39024 38023 36678 35029 33121 31006 28737 26369 23955 21546 19186 16915 14764 12758 10915 09246 07754 06438 05292 04307 03470 02768 02186 01710 01323 01014 00770 00578 00430 2 39886 39608 38940 37903 36526 34849 32918 30785 28504 26129 23713 21307 18954 16694 14556 12566 10741 09089 07614 06316 05186 04217 03394 02705 02134 01667 01289 00987 00748 00562 00417 3 39876 39559 38853 37780 36371 34667 32713 30563 28269 25888 23471 21069 18724 16474 14350 12376 10567 08933 07477 06195 05082 04128 03319 02643 02083 01625 01256 00961 00727 00545 00405 6 39822 39387 38568 37391 35889 34105 32086 29887 27562 25164 22747 20357 18037 15822 13742 11816 10059 08478 07074 05844 04780 03871 03103 02463 01936 01506 01160 00885 00668 00499 00370 7 39797 39322 38466 37255 35723 33912 31874 29659 27324 24923 22506 20121 17810 15608 13542 11632 09893 08330 06943 05730 04682 03788 03034 02406 01889 01468 01130 00861 00649 00485 00358 8 39767 39253 38361 37115 35553 33718 31659 29431 27086 24681 22265 19886 17585 15395 13344 11450 09728 08183 06814 05618 04586 03706 02966 02349 01842 01431 01100 00837 00631 00471 00348 9 39733 39181 38251 36973 35381 33521 31443 29200 26848 24439 22025 19652 17360 15183 13147 11270 09566 08038 06687 05508 04492 03626 02899 02294 01797 01394 01071 00814 00613 00457 00337 6 7 8 9 00061 00043 00029 00020 Замечание. В таблице даны значения, округленные до пятого знака после запятой. Указание. Пусть необходимо получить значение ϕ (0, 62). На пересечении столбца 2 («Сотые доли x») и строки 0, 6 («x») получаем значение 32 918, то есть ϕ (0, 62) = 0, 32918. 175 Таблица 4 x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 7 0, 8 0, 9 1, 0 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6 1, 7 1, 8 1, 9 2, 0 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6 2, 7 2, 8 2, 9 3, 0 x 3 0 0, 0000 03983 07920 11791 15542 19146 22575 25804 28814 31594 34134 36433 38493 40320 41924 43319 44520 45543 46407 47128 47725 48214 48610 48928 49180 49379 49535 49653 49744 49813 49865 1 00399 04380 08317 12172 15910 19497 22907 26115 29103 31859 34375 36650 38686 40490 42073 43447 44630 45637 46485 47193 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49869 0 49865 1 49903 Zx 1 2 e−t /2 dt Значения функции Φ0 (x) = √ 2π 0 Сотые доли x 2 3 4 5 6 7 00798 01197 01595 01994 02392 02790 04776 05117 05567 05962 06356 06749 08700 09095 09483 09871 10257 10642 12552 12930 13307 13683 14058 14431 16276 16640 17003 17365 17724 18082 19847 20194 20540 20884 21226 21566 23237 23565 23891 24215 24537 24857 26424 26731 27035 27337 27637 27935 29389 29673 29955 30234 30511 30785 32121 32381 32639 32894 33147 33398 34614 34850 35083 35314 35543 35769 36864 37076 37286 37493 37698 37900 38877 39065 39251 39435 39617 39796 40658 40824 40988 41149 41309 41466 42220 42634 42507 42647 42786 42922 43574 43699 43822 43943 44062 44179 44738 44845 44950 45053 45154 45254 45728 45819 45907 45994 46080 46164 46562 46638 46712 46784 46856 46926 47257 47320 47381 47441 47500 47558 47831 47882 47932 47982 48030 48077 48300 48341 48382 48422 48461 48499 48679 48713 48745 48778 48809 48839 48983 49010 49036 49061 49086 49111 49224 49245 49266 49286 49305 49324 49413 49430 49446 49461 49477 49491 49560 49573 49586 49598 49609 49621 49674 49683 49693 49702 49711 49720 49760 49767 49774 49781 49788 49795 49825 49830 49836 49841 49846 49851 49874 49878 49882 49886 49889 49893 Десятые доли x 2 3 4 5 6 7 49931 49952 49966 49977 49984 49989 8 03188 07142 11026 14803 18439 21904 25175 28230 31057 33646 35993 38100 39973 41621 43056 44295 45352 46246 46995 47615 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49897 9 03586 07535 11409 15173 18793 22241 25490 28524 31328 33891 36214 38298 40148 41774 43189 44408 45449 46327 47062 47671 48169 48574 48899 49158 49361 49520 49643 49737 49807 49861 49899 8 9 49993 49995 Замечание. В таблице даны значения, округленные до пятого знака после запятой. Указание. Пусть необходимо получить значение Φ0 (1, 57). На пересечении столбца 7 («Сотые доли x») и строки 1, 5 («x») получаем значение 44 179, то есть Φ0 (1, 57) = 0, 44179. 176 177 5686 3106 9359 2057 6177 7707 6751 2651 6607 2362 2213 8361 2598 3915 4138 1727 6131 0114 9953 0159 2200 2104 4215 9375 1271 0762 2755 3047 4022 9051 0480 2428 8481 9849 2673 9380 2901 0453 0774 4662 1426 9635 2369 9275 5470 4545 7562 1429 3080 4901 6540 5764 2557 7899 0919 9902 2399 3918 7592 3032 7788 0802 0405 7058 8140 2118 4452 0447 0122 8535 3275 3519 7804 7155 3461 2623 2350 4244 5112 5957 1650 2902 5011 1125 2109 4886 4865 8024 4841 0754 8112 9029 0521 7888 5528 6489 9755 9965 7310 2377 4318 3603 2580 4114 4971 8745 2304 2373 4874 1033 0477 6377 4863 9745 6623 6411 4690 2660 4398 7366 7106 9213 5003 6553 5676 2462 0848 5513 5329 5937 4867 0528 9567 1127 1022 3458 1133 1631 3586 3341 8857 0486 0046 4625 3532 6247 6470 2820 0748 9750 2475 9383 5206 3665 7496 7126 0731 5023 3278 6981 9839 8784 0221 8185 1683 5978 6430 8907 0122 0414 7103 0695 8555 5763 0434 9721 Случайные числа 1297 1021 8446 3502 0500 1972 6641 0605 3844 5896 6269 5266 5679 5282 0820 7197 3262 5727 8172 8004 3845 6339 3594 4070 2302 2436 7573 4269 0404 4640 1823 3985 1120 7521 5041 1106 2140 3854 5182 7577 1376 8602 0659 3377 1020 4488 8433 6435 7426 0022 0735 8692 4407 3105 5436 8488 2108 9223 5291 2940 1185 8631 3459 2457 0499 3780 3531 2365 3299 2646 3188 3860 0888 7712 5914 7210 8921 6854 1813 5629 8499 3500 1493 0759 6778 9134 3671 0366 4296 9633 5987 0295 0187 1580 3504 9832 7545 5375 6457 9203 4235 6982 3653 8685 3425 5430 6917 0099 2771 4746 Таблица 5 Таблица 6 Значения квантилей распределения Стьюдента Tn n/α 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 22 25 27 30 40 50 70 100 ∞ 0,95 2,92 2,35 2,13 2,02 1,94 1,90 1,86 1,83 1,81 1,80 1,78 1,77 1,76 1,75 1,75 1,73 1,73 1,72 1,71 1,70 1,70 1,68 1,68 1,67 1,66 1,65 0,975 4,30 3,18 2,78 2,57 2,45 2,37 2,31 2,26 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,07 2,06 2,06 2,04 2,02 2,00 1,99 1,98 1,96 0,99 6,97 4,54 3,75 3,37 3,14 3,00 2,90 2,82 2,76 2,72 2,68 2,65 2,62 2,60 2,58 2,55 2,53 2,51 2,49 2,48 2,46 2,42 2,40 2,38 2,36 2,33 0,995 9,52 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,88 2,85 2,82 2,79 2,77 2,75 2,70 2,68 2,65 2,63 2,58 Указание. Пусть необходимо получить значение квантили распределения Стьюдента T9 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 9 (число степеней свободы «n») находим значение 1, 83, то есть t9;0,95 = 1, 83. Замечание. В силу симметричности распределения Стьюдента tn;1−α = −tn;α . 178 Таблица 7 Значения квантилей распределения χ2n n/α 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 60 80 100 0,01 0,000 0,020 0,115 0,297 0,554 0,872 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,01 7,637 8,26 11,52 14,95 22,16 37,48 53,54 70,06 0,05 0,004 0,103 0,352 0,711 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 14,62 10,85 26,51 43,19 60,39 95,70 0,10 0,016 0,211 0,584 1,064 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 10,09 10,86 11,65 12,44 14,62 18,49 29,05 46,46 64,28 100,62 0,90 2,71 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 24,77 25,99 27,20 28,41 34,38 40,26 51,81 74,40 96,58 140,23 0,95 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 37,65 43,77 55,76 79,08 101,88 146,57 0,99 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,73 26,22 27,69 29,14 30,58 32,00 33,41 34,81 36,19 37,57 44,31 50,89 63,69 88,38 112,33 158,95 Указание. Пусть необходимо получить значение квантили распределения χ210 порядка α = 0, 95. На пересечении столбца 0, 95 (порядок «α») и строки 10 (число степеней свободы «n») находим значение 18, 31, то есть χ210;0,95 = 18, 31. 179 Таблица 8 Значения квантилей распределения F порядка α = 0, 01 n2 /n1 1 2 3 4 5 6 7 8 9 10 11 12 1 4052 98,5 34,1 21,2 16,3 13,8 12,3 11,3 10,6 10,0 9,9 9,3 2 4999 99,0 30,8 18,0 13,3 11,0 9,6 8,7 8,0 7,6 7,2 6,9 3 5403 99,2 29,5 16,7 12,1 9,8 8,5 7,6 7,0 6,6 6,2 6,0 4 5625 99,25 28,7 16,0 11,4 9,2 7,9 7,0 6,4 6,0 5,7 5,4 5 5764 99,3 28,2 15,5 11,0 8,8 7,5 6,6 6,1 5,6 5,3 5,1 6 5889 99,33 27,9 15,2 10,7 8,5 7,2 6,4 5,8 5,4 5,1 4,8 7 5928 99,34 27,7 15,0 10,5 8,3 7,0 6,2 5,6 5,2 4,9 4,7 8 5981 99,36 27,5 14,8 10,3 8,1 6,8 6,0 5,5 5,1 4,7 4,5 9 6022 99,38 27,3 14,7 10,2 8,0 6,7 5,9 5,4 5,0 4,6 4,4 10 6054 99,4 27,2 14,5 10,1 7,9 6,6 5,8 5,3 4,9 4,5 4,3 Таблица 9 Значения квантилей распределения F порядка α = 0, 05 n2 /n1 1 2 3 4 5 6 7 8 9 10 11 12 1 161 18,5 10,1 7,7 6,6 6,0 5,6 5,3 5,1 5,0 4,8 4,75 2 200 19,0 9,6 7,0 5,8 5,1 4,7 4,5 4,3 4,1 4,0 3,9 3 216 19,2 9,3 6,6 5,4 4,8 4,4 4,1 3,9 3,7 3,6 3,5 4 225 19,25 9,1 6,4 5,2 4,5 4,1 3,8 3,6 3,5 3,4 3,3 5 230 19,3 9,0 6,3 5,1 ,4 4,0 3,7 3,5 3,3 3,2 3,1 6 234 19,33 8,94 6,2 5,0 4,3 3,9 3,6 3,4 3,2 3,1 3,0 7 237 19,36 8,88 6,1 4,9 4,2 3,8 3,5 3,3 3,1 3,0 2,9 8 239 19,37 8,84 6,04 4,8 4,15 3,7 3,44 3,2 3,07 2,95 2,85 9 241 19,38 8,81 6,0 4,78 4,1 3,68 3,4 3,18 3,02 2,9 2,8 10 242 19,38 8,78 5,96 4,74 4,06 3,63 3,34 3,13 2,97 2,86 2,76 Указание. Пусть необходимо получить значение квантили распределения F10,12 порядка α = 0, 05. На пересечении столбца 10 (число степеней свободы «n1 ») и строки 12 (число степеней свободы «n2 ») находим значение 2, 76, то есть F10,12;0,95 = 2, 76. 180 181 n1 /n2 4 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 4 6 9 1 3 5 6 12 21 9 17 30 12 23 39 16 28 48 19 34 57 22 39 66 25 45 75 28 50 85 31 56 94 35 61 103 38 67 112 41 72 121 44 78 131 47 83 140 50 89 149 53 94 158 57 100 167 60 105 177 15 72 88 105 122 139 156 173 189 206 223 240 257 274 291 308 325 12 42 55 68 81 94 107 120 133 146 159 172 185 198 211 224 237 250 109 130 150 171 192 213 233 254 275 296 317 338 359 379 400 18 154 179 203 228 253 278 302 327 352 377 402 427 451 476 21 207 236 265 293 322 351 380 408 437 466 495 524 553 24 268 301 334 367 399 432 465 498 531 564 597 630 27 338 374 411 448 485 522 559 596 633 670 707 30 415 456 497 538 579 620 661 702 743 784 33 501 546 591 636 681 726 771 816 862 36 42 45 48 595 644 697 693 750 808 742 804 865 927 791 857 922 988 841 910 980 1050 890 964 1037 1111 939 1017 1095 1199 39 54 57 60 1054 1119 1189 1185 1259 1333 1251 1329 1407 1486 51 Критические значения критерия U Манна-Уитни при уровне значимости α = 0, 05 Таблица 10 Таблица 11. Греческий алфавит Буква A α B β Γ γ ∆ δ E ε Z ζ H η Θ ϑ I ι K κ Λ λ M µ N ν Ξ ξ O o Π π P ρ Σ σ T τ Υ υ Φ ϕ X χ Ψ ψ Ω ω Название альфа бета гамма дельта эпсилон дзета эта тета йота каппа лямбда мю ню кси омикрон пи ро сигма тау ипсилон фи хи пси омега 182 Предметный указатель байесовская оценка, 60 байесовское сравнение оценок, 60 значение среднее выборочное, 17 значения выборки экстремальные, 10 вероятность доверительная, 95 вклад выборки, 53 выборка, 5, 7 простая, 8 гипотеза двусторонняя, 128 о дисперсии, 132 о дисперсиях, 133 о математическом ожидании, 133 о среднем, 133 о средних, 133 о средних для парных совокупностей, 134 односторонняя, 127 статистическая, 104 альтернативная, 104 независимости, 106 о виде распределения, 105 однородности, 105 параметрическая, 106 простая, 104 сложная, 104 случайности, 106 гистограмма выборки, 27 граница доверительная, 95 дисперсия выборочная, 17 интервал двусторонний, 95 доверительный, 94 асимптотический, 95 квантильный, 32 медианный, 32 модальный, 32 центральный, 98 квантиль выборочная порядка q, 23 группированная выборочная, 32 ковариация выборочная, 23 количество Фишера информационное, 54 коэффициент асимметрии выборочный, 18 корреляции выборочный, 23 эксцесса выборочный, 18 критериев сравнение, 113 критерий асимптотического уровня α, 145 байесовский, 124 знаков, 138 183 Колмогорова – Смирнова, 151 Манна – Уитни, 140 Манна-Уилкоксона – Уитни, 140 минимаксный, 125 н.м.к., 113 непараметрический, 138 знаков, 138 нерандомизированный, 122 несмещенный, 128 оптимальный, 128 отношения правдоподобия, 117 рандомизированный, 123 р.н.м. несмещенный, 129 р.н.м.к., 114 ранговый, 140 рандомизированный, 122 Стьюдента, 133 для парных выборок, 134 согласия, 144 Колмогорова, 146 Пирсона, 148 состоятельный, 120 статистический, 104 суммы рангов, 140 Уилкоксона-Манна – Уитни, 140 Фишера, 133 критерия ошибка, 125 размер, 109, 123 уровень значимости, 109 лемма Фишера, 42 мода выборочная, 23 группированная выборочная, 32 модель биномиальная, 9 Гамма, 9 дискретная, 9 Коши, 9 линейной регрессии, 156 непрерывная, 9 нормальная, 9 общая, 9 Пуассоновская, 9 параметрическая, 8 равномерная, 9 общая, 9 регулярная, 8 статистическая, 7 момент начальный выборочный, 16 центральный выборочный, 17 монотонное отношение правдоподобия, 127 мощность критерия, 110, 111 Неймана – Пирсона лемма, 126 НКО, см. область критическая наилучшая МНК, см. метод наименьших квадратов неравенство Рао – Крамера, 54 для параметрической функции, 71 медиана выборочная, 23 группированная выборочная, 32 метод наименьших квадратов, 155, 156 минимаксное сравнение оценок, 60 о.м.м., см. оценка метода моментов о.м.п, см. оценка максимального правдоподобия область критерия критическая, 107, 144 критическая наилучшая (НКО), 114 объем 184 выборки, 7 ошибка i-го рода, 110 второго рода, 109 первого рода, 108 оценивание, 48 оценка асимптотически несмещенная, 49 максимального правдоподобия, 64 метода моментов, 68 несмещенная, 49 оптимальная, 53 оптимальная по критерию, 53 параметрической функции эффективная, 72 эффективная, 58 сильно состоятельная, 51 смещенная, 49 состоятельная, 50 точечная, 48 смещение оценки, 49 совокупность генеральная, 5, 8 среднеквадратический подход, 60 среднеквадратическое отклонение выборочное, 17 статистика выборочная, 47 достаточная, 80 критерия, 144 минимальная, 85 полная, 92 порядковая, 10 центральная, 95 стьюдентово отношение, 43 теорема Гаусса – Маркова, 163 Гливенко, 13 Гливенко – Кантелли, 146 полигон частот выборки, 28 Колмогорова, 13 Неймана – Пирсона, 115 распределение Неймана – Фишера, см. факторизации Стьюдента, 37 нормальной регрессии, 165 Фишера, 39 о выборочном среднем, 40 Фишера – Снедекора, см. распределеPao – Блекуэлла – Колмогорова, 90 ние Фишера Смирнова, 14 хи-квадрат, 34 Фишера, 41 распределениe факторизации, 83 k-й порядковой статистики, 11 теория эмпирической частоты, 10 оценивания, 47 регрессия интервальное оценивание, 167 уравнение нормальная, 164 правдоподобия, 64 риск регрессии математическое ожидание, 124 выборочное, 23 робастность, 142 уровень ряд значимости критерия, 144 вариационный, 9 функция выборки Колмогорова, 13 вариационный, 10 мощности критерия, 110 реализации вариационный, 9 правдоподобия, 63 185 дискретной величины, 63 распределения эмпирическая, 11 характеристика выборочная, 16 эмпирическая, см. выборочная частота эмпирическая, 10 экспоненциальное семейство, 128 элемент выборки, 7 186 Оглавление Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Принятые обозначения и сокращения . . . . . . . . . . . . . . . . . . . 1. Введение в математическую статистику . . . . . . . . . . . . . . . 1.1. Предмет математической статистики . . . . . . . . . . . . 1.2. Статистические модели . . . . . . . . . . . . . . . . . . . . 1.3. Порядковые статистики и вариационный ряд выборки . . . 1.4. Эмпирическая функция распределения . . . . . . . . . . . 1.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . 2. Основные выборочные характеристики . . . . . . . . . . . . . . . 2.1. Выборочные моменты и функции от выборочных моментов 2.2. Свойства выборочного среднего X и S 2 . . . . . . . . . . . 2.3. Другие характеристики выборки . . . . . . . . . . . . . . . 2.4. Сходимость выборочных моментов и функций от них . . . 2.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . 3. Группировка выборки . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Гистограмма и полигон частот . . . . . . . . . . . . . . . . 3.2. Пример группировки выборки . . . . . . . . . . . . . . . . 3.3. Поправки Шеппарда . . . . . . . . . . . . . . . . . . . . . 3.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . 4. Важные распределения математической статистики . . . . . . . . 4.1. Распределения хи-квадрат, Стьюдента, Фишера . . . . . . 4.2. Теорема Фишера . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Теоремы о распределении выборочных характеристик . . . 4.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . 5. Точечное статистическое оценивание . . . . . . . . . . . . . . . . 5.1. Оценки параметров . . . . . . . . . . . . . . . . . . . . . . 5.2. Несмещенность . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Состоятельность . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . 6. Неравенство Рао – Крамера . . . . . . . . . . . . . . . . . . . . . 6.1. Оптимальность оценок . . . . . . . . . . . . . . . . . . . . 6.2. Неравенство Рао – Крамера . . . . . . . . . . . . . . . . . 6.3. Формы информационного количества Фишера . . . . . . . 6.4. Эффективные оценки . . . . . . . . . . . . . . . . . . . . . 6.5. Байесовский и минимаксный подходы к сравнению оценок 187 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 5 5 7 9 10 14 16 16 18 23 24 26 27 27 28 30 33 34 34 40 43 45 47 47 49 50 51 53 53 53 56 58 60 7. 8. 9. 10. 11. 12. 13. 6.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Методы получения оценок . . . . . . . . . . . . . . . . . . . . . . . 7.1. Метод максимального правдоподобия . . . . . . . . . . . . . 7.2. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Некоторые свойства оценок максимального правдоподобия 7.4. Метод моментов . . . . . . . . . . . . . . . . . . . . . . . . . 7.5. Некоторые свойства оценок метода моментов . . . . . . . . 7.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Оценивание параметрической функции . . . . . . . . . . . . . . . . 8.1. Неравенство Рао – Крамера для параметрической функции 8.2. Другой подход к эффективным оценкам . . . . . . . . . . . . 8.3. Экспоненциальное семейство . . . . . . . . . . . . . . . . . 8.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Достаточные статистики . . . . . . . . . . . . . . . . . . . . . . . . 9.1. Определение и примеры . . . . . . . . . . . . . . . . . . . . 9.2. Критерий достаточности . . . . . . . . . . . . . . . . . . . . 9.3. Свойства достаточных статистик . . . . . . . . . . . . . . . . 9.4. Свойства оценок максимального правдоподобия . . . . . . . 9.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Оптимальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1. Свойства оптимальных оценок . . . . . . . . . . . . . . . . . 10.2. Достаточные статистики и оптимальные оценки . . . . . . . 10.3. Полные статистики . . . . . . . . . . . . . . . . . . . . . . . 10.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Интервальные оценки . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1. Понятие интервального оценивания параметров . . . . . . . 11.2. Построение доверительного интервала . . . . . . . . . . . . 11.3. Доверительные интервалы для параметров N (a, σ) . . . . . 11.4. Примеры расчетов . . . . . . . . . . . . . . . . . . . . . . . . 11.5. Асимптотические доверительные интервалы . . . . . . . . . 11.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Основные понятия теории проверки гипотез . . . . . . . . . . . . . 12.1. Основные понятия . . . . . . . . . . . . . . . . . . . . . . . . 12.2. Примеры математических формулировок гипотез . . . . . . 12.3. Общая схема проверки параметрических гипотез . . . . . . 12.4. Ошибки первого и второго рода . . . . . . . . . . . . . . . . 12.5. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . Подходы к сравнению критериев . . . . . . . . . . . . . . . . . . . . 13.1. Сравнение мощности критериев . . . . . . . . . . . . . . . . 13.2. Критерий Неймана – Пирсона . . . . . . . . . . . . . . . . . 13.3. Состоятельность критерия . . . . . . . . . . . . . . . . . . . 13.4. Рандомизированные критерии . . . . . . . . . . . . . . . . . 13.5. Байесовские и минимаксные критерии . . . . . . . . . . . . 13.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . 188 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 63 63 65 67 67 69 70 71 71 74 75 78 80 80 82 84 86 87 88 88 90 92 93 94 94 96 97 100 101 103 104 104 105 107 108 111 113 113 115 120 121 124 129 14. Критерии проверки гипотез о параметрах нормального распределения . . . . 131 14.1. Алгоритм проверки параметрических гипотез . . . . . . . . . . . . . 131 14.2. Гипотезы о параметрах одного распределения . . . . . . . . . . . . . 132 14.3. Гипотезы о параметрах двух независимых распределений . . . . . . . 133 14.4. Гипотеза о средних для парных совокупностей . . . . . . . . . . . . . 134 14.5. Примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 14.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 15. Непараметрические критерии . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 15.1. Непараметрические критерии для проверки параметрических гипотез 138 15.2. Критерий знаков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 15.3. Ранговый U -критерий . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 15.4. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 16. Критерии согласия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 16.1. Построение критериев согласия . . . . . . . . . . . . . . . . . . . . . 145 16.2. Критерий согласия Колмогорова . . . . . . . . . . . . . . . . . . . . . 146 16.3. Критерий согласия χ2 Пирсона . . . . . . . . . . . . . . . . . . . . . 148 16.4. Проверка гипотезы однородности: критерий Колмогорова – Смирнова151 16.5. Проверка гипотезы независимости: критерий χ2 Пирсона . . . . . . . 152 16.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 17. Оценка параметров уравнения регрессии . . . . . . . . . . . . . . . . . . . . 155 17.1. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . 155 17.2. Общая модель линейной регрессии . . . . . . . . . . . . . . . . . . . 156 17.3. Свойства оценок МНК . . . . . . . . . . . . . . . . . . . . . . . . . . 162 17.4. Нормальная регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . 164 17.5. Интервальное оценивание . . . . . . . . . . . . . . . . . . . . . . . . 167 17.6. Контрольные вопросы . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Список литературы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Оглавление . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 189

Математическая статистика. Курс лекций

Related documents

Products

Support

Математическая статистика. Курс лекций

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib