Статистическая гипотеза

advertisement
Статистическая гипотеза
Статистической гипотезой (statistical hypothesis) мы
называем любое предположение о свойствах и характеристиках
исследуемых генеральных совокупностей, которое может быть
проверено на основе анализа выборок.
© Иванов О.В., 2005
2
Как проверяют статистические гипотезы
Проверка статистических гипотез
состоит из шести этапов.
Нам необходимо изучить каждый
сначала теоретически, а затем
применять в различных задачах.
© Иванов О.В., 2005
4
1. Основная и альтернативная гипотезы
Проверяемая гипотеза в статистике называется основной (или
нулевой) гипотезой. Основная гипотеза H0 подлежит проверке,
по результатам которой ее можно принять либо отклонить.
«Принять» означает «не получить убедительных аргументов для
отклонения гипотезы».
Альтернативная гипотеза H1 принимается только тогда, когда
есть убедительное статистическое доказательство для
отклонения основной гипотезы.
Принять
основную гипотезу
H0
© Иванов О.В., 2005
Принять
альтернативную
гипотезу H1
5
Ситуация А. Новая методика преподавания
Исследователь хочет проверить, повлияет ли новая методика
преподавания на уровень успеваемости студентов. Повысится
или понизится успеваемость у студентов, прослушавших курс по
новой методике?
Исследователю известно, что средняя успеваемость без
нововведений составляет 4,23 балла. Гипотезы в этом случае
будут сформулированы следующим образом:
Н0: µ = 4,23
Н1: µ ≠ 4,23
© Иванов О.В., 2005
6
Ситуация Б. Аккумуляторы для ноутбуков
Производители аккумуляторных батарей для ноутбуков
утверждают, что разработали принципиально новый тип
батареи, которая существенно дольше может работать без
подзарядки. Из предыдущих исследований известно, что
среднее
время
работы
существующих
аккумуляторов
составляет 2,5 часа, после чего их требуется заряжать.
Гипотезы будут сформулированы так:
Н0: µ ≤ 2,5
Н1: µ > 2,5
© Иванов О.В., 2005
7
Ситуация В. Расходы на канцелярию
Менеджер бюро переводов хочет снизить расходы компании на
канцелярские принадлежности. В среднем эти расходы
составляют 5 300 рублей в неделю. После принятия
определенных мер по экономии бумаги и скрепок менеджер
хотел бы проверить, снизились ли расходы или остались на
прежнем уровне.
Гипотезы будут записаны так:
Н0: µ ≥ 5300
Н1: µ < 5300
© Иванов О.В., 2005
8
Три вида критериев
От решаемой задачи зависит, какой из критериев будет выбран:
Двусторонний Левосторонний
Н 0: =
Н 0: ≥
Н 1: ≠
Н 1: <
© Иванов О.В., 2005
Правосторонний
Н 0: ≤
Н 1: >
9
Ошибки первого и второго рода
Ошибка первого рода (type I error) происходит, если мы
отвергаем верную нулевую гипотезу.
Ошибка второго рода (type II error) происходит, если мы
принимаем нулевую гипотезу, когда она неверна.
Основная
гипотеза верна
Основная
гипотеза неверна
Мы приняли
основную гипотезу
Верное решение
Ошибка II рода
Мы отклонили
основную гипотезу
Ошибка I рода
Верное решение
© Иванов О.В., 2005
10
2. Уровень значимости гипотезы
Уровнем значимости (level of significance) гипотезы называют
вероятность совершить ошибку первого рода, то есть отклонить
верную нулевую гипотезу.
Обозначение: α.
Значение α обычно выбирается небольшим: 10%, 5% или 1%.
© Иванов О.В., 2005
11
3. Статистика - критерий проверки гипотезы
Статистика (критерий, statistical test) есть специальная
функция от элементов выборки, по значениям которой
принимают решение о принятии или отклонении основной
гипотезы.
Статистика зависит от выборки, поэтому является случайной
функцией.
© Иванов О.В., 2005
12
4. Критическая область
Множество значений статистики включает две области:
Область принятия гипотезы, то есть множество тех значений
статистики, при которых гипотеза H0 принимается,
Критическую область, то есть множество тех значений
статистики, при которых гипотеза H0 отклоняется и принимается
альтернативная гипотеза.
Критическая
область
Область принятия
гипотезы
Критическая
область
Возможные
значения
статистики
© Иванов О.В., 2005
13
Критические значения
Критические значения (critical value(s)) отделяют критическую
область от области принятия гипотезы.
Критические
значения
Критическая
область
Область принятия
гипотезы
Критическая
область
Возможные
значения
статистики
© Иванов О.В., 2005
14
Вид критической области
Критическая область строится, исходя из имеющихся знаний о
законе распределения статистики, и зависит от:
• 
объема выборки,
• 
уровня значимости, задаваемого исследователем,
• 
вида альтернативной гипотезы.
Левосторонняя
критическая
область
© Иванов О.В., 2005
Двусторонняя
критическая
область
Правосторонняя
критическая
область
15
5-6. Вычисление статистики и вывод
После построения критической области вычисляют значение
статистики по выборке и сравнивают его с критической
областью.
Если значение статистики попало в область принятия
гипотезы, то гипотеза H0 принимается
Если значение статистики попало в критическую область,
то гипотеза H0 отклоняется и принимается альтернативная
гипотеза H1
© Иванов О.В., 2005
16
Последовательность действий
Шаг 1.
Шаг 2.
Шаг 3.
Шаг 4.
Шаг 5.
Шаг 6.
© Иванов О.В., 2005
Сформулировать основную и альтернативную
гипотезы.
Задать уровень значимости α.
По таблице найти критические значения и построить
критическую область.
По выборке сосчитать значение статистики.
Сравнить полученное значение с критической
областью. Если значение попало в критическую
область – отклонить основную гипотезу, не попало –
принять.
Написать ответ.
17
Постановка задачи
Имеется генеральная совокупность с нормальным законом
распределения. Параметры (µ, σ).
Требуется на основе анализа простой случайной выборки
проверить гипотезу о среднем значении генеральной
совокупности µ.
© Иванов О.В., 2005
19
Метод
Используем общий принцип
проверки статистических
гипотез.
© Иванов О.В., 2005
20
Гипотезы
Нулевая и альтернативная гипотезы могут быть трех разных
видов:
Нулевая гипотеза:
Альтернативная
гипотеза:
I
© Иванов О.В., 2005
Нулевая гипотеза:
Нулевая гипотеза:
Альтернативная
гипотеза:
Альтернативная
гипотеза:
II
III
21
Статистика (σ известно)
В качестве статистики выбираем следующую функцию:
где
- выборочное среднее
- гипотетическое генеральное среднее
- генеральное стандартное отклонение
- объем выборки
© Иванов О.В., 2005
22
Распределение статистики
Формула для статистики представляет собой выражение:
Используемая статистика имеет нормальное распределение.
При проверке гипотезы пользуемся известными нам
свойствами нормального закона.
© Иванов О.В., 2005
23
I – Левосторонняя критическая область
Альтернативная
гипотеза:
Уравнение
критической области:
Критическое значение
находим по таблице
z-значений
© Иванов О.В., 2005
24
II – Правосторонняя критическая область
Альтернативная
гипотеза:
Уравнение
критической области:
Критическое значение
находим по таблице
z-значений
© Иванов О.В., 2005
25
III – Двусторонняя критическая область
Альтернативная
гипотеза:
Уравнение
критической области:
Критическое значение
находим по таблице
z-значений
© Иванов О.В., 2005
26
Пример. Чем занимаются старшеклассники
В одном из журналов утверждается, что старшеклассники
смотрят телевизор меньше других.
Известно, что люди проводят перед телевизором в среднем 29,4
часа в неделю со стандартным отклонением 2 часа.
Случайная выборка из 25 старшеклассников имеет среднее 27
часов. Необходимо проверить утверждение на уровне
значимости α = 0,01.
© Иванов О.В., 2005
27
Решение
Шаг 1.
Основная и альтернативная гипотезы:
Н0: µ ≥ 29,4
Н1: µ < 29,4
Шаг 2.
Шаг 3.
Задан уровень значимости α = 0,01.
По таблице находим критическое значение z = -2,33.
Критическая область левосторонняя.
По выборке вычисляем значение статистики:
Шаг 4.
© Иванов О.В., 2005
28
Решение
Шаг 5. Сравним полученное значение с критической областью.
Полученное значение статистики попало в критическую
область. Отклоняем основную гипотезу.
Шаг 6.
Старшеклассники значимо меньше смотрят телевизор,
чем обычные жители.
© Иванов О.В., 2005
29
Если σ неизвестно …
Предыдущая проверка гипотезы о среднем проводилась при
условии, что нам известно стандартное отклонение генеральной
совокупности σ.
Теперь рассмотрим проверку гипотезы, если стандартное
отклонение неизвестно.
© Иванов О.В., 2005
31
Постановка задачи…
… осталась прежней:
© Иванов О.В., 2005
32
Гипотезы
… тоже прежние:
© Иванов О.В., 2005
33
Метод
Используем общий принцип
проверки статистических
гипотез.
© Иванов О.В., 2005
34
Статистика (σ неизвестно)
В качестве статистики выбираем следующую функцию:
где
- выборочное среднее
- гипотетическое генеральное среднее
- выборочное стандартное отклонение
- объем выборки
© Иванов О.В., 2005
35
Распределение статистики
Используемая статистика имеет t-распределение c количеством
степеней свободы df = n – 1:
Критические значения будем искать при помощи таблиц
распределения Стьюдента.
© Иванов О.В., 2005
36
I – Левосторонняя критическая область
Альтернативная
гипотеза:
Уравнение
критической области:
Критическое значение
находим по таблице
t-значений.
© Иванов О.В., 2005
37
II – Правосторонняя критическая область
Альтернативная
гипотеза:
Уравнение
критической области:
Критическое значение
находим по таблице
t-значений
© Иванов О.В., 2005
38
III – Двусторонняя критическая область
Альтернативная
гипотеза:
Уравнения
критической области:
Критическое значение
находим по таблице
t-значений
© Иванов О.В., 2005
39
Пример. Уровень преступности
За последние 20 лет средний уровень преступности в городе N
составляет 399,40 преступлений на 100 тысяч жителей.
Руководство города заявило в печати, что преступность
находится на среднем региональном уровне.
Если известно, что средний уровень преступности в регионе
составляет 394,82 со стандартным отклонением 8,93, требуется
проверить справедливость утверждения на уровне значимости
5%.
© Иванов О.В., 2005
40
Решение
Шаг 1.
Основная и альтернативная гипотезы:
Н0: µ ≤ 394,82
Н1: µ > 394,82
Шаг 2.
Шаг 3.
Задан уровень значимости α = 0,05.
По таблице находим критическое значение t = 2,093.
Критическая область левосторонняя.
По выборке вычисляем значение статистики:
Шаг 4.
© Иванов О.В., 2005
41
Решение
Шаг 5. Сравним полученное значение с критической областью.
Полученное значение 2,234 статистики попало в
критическую область. Отклоняем основную гипотезу.
Шаг 6.
Отличие в уровне преступности от регионального
является статистически значимым на уровне 5%.
© Иванов О.В., 2005
42
Download