Проверка гипотезы о равенстве вероятностей биномиального

advertisement
Дружининская И.М.
Решение задач математической
статистики
по теме
«Проверка статистических гипотез»
Учебное пособие для студентов
экономических факультетов
Москва - 2011
1
Аннотация
Цель пособия – показать, как
следует решать некоторые типы задач
математической статистики по проверке статистических гипотез. Подробный анализ
процедуры решения примеров поможет студентам более глубоко разобраться в этом
важном разделе математической статистики. Целесообразно напомнить, что методы
проверки различных статистических гипотез широко используются в настоящее время
аналитиками для получения обоснованных выводов при анализе практически значимых
проблем экономической и социологической направленности,
В пособии не дается подробное теоретическое обоснование приемов решения
задач, приведено лишь краткое теоретическое введение в тему и перед каждым
рассмотренным типом задач дана компактная сводка используемых формул.
В пособии подобраны задачи экономической и социологической тематики. В
частности, формулировки некоторых задач предложены студентами факультета
менеджмента Национального исследовательского университета - Высшая школа
экономики (ВШЭ), на котором автор пособия в течение ряда лет читал курсы по теории
вероятностей и математической статистике. Данное пособие будет полезно студентам,
изучающим математическую статистику на экономических, социологических и
психологических факультетах вузов, в частности, при подготовке к выполнению
домашних заданий, контрольных и курсовых работ.
В написании пособия творческое участие принял доцент кафедры высшей
математики ВШЭ, канд.физ.-мат. наук
Матвеев В.Ф., за что автор ему весьма
признателен.
2
Содержание
стр.
1. Краткое обоснование алгоритма решения задач по проверке
статистических гипотез (теоретическое введение)……………………………4
2. Проверка гипотезы о числовом значении математического
ожидания (о числовом значении генеральной средней)
нормально распределенной генеральной совокупности……………………..9
3. Проверка гипотезы о числовом назначении вероятности
биноминального закона распределения (о числовом
значении генеральной доли)……………...……………………………………..18
4. Проверка гипотезы о равенстве математических ожиданий
(о равенстве генеральных средних) двух нормально
распределенных генеральных совокупностей…………………………………27
5. Проверка гипотезы о равенстве вероятностей
биномиального закона распределения (о равенстве долей
признака) двух генеральных совокупностей…………………………………...31
6. Проверка гипотезы о значимости выборочного коэффициента
корреляции Пирсона……………………………………………………………..34
7. Проверка гипотезы о значимости выборочного коэффициента
корреляции Спирмена…………………………………………………………...39
8. Критерий знаков………………………………………………………………….43
Приложение:
Таблица «Значения интеграла вероятностей»….………………………………57
Таблица «Критические точки распределения Стьюдента»…...………………58
Таблица «Критические точки распределения χ2 (или
распределения Пирсона)»…………………………...…...……………...………59
Список литературы………………………….….………………….…………….60
3
1. Краткое обоснование алгоритма решения задач по проверке
статистических гипотез
(теоретическое введение)
Статистической называют гипотезу о виде неизвестного распределения или о
параметрах изучаемого признака.
Примеры статистических гипотез:
1.
Математическое ожидание изучаемого нормально распределенного признака в
генеральной совокупности равно 100 кг.
2.
Вероятность данного события равна 0.6.
3.
Изучаемый признак в генеральной совокупности имеет показательный закон
распределения.
4.
Уровень производственного брака в данной партии товара ниже 0.05%.
Постановка задачи начинается с выдвижения основного утверждения (нулевой
или основной гипотезы Н0), причем наряду с выдвинутой гипотезой всегда
рассматривают и противоречащую ей гипотезу, которую называют конкурирующей или
альтернативной гипотезой Н1.
Примеры:
1) Н0: р=0.7;
Н1: р≠0.7 .
2) Н0: m=3;
Н1: m>3.
Здесь р – вероятность; m – математическое ожидание.
Далее на основе экспериментальной информации конструируется специально
подобранная из разумных соображений случайная величина, являющаяся функцией от
результатов наблюдений, распределение которой известно при выполнении гипотезы
Н0. Именно эта случайная величина K, которую называют статистическим критерием
или просто критерием служит для проверки справедливости нулевой гипотезы Н0.
После выбора определенного критерия K множество всех его возможных
значений разбивают на два непересекающихся подмножества: одно из них содержит
значения критерия, при которых нулевая гипотеза принимается на фоне сопутствующей
4
конкурирующей гипотезы, а другое, при которых нулевая гипотеза отвергается,
позволяя считать утверждение, высказанное в конкурирующей гипотезе, обоснованным.
Областью принятия гипотезы (областью допустимых значений критерия)
называют совокупность значений критерия, при которых нулевую гипотезу принимают.
Это такие значения критерия, которые характерны для известного при справедливости
нулевой гипотезы распределения критерия K. Характерными или естественными будем
называть значения критерия, которые характеризуются большой вероятностью
появления. Величину этой вероятности обсудим ниже.
Критической областью называют совокупность значений критерия, при которых
нулевую гипотезу отвергают в пользу конкурирующей гипотезы. Это такие значения
критерия, которые не характерны для данного распределения, т.е. возникающие с малой
вероятностью для этого распределения.
Критическими точками (границами упомянутых областей) Kкр называют точки,
отделяющие критическую область от области принятия гипотезы.
Гипотеза называется параметрической, если речь идет об утверждении,
связанном с каким-то конкретным параметром. В противном случае она называется
непараметрической.
Гипотеза называется простой, если речь идет о том, что неизвестный параметр
принимает какое-то конкретное значение. Если речь идет о многих значениях
параметра, то она называется сложной (см. вышеприведенные примеры: Н0: р=0,7 это пример простой гипотезы; Н1: m>3 – это пример сложной гипотезы).
Процедура проверки простой параметрической гипотезы выглядит так:
1.
Формируют нулевую гипотезу Н0 и альтернативную гипотезу Н1 на основе
выборочных данных.
2.
Конструируют, исходя из логики задачи, случайную величину на основе
результатов выборки, которую в данном разделе называют критерием; распределение
критерия в случае истинности гипотезы Н0 должно быть известно.
5
3.
Вся область возможных значений критерия разбивается на две подобласти (или
два подмножества).
Одно подмножество – это совокупность естественных (правдоподобных), т.е.
наиболее вероятных для данного распределения значений. В это подмножество
критерий попадает с высокой вероятностью . Эта вероятность задается в условиях
задачи. Она носит название «доверительная вероятность» (иначе «уровень доверия»).
Обычно для
 задают следующие стандартные значения:  = 0.90; 0.95; 0.99. Если
значение доверительной вероятности взять равным 1, то в этом случае область
естественных значений параметра становится бесконечно большой, при этом алгоритм
проверки статистической гипотезы разрушается.
Другое подмножество – это область редко возникающих для данного закона
распределения (неправдоподобных) значений критерия, которые однако характерны
для значений критерия, если справедливой является конкурирующая гипотеза.
Вероятность попадания критерия K в эту область мала и равна
название «уровень значимости». Для
 = 1-;  носит
 задают такие стандартные значения:
 = 0.10; 0.05; 0.01; понятно, что достаточно задать либо значение доверительной
вероятности,
либо
значение
уровня
значимости.
Критерий
K
принято
обозначать через t.
4.
На основе выборочных значений изучаемого признака вычисляют значение
критерия Kнабл
(или tнабл ). Его называют «наблюдаемое значение критерия»; при
критерии стоит индекс «набл». Если значение Kнабл попадает в область правдоподобных
значений для данного закона распределения, то с вероятностью
 утверждают, что
гипотеза Н0 не противоречит экспериментальным данным на фоне конкурирующей
гипотезы, а поэтому принимают именно основную гипотезу. Если значение Kнабл
попадает в область неправдоподобных для данного закона распределения значений, то
гипотезу Н0 отвергают и принимают, следовательно, альтернативную гипотезу Н1 .
5.
Если при проверке гипотезы Н0 эта нулевая гипотеза принимается, то данный факт
не означает, что высказанное в нулевой гипотезе утверждение является единственно
верным. Просто утверждение нулевой гипотезы не противоречит имеющимся
6
выборочным данным. Возможно, что и
другое
утверждение также не будет
противоречить выборочным данным.
6.
Не вдаваясь в более сложные
и тонкие утверждения, связанные с принятием
нулевой гипотезы или же альтернативной гипотезы, отметим лишь следующее. Если
наблюдаемое значение критерия Kнабл попадает в область неестественных значений и
мы, следовательно, отвергаем гипотезу Н0 и принимаем гипотезу Н1, то не можем ли
мы при этом совершить ошибку - отвергнуть верную гипотезу Н0 и принять ложную
гипотезу Н1? Да, можем, но вероятность этой ошибки мала. В связи со сказанным
отметим смысл ранее введенного понятия уровня значимости
 – это вероятность
отклонить нулевую гипотезу в пользу альтернативной гипотезы при условии, что в
действительности верна нулевая гипотеза (иначе: Р (Н1/ Н0) = ).
Вид альтернативной гипотезы
(для исходной простой параметрической гипотезы Н0 :  = 0) может быть таким:
1. Н1:  ≠0
 +=1


/2
/2


Двусторонняя критическая область
К

2. Н1:  <0

 +=1


Левосторонняя критическая область
К
7
3. Н1:  >0

 +=1



Правосторонняя критическая область
К
Как ясно из приведенных выше графиков вид альтернативной гипотезы рождает
ту или иную конфигурацию критической области (двустороннюю, левостороннюю,
правостороннюю).
В пособии не вводятся понятия ошибок первого и второго рода, мощности
критерия. Это сделано осознанно с тем, чтобы основное внимание студентов
сосредоточить на реализации стратегической идеи метода, без какой-либо более
глубокой и усложняющей идею метода детализации. Более подробное знакомство с
теоретическим фундаментом, лежащим в основании проверок статистических гипотез,
можно осуществить с помощью, в частности, книг [1] - [6].
В пособии рассмотрены только некоторые, наиболее распространенные типы
задач по проверке статистических гипотез. В литературе их можно найти неизмеримо
больше. Могут быть, например, отмечены публикации [5], [7], [8], в которых
рассмотрены приложения метода проверки статистических гипотез в психологических,
социологических и экономических исследованиях.
Отметим, что некоторые задачи, приведенные в пособии, были предложены и
решены студентами факультета менеджмента ВШЭ в процессе изучения или курса
математической статистики..
Статистические таблицы, применяемые для решения задач, даны в приложении
в самом конце пособия.
Объяснения того, почему в определенных типах задач рассматриваются
приведенные формулы для вычисления критерия и почему для критерия характерен
указанный закон распределения, в пособии опущены. Здесь можно отослать
8
заинтересованных студентов, например, к упомянутым выше литературным источникам
или ко многим другим учебникам по математической статистике. В рамках данного
пособия, нацеленного на помощь студентам в решении основных, наиболее часто
встречающихся типов задач по проверке статистических гипотез, перед каждым типом
задач дается лишь набор готовых формул без объяснения того, как они были получены,
почему именно их следует использовать в решении.
2. Проверка гипотезы о числовом значении математического
ожидания (числовом значении генеральной средней)
нормально распределенной генеральной совокупности
Будем обозначать математическое ожидание (истинное значение параметра)
символом m, а генеральную среднюю символом
xГ ;
смысл этих параметров
идентичен – это числовая константа, вокруг которой располагаются значения
изучаемого признака в генеральной совокупности. Введение разных символов
обусловлено лишь различиями в акцентах при постановке задачи, когда суть задачи
более точно передается термином «математическое ожидание», а в других задачах
более приемлем термин «генеральная средняя».
Постановка задачи:
Н0: m = m0;
Н1: m ≠ m0 …. (1);
здесь
m< m0 или m> m0 …………..(2);
m0 – заданное условием задачи число.
Вводим критерий
K=t=
( х - m0 ) • n
.
S
9
x-
В этом выражении
среднее арифметическое, вычисленное на основе выборки
(выборочное среднее арифметическое); n - объем выборки; S - выборочное стандартное
отклонение:
n
n
∑x
∑(x
i
х=
1)
i=1
i
;
n
- х )2
i=1
S=
.
n-1
Если объем выборки n мал (n≤30), то при справедливости нулевой гипотезы
можно считать, что случайная величина t имеет распределение Стьюдента с k = n-1
степенями свободы. Находим tкр (по значениям k
и
«Критические
(эта
точки
распределения
Стьюдента»
) на основе таблицы
таблица
находится
в
Приложении), причем для альтернативной гипотезы вида (1) используем двустороннюю
критическую
область,
а
для
альтернативной
гипотезы
вида
(2)
используем
одностороннюю критическую область;
2)
Если объем выборки n велик (n>30), то можно приближенно считать, что
случайная величина t имеет стандартный нормальный закон распределения, поэтому
находим tкр по таблице интеграла вероятностей на основе решения
уравнения
γ
Ф0 (t кр ) =
2
уравнения
Ф0 (t кр ) = γ - 0.5
Соответствующая таблица
для
альтернативной гипотезы
для
альтернативных гипотез
вида
(1)
и
вида (2).
значений интеграла вероятностей Ф0 находится в
Приложении.
3)
Для повышения точности вычислений переход от одного закона распределения
(Стьюдента) к другому закону распределения (стандартному нормальному) следует
делать не при объеме выборки, равном 30 (n=30), а при объеме выборки, равном 120
(n=120).
В данном пособии переход от закона Стьюдента к стандартному нормальному
закону распределения будем совершать, когда объем выборки превзойдет значение 30.
10
Рассмотрим реализацию приведенного ранее алгоритма проверки статистических
гипотез и случая, рассматриваемого в данном разделе, на конкретных примерах.
Пример:
Менеджер отдела сбыта гипермаркета АШАН отслеживает изменение
покупательных возможностей посетителей АШАНА. С этой целью он анализирует
сумму денег, которую тратит покупатель за одно посещение гипермаркета в течение
последнего полугодия. Изучение ситуации полгода тому назад показало, что
покупатель АШАНА в среднем за одно посещение гипермаркета осуществляет покупки
на сумму 956 руб. В данный момент на основе случайной выборки 76 посетителей
АШАНА было найдено, что в среднем покупатель при одном посещении магазина
делает покупки на сумму 1021 руб., причем стандартное отклонение для
одного
покупателя составляет 427 руб. Можно ли на основе этой информации сделать вывод
о том, что за полгода среднее количество денег, которые тратит за одно посещение
АШАНА покупатель, фактически не изменилось? Принять уровень значимости 5%.
(Полагаем, что сумма покупок меняется по нормальному закону распределения).
Решение:
Постановка задачи:
Н 0 : m = 956 , здесь m0 = 956 ( или х Г = 956 );
Н 1 : m ≠956
( или х Г ≠ 956).
В данном примере целесообразно говорить в постановке задаче о задании в
нулевой гипотезе значения генерального среднего, понимая под этим значением
среднюю сумму денег, которую оставляет посетитель АШАНА в магазине при одном
его посещении и которая характеризует всю генеральную совокупность покупателей
АШАНА.
Введем критерий
t=
( х - m0 ) • n
.
S
11
В этой формуле
х - средняя сумма денег, которую оставляет покупатель за одно
посещение АШАНА, вычисленная на основе выборки; S – стандартное отклонение для
суммы денег при одном посещении гипермаркета для одного покупателя; n - количество
покупателей АШАНА, случайно выбранных для исследования (объем выборки).
Условием задачи заданы следующие экспериментальные значения:
x = 1021; S = 427; n = 76 .
При справедливости нулевой гипотезы поведение этого критерия можно
приближенно описать стандартным нормальным законом распределения. Вычислим
наблюдаемое значение критерия на основе экспериментальных значений:
t набл =
(1021 - 956) 76
≈ 1.33.
427
Далее следует определить границы двусторонней критической области на основе
табличного решения следующего уравнения. Здесь пользуемся тем, что выборка велика
(n больше 30), тогда
Ф0 (t кр ) =
γ 1 - α 1 - 0.05 0.95
=
=
=
= 0.475.
2
2
2
2
Отсюда на основе таблицы интеграла вероятностей Ф0, приведенной в Приложении, по
значению функции Ф0 находим значении аргумента: tкр=1.96.
Изобразим имеющие результаты графически, используя график плотности
стандартного нормального закона распределения:
=0.95
φ(t)

tнабл=1.33
/2=0.025
/2=0.025


tкр= -1.96
0
tкр=1.96
t
12
Поскольку наблюдаемое значение критерия попало в область естественных значений
критерия, т.е. тех значений критерия, при которых нулевая гипотеза принимается как не
противоречащая экспериментальным данным, то в результате решения задачи следует
сделать такой вывод: принимаем с уровнем доверия в 95% утверждение о том, что
средняя сумма денег, которую оставляет в АШАНЕ покупатель за одно посещение
гипермаркета, значимо не изменилась за полгода. Таким образом, следует принять как
верное то утверждение, которое было сформулировано в нулевой гипотезе (говорят:
принимаем нулевую гипотезу).
Покажем, как изменилось бы решение задачи, если бы мы альтернативную
гипотезу поставили другую.
Иная постановка задачи:
(более того, отметим, что именно такая постановка задачи представляется более
естественной в данном случае, поскольку экспериментальные данные показали
повышение величины средней суммы денег, оставляемой в магазине покупателем):
Н 0 : m = 956 , здесь m0 = 956 ( или хг = 956 );
Н 1 : m > 956
( или хг > 956).
Изменение в решении задачи касаются только вида критической области. В этом
случае следует использовать правостороннюю критическую область, при этом значение
границы критической области изменится.
Теперь границу критической области следует искать на основе табличного
решения другого уравнения
Ф0 (t кр ) = γ - 0.5; Ф0 (t кр ) = 0.95 - 0.5 = 0.45.
По таблице интеграла вероятностей Ф0 находим
tкр ≈ 1.65. Снова покажем
полученные результаты на графике плотности стандартного нормального закона
распределения:
13
φ(t)
=0.95
tнабл=1.33

=0,05

0
tкр=1.65
t
Поскольку по-прежнему наблюдаемое значение критерия попало в область
принятия нулевой гипотезы, то ранее полученный вывод не изменился, т.е. мы
принимаем нулевую гипотезу об отсутствии значимых изменений в той сумме денег,
которую в среднем тратит покупатель за одно посещение АШАНА.
Замечание: Следует отметить, что в тех случаях, когда наблюдаемое значение
параметра оказывается вблизи границы критической области, вывод в результате
решения задачи может быть изменен на противоположный в том случае, когда от
двусторонней критической области переходим к односторонней критической области,
или же в том случае, когда задаем другой уровень значимости (другой
уровень
доверия).
Решим аналогичную задачу в ситуации, когда для получения выводов
используется выборка малого объема (объем выборки не превосходит 30).
Сохраним те же исходные данные, что и в предшествующих двух вариантах за
исключением величины объема выборки. Итак, пусть по случайной выборке было
найдено, что в среднем покупатель при одном посещении магазина тратит 1021 руб. со
стандартным отклонением 427 руб. Сохраним также уровень значимости. Пусть теперь
объем выборки равен 15 покупателям.
Постановка задачи:
Н 0 : m = 956 , здесь m0 = 956;
Н 1 : m > 956.
14
Критерий t определяется той же самой формулой, но в случае выборок малого
объема при справедливости нулевой гипотезы критерий t подчиняется распределению
Стьюдента с числом степеней свободы k = n - 1. Поэтому при определении границ
критической области следует пользоваться таблицей критических точек распределения
Стьюдента для односторонней (при данной альтернативной гипотезе) критической
области. Эту границу мы найдем на основе числа степеней свободы и на основе
заданного уровня значимости
 = 0.05 (в данном случае нужно выбирать уровень
значимости в нижней строке таблицы). Соответствующая таблица находится в
Приложении. Находим по k=14 и =0,05 значение tкр =1.76.
Вычислим наблюдаемое значение критерия
t набл =
(1021 - 956) 15
≈ 0.59.
427
Отметим, что внешне график плотности закона распределения Стьюдента похож
на график плотности стандартного нормального закона распределения, только линия
плотности для него идет более полого по сравнению с графиком плотности
стандартного нормального закона распределения
(меньше подъем
графика в
центральной его части и дальше отстоят периферийные части графика от
горизонтальной оси). Чтобы подчеркнуть, что в данном случае речь идет об ином
графике по отношении к графику плотности стандартного нормального закона
распределения, вертикальную ось графика обозначим f(t) вместо ᵩ (t):
f(t)
=0.95
tнабл=0.59

=0.05

0
tкр=1.76
t
15
На основе сравнения положений критического и наблюдаемого значений
критерия делаем вывод о том, что следует принять нулевую гипотезу с уровнем доверия
в 95% как не противоречащую экспериментальным данным, т.е. в данном случае вывод
по задаче не изменился.
Замечание:
Тот же самый первый вариант задачи можно было бы решить иначе, с
привлечением понятия доверительного интервала. Смысл такого подхода к решению
задачи основан на следующем утверждении:
Если заданное в условии задачи значение параметра m0 попадает в
доверительный интервал, соответствующий заданному уровню значимости, то
утверждение нулевой гипотезы принимается с тем же уровнем значимости. Если же
заданное значение m0
оказывается вне доверительного интервала, то следует
отвергнуть нулевую гипотезу в пользу альтернативной гипотезы. Обоснование данного
подхода к решению задачи заключено в том факте, что при построении доверительного
интервала и при выстраивании критической области выполняются аналогичные
преобразования, которые приводят к одинаковым формулам.
Напомним формулу, по которой находится двусторонний доверительный
интервал
для
математического
ожидания
(генерального
среднего)
нормально
распределенной генеральной совокупности:
Iγ = ( x -
t кр • S
n
;
x+
t кр • S
n
).
Решим вариант данной задачи в первоначальной постановке на основе
применения доверительного интервала.
Постановка задачи:
Н0 : m = 956 , здесь m0 = 956 ( или х Г = 956 );
Н1 : m ≠956
( или х Г ≠ 956).
16
Будем использовать прежние экспериментальные значения в вычислениях:
x = 1021; S = 427; n = 76.
Используем прежний уровень значимости =5%, для которого было найдено
критическое значение параметра tкр=1.96.
Вычислим доверительный интервал на основе исходных значений:
I
0,95
= ( 1021 -
1,96 • 427
1,96 • 427
; 1021 +
) ≈ (925.0; 1117.0).
76
76
Поскольку значение
m0 = 956
попадает в найденный доверительный
интервал, то утверждение, составляющее содержание нулевой гипотезы, следует
принять с уровнем доверия в 95%. Естественно, что получен тот же вывод, который
получили при первоначальном способе решения этой задачи.
Из данного способа решения также совершенно очевидным является и другой
вывод:
Утверждение, составляющее содержание нулевой гипотезы, не является
единственно верным. Можно было бы изменить содержание нулевой гипотезы и вместо
ранее заданного значения m0 = 956 в нулевой гипотезе задать, например, значение
m0 =1100. Это значение также попадает в доверительный интервал и, следовательно,
не противоречит экспериментальным данным, поэтому и значение m0 =1100 также
могло служить содержанием утверждения нулевой гипотезы. Мы должны были бы
принять новое значение m0 =1100 как не противоречащее экспериментальным
данным, причем это значение мы также приняли бы с тем же уровнем доверия.
17
3. Проверка гипотезы о числовом назначении вероятности
биноминального закона распределения (о числовом значении
генеральной доли)
Рассмотрим генеральную долю признака WГ =K/N – это часть объектов
генеральной совокупности, обладающих определенным признаком (N – объем
генеральной совокупности; K – количество объектов генеральной совокупности,
обладающих данным признаком). Эту величину можно также трактовать как
вероятность р того, что случайно выбранный объект из генеральной совокупности
будет обладать этим признаком, причем полагаем, что величина вероятности не
меняется при переходе от одного объекта к другому объекту и имеет место
независимость появления признака для каждого объекта генеральной совокупности, т.е.
рассматривается модель явления, присущая биномиальному закону распределения
признака.
Вывод: постановку задачи можно осуществлять как в терминах «генеральная
доля признака», так и в терминах «вероятность биномиального закона распределения».
Все зависит от того, как поставлена исходная задача, какой акцент мы хотим придать
получающимся результатам.
Выборочной долей признака является величина w = k/n – это точечная оценка
генеральной доли и, одновременно, точечная оценка вероятности в биномиальном
законе распределения (n – объем случайной выборки; k – количество объектов в
выборке, обладающих данным признаком).
Здесь мы будем рассматривать только случай больших выборок, т.е. n>30.
Постановка задачи:
Н 0 : p = p0
( или W Г = p0 )
Н 1 : p ≠p0 .... ( или WГ ≠p0 ) .........(1); p < p0 или p > p0 ............(2)
Здесь р0 – заданная условием задачи константа.
18
Для задач этого типа вводится критерий
w - p0
t=
р0
• (1 -
p0 )
,
n
который и будем использовать для проверки нулевой гипотезы. Показано, что в случае
справедливости нулевой гипотезы
этот критерий имеет закон распределения,
приближающийся к стандартному нормальному закону распределения.
При альтернативной гипотезе типа (1) строим двустороннюю критическую
область, при альтернативных гипотезах типа (2) строим одностороннюю критическую
область (левую или правую).
Процедура проверки справедливости нулевой гипотезы полностью повторяет тот
алгоритм, который был реализован в предыдущем разделе.
Рассмотрим решение конкретного примера.
Пример:
Известно, что примерно 83% студентов факультета менеджмента защищают
диплом на отличную оценку. На основе наблюдений этого года было выяснено, что из
100 случайно отобранных дипломников отличную оценку получил 91 студент. Можно
ли с 98% уровнем доверия сказать, что наблюдения этого года не противоречат ранее
сделанному статистическому выводу?
Решение:
Постановка задачи:
H0: WГ = 0,83;
здесь р0=0.83;
H1: WГ > 0,83.
Экспериментальные данные:
Вычислим значение
n = 100, k = 91; кроме того: γ = 0,98 → α = 0,02.
выборочной доли (или найдем точечную оценку
вероятности биномиального закона распределения, т.е. вероятности того, что случайно
выбранный студент этого факультета получит отличную оценку за диплом):
19
w=
k
91
=
= 0.91.
n 100
Найдем наблюдаемое значение критерия:
t=
w - p0
р0 • (1 - p0 )
→t
набл
0.91 - 0.83
≈ 2.13.
0.91 • (1 - 0.91)
100
=
n
Так как объем выборки велик ( n>30), находим tкр
п ,,
где
tкр п - граница
правосторонней критической области, с помощью интеграла вероятностей, применяя
соответствующую таблицу, приведенную в Приложении, и используя обычные
формулы
для
вычисления
вероятности
попадания
стандартной
нормально
распределенной случайной величины в заданный интервал:
P (tкр п < t < + ) = 0,02 → P (tкр п < t < + ) = Ф0 (+ ) - Ф0 (tкр п) =
= 0.5 - Ф0 (tкр п) = 0,02→Ф0 (tкр п) = 0,48 → tкр п ≈2.04.
Замечание: значение tкр п можно было бы находить из решения несколько иного
уравнения: P (
< t < tкр п) = 0.98. Значение tкр п получается, разумеется, таким
же.
Покажем
полученные
результаты
на
графике
плотности
стандартного
нормального закона распределения:
φ(t)
γ=0.98
α=0.02
0
tкр п ≈2.04
tнабл.≈2.13
20
Поскольку наблюдаемое значение критерия попадает в область критических
значений этой случайной величины, то следует отвергнуть нулевую гипотезу как
противоречащую
экспериментальным
данным
и,
следовательно,
принять
альтернативную гипотезу. Таким образом, утверждение, высказанное в нулевой
гипотезе, противоречит экспериментальным данным и поэтому
не может быть
признано верным. В действительности доля студентов, получивших отличную оценку
за диплом, значимо превосходит ту долю, которая указана в нулевой гипотезе. Однако в
данной ситуации вывод по задаче следует сделать иной, если задать другое значение
уровня значимости.
Давайте решим эту же самую задачу, сделав в ней единственное изменение:
примем  = 0,01 (ранее было задано значение α = 0,02).
Решение:
Постановка задачи:
H0: WГ = 0,83,
здесь р0=0,83;
H1: WГ > 0,83.
Экспериментальные данные:
n = 100, k = 91.
Наблюдаемое значение tнабл в этом случае не изменяется; изменяется лишь tкр п .
Найдем новое значение tкр п:
P (tкр п < t < + ) = 0,01→P (tкр п < t < + )= Ф0 (+ ) - Ф0 (tкр п)=
=0,5 - Ф0 (tкр п)=0,01→Ф0 (tкр п) = 0,49→ tкр п ≈2.32.
Покажем числовые результаты на графике плотности стандартного нормального
закона распределения:
21
φ(t)
γ=0.99
α=0.01
tнабл.≈2.13
В этом случае из-за
tкр п ≈2.32
изменения положения границы критической области
наблюдаемое значение критерия попало в область принятия нулевой гипотезы,
следовательно, вывод в результате решения примера мы должны сделать иной.
Принимаем нулевую гипотезу о том, что генеральная доля студентов, которые сдают
диплом на отлично, можно считать равной 83%, поскольку значения выборочной доли
отличников и заявленного значения генеральной доли отличников различаются
незначимо, несущественно. Решение этой задачи позволяет отметить одну особенность,
о которой уже говорилось: когда наблюдаемое значение критерия находится недалеко
от границы критической области, то при изменении уровня значимости вывод по задаче
можно получить противоположный по своему смыслу (и
этим данная ситуация
неприятна). Поэтому при решении задачи надо обязательно указывать, при каком
уровне значимости был получен данный вывод и, возможно, отметить, что вывод может
быть иным при изменении принятого в задаче уровня значимости.
Решим еще один пример на проверку такой же гипотезы.
Пример (предложен Аленой Бут, студенткой факультета менеджмента ВШЭ):
На основании предшествующих исследований известно, что доля крупных
западноевропейских бизнесменов, имеющих счета в швейцарских банках, составляет
примерно 78%. Исследовательский центр Германии «Meinungsumfrage» сделал
22
случайную выборку, отобрав 670 крупных бизнесменов Западной Европы, и установил,
что 510 из них хранят свои сбережения на счетах в швейцарских банках.
На основе применения доверительного интервала проверить справедливость
утверждения, что и в настоящее время доля крупных бизнесменов, имеющих счета в
швейцарских банках, также составляет 78%.
Решить эту же задачу, применяя традиционную постановку задачи с введением
основной и альтернативной гипотез.
В обоих случаях принять уровень доверия равным 1%.
Решение:
Экспериментальные данные:
n = 670, k = 510; кроме того, α = 0,01.
Поскольку выборка большая, то доверительный интервал находится по формуле
I  = (w - ε; w + ε) ,
ε = tкр
•
w(1 - w)
k
, w=
n
n
Вычислим выборочную долю:
w=
Найдем tкр
п
510
k
=
=
n
670
0.76.
на основе табличного решения уравнения (значения функции Ф0
приведены в Приложении):
γ
Ф0 (t кр ) =
2
→ Ф0 (t кр ) =
0.99
= 0.495 → t кр ≈ 2.58.
2
Вычислим величину предельной ошибки выборки:
ε = 2.58 •
0.76(1- 0.76)
≈0.04.
670
Вычислим доверительный интервал:
I
0.99
= (0.76 - 0.04; 0.76 + 0.04) = (0.72; 0.80).
23
Данный доверительный интервал с вероятностью 99% накрывает генеральную
долю западноевропейских бизнесменов, хранящих свои сбережения в швейцарских
банках.
Поскольку значение генеральной доли 0.78, заданное условием задачи, попадает
в этот доверительный интервал, то, следовательно, с уровнем доверия в 99% (или с
уровнем значимости в 1%) можно принять нулевую гипотезу как не противоречащую
опытным данным.
Решим этот же пример на основе алгоритма проверки статистических гипотез.
Постановка задачи:
H0: WГ = 0.78,
здесь р0 = 0.78;
H1: WГ < 0.78.
Экспериментальные данные:
n = 670, k =510; кроме того, α = 0,01.
Значение выборочной доли уже было найдено ранее:
w=
510
k
=
=
n
670
0.76.
Вычислим значение критерия, который при справедливости основной гипотезы
имеет приближенно стандартное нормальное распределение:
t=
w - p0
p0 • (1 - p0 )
n
→ t набл =
0.76 - 0.78
≈ - 1.25.
0.78 • (1 - 0.78)
670
Найдем границу левосторонней критической области на основе табличного
решения уравнения, которое позволяет вычислить вероятность попадания стандартной
нормально распределенной случайной величины в заданный интервал. Для решения
используем таблицу значений функции Ф0, приведенной в приложении:
24
P (tкр л < t < + ) = 0.99→P (tкр л < t < +
)= Ф0 (+ ) - Ф0 (tкр л)=
=0.5 - Ф0 (tкр л)=0.99→Ф0 (tкр л) = - 0.49→Ф0 (-tкр л) = 0.49→ tкр л ≈-2.32.
Покажем результаты на графике плотности стандартного нормального закона
распределения:
φ(t)
γ=0.99
α=0.01
tкр л ≈ - 2.32
tнабл.≈ - 1.25
t
На основе данного графика, сравнивая взаимное расположение наблюдаемого
значения критерия и границы левосторонней критической области, следует сделать
вывод о принятии нулевой гипотезы как не противоречащей экспериментальным
данным с уровнем доверия в 1%.
Замечание: получены одинаковые выводы независимо от способа решения на
основе использования доверительного интервала и на основе алгоритма проверки
статистической гипотезы.
Пример (предложен студенткой факультета менеджмента Клишиной Ириной):
Главный врач ветеринарной клиники утверждает, что не менее 70 % его
пациентов после приёма новейших лекарств верно служат своим хозяевам не болея на
протяжении трех лет. Можно ли считать это утверждение верным, если из 100
пациентов ветеринарной клиники 59 остаются здоровыми после приема таблеток
ещё три года? Принять уровень значимости 5%.
25
Решение:
Постановка задачи:
H0: p = 0.70 (р0 = 0.70;)
H1: p < 0.70
(альтернативная гипотеза поставлена на основе
результатов выборки).
Экспериментальные значения: n=100; k=59.
Вычислим выборочную долю:
w=
59
k
=
=
n
100
0.59 .
Вычислим наблюдаемое значение критерия:
w - p0
t=
p0 • (1 - p0 )
n
0.59 - 0.70
≈ - 2.40.
0.70 • (1 - 0.70)
100
→ t набл =
Найдем границу левосторонней критической области. Так как n>30, то находим
tкр л с помощью интеграла вероятностей; его значения взяты из таблицы, находящейся в
Приложении:
P (tкр л < t < + ) = 0.95 →P (tкр л < t < + )=: Ф0 (+ ) - Ф0 (tкр л) =
=0.5 + Ф0(-tкр л) = 0.95 → Ф0 (-tкр л) = 0.45 → tкр л = -1.65.
Покажем получившиеся результаты на графике плотности стандартного
нормального закона распределения:
φ(t)
γ=0.95
α=0.05
t
tнабл. ≈ - 2.40 tкр л = - 1.65
0
26
Поскольку наблюдаемое значение критерия попало
значений
критерия,
то
отвергаем
нулевую
в область критических
гипотезу
как
противоречащую
экспериментальным данным и принимаем, следовательно, альтернативную гипотезу H1,
т.е. можно сказать, что менее 70% пациентов после приёма лекарств верно прослужат
своим хозяевам ещё три года (утверждение врача клиники чрезмерно оптимистично).
4. Проверка гипотезы о равенстве математических ожиданий
(о равенстве генеральных средних) двух нормально распределенных
генеральных совокупностей
Пусть имеются две нормально распределенные генеральные совокупности,
причем в первой совокупности изучаемый признак X~N(m1;1), во второй
совокупности изучаемый признак Y~N(m2;2), т.е. каждый признак имеет нормальный
закон распределения со своими параметрами.
Мы в дальнейшем будем рассматривать ситуации, относящиеся к случаям
больших выборок из этих двух генеральных совокупностей: n1>30, n2>30. Случаи
малых выборок анализируются в соответствующих разделах учебников; здесь такие
ситуации не рассматриваются.
Постановка задачи:
H0 :
m1 = m2 ;
( иначе :
х = y );
Г
Г
H1 :
m1 ≠m2 ;
( иначе :
х
или m1 > m2
(х
Г
Г
≠y );
Г
> y ),
Г
m1 < m2
Т.к. здесь рассматривается случай больших выборок (n1 > 30,
(х
Г
< y ).
Г
n2 > 30), то
можно предположить, что неизвестные дисперсии генеральных совокупностей
27
достаточно хорошо аппроксимируются выборочными дисперсиями, т.е. можно считать,
что
σ 1 2 ≈ S1 2 ;
σ 2 2 ≈S2 2 ;
n1
∑(x
здесь
2
S1 =
n2
∑(y
2
i
- x)
i=1
2
n1 - 1
; S2 =
i
- y)
2
i=1
n2 - 1
Для решения задачи используется критерий
x- y
t=
2
2
.
S1
S2
+
n1
n2
Эта случайная величина при справедливости нулевой гипотезы приближенно
имеет стандартный нормальный закон распределения.
Решим конкретную задачу, в которой реализуется описанный выше подход.
Пример:
Проводится сравнение роста 20-летних юношей, проживающих в Москве и в
Новосибирске. На основе двух случайных выборок, выполненных в двух городах, были
получены следующие данные. В Москве отобрали 75 юношей. Был измерен рост
каждого юноши. На основе измерений были вычислены две характеристики: средний
рост юношей, который оказался равным 179 см, и стандартное отклонение, которое
оказалось равным 8 см. В Новосибирске были случайно отобраны 57 юношей, их
средний рост оказался равным 176 см со стандартным отклонением 10 см. На основе
этих экспериментальных данных следует проверить гипотезу о равенстве средних
величин роста московских и новосибирских 20-летних юношей (о равенстве
генеральных
средних).
Принять
доверительную
вероятность
равной
90%.
Предполагается, что рост юношей подчиняется нормальному закону распределения.
28
Иная постановка вопроса к тем же исходным данным может звучать так:
Следует выяснить, значимо или же незначимо отличаются друг от друга
выборочные средние значения ростов юношей. Если будет показано, что выборочные
средние
отличаются
незначимо,
то
отсюда
можно
будет
сделать
вывод
о
справедливости нулевой гипотезы, т.е. вывод о примерном равенстве генеральных
средних значений роста юношей, проживающих в различных городах. В противном
случае будет сделан вывод о существенном различии генеральных средних значений
роста юношей, проживающих в этих городах.
Решение:
Постановка задачи:
Здесь
x
Г
y
H0 :
x
Г
=
H1 :
x
Г
≠y Г
Г
,
- средний рост двадцатилетних юношей Москвы;
y
Г
- средний рост
двадцатилетних юношей Новосибирска.
При такой постановке задачи следует строить двустороннюю критическую
область. Определим границы этой области на основе табличного решения уравнения:
Ф0 (t кр ) =
γ
2
→ Ф0 (t кр ) =
0.90
= 0.45 → t кр ≈ 1.65.
2
Вычислим на основе экспериментальной информации наблюдаемое значение
критерия, который при справедливости нулевой гипотезы приближенно имеет
стандартный нормальный закон распределения:
t=
x- y
→ t набл =
2
2
S1
S2
+
n1
n2
179 - 176
≈1.86.
2
2
8
10
+
75
57
29
Изобразим
результаты
графически
на
графике
плотности
стандартного
нормального закона распределения:
φ(t)
=0.90
/2=0.05
tнабл=1.86

/2=0.05


tкр= -1.65
0
tкр=1.65
t
Поскольку наблюдаемое значение критерия попало в критическую область
значений параметра, то следует отвергнуть основную гипотезу в пользу альтернативной
гипотезы и сказать, что средний рост московских и новосибирских 20-летних юношей
отличается значимо.
Решим эту же задачу с теми же самыми исходными данными в случае иной,
более естественной в данном случае альтернативной гипотезой. Ее естественность
обусловлена конкретными экспериментальными значениями.
Постановка задачи:
Г
=
y
Г
Г
>
y
Г
H0 :
x
H1 :
x
,
Такая постановка задачи требует построения правосторонней критической
области. Найдем границу правосторонней критической области:
Ф0 (t кр п ) = 0.5 - α → Ф0 (t кр п ) = 0.50 - 0.10 = 0.40 → t кр п ≈ 1.28.
В данном случае наблюдаемое значение критерия не меняется.
Покажем результаты на графике плотности стандартного нормального закона
распределения:
30
φ(t)
=0.90
tнабл=1.86

=0.10

0
tкрп=1.28
t
График показывает, что наблюдаемое значение критерия попало в критическую
область, поэтому следует сделать тот же вывод, который был получен ранее: средний
рост московских и новосибирских юношей значимо отличается.
5. Проверка гипотезы о равенстве вероятностей биномиального
закона распределения (о равенстве долей признака) двух
генеральных совокупностей
Рассмотрим две генеральные совокупности.
Из первой генеральной совокупности делается случайная выборка объемом n1, и
на основе этой выборки выясняется, сколько объектов выборки обладает изучаемым
признаком – этих объектов k1.
Из второй генеральной совокупности делается случайная выборка объемом n2;
количество объектов выборки, обладающих изучаемым признаком, - k2.
Выборочные доли признака по двум генеральным совокупностям равны
соответственно
w 1= k 1 / n 1 ; w 2 = k 2 / n 2 .
31
В данном пункте мы ограничимся лишь случаем, когда выборки достаточно
большие: n1>30, n2>30.
Постановка задачи:
Н 0 : p1 = p2 ,
( или
Н 1 : p1 ≠ p2 .... ( или
WГ1 = WГ2 )
WГ1 ≠WГ2 ) ........ .........(1);
p1 < p2 или p1 > p2 .......(2)
В такой задаче в качестве критерия используется случайная величина вида
t=
Здесь
w1 - w2
.
1
1
~
p(1 - ~
p)(
+
)
n1
n2
k1 + k 2
~
p=
n1 + n 2
-
наилучшая точечная оценка вероятности при
справедливости нулевой гипотезы.
Если гипотеза
H0 справедлива, то введенный выше критерий приближенно
имеет стандартный нормальный закон распределения.
Рассмотрим пример, в котором реализуется рассмотренный выше случай..
Пример:
Перед экспертами поставлена задача оценить сравнительную активность
электората Москвы и Санкт-Петербурга при избрании депутатов Государственной
Думы. С этой целью была осуществлена случайная выборка в двух этих городах из
состава населения, которое имеет право голоса. Было выяснено, какая часть выборки
реально пришла на избирательный участок для участия в выборах. Данные оказались
следующими:
в Москве из 1500 потенциальных случайно выбранных избирателей
реально в выборах приняли участие
480 человек, а в Санкт-Петербурге из 1630
потенциальных избирателей на избирательные участки пришли 490 человек. На уровне
значимости α=10% проверить гипотезу о равенстве генеральных долей избирателей в
двух этих городах, реально принявших участие в выборах.
32
Решение:
Постановка задачи:
Н 0 : WГ1 = WГ2 ;
Н 1 : WГ1 ≠WГ2 .
Здесь генеральные доли московских и питерских избирателей, реально
принявших участие в выборах, обозначены
WГ1 , WГ2 .
Экспериментальные значения:
n1 = 1500, k1 = 480; n2 = 1630, k 2 = 490.
Вычислим на основе экспериментальных данных выборочные доли и точечную
оценку вероятности при справедливости нулевой гипотезы:
w1 =
k1 480
k
490
=
≈0.32; w2 = 2 =
≈0.30
n1 1500
n2 1630
k + k2
480 + 490
970
~
p= 1
=
=
≈0.31.
n1 + n2 1500 + 1630 3130
Вычислим на основе экспериментальных данных наблюдаемое значение
критерия:
t=
w1 - w2
1
1
~
p(1 - ~
p)( + )
n1 n2
→ t набл =
0.32 - 0.30
≈1.21.
1
1
0.31 • 0.69 • (
+
)
1500 1630
Найдем границы двусторонней критической области, таблично (с помощью
функции Ф0, значения которой даны в Приложении) решив следующее уравнение:
γ 0.90
α = 0.10 → γ = 1 - α = 1 - 0.10 = 0.90 → Ф0 (t кр ) = =
= 0.45 => t кр = 1.65.
2
2
33
Покажем все найденные значения на графике плотности стандартного
нормального закона распределения, который описывает поведение случайной величины
t при справедливости нулевой гипотезы:
φ(t)
=0.90
/2=0.05
tнабл=1.21

/2=0.05


tкр= -1.65
0
tкр=1.65
t
Поскольку наблюдаемое значение критерия попало в область естественных для
данного закона распределения значений (в данном случае стандартного нормального
закона распределения), то гипотеза H0 принимается как не противоречащая
экспериментальным данным с уровнем доверия 90%, т.е. генеральные доли электората,
реально принявших участие в выборах в Москве и Санкт-Петербурге, значимо не
отличаются (их можно считать одинаковыми).
6. Проверка гипотезы о значимости выборочного коэффициента
корреляции Пирсона.
Рассматривается
двумерная
нормально
распределенная
генеральная
совокупность (X,Y), т.е. случайные величины X и Y в ней распределены нормально. Из
этой совокупности извлечена случайная выборка объемом n пар (xi , yi) и по ней
вычислен выборочный коэффициент корреляции Пирсона, который оказался отличным
от нуля. Возникает вопрос, объясняется ли это действительно существующей линейной
связью между случайными величинами X и Y в генеральной совокупности или является
следствием случайности отбора переменных в выборку. Можно ли при этом заключить,
34
что и коэффициент корреляции
 между случайными величинами X и Y во всей
генеральной совокупности также отличен от нуля?
Напоминание:
Формула
для
вычисления
линейного
коэффициен та
n
корреляции
Пирсона
r
 ( x  x)  ( y
i 1
i
n
 ( x  x)
i 1
i
2

i
 y)
n
(y
i 1
i
 y) 2
Постановка задачи:
H0: ρ=0;
H1: ρ≠0.
Если нулевая гипотеза отвергается, то это означает, что коэффициент
корреляции в генеральной совокупности значимо отличается от нуля (кратно говоря
«значим»), и, следовательно, в генеральной совокупности признаки X и Y связаны
линейной зависимостью. Если же принимается нулевая гипотеза, то следует считать,
что генеральный коэффициент корреляции незначим, и, следовательно, признаки X и Y
в генеральной совокупности не связаны линейной зависимостью.
В качестве критерия проверки нулевой гипотезы используется случайная
величина
t=
r•
n-2
1- r2
Показано, что эта случайная величина (критерий) при справедливости нулевой
гипотезы имеет распределение Стьюдента с k = n - 2
степенями свободы. Число
степеней свободы на две единицы меньше объема выборки, поскольку в выражении для
r задействованы две связи, заданные формулами для вычисления средних значений по
выборке:
35
n
∑x
x=
n
∑y
i
i=1
n
;
y=
i
i=1
n
.
Ясно также, что при больших объемах выборки (n>30) можно вместо
распределения Стьюдента использовать стандартный нормальный закон распределения.
Поскольку конкурирующая гипотеза имеет вид
ρ≠0, то следует строить
двустороннюю критическую область.
Определив, куда попадает наблюдаемое значение критерия tнабл, делаем вывод о
принятии нулевой или же альтернативной гипотезы:
если | tнабл |<tкр, то принимается гипотеза H0; если | tнабл | tкр , то принимается
гипотеза H1.
Пример:
По выборке объема n=7, извлеченной из нормальной двумерной генеральной
совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. На уровне
значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента
корреляции нулю при конкурирующей гипотезе ρ≠0.
Решение:
Постановка задачи:
H0: ρ=0;
H1: ρ≠0.
Найдем наблюдаемое значение критерия:
t=
r• n-2
1- r2
→ t набл =
0.57 • 7 - 2
1 - 0.57 2
≈ 1.55.
Определим значения границ двусторонней критической области из условия, что
при малых объемах выборок критерий t распределен (при справедливости нулевой
гипотезы) по закону распределения Стьюдента с числом степеней свободы k=7-2=5.
36
Привлечем таблицу «Критические точки распределения Стьюдента» (она
приведена в Приложении); в таблице используем ту ее часть, которая относится к
двусторонней критической области, используем
=0.10 и k=5, на основе этих
значений найдем tкр =2.01.
Полученные результаты покажем графически на графике плотности закона
распределения Стьюдента, который, как было уже сказано, внешне похож на график
плотности стандартного нормального закона распределения:
=0.90

f(t)
tнабл=1.55
/2=0.05
/2=0.05
tнабл=7.28

tкр= -2.01 0
tкр=2.01
t
Поскольку наблюдаемое значение критерия попало в область принятия нулевой
гипотезы, то следует принять нулевую гипотезу с уровнем значимости
10%. Это
означает, что генеральный коэффициент корреляции равен нулю, т.е. в генеральной
совокупности между случайными величинами X и Y линейная связь отсутствует. В этом
случае не следует использовать уравнение линейной регрессии для прогнозирования
значения одной случайной величины по значению другой случайной величины.
Рассмотрим аналогичный пример, но существенно увеличим в нем объем
выборки.
Пример:
По выборке объема n=112, извлеченной из нормальной двумерной генеральной
совокупности, был вычислен коэффициент корреляции Пирсона r=0.57. На уровне
значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента
корреляции нулю (ρ=0) при конкурирующей гипотезе ρ≠0.
37
Решение:
Постановка задачи:
H0: ρ=0;
H1: ρ≠0.
Найдем наблюдаемое значение критерия:
t=
r• n-2
1- r
2
0.57 • 112 - 2
→ t набл =
1 - 0.57
2
≈ 7.28.
Определим значения границ двусторонней критической области из условия, что
при больших объемах выборок критерий t распределен по стандартному нормальному
закону распределения при справедливости нулевой гипотезы (в этом случае пользуемся
таблицей интеграла вероятности из Приложения):
=1-=1-0,10=0,90→Ф0(tкр)=/2=0.9/2=0,45→tкр=1.65.
Покажем результаты на графике плотности стандартного нормального закона
распределения:
φ(t)
=0.90
tнабл=7.28

/2=0.05
/2=0.05


tкр= -1.65
0
tкр=1.65
t
38
Поскольку наблюдаемое значение критерия попало в критическую область, то
следует отклонить нулевую гипотезу в пользу альтернативной гипотезы, т.е. принять,
что коэффициент линейной корреляции в генеральной совокупности значим. Из этого
утверждения следует, что между двумя случайными величинами X и Y в генеральной
совокупности имеется линейная связь, которая позволяет использовать уравнение
линейной регрессии для прогнозирования, т.е., задавая конкретное значение величины
X, получать (прогнозировать) значение другой случайной величины Y хотя бы и с
некоторой степенью приближения.
Получился интересный результат, который надо иметь в виду. Он заключается в
том, что при больших объемах выборок то же самое значение коэффициента
корреляции является значимым, т.е. показывает наличие линейной связи между
случайными величинами в генеральной совокупности. В то же время при малых
объемах выборок это же значение коэффициента корреляции не является значимым и не
позволяет сделать вывод о том, что между случайными величинами в генеральной
совокупности имеется линейная связь, поскольку для получения такого вывода в случае
малых выборок имеется недостаточное количество экспериментальных данных.
7. Проверка гипотезы о значимости выборочного коэффициента
корреляции Спирмена
Постановка задачи:
Здесь через
H0 :
ρS Г = 0;
H1 :
ρS Г ≠0.
ρ S Г обозначен
ранговый коэффициент корреляции, связывающий
случайные величины в генеральной совокупности (на это указывает индекс «Г»); через
ρ S обозначен
коэффициент корреляции Спирмена, вычисленный по выборке, иначе
выборочный ранговый коэффициент корреляции.
39
Напоминание:
Формулы для вычисления коэффициента Спирмена:
Формула
в
случае
отсутствия
совпадения
рангов
n 2
∑
6
di
i
=
1
ρs = 1 .
2
n n -1
(
Формула
ρs =
в
случае
1
(n 3 - n)
6
)
совпадения рангов :
n
- ∑ di2 - Ta - T
b
i=1
1
( n 3 - n ) - 2Ta
6
1
(n 3 - n) - 2T
b
6
Пояснения по формулам можно найти в ссылках [1], [5].
При проверке значимости коэффициента корреляции Спирмена поступают
совершенно аналогично тому, как мы поступали, имея дело с коэффициентом Пирсона.
Формулы для вычислений используются те же самые с учетом небольших изменений.
Эти изменения таковы:
Если объем выборки совсем маленький (n<9), то для выяснения значимости
коэффициента корреляции нужны специальные таблицы, которые приводятся в
специальных руководствах (этот случай мы рассматривать не будем).
Если объем выборки n  9, то при справедливости гипотезы H0 критерий
t=
ρS
•
n-2
1 - ρS 2
имеет распределение Стьюдента с k = n - 2 степенями свободы.
40
Значение tкр находим по таблице критических точек распределения Стьюдента
по значениям
 и k для двусторонней критической области (таблица приведена в
Приложении). Вычисляем наблюдаемое значение критерия tнабл на основе приведенной
выше формулы. Если | tнабл |<tкр, то принимается гипотеза H0, если | tнабл | tкр, то
принимается гипотеза H1, т.е. в этом случае считаем доказанным утверждение, что
коэффициент корреляции является значимым и в генеральной совокупности между
порядковыми признаками имеется корреляционная связь.
Если объем выборки n >30, то вместо закона Стьюдента используем
стандартный нормальный закон распределения для определения tкр.
Рассмотрим пример на определение значимости рангового коэффициента.
Пример:
Для 15 пар порядковых переменных (x, y) был вычислен коэффициент
корреляции Спирмена, который оказался равным
ρs
= 0.64. На уровне значимости
α=5% проверить гипотезу H0 о равенстве генерального коэффициента ранговой
корреляции нулю ( ρ S Г = 0) при конкурирующей гипотезе
ρ S Г ≠0.
Решение:
Постановка задачи:
H0 :
ρS
= 0;
Г
H1 :
ρS
≠0.
Г
Найдем наблюдаемое значение критерия:
t=
ρS
•
n-2
1 - ρS
2
→ t набл =
0.64 • 15 - 2
1 - 0.64 2
≈ 3.00
Найдем значения границ двусторонней критической области из условия, что при
малых объемах выборок критерий t распределен (при справедливости нулевой
41
гипотезы) по закону распределения Стьюдента с числом степеней свободы
k=15-2=13.
На основе таблицы «Критические точки распределения Стьюдента» (см.
Приложение) найдем границы двусторонней критической области на основе
=0.05 и
k=13. Значение границы оказывается равным tкр =2.16.
Полученные результаты покажем графически, используя график плотности
закона распределения Стьюдента:
f(t)
=0.95
0
/2=0.025
/2=0.025

tкр= -2.16
0
tкр=2.16
tнабл≈3.00
t
t
Поскольку наблюдаемое значение критерия попало в критическую область, то
следует отклонить нулевую гипотезу в пользу альтернативной гипотезы. Это означает,
что коэффициент ранговой корреляции значим. Иными словами можно сказать, что
между двумя порядковыми случайными величинами X и Y в генеральной совокупности
имеется значимая связь.
Замечание:
Если бы в данном примере объем выборки был бы более 30, то находили бы
границы двусторонней критической области
на основе уравнения: Ф0(tкр) =/2.
В остальном вычисления выполнялись бы по тем же формулам.
42
8. Критерий знаков
Критерий знаков не связан с заданием каких-то конкретных значений параметров
распределения, и поэтому на основе этого критерия формулируются так называемые
непараметрические статистические гипотезы.
Это самый простой критерий непараметрической статистики. Простота критерия
объясняется двумя причинами:
1) Не делается предположение о том, что генеральная совокупность имеет
нормальное распределение или какое-то другое распределение. Единственное
предположение – распределение должно быть непрерывным.
2) Критерий знаков использует только знаки различий между двумя числами, а не
их количественную меру. Поэтому иногда его называют «ранговый критерий
проверки гипотез».
Пусть имеются две выборки одинакового объема n, и эти выборки ранжированы, т.е
значения в выборках расположены по мере возрастания:
x1<x2<…<xn и y1<y2<…<yn.
Введем разность ri= xi - yi. Будем исследовать величину разности ri. Если мы
найдем, что большинство пар значений (xi;yi) мало отличаются друг от друга, т.е.
значения ri окажутся достаточно малыми, то это позволит нам считать, что все xi и yi
меняются примерно одинаковым образом, т.е. выборки извлечены из одной и той же
генеральной совокупности (и в этом состоит суть утверждения, составляющего
содержание нулевой гипотезы). В противном случае следует считать выборки
извлеченными из разных генеральных совокупностей.
Конкретные формы задания нулевой и альтернативной гипотез могут быть
различными в зависимости от конкретной ситуации, рассматриваемой в задаче. Здесь
будет рассмотрено только два варианта задания нулевой гипотезы; об их содержании
будет сказано далее.
43
Исследуем знаки разностей
ri и найдем число положительных разностей
(положительное значение разности назовем успехом), т.е. найдем число успехов,
которое обозначим величиной k.
В случае справедливости нулевой гипотезы положительные и отрицательные
разности ri будут появляться с одинаковой вероятностью. Следовательно, задание
гипотезы H0 возможно в двух форматах, которые будут рассмотрены в этом разделе.
Первый вариант задания нулевой гипотезы:
р= Р(x-y>0)=Р(x-y<0)=q=1-p= 0.5;
Более компактный вариант задания нулевой гипотезы:
p= 0.5.
Второй вариант задания нулевой гипотезы:
xГ  y Г
Во втором случае предполагается проверить, равны ли друг другу генеральные
средние для двух генеральных совокупностей. Понятно, что приведенные варианты
формулировок нулевой гипотезы связаны между собой. В самом деле, если
генеральные средние равны, то число положительных разностей ri должно быть
примерно равно числу отрицательных разностей.
Для первого варианта задания нулевой гипотезы постановка задачи выглядит
следующим образом:
H0: p= 0.5;
H1: p ≠ 0.5.
Для второго варианта задания нулевой гипотезы постановка задачи такова:
H0: xГ  yГ
H1: x ≠y
Г
Г
(соответствует p = 0.5);
( xГ > y Г ;
xГ < y Г )
(соответствует p ≠ 0,5 или р<0,5, р>0,5).
44
Алгоритм реализации критерия знаков таков:
1.
Рассматривают серию из n испытаний; ранжируют две выборки xi, yi,
(i=1,2,…,n); анализируют разности ri=xi - yi; подсчитывают число положительных
разностей. Если разность ri окажется равной нулю, то ее исключают из рассмотрения.
Выясняют число положительных разностей - это число успехов k.
Замечание:
можно
было
бы
совершенно
аналогично
рассматривать
и
отрицательные разности.
2.
Для получения выводов используется критерий следующего вида:
1
W(n; k) = n
2
k
•
∑C
i
n
,
i= 0
который получен на основе биномиального закона распределения с вероятностью,
равной 0.5 (именно это значение вероятности заложено в нулевой гипотезе).
При справедливости гипотезы H0 наблюдаемое значение критерия Wнабл(n;k)
принимает естественные для этой случайной величины значения (не слишком большие
и не слишком маленькие).
Отметим, что W(n; 0)≈0 , а W(n; n)=1.
На основе свойств биномиальных коэффициентов для облегчения вычислений
целесообразно использовать равенство, уменьшающее количество вычислений:
W(n; k) = =1 – W(n; n-k-1).
Это равенство удобно использовать, когда k>n/2.
Замечание: Критерий
W(n;k) – это вероятность такого события: «Число успехов
наблюдалось от 0 до k раз», что соответствует такому утверждению: критерий W(n;k)это функция распределения случайной величины, подчиняющейся биномиальному
закону распределения, в котором значение вероятности равно 0.5.
3. Критические области определяются видом альтернативной гипотезы H1.
Рассмотрим три возможных вида альтернативной гипотезы:
a)
H1:
x Г ≠y Г .
45
В этом случае выстраивается двусторонняя критическая область. В критическую
область наблюдаемое значение критерия попадает тогда, когда положительных
разностей либо слишком много, либо слишком мало. Покажем возникающую в этом
случае ситуацию графически:
б)
H1:
В
xГ < y Г .
этом
случае
выстраивается
левосторонняя
критическая
область.
В
критическую область значение критерия попадает тогда, когда положительных
разностей мало (мало успехов):
в)
H1:
xГ > y Г .
В этом случае выстраивается правосторонняя
критическая
область. В
критическую область значение критерия попадает тогда, когда положительных
разностей
положительных
разностей
много
(много
успехов):
46
4.
Вычисление критерия W(n;k) проводят при малых выборках (n≤30). При
больших выборках (n>30) биномиальный закон распределения удобно заменить
стандартным нормальным законом распределения (вычисления на основе критерия
W(n;k) становятся очень громоздкими, в то время как применение стандартного
нормального закона распределения существенно упрощает вычисления), поэтому при
n>30 обычно вводят иной критерий, поскольку вычисления по нему существенно
упрощаются.
Этот критерий, который при справедливости гипотезы H0 может быть
приближенно описан стандартным нормальным законом распределения, определяется
t
формулой:
w p
p(1  p)
n
(в формуле p=0,5; w=k/n).
Рассмотрим пример на применение критерия знаков.
Пример:
Один хиромант утверждает, что он по линиям руки человека может
безошибочно указать год его рождения, не имея об этом человеке никакой
предварительной информации. С хиромантом было поставлено 11 экспериментов, и
результаты оказались следующими: + + - - + - + - + + + , где знак «+» ставился
тогда, когда хиромант давал правильный ответ, и знак «-», когда хиромант ошибался
(n=11, k=7). Проверить при помощи критерия знаков с уровнем значимости  = 0.05
справедливость утверждения хироманта.
Решение:
47
Постановка задачи:
Н0: p = 0.5
(вероятность правильного ответа равна 0.5, т.е. хиромант
в половине случаев дает правильный ответ, а в половине случаев ошибается; это
означает, что он не обладает способностью давать правильный ответ, используя руку
клиента);
Н1: p > 0.5
(вероятность правильного ответа более 0.5, т.е. хиромант
чаще дает правильный ответ, а ошибается реже; это означает, что он обладает
способностью считывать информацию с руки клиента и поэтому давать правильный
ответ).
В качестве критерия используем случайную величину вида:
1
W (n, k )  n
2
причем
удобно
в
данном
k
C
i 0
i
n ,
случае
воспользоваться
равенством
W(n; k) = =1 – W(n; n-k-1).
Вычислим наблюдаемое значение критерия (воспользуется тем, что 7>11/2),
тогда:
Wнабл (11;7 ) = 1 - Wнабл (11;3) = 1 -
(
1 3 i
∑ Cn =
11
2 i=0
)
1
0 + С1 + С 2 + С 3 =
С11
11
11
11
2048
1
232
(1 + 11 + 55 + 165) = 1 = 1≈ 0.887 ≈0.89
2048
2048
= 1-
Покажем полученный результат графически, используя горизонтальную ось, на
которой покажем границу правосторонней критической области и наблюдаемое
значение критерия:
48
Поскольку наблюдаемое значение критерия попало в область естественных
значений критерия, то нам следует принять справедливость нулевой гипотезы,
поскольку высказанное в ней утверждение не противоречит экспериментальным
данным (с уровнем доверия к этому высказыванию в 95%). Таким образом, несмотря на
то, что хиромант дал достаточно много правильных ответов, но их оказалось
недостаточно для того, чтобы признать справедливость его утверждения. Для того,
чтобы утверждение хироманта можно было считать справедливым, требуется большее
количество правильных ответов. Итак, на основе экспериментальных данных признаем
высказывание хироманта необоснованным.
Решим аналогичную задачу в ситуации, когда n становится большой величиной.
Пример:
Один хиромант утверждает, что он по линиям руки человека может
безошибочно указать год его рождения. С хиромантом было проведено 110
экспериментов, при этом им было дано 70 правильных ответов, остальные ответы
оказались неверными. Проверить при помощи критерия знаков с уровнем значимости
 = 0.05 справедливость утверждения хироманта.
Решение:
Постановка задачи:
Н0: p = 0.5 (в дальнейшем используется р0 =0.5);
Н1: p > 0.5.
49
Экспериментальные значения были получены такие: n=110, k=70.
Вычислим на основе экспериментальных данных выборочную долю:
w=
k
70
=
≈0.636
n 110
Вычислим наблюдаемое значение критерия критерий t , который при больших
объемах выборки ведет себя примерно как стандартная нормально распределенная
случайная величина:
w - p0
t=
p0 (1 - p0 )
n
0.636 - 0.5
→ t набл =
0.5(1 - 0.5)
110
≈ 2.83.
Так как n>30, то находим границу правосторонней критической области tкр п с
помощью
табличного
решения
уравнения,
в
котором
используется
интеграл
вероятностей (см. таблицу в Приложении):
P (tкр п < t < +∞) = 0,05 →P (tкр п < t < +∞) = Ф0 (+∞) - Ф0 (tкр п) =
=0,5 - Ф0(tкр п) = 0,95 → Ф0 (tкр п) = 0.45 → tкр п =1.65.
Покажем полученные результаты на графике плотности стандартного
нормального закона распределения:
φ(t)
γ=0.95
α=0.05
0
tкр п ≈1.65
tнабл.≈2.83
50
Поскольку наблюдаемое значение критерия попало
в область критических
значений случайной величины, то отвергаем нулевую гипотезу как противоречащую
экспериментальным данным и принимаем альтернативную гипотезу H1, т.е. можно
сказать, что хироманту действительно в основном удается правильно указывать возраст
своих клиентов.
Обратите внимание на то, что в этом примере значения n и k были увеличены в
10 раз так, чтобы доля правильных ответов хироманта сохранилась (осталась той же
самой, что и в первой задаче про хироманта). И если на основе малой выборки был
получен отрицательный ответ на утверждение хироманта о том, что он может считывать
информацию с руки клиента, то теперь, на основе большой выборки, получили
положительный ответ на утверждение хироманта. При малых выборках нужно иметь
очень сильное различие в правильных и ошибочных ответах хироманта для того, чтобы
признать
справедливой
альтернативную
гипотезу
о
возможности
считывать
информацию с руки. В случае больших выборок относительное различие в правильных
и ошибочных ответах хироманта может быть не столь существенным для такого
признания.
Рассмотрим еще один пример на использование критерия знаков.
Пример
(предложен студенткой факультета менеджмента ВШЭ Гибадуллиной А.):
Семья выбирает отель для отдыха на море. Друзья посоветовали им два отеля
разных категорий (4* и 5*), однако они утверждают, что на самом деле между
отелями нет
существенной разницы. На уровне значимости α=5% проверьте
справедливость утверждения, что между этими двумя отелями отсутствует
существенная разница. В таблице приведены оценки отелей по различным категориям,
выдвинутым для сравнения отелей (оценки даны в десятибалльной системе; 10 баллов
– максимальная оценка):
51
N
Категория сравнения
Оценки
Оценки
Знак разности
I отеля
II отеля
ri=xi-yi
xi
yi
1
Ранг (звезды)
4
5
-
2
Комфортабельность
10
10
0
3
Стоимость проживания
7
6
-
4
Питание
10
10
0
5
Размер отеля
8
9
-
6
Расстояние до моря
8
10
-
7
Чистота
10
10
0
8
Общее расположение
9
10
-
9
Развлечения для детей
10
9
+
10
Анимация
10
9
+
11
Персонал
10
10
0
12
Территория отеля
9
8
+
13
Бассейны
9
7
+
Решение:
исходные данные, полученные на основе таблицы:
а) число рассматриваемых для сравнения параметров равно 13;
б) число нулевых разностей равно 4, тогда величина n=13-4=9;
в) число положительных разностей равно k=4.
Постановка задачи:
H0:
xГ  y;Г
H1:
xГ < y Г .
52
Нулевая гипотеза означает, что усредненные оценки, поставленные первому и
второму отелю, примерно одинаковые, т.е. значимо не отличаются;
альтернативная гипотеза означает, что усредненная оценка второго отеля
несколько лучше, чем усредненная оценка первого отеля. Альтернативная гипотеза
введена на основе экспериментальных данных, она рождает правостороннюю
критическую область.
Поскольку выборка маленькая, то используем для решения задачи критерий
1
W (n, k )  n
2
k
C
i 0
i
n
Вычислим на основе имеющихся данных наблюдаемое значение критерия:
1 4 i 1 0
256
Wнабл (9;4) = 9 ∑C9 = 9 (C 9 + C91 + C92 + C93 + C94 ) =
= 0.5.
512
2 i=0
2
Изобразим полученные результаты графически:
Поскольку наблюдаемое значение критерия попало в область естественных для
данного распределения значений, то следует с уровнем значимости 5% принять
основную гипотезу H0 о том, что фактически нет существенных различий в оценках как
первого, так и второго отелей (Уровень доверия к данному утверждению составляет
95%).
53
Пример: Изучение воздействия рекламы
После воздействия рекламой на группу из 18 человек 5 человек не изменили своего
мнения, 9 человек изменили мнение в лучшую сторону, остальные – в худшую. С
помощью критерия знаков проверить нулевую гипотезу об отсутствии значимого
эффекта воздействия рекламы на аудиторию против альтернативы - «мнение
аудитории изменилось в лучшую сторону» - на 5% уровне значимости.
Решение:
Постановка задачи:
Н0: p = 0.5;
Н1: p > 0.5.
N=18→ n=18-5=13; k=9-количество положительных разностей.
Используем критерий W(n;k) для малых выборок:
1
W (n; k ) = n
2
k
•
∑C
i=0
1
= 1 - W (13;3) = 1 - 13
2
= 1-
→ Wнабл (13;9 ) = 1 - W (13;13 - 9 - 1) =
i
n
3
•
∑C
i=0
i
n
= 1-
1
( 0 1 2 3)
13 C13 + C 13 + C13 + C13 =
2
1
378
(1 + 13 + 78 + 286 ) = 1 ≈0.954.
8192
8192
Так как наблюдаемое значение критерия попало в критическую область, то
основную гипотезу отвергаем и принимаем, следовательно, конкурирующую гипотезу,
54
т.е. у нас есть основания
полагать, что реклама оказала значимое воздействие на
аудиторию. Однако ясно, что поскольку наблюдаемое значение критерия находится
очень близко к границе критической области, то вывод можно получить прямо
противоположный при уменьшении уровня значимости. В частности, если принять
 = 0.01, то наблюдаемое значение критерия окажется в области принятия нулевой
гипотезы, поэтому в этом случае надо будет сделать вывод о том, что справедлива
нулевая гипотеза – «реклама не оказала значимого воздействия на аудиторию». Если
наблюдаемое значение критерия оказывается вблизи границы критической области, то в
выводах после решения задачи целесообразно подчеркнуть возможность иного
(противоположного) ответа при тех или иных небольших изменениях в условии задачи.
Решим аналогичную задачу о воздействии рекламы на аудиторию в случае
большой выборки (n больше 30).
Пример:
Рекламному воздействию подвергли группу из 77 человек, при этом 10 человек не
изменили своего мнения, 42 человека изменили мнение в лучшую сторону, остальные – в
худшую. С уровнем значимости в 5% проверить нулевую гипотезу об отсутствии
значимого эффекта воздействия рекламы на аудиторию против альтернативы «реклама позитивно подействовала на аудиторию».
Решение:
Постановка задачи:
Н0: p = 0.5 (р0 =0.5);
Н1: p > 0.5.
N=77 → n=77-10=67; k=42 (количество положительных разностей); w=k/n.
Здесь используем другой критерий. При справедливости гипотезы Н0 критерий
t приближенно имеет стандартный нормальный закон распределения:
t=
w - p0
.
p0 (1 - p0 )
n
55
Вычислим наблюдаемое значение критерия:
w=
k 42
=
≈ 0.627;
n 67
p0 = 0.5;
t набл =
0.627 - 0.5
≈2.08.
0.5 • (1 - 0.5)
67
Найдем границу правосторонней критической области. Для этого используем
таблицу интеграла вероятности, приведенной в Приложении:
P (-∞ < t < t крп ) = γ = 0,95 → Ф0 (t крп ) - Ф0 (- ∞ ) = 0.95 →
→ Ф0 (t крп ) = 0.45 → t крп ≈1.65.
Результаты вычислений покажем графически, используя график плотности
стандартного нормального закона распределения:
φ(t)
γ=0.95
α=0.05
0 tкрп ≈1.65
tнабл.≈2.08
Из сравнения значений границы критической области и наблюдаемого значения
критерия следует отказаться от утверждения нулевой гипотезы и перейти к
утверждению, сформулированному в альтернативной гипотезе. Это значит, что на
основе экспериментальных значений можно сделать вывод о том, что реклама значимо
в лучшую сторону изменила мнение аудитории.
На этот закончим рассмотрение примеров методического пособия.
56
Приложение
Значения интеграла вероятностей
x
Ф0(x)
x
Ф0 (x)
x
Ф0(x)
x
Ф0(x)
x
Ф0(x)
x
Ф0(x)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
0,11
0,12
0,13
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
0,24
0,25
0,26
0,27
0,28
0,29
0,30
0,31
0,32
0,33
0,34
0,35
0,36
0,37
0,38
0,39
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
0,0000
0,0040
0,0080
0,0120
0,0160
0,0199
0,0239
0,0279
0,0319
0,0359
0,0398
0,0438
0,0478
0,0517
0,0557
0,0596
0,0636
0,0675
0,0714
0,0753
0,0793
0,0832
0,0871
0,0910
0,0948
0,0987
0,1026
0,1064
0,1103
0,1141
0,1179
0,1217
0,1255
0,1293
0,1331
0,1368
0,1406
0,1443
0,1480
0,1517
0,1554
0,1591
0,1628
0,1664
0,1700
0,1736
0,1772
0,1808
0,48
0,49
0,50
0,51
0,52
0,53
0,54
0,55
0,56
0,57
0,58
0,59
0,60
0,61
0,62
0,63
0,64
0,65
0,66
0,67
0,68
0,69
0,70
0,71
0,72
0,73
0,74
0,75
0,76
0,77
0,78
0,79
0,80
0,81
0,82
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,90
0,91
0,92
0,93
0,94
0,95
0,1844
0,1879
0,1915
0,1950
0,1985
0,2019
0,2054
0,2088
0,2123
0,2157
0,2190
0,2224
0,2257
0,2291
0,2324
0,2357
0,2389
0,2422
0,2454
0,2486
0,2517
0,2549
0,2580
0,2611
0,2642
0,2673
0,2703
0,2734
0,2764
0,2794
0,2823
0,2852
0,2881
0,2910
0,2939
0,2967
0,2995
0,3023
0,3051
0,3078
0,3106
0,3133
0,3159
0,3186
0,3212
0,3238
0,3264
0,3289
0,96
0,97
0,98
0,99
1,00
1,01
1,02
1,03
1,04
1,05
1,06
1,07
1,08
1,09
1,10
1,11
1,12
1,13
1,14
1,15
1,16
1,17
1,18
1,19
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30
1,31
1,32
1,33
1,34
1,35
1,36
1,37
1,38
1,39
1,40
1,41
1,42
1,43
0,3315
0,3340
0,3365
0,3389
0,3413
0,3438
0,3461
0,3485
0,3508
0,3531
0,3554
0,3577
0,3599
0,3621
0,3643
0,3665
0,3686
0,3708
0,3729
0,3749
0,3770
0,3790
0,3810
0,3830
0,3849
0,3869
0,3883
0,3907
0,3925
0,3944
0,3962
0,3980
0,3997
0,4015
0,4032
0,4049
0,4066
0,4082
0,4099
0,4115
0,4131
0,4147
0,4162
0,4177
0,4192
0,4207
0,4222
0,4236
1,44
1,45
1,46
1,47
1,48
1,49
1,50
1,51
1,52
1,53
1,54
1,55
1,56
1,57
1.58
1,59
1,60
1,61
1,62
1,63
1,64
1,65
1,66
1,67
1,68
1,69
1,70
1,71
1,72
1,73
1,74
1,75
1,76
1,77
1,78
1,79
1,80
1,81
1,82
1,83
1,84
1,85
1,86
1,87
1,88
1,89
1,90
1,91
0,4251
0,4265
0,4279
0,4292
0,4306
0,4319
0,4332
0,4345
0,4357
0,4370
0,4382
0,4394
0,4406
0,4418
0,4429
0,4441
0,4452
0,4463
0,4474
0,4484
0,4495
0,4505
0,4515
0,4525
0,4535
0,4545
0,4554
0,4564
0,4573
0,4582
0,4591
0,4599
0,4608
0,4616
0,4625
0,4633
0,4641
0,4649
0,4656
0,4664
0,4671
0,4678
0,4686
0,4693
0,4699
0,4706
0,4713
0,4719
1,92
1,93
1,94
1,95
1,96
1,97
1,98
1,99
2,00
2,02
2,04
2,06
2,08
2,10
2,12
2,14
2,16
2,18
2,20
2,22
2,24
2,26
2,28
2,30
2,32
2,34
2,36
2,38
2,40
2,42
2,44
2,46
2,48
2,50
2,52
2,54
2,56
2,58
2,60
2,62
2,64
2,66
2,68
2,70
2,72
2,74
2,76
2,78
0,4726
0,4732
0,4738
0,4744
0,4750
0,4756
0,4761
0,4767
0,4772
0,4783
0,4793
0,4803
0,4812
0,4821
0,4830
0,4838
0,4846
0,4854
0,4861
0,4868
0,4875
0,4881
0,4887
0,4893
0,4898
0,4904
0,4909
0,4913
0,4918
0,4922
0,4927
0,4931
0,4934
0,4938
0,4941
0,4945
0,4948
0,4951
0,4953
0,4956
0,4959
0,4961
0,4963
0,4965
0,4967
0,4969
0,4971
0,4973
2,80
2,82
2,84
2,86
2,88
2,90
2,92
2,94
2,96
2,98
3,00
3,20
3,40
3,60
3,80
4,00
4,50
5,00
0,4974
0,4976
0,4977
0,4979
0,4980
0,4981
0,4982
0,4984
0,4985
0,4986
0,49865
0,49931
0,49966
0,499841
0,499928
0,499968
0,499997
0,499997
57
Критические точки распределения Стьюдента
Число
степеней
свободы k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
Число
степеней
свободы k
Уровень значимости α
(двусторонняя критическая область)
0,10
0,05
0,02
0,01
0,002
0,001
6,31
2,92
2,35
2,13
2,01
1,94
1,89
1,86
1,83
1,81
1,80
1,78
1,77
1,76
1,75
1,75
1,74
1,73
1,73
1,73
1,72
1,72
1,71
1,71
1,71
1,71
1,71
1,70
1,70
1,70
1,68
1,67
1,66
0,05
12,7
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
2,28
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
2,08
2,07
2,07
2,06
2,06
2,06
2,05
2,05
2,05
2,04
2,02
2,00
1,98
0,025
31,82
6,97
4,54
3,75
3,37
3,14
3,00
2,90
2,82
2,76
2,72
2,68
2,65
2,62
2,60
2,58
2,57
2,55
2,54
2,53
2,52
2,51
2,50
2,49
2,49
2,48
2,47
2,46
2,46
2,46
2,42
2,39
2,36
0,01
63,7
9,92
5,84
4,00
4,03
3,71
3,50
3,36
3,25
3,17
3,11
3,05
3,01
2,98
2,95
2,92
2,90
2,88
2,86
2,85
2,83
2,82
2,81
2,80
2,79
2,78
2,77
2,76
2,76
2,75
2,70
2,66
2,62
0,005
318,3
22,33
10,22
7,17
5,89
5,21
4,79
4,50
4,30
4,14
4,03
3,93
3,85
3,79
3,73
3,69
3,65
3,61
3,58
3,55
3,53
3,51
3,49
3,47
3,45
3,44
3,42
3,40
3,40
3,39
3,31
3,23
3,17
0,001
637,0
31,6
12,9
8,61
6,86
5,96
5,40
5,04
4,70
4,59
4,44
4,32
4,22
4,14
4,07
4,01
3,96
3,92
3,88
3,85
3,82
3,79
3,77
3,74
3,72
3,71
3,69
3,66
3,66
3,65
3,55
3,46
3,37
0,0005
Уровень значимости α
(односторонняя критическая область)
58
Критические точки распределения
(или распределения Пирсона)
Число
степеней
свободы k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Уровень значимости α
0,01
6,6
9,2
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2
24,7
26,2
27,7
29,1
30,6
32,0
33,4
34,8
36,2
37,6
38,9
40,3
41,6
43,0
44,3
45,6
47,0
48,3
49,6
50,9
0,025
5,0
7,4
9,4
11,1
12,8
14,4
16,0
17,5
19,0
20,5
21,9
23,3
24,7
26,1
27,5
28,8
30,2
31,5
32,9
34,2
35,5
36,8
38,1
39,4
40,6
41,9
43,2
44,5
45,7
47,0
0,05
3,8
6,0
7,8
9,5
11,1
12,6
14,1
15,5
16,9
18,3
19,7
21,0
22,4
23,7
25,0
26,3
27,6
28,9
30,1
31,4
32,7
33,9
35,2
36,4
37,7
38,9
40,1
41,3
42,6
43,8
0,95
0,0039
0,103
0,352
0,711
1,15
1,64
2,17
2,73
3,33
3,94
4,57
5,23
5,89
6,57
7,26
7,96
8,67
9,39
10,1
10,9
11,6
12,3
13,1
13,8
14,6
15,4
16,2
16,9
17,7
18,5
0,975
0,00098
0,051
0,216
0,484
0,831
1,24
1,69
2,18
2,70
3,25
3,82
4,40
5,01
5,63
6,26
6,91
7,56
8,23
8,91
9,59
10,3
11,0
11,7
12,4
13,1
13,8
14,6
15,3
16,0
16,8
0,99
0,00016
0,020
0,115
0,297
0,554
0,872
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
8,90
9,54
10,2
10,9
11,5
12,2
12,9
13,6
14,3
15,0
59
Литература
1. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.:
ЮНИТИ, 2000.
2. Колемаев В.А., Калинина В.Н. Теория вероятностей и математическая
статистика. М.: ЮНИТИ, 2003.
3. Ниворожкина Л.И., Морозова З.А. Математическая статистика с элементами
теории вероятностей в задачах с решениями. М.- Ростов-на–Дону: МАРТ,
2005.
4. Фадеева Л.Н., Лебедев А.В. Теория вероятностей и математическая
статистика. М.: ЭКСПО, 2010.
5. Айвазян С.А., Мхитарян В.С. Прикладная статистика в задачах и
упражнениях. М.: ЮНИТИ, 2001.
6. Гмурман В.Е. Теория вероятностей и математическая статистика. 9-е издание,
стереотип. М.: Высшая школа, 2008.
7. Наследов А.Д. Математические методы психологического исследования.
Анализ и интерпретация данных. СПб.: Речь, 2007.
8. Сидоренко Е.В. Методы математической обработки в психологии. СПб.:
Речь, 2007.
60
Download