Тестирование гипотез

Занятие 2 Тестирование гипотез в статистике. Критерии Стьюдента Три основные концепции в анализе данных: 1. Что такое РАСПРЕДЕЛЕНИЕ переменной и как его описывать 2. Что такое распределение ВЫБОРОЧНЫХ СРЕДНИХ и как оно связано с распределением переменной 3. Что такое СТАТИСТИКА КРИТЕРИЯ Описательная статистика (descriptive statistics): ОПИСЫВАЕМ ВЫБОРКУ на основе свойств частотного распределения. «Количественный результат» Индуктивная статистика (inferential statistics): на основе свойств выборки (параметров выборки) делаем заключения о СВОЙСТВАХ ПОПУЛЯЦИИ. «Качественный результат» выборка популяция (генеральная совокупность) Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…). Тестирование гипотезы (hypothesis testing) – – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject). Предполагается, что мы формулируем гипотезу ДО сбора данных. Пример: Мы хотим знать, являются ли студенты МГУ случайной выборкой из популяции с IQ μ=100. ? Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть. Тестирование гипотез в статистике Очевидно, ДА Различия неочевидны Очевидно, НЕТ Тестирование гипотез в статистике Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о самой выборке легко проверить без статистики). Опровергнуть гипотезу в принципе легче, чем подтвердить (пример с IQ=100,2). Формулируем ДВЕ взаимоисключающие гипотезы: H0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений… H1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H0 . Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic). Тестирование гипотез в статистике Пример. Мы хотим узнать, отличается ли средняя масса землероек в особом Заповеднике для землероек от массы землероек, указанной в «Mammalian species» - 90 г? H0: μ = 90 г; H1 : μ ≠ 90 г μ – среднее в популяции землероек из Заповедника, которая, как мы думаем, отличается от 90 г Тестирование гипотез в статистике Заметим, что мы могли поставить вопрос по-другому – мы на глаз уверены в том, что в заповеднике зверьки крупные (т.е., их средняя масса не меньше 90 г). Но весят ли они больше 90 г? Двусторонняя альтернатива (two-tailed hypothesis) H0: μ = 90 г; H1 : μ ≠ 90 г Односторонняя альтернатива (one-tailed hypothesis) H0: μ ≤ 90 г; H1 : μ > 90 г Тестирование гипотез в статистике Истинное (но неизвестное нам) положение дел Верна H0 Мы «приняли» H0 Мы отвергли H0 ПРАВИЛЬНО! 1-α (чувствительность критерия) Верна H1 β ОШИБКА 2-го рода ПРАВИЛЬНО! ОШИБКА 1-го рода (уровень (мощность значимости) α 1-β критерия) Заметим: ошибку 1-го рода можно сделать только отвергая Н0, а ошибку 2-го рода – только «принимая» Н0 (нельзя сделать одновременно обе ошибки). Тестирование гипотез в статистике ОШИБКА 1 рода: вероятность найти различия, где их нет. (Землеройки в Заповеднике всё равно весят 90 г в среднем. Но нам показалось, глядя на выборку, что они отличаются от остальных). Это – нездоровые сенсации, которые могут принести большой вред. ОШИБКА 2 рода: вероятность не увидеть различий, где они есть. (На самом деле землеройки в заповеднике гораздо жирнее. Но мы были слишком строги к себе и посчитали, что этих различий недостаточно.) Это «близорукость», или «слепота» критерия, вред от неё не очень большой. Её контролировать мы не можем*. * Ошибку 2-го рода можно минимизировать корректным подбором статистической процедуры Тестирование гипотез в статистике Ошибка 1-го рода (уровень значимости α): Мы можем её КОНТРОЛИРОВАТЬ, например, можем задать минимальное различие между средними значениями, меньше которого, мы будем считать, что их нет, а больше - есть А задать такое расстояние нам помогают свойства нормального распределения (и его площади), см. занятие 1. Обычно принимают α = 0.05. Мощность (Power): Вероятность НАЙТИ различия, когда они ЕСТЬ, что сродни мощности микроскопа. Пример с судом или с шизофренией Тестирование гипотез в статистике Итак, позволяют ли наши данные отвергнуть Н0? Это мы решаем на основе СТАТИСТИКИ КРИТЕРИЯ (test statistic). Понятие точечной оценки параметров популяции через параметры выборки (μ через Х, σ через s). Статистика критерия рассчитывается на основе параметров ВЫБОРКИ, и её распределение известно (и соотношение площадей под ним). Тестирование гипотез в статистике Общий принцип формирования статистики критерия: параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки Параметр популяции – определяется гипотезой Н0. Параметр выборки – оценка этого параметра. Стандартная ошибка этого параметра выборки. Она определяет, насколько большими могут быть СЛУЧАЙНЫЕ отличия между параметром выборки и популяции. Статистики критериев: z, t, F, U, χ2… Одновыборочные критерии сравнивающие среднее значение с заданным числом. Мы хотим узнать, отличается ли средняя масса землероек в Заповеднике от массы землероек = 90 г. Мы знаем, что μ=90, σ=20; собираемся поймать 25 зверьков. 1. Формулируем Н0 и Н1 : H 0 :   90 H1 :   90 Рисуем 3 распределения: • просто масса землероек этого вида со средним=90 г. • распределение выборочных средних для выборок N=25 • распределение статистики критерия z Одновыборочные критерии сравнивающие среднее значение с заданным числом. параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки разность выборочного среднего и популяционного z ошибка среднего X  X Всё это мы производим ДО взвешивания землероек! Это пока распределения возможных результатов взвешивания Одновыборочные критерии сравнивающие среднее значение с заданным числом. 2. Устанавливаем условия, при которых мы отвергнем Н0 α = 0.05 Критическое значение – начало критической области (rejection region) 3. Считаем реальные иz X Одновыборочные критерии сравнивающие среднее значение с заданным числом. 4. Интерпретируем результаты Мы не отвергаем Н0, т.е., мы не нашли достоверных различий по массе между землеройками. В статьях приводят точное р-значение (оно означает, что Н0 будет отвергнуто при любом α , большем, чем это р) d – effect size index. Одновыборочные критерии сравнивающие среднее значение с заданным числом. Односторонняя альтернатива (one-tailed hypothesis) H0: μ ≤ 90 г; H1 : μ > 90 г Мы отвергаем Н0, т.е., масса землероек в заповеднике достоверно (с уровнем значимости 0.05) отличается от 90 г. Общая схема тестирования гипотезы: 1. Формулируем Н0 и Н1. Строим распределения такие, как будто Н0 верна: • • • распределение исследуемой переменной; распределение параметра выборки; распределение статистики критерия. 2. Устанавливаем условия, при которых мы отвергнем Н0 – это делает определяем: • • • уровень значимости; односторонний или двусторонний будет тест; критическое значение статистики критерия. человек, а не компьютер 3. Считаем параметр выборки и статистику критерия для реальной выборки, сравниваем их с критическими значениями. 4. Интерпретируем результаты: • • Можем ли мы отвергнуть Н0? Т.е., достоверны ли результаты статистически? Если да, достоверны ли они ПРАКТИЧЕСКИ? Тестирование гипотез в статистике Хорошая практика при изложении результатов в публикации – Приводить точную оценку вероятности ошибки 1-го рода p (например, р=0.025, р=0.0001). Тогда читатель может сам выбирать уровень значимости. * - достоверные различия – р<0.05 ** - высокодостоверные различия - р<0.01 *** - р<0.001 Если вероятность ошибки близка к α, лучше всего провести дополнительные исследования и не делать окончательных выводов (Zar, 2010) Одновыборочные критерии сравнивающие среднее значение с заданным числом. Одновыборочный t-критерий (в случае, если дисперсия в популяции неизвестна) Превышает ли масса землероек в заповеднике 90г? Мы знаем, что μ=90, но не знаем σ ; исследовали 25 зверьков. Формулируем Н0 и Н1, создаём распределения выборочных средних и статистики критерия - t H 0 :   90 H1 :   90 William Sealy Gosset (1876–1937) = “Student” Одновыборочные критерии сравнивающие среднее значение с заданным числом. Статистика = параметр выборки – параметр популяции стандартная ошибка параметра выборки разность выборочного среднего и популяционного ошибка среднего X  t sX s s X  SE  n df = n-1 Мы не отвергаем Н0! (Критическое значение t превышает критическое значение z). Одновыборочные критерии сравнивающие среднее значение с заданным числом. На основе критического значения t (или другой статистики критерия) можно определить 95% доверительный интервал для популяционного параметра (в данном случае, для среднего значения μ). Его середина – выборочное среднее.   X  z   X    X  t  s X  с вероятностью 95% Про нулевое значение, обрезающее распределение Одновыборочный t-критерий В данном случае нам пришлось отвергнуть гипотезу о том, что масса тела у землероек = 90г. Одновыборочные критерии сравнивающие среднее значение с заданным числом. Как приводить среднее значение в статье? Какой параметр разброса использовать? • цель – описать популяцию (показать изменчивость в ней): X  SD выборочное среднее (стандартное отклонение); • цель – показать точность оценки популяционного среднего μ: X  SE X  95%CI Среднее±2SE не рекомендуется. Важно везде указывать: •N (чтобы читатель при желании мог перевести SD в SE и обратно); • какой показатель разброса используется (особенно в таблицах). Для распределений, отличных от нормального, лучше приводить медиану и межквартильный размах как показатели центра распределения и разброса в нём. Одновыборочные критерии проверяют гипотезы относительно: Медианы Дисперсии Коэффициента вариации Симметрии Эксцесса Двухвыборочные критерии. Сравнение между собой средних значений 2-х выборок Зависимая переменная – собственно та, которая нас интересует (dependent variable). Независимая – определяет нахождение в той или иной группе. В статистике – grouping variable. Двухвыборочные критерии. Различаются ли по массе тигры-самцы и тигры-самки в зоопарке? Сравниваем средние массы наших зверьков. Мы анализируем влияние пола на массу тигров. Зависимая переменная – масса. Независимая (группирующая) – пол (группы: 1. самцы; 2. самки) самец самка Двухвыборочные критерии. Критерий Стьюдента для независимых выборок (t-test for independent samples) Общий вопрос: получены ли выборки из одной популяции? Частный вопрос: равны ли средние значения между собой? H 0 : 1  2 H1 : 1  2 1. Размеры выборок могут отличаться 2. Выборки должны иметь нормальное распределение, и их дисперсии должны быть равны. 3. Ограничение на размер выборки: N ≥ 10 в каждой группе. 4. Критерий может быть односторонним и двусторонним Двухвыборочные критерии. От чего будет зависеть, отвергнем ли мы гипотезу Н0 или нет? 1. Непосредственно от различий в средних значениях; 2. От изменчивости в обеих группах; 3. От размера выборок. Двухвыборочные критерии. параметр выборки – параметр популяции Статистика = стандартная ошибка параметра выборки H 0 : 1  2 H1 : 1  2 H 0 : 1   2  0 ( X 1  X 2 )  ( 1   2 ) X 1  X 2 t  s X1  X 2 s X1  X 2 df  n1  n2  2 разность выборочных средних ошибка Ошибка считается из средних квадратов стандартных отклонений в выборках Основное распределение - t-распределение (Стьюдента) * Это статистика для двустороннего критерия Двухвыборочные критерии. Стандартная ошибка РАЗНОСТИ между средними s X1  X 2 s X1  X 2  Взвешенная по размерам выборок средняя дисперсия s 2 pooled n1  s 2 pooled n2 Идея в том, что стандартная ошибка разности средних определяется дисперсиями в обеих выборках и размерами этих выборок Показать картинку с распределениями Двухвыборочные критерии. Группы классифицированы по одному признаку – действующий фактор один t-test for independent samples Двухвыборочные критерии. Итак, 1. В соответствии с уровнем значимости 0.05 отвергаем Н0; 2. Однако, гипотеза о равенстве дисперсий в выборках тоже отвергнута; 3. Поскольку размеры выборок одинаковы, и всем остальным требованиям выборки удовлетворяют, мы можем этим фактом пренебречь (!); Средняя масса тигров-самцов и тигров-самок неодинакова. 4. Для разрешения всех сомнений можно воспользоваться непараметрической статистикой. Двухвыборочные критерии. Что ещё можно сравнить у 2-х выборок:  Медианы (занятие 6)  Дисперсии  Индексы разнообразия! (занятие 6) Двухвыборочные критерии. Критерий Стъюдента для связанных выборок (t-test for dependent samples) К тиграм-самцам пришёл новый служитель, и возможно, они стали по-другому питаться. Мы хотим узнать, не изменилась ли их масса. Мы анализируем влияние служителя на массу тигров-самцов. Зависимая переменная – масса. Независимая – группы: 1. до нового служителя; 2. после) Пример с левой и правой ногами Двухвыборочные критерии. Каждый тигр два раза участвует в наблюдениях: он входит в обе группы. ДО ПОСЛЕ Di  X i1  X i 2 1 тигр 356 363 Таких D столько, сколько пар. 2 тигр 351 361 У них есть среднее. 3 тигр 353 358 4 тигр 355 356 H 0 :  D  0 Идентично одновыборочному 5 тигр 354 359 H :   0 t-критерию! 1 D 6 тигр 355 355 Статистика: D  D t sD D t sD Тест может быть односторонним и двусторонним df  n  1 Двухвыборочные критерии. t-test for dependent samples Двухвыборочные критерии. Отвергаем Н0: Масса тигров в среднем достоверно увеличилась после прихода нового служителя. Двухвыборочные критерии. В принципе, можно использовать тест для независимых выборок и для связанных выборок. Но мы рискуем не увидеть существующих различий, особенно при большой изменчивости в выборках! Тесты для связанных выборок как раз для того и существуют, чтобы исключить из анализа внутригрупповую изменчивость. Задания 1. охарактеризовать распределения:       Длины травинок на только что покошенном газоне Массы детёнышей при рождении Массы всех зверьков в популяции Размера выводков в популяции Длины картошинок-фри в Мак-Дональдсе принадлежности учеников в школе к классам 2. В институте каждый год проводят экзамен по статистике, и средний результат = 81 балл. Преподаватель решил удвоить количество домашних заданий и посмотреть, повлияло ли это на знания учеников на экзамене.    Какими будут нулевая и альтернативная гипотезы? Альтернатива в тесте односторонняя или двусторонняя? Предположим, учитель проводит статистический анализ и отвергает нулевую гипотезу. Возможна ли при этом ошибка 1-го рода? 2-го рода? Что будут представлять из себя эти ошибки в данном случае? 2. Д-р Симонс решил узнать, как утренняя зарядка влияет на самочувствие людей. Он померил ЧСС у 52 человек и заставил их 8 недель каждое утро делать зарядку, после чего померил ЧСС вновь. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа? 3. зоолог обнаружил две изолированные популяции белок – северную и южную. Ему кажется, что в северной популяции белки крупнее (различается их масса). Он хочет проверить своё предположение статистически. Какими будут нулевая и альтернативная гипотезы? Какой статистический тест доктор будет использовать для анализа?

Тестирование гипотез

Related documents

Products

Support

Тестирование гипотез

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib