Лекция 4. Анализ качественных признаков

Биостатистика 4. Анализ качественных признаков Рубанович А.В. Институт общей генетики им. Н.И. Вавилова РАН Чем мы занимались на предыдущем занятии?  В основном методами сравнения показателей, характеризующих распределения количественных признаков  Мы припомнили, что такое тест Стьюдента и каких случаях его можно использовать  Познакомились с дисперсионным анализом – методом одновременного сравнения нескольких выборок  Узнали, как обрабатывать данные, распределение которых существенно «ненормально»  Поговорили о том, как следует осмысливать и преподносить незначимые результаты Качественные признаки Будет правильно, если вы скажите – мы этим уже занимались! Сравнение частот, таблицы 2х2, точный тест Фишера и все такое. Но то было сравнение 2 частот. А как сравнивать несколько пар частот? Например, распределения генотипов при различных вариантах скрещиваний – наблюдаемые и ожидаемые исходя из законов Менделя? Или как сравнить в целом видовой состав в двух регионах? Или частоты встречаемости блондинов, брюнетов, шатенов и т.д. для 2 этносов Во всех этих случаях речь идет либо о сравнении двух выборочных распределений, либо о сравнении наблюдаемого распределения с теоретически ожидаемым Для решении этих задач разработаны тесты, называемые критериями согласия Критерий 2 Соответствие наблюдаемых численностей ожидаемым частотам Класс Наблюдаемая численность Ожидаемая численность 1 n1 p1 N 2 n2 p2 N … … … k nk pk N Всего N N Вычисляется сумма 2 ( Н  О ) 2   О 2 ( n  p N ) 2   i i pi N i 1 k т.е. В 1900 г. Карл (Charles) Пирсон вычислил распределение этой величины: Оказалось, что 2 распределен как сумма 2 2 2 2 квадратов независимых случайных величин: 1   2  ...   k 1 ~  где все i - нормальны k -1– число степеней свободы Если величина 2 достаточно велика, то гипотеза о совпадении наблюдаемых и ожидаемых численностях отвергается. Насколько велика скажет Excel: 0.05 =ХИ2РАСП(3.84;1) Критерий 2 Распределение 2 при различных k Площадь = 0.05 3.84 0.05 =ХИ2РАСП(3.84;1) Упражняемся …  В выборке 100 человек имеем 44 мужчины и 56 женщин. Есть ли значимое отклонение от 1:1 ? 2 2 ( 44  50 ) ( 56  50 ) Вычисляем величину  2    1.44 50 50 0.23 =ХИ2РАСП(1.44;1) Вывод: нулевая гипотеза не отвергается. Мужчины и женщины представлены в этой выборке в соотношении 1:1. Вероятность наблюдать такие и еще более сильные отклонения равна 0.23 Подобное мы уже считали на 1-ом занятии: 0.135 =БИНОМРАСП(44;100;0,5;2)  Соответствие распределению Харди–Вайнберга – не обходится без 2 Соответствие распределению Харди - Вайнберга Как правило для популяционных частот генотипов АА, аА, аа соблюдается соотношение Харди–Вайнберга (а2также и 2многих других). pq  Кастла 2 p 2q Закон настолько прост, что его открывали для себя многие, но стеснялись публиковать. Я запишу это соотношение в виде: PaA  2 Paa PAA и то же самое для численностей: naA  2 naa n AA Т.е. не бывает: [100, 100, 100] , а лишь, например, [50, 100, 50] Класс АА аА аа Всего Наблюдаемая численность nАА nаА nаа N Ожидаемая частота р2 2pq q2 1 где p 1 1 n2  n2 n2 2 2 q , N N p  q 1 n1  Упражняемся … условие Важное применимости 2 : Для учебного файла определим частоты генотипов по локусу все ожидаемые > 5GSTP1 Класс АА аА аа Всего Наблюдаемая численность 46 42 11 99 Ожидаемая численность 45.3 43.3 10.4 99 0.76 (Н-О)2/О 0.0095 0.0398 0.0417 0.091 =ХИ2РАСП(0.091; 1) Вывод: нулевая гипотеза не отвергается. Частоты генотипов соответствует Число степеней свободы 1, а не 2. Этонаблюдать потому, что мы и еще более распределению Харди-Вайнберга. Вероятность такие вычисляли ожидаемые через сильные отклонения равна 0.76 наблюдаемые Что означают серьезные отклонения от Харди – Вайнберга?  Основная причина выполнения закона Харди-Вайнберга – панмиксия (случайность скрещиваний). Например, существенные отклонения от ХВ возможны в популяциях растений с частичным самоопылением  В принципе причинами отклонений от ХВ могут быть - близкородственные скрещивания - подразделенность популяции - генетический дрейф - отбор  Но самая реальная причина – ошибки генотипирования Проверяйте ХВ, чтобы убедиться в том, что ваши праймеры работают правильно Критерий 2 и таблицы сопряженности Тест 2 можно использовать для проверки независимости качественных признаков. Например бинарных (да - нет) Вероятности независимых событий перемножаются. Поэтому, если признак А не сопряжен (не связан) с признаком В, то таблица сопряженности этих признаков принимает вид: Признак А есть Признака А нет B _ B A _ A p A pB p_A pB p A p_B p_A p_B Это и есть ожидаемые частоты при условии, что признаки А и В никак не связаны Теперь их можно сравнить с реально наблюдаемым распределением, используя 2 Критерий 2 и таблицы сопряженности Как это делается практически? B _ B A _ A 50 30 20 100 Наблюдаемые Вычисляем: B _ B A _ A 5600 10400 8400 15600 Делим на 200 (сумма по 4 клеткам) _ A A Ожидаемые B 28 52 _ B 42 78 В 2общем случае: 2 (50  28) (30  52) (20  42 ) (100  78)строк-1) 2 (число столбцов-1)(число       44.3 2 28 2 52 А что скажет по этому поводу точный тест Фишерf? 42 2,810-3 2,510-5 78 =ХИ2РАСП(44,3; 1) Критерий 2 и таблицы сопряженности Все это можно делать, используя Критерий 2 и таблицы сопряженности Это все были таблицы Напомню:2х2. во всех численности Для признаков с более, чем 2 клетках значениями, все тоже самое должны быть > 5 Наблюдаемые: n23 n*3 Ожидаемые: n2* n*3 n2* N 2 ( Н  О ) 2   О Число степеней свободы = (число столбцов-1)(число строк-1) =ХИ2РАСП(2; Число ст. свободы) Кстати точный тест Фишера считается только для 2х2, и поэтому только и остается, что использовать 2 Критерий 2 и таблицы сопряженности Ассоциация заболевания с полиморфизмом гена GSTP1 Таблица сопряженности 2х3 GSTP1 A313G 90 A/A Relative frequency (%) 80 A/G 70 G/G 60 50 40 30 20 10 0 0 1 Болезнь Критерий 2: проверка однородности данных В практике экспериментатора постоянно возникает вопрос о возможности объедания выборок  Данные мониторинга популяций, полученные в различные годы  Данные по частотам генов в нескольких выборках в пределах одно локальности  Сравнение частот аберраций для экспонированных и контрольных популяций: можно ли объединять данные для различных особей Объедание выборок возможно лишь при условии однородности данных. В случае таблиц сопряженности на однородность указывает низкий 2 (соответствующее р > 0.1) При работе с неоднородными данными возникают невероятные ситуации! Проверка однородности материала Метод, эквивалентный 2 n p N i Можно ли объединить k независимых выборок и оценить частоту как i i i Число клеток Число аберраций Частота N1 n1 p1 N2 n2 p2 …. …. …. Nk nk pk Выборки можно объединять, если  N ( p  p) i i i p 2  2k т. н. индекс рассеяния для биномиальных выборок На сегодня это все Напоследок хочу посоветовать:  Прикиньте с помощью 2 – соотношение мальчиков и девочек в вашей группе отличается значимо от 1:1 ?  Классифицируйте своих знакомых на 4 группы: богатый щедрый, богатый скупой, бедный щедрый, бедный скупой. Постройте таблицу 2х2 и таблицу ожидаемых численностей всех групп. Посчитайте 2 . Как по вашим данным связаны достаток и скупость? Не совсем шутка!

Лекция 4. Анализ качественных признаков

Related documents

Products

Support

Лекция 4. Анализ качественных признаков

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib