Лекция 5. Статистика в биологии

advertisement
Статистика в биологии
Тесты и критерии, работа с выборками. Возникновение и учет статистических
ошибок. Работа с большими массивами
данных и понятие о false positives при
использовании алгоритмов идентификации. Биологический эксперимент.
• N пациентов из общего числа M
• N бактерий из общего числа M
• N молекул из общего числа M
Всегда осуществляется работа с
выборками из совокупности
Размер выборки
•
•
•
•
Генеральная совокупность
Выборка ‐ всегда больше 30
Доверительная вероятность (95%)
Ошибка выборки – интервал (%) в который
с заданной вероятностью накрывает
заданное значение
http://www.fdfgroup.ru/?id=189
Формулы )))
Sample
statistic
Population
size
Sample size
Mean
Known
n = { z2 * σ2 * [ N / (N ‐ 1) ] } / { ME2 + [ z2 * σ2 / (N ‐ 1) ] }
Mean
Unknown
n = ( z2 * σ2 ) / ME2
Known
n = [ ( z2 * p * q ) + ME2 ] / [ ME2 + z2 * p * q / N ]
Unknown
n = [ ( z2 * p * q ) + ME2 ] / ( ME2 )
Proportion
Proportion
margin of error ME – ошибка выборки
alpha is: 1 ‐ Confidence level. (Доверительная вероятность) (z) is the value for which the cumulative probability is 1 ‐ alpha/2
http://stattrek.com/Lesson6/SampleSize.aspx
Вероятностные выборки
•
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной
совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как
правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому‐либо
признаку (алфавитный порядок, номер телефона, дата рождения и
т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’
отбирается каждый ‘k’‐ый элемент. Размер генеральной
совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой
страте отбор осуществляется случайным или механическим образом.
Невероятностные выборки
•
Отбор в такой выборке осуществляется не по принципам случайности, а по
субъективным критериям – доступности, типичности, равного
представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов. Для каждой
группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в
генеральной совокупности, либо одинаковым для каждой группы. Внутри
групп объекты отбираются произвольно. Квотные выборки используются в
маркетинговых исследованиях достаточно часто.
2.2 Стихийная выборка
Наиболее доступные – случайные объекты – параметры отношения такой
выборки к генеральной совокупности неизвестны.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним
(типичным) значением признака. При этом возникает проблема выбора
признака и определения его типичного значения.
Распределение
• Нормальное распределение – характерно
для биологии – рост, вес, ошибки
измерения – следствие Ц.П.Т.
Характеристики нормального распределения
Primer of BIOSTATISTICS FOURTH EDITION Stanton A.GIantz, Ph.D. НЕ нормальное распределение
Сравнение нескольких групп: дисперсионный анализ
• Критерий Стьюдента ТОЛЬКО для 2х
групп!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Выборки из нормального
распределения
Наблюдаемые распределения
Правильные данные
Дисперсионная оценка
Критерий Стьюдента
• Двухвыборочный t‐критерий для независимых выборок
• В случае с незначительно отличающимся размером
выборки применяется упрощённая формула
приближенных расчётов:
• В случае, если размер выборки отличается значительно, применяется более сложная и точная формула:
• Где M1,M2 ‐ средние арифметические, σ1,σ2 ‐
стандартные отклонения, а N1,N2 ‐ размеры выборок.
http://ru.wikipedia.org/
Коэффициент Пирсона
Большие массивы данных
•
•
•
•
•
Метагеном кишечника – 10 000 000 000 000
У каждой 5 000 000 п.о.
5 ГБ – на человека (5 000 000 000)
Покрытие 20х
Какую часть от общего числа составляет
бактерия которую мы сможем увидеть?
False positives
Protein Identification by Tandem Mass Spectrometry and Sequence Database Searching Alexey I. Nesvizhskii
http://proteome‐
software.wikispaces.com/Comparing+Mascot+And+Scaffold+Probabiliti
es
P или E‐value
• The definition of the E−value is: The probability due to chance, that there is another alignment with a similarity greater than the given S
О чем это мы?
• Биология = нормальное распределение
• Всегда есть Выборка из Совокупности
(больше 30)
• Результат – вероятность 95% попасть в
интервал 5%
• Стьюдент – только для двоих!!!!
Download