Описательная статистика

advertisement
Медицинская статистика
Специальность «Лечебное дело»
Лекция 1
Генеральная совокупность и выборка.
Гистограмма.
Оценивание параметров распределения
Литература
1. Е.А. Лукьянова «Медицинская статистика»
Литература
2. В.Е.Гмурман «Теория вероятностей и математическая
статистика»
Литература
3. В.Н. Калинина, В.Ф. Панкин «Математическая статистика»
Литература
4. Стентон Гланц «Медико-биологическая статистика»
Литература
5. О.Ю. Реброва «Статистический анализ медицинских данных»
6. В.И. Сергиенко, И.Б. Бондарева «Математическая статистика в
клинических исследованиях»
...
Полный список рекомендованной литературы см. на стенде.
Где может пригодиться статистика:
• При прочтении научных публикаций (статей и т.п.)
• В собственной научной работе (в диссертациях и т.п.)
• В клинической практике
• Для понимании основ доказательной медицины
• Для удачного трудоустройства
• ...
Определение науки
1) Статистика - наука, изучающая методы обработки
результатов наблюдений массовых случайных явлений,
обладающих закономерностью, с целью выявления этих
закономерностей.
2) Статистика - наука, изучающая методы сбора и
интерпретации числовых данных.
3) Статистика - наука принятия разумных решений перед лицом
неопределенности.
4) Статистические задачи появляются тогда, когда необходимо
дать наилучшие ответы по ограниченному числу наблюдений.
Цель науки - описание, объяснение и предсказание явлений
действительности на основе установленных закономерностей.
Основные этапы научного исследования:
Формулировка целей
Планирование
Выполнение (сбор данных)
Подготовка данных
Анализ данных
Интерпретация результатов
Формулировка выводов
Алгоритм работы с данными:
1. Определение генеральной совокупности
2. Создание выборки
3. Группировка данных и создание вариационного ряда
4. Построение гистограмм
5. Оценивание параметров распределения
5.1 Точечное
5.2 Интервальное
6. Работа с гипотезами
7. Формулировка выводов
Типы данных
Данные
Качественные
(категориальные)
Дихотомические
Количественные
(числовые)
Дискретные
(счетные)
Непрерывные
При значительном (более 20) числе различий
значений дискретного признака его можно
приближенно считать непрерывным.
Примеры типов данных
Кол-во детей в семье
количественный дискретный
Пол старшего ребенка
категориальный (качественный)
Девичья фамилия матери
категориальный (качественный)
Ежемесячный доход семьи
количественный непрерывный
Номер телефона
категориальный (качественный)
Число голосов, поданных за
кандидата в президенты
количественный дискретный
Температура больного
количественный непрерывный
Объект статистического исследования
Объектом статистического исследования является статистическая
совокупность - множество единиц, обладающих однородностью.
Каждый отдельно взятый элемент данного множества - единица
совокупности.
Единицы статистической совокупности характеризуются общими
свойствами, именуемыми в статистике признаками.
Определение генеральной совокупности
Генеральная совокупность - совокупность всех мысленно
возможных объектов данного вида, над которыми проводятся
наблюдения с целью получения конкретных значений
определенной случайной величины, или совокупность
результатов всех мыслимых наблюдений, проводимых в
неизменных условиях* над одной из случайных величин,
связанных с данным видом объектов.
Генеральная совокупность может быть конечной и
бесконечной, в зависимости от того, конечно или бесконечна
совокупность составляющих ее элементов.
* только контролируемых, наличие неконтролируемых условий
определяет вариацию признака
Примеры генеральной совокупности
1) Аспирин произведенный в прошлом, выпускаемый сейчас и
весь, который будет произведен в будущем.
2) Все люди, когда либо живущие и будущие жить на планете,
страдающие бронхиальной астмой (или другим заболеванием).
3) При исследовании доли мальчиков, среди детей, родившихся
за год, ГС - все дети, родившиеся за год. (Конечная ГС) однако,
ГС может быть и бесконечна, если рассматривать до
бесконечности непрерывное воспроизводство населения).
Выборка
Часть отобранных объектов из генеральной совокупности
(результаты наблюдений над ограниченным числом объектов из
этой совокупности) называется выборочной совокупностью или
выборкой (Sample).
N - число объектов генеральной совокупности (Объем ГС)
n - число объектов выборки (Объем выборки)
N >> n
Объем генеральной совокупности много больше объема выборки
Основное свойство выборки
Главная задача статистики - сделать вывод о свойствах
генеральной совокупности по выборке. Однако не любая выборка
является адекватной изучаемой генеральной совокупности.
Предположим, что необходимо определить долю иномарок, среди
автомобилей проезжающих по дорогам Москвы за 1 час. Если
проводить исследование в центре города, то результат
исследования не будет отражать ситуацию во всем городе.
Главное и необходимое свойство выборки репрезентативность (представительность).
Репрезентативность достигается случайностью отбора т.е
каждый элемент генеральной совокупности должен иметь
одинаковые шансы быть отобранным в выборку.
Все машины, находящиеся в Москве должны иметь одинаковые
шансы быть включенными в исследование.
Резюме по выборке:
1. Объем выборки много меньше объема генеральной
совокупности.
2. Основное свойство выборки - репрезентативность.
3. Суть репрезентативности - все пропорции генеральной
совокупности отражены в выборке.
4. Репрезентативность достигается случайностью отбора
элементов генеральной совокупности в выборку.
5. Случайность отбора: все и каждый элемент генеральной
совокупности имеет одинаковые шансы попасть в выборку.
6. Нарушение правил отбора приводит к созданию смещенных
(нерепрезентативных) выборок.
Рандомизация
Процесс создания репрезентативной выборки (отбора) достигается
путем рандомизации (random - случайный (англ.), т.е. процессом
случайного отбора элементов генеральной совокупности в выборку.
Если в процессе отбора участвует человек, никакая схема отбора не
может считаться истинно случайной. Поэтому прибегают к
различным механическим или электронным объективным
устройствам рандомизации.
Способы рандомизации:
1. Механический отбор с повтором и без повтора (жеребьевка)
2. Отбор с помощью таблиц случайных чисел.
3. С помощью генератора случайных чисел.
Чаще всего, элементы ГС нумеруют, затем прибегают к одному из
вышеперечисленных способов.
Обработка собранных данных
Собранные данные (элементы выборки, наблюдения) сразу
после получения расположены в ряду хаотично, для начала
анализа необходимо провести ряд манипуляций:
1. Ранжирование - расстановка элементов выборки в порядке не
убывания или не возрастания
2. Группировка - выделение одинаковых значений в выборке и
подсчет частот соответствующих значений
По имеющимся данным строят вариационный ряд:
Индекс
i
Значение xi
Частота mi
1 2
3 4 5 6 7 8 9 ….
Пример1
Изучение роста детей в возрасте 12 лет
Рост:
134
136
136
141
137
142
143
149
142
132
136
138
145
132
129
Ранжирование:
129
132
132
134
136
136
136
137
138
141
142
142
143
145
149
Вариационный ряд
Индекс
1
2
3
4
5
6
7
8
9
10
11
Значение:
129
132
134
136
137
138
141
142
143
145
149
Частота
1
2
1
3
1
1
1
2
1
1
1
Итого
15
Построение гистограммы
Частоты
Гистограмма
4
3
2
1
0
129 132 134 136 137 138 141 142 143 145 149
Значения
N.B.
Дискретный вариационный ряд
Непрерывный вариационный ряд.
Оценивание параметров распределения
Параметры распределения - неизвестные числовые
характеристики генеральной совокупности, которые могут
быть приближенно оценены по данным выборки путем
вычисления статистик.
Выборка
ГС
параметры
???
….
статистики
Оценивание:
- точечное (оценка определяется одним числом) !!!Требования!!!
- интервальное (оценка определяется 2-мя числами: концами
интервала). Особенно актуально при малом объеме выборки.
Параметры распределения:
•Точечные
- Характеристики положения (центральные тенденции)
- - Среднее арифметическое (математическое ожидание)
- - Медиана
- Характеристики формы:
- - Мода
- - Коэффициент эксцесса (острота пика)
- - Минимум и максимум
- - Коэффициент асимметрии
- Характеристики разброса
- - Дисперсия
- - Среднеквадратическое отклонение
- - Размах (разница между минимумом и максимумом)
- - Межквартильный размах (интерквартильный)
•Интервальные (оценка, описываемая концами интервала)
- Доверительный интервал средних
Характеристики положения (центральные тенденции)
- - Среднее арифметическое (математическое ожидание)
n
M[X]  x1p1    x i pi   xi pi
i 1
- - Медиана (значение вариационного ряда, которое делит ряд так, что
есть ровно половина значений, которые больше ее и половина значений,
которые меньше ее.) Медиана делит площадь под кривой распределения на
две равные части. Медиана соответствует 50-му процентилю.
где x - медиана
- - Мода (наиболее часто встречающееся значение вариационного ряда).
Распределение может быть унимодальным, бимодальным и
полимодальным.
- - Минимум и максимум
Характеристики разброса
- - Дисперсия (мера разброса значений ряда относительно
математического ожидания). Имеет другую размерность: рост в м2
n
D[ X ]   ( xi  M [ X ]) pi
2
i 1
- - Среднеквадратическое отклонение. В правильной размерности:
рост в м.
 [ X ]  D[ X ]
- - Размах (разница между минимумом и максимумом)
- - Межквартильный размах (интерквартильный) разница между
верхним и нижним квартилем.
Межквартильный размах
Если разбить весь диапазон значений, которые принимает признак, на
десять интервалов, так, чтобы в первый диапазон попали наименьшие
значения (10% от общего числа) … в последний диапазон попадут 10%
наибольших значений. Границы между интервалами - квантили или
процентили.
Если разбить весь интервал значений на 4 диапазона, получим 3 квартиля
(кварта - четверть): 25%, 50% и 75% квантили
Часто 25%-й квантиль называют нижним квартилем. Это значение ряда,
которое делит ряд так, что есть 25% наблюдений, которые меньше его и 75%
наблюдений, которые больше его.
75%-й квантиль (процентиль) – верхний квартиль.
50%-й квартиль (средний) – это медиана.
Внутри интерквартильного интервала лежат 50% наблюдений, наиболее
близких к центральному значению.
Межквартильный размах - разница между верхним и нижним квартилем
Интервальное оценивание
Точечное оценивание не позволяет судить о точности полученных
оценок. При интервальном оценивании задается интервал,
который с заранее известной вероятностью «накрывает» значение
параметра.
Как пример интервального оценивания:
Доверительный интервал средних - диапазон чисел, в
котором с заранее оговоренной вероятностью находится
истинное среднее генеральной совокупности.
Чем выше желаемая вероятность, тем шире интервал
Чем больше дисперсия признака, тем шире интервал
Чем больше число наблюдений, тем уже интервал
Построение доверительного интервала
Пусть:  - математическое ожидание ГС (параметр),
который необходимо оценить. Тогда по данным выборки
можно получить точечную оценку:
P( X      X   )  
Точечная оценка
Параметр
Доверительная
вероятность
(надежность)
Точность оценки
Доверительные
границы
Таким образом, задача сводится к нахождению доверительных
границ, что требует определения «точности оценки»
Нахождение точности оценки (эпсилон)
Возможны два варианта:
1) Исследователю известна дисперсия ГС
2) Исследователю не известна дисперсия ГС
1) Нахождение точности оценки при известной дисперсии ГС:
Значение функции
Лапласа

u
0,9 1,65
0,95 1,96
0,99 2,58
Известная
дисперсия ГС

u  
n
Объем
выборки
2) Нахождение точности оценки при неизвестной дисперсии
ГС:
Значение функции Стьюдента с
n-1 степенями свободы
n
0.95
0.99
5
2.78
4.60
10
2.26
3.25
15
2.15
2.98
30
2.045
2.75
100 1.98
2.62

t  s
n
Точечная оценка СКО ГС
(СКО выборки)
Объем
выборки
Download