анализ зависимостей статистических показателей

advertisement
АНАЛИЗ ЗАВИСИМОСТЕЙ
СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ
Цель изучения модуля: показать значение зависимостей между статистическими
показателями для изучения общественного здоровья, деятельности системы (организаций)
здравоохранения, в клинической практике.
После изучения темы слушатели должны знать:
- типы зависимостей между статистическими показателями;
- непараметрические методы оценки корреляционной зависимости;
- методику расчета, анализа и интерпретации выявленных зависимостей между
статистическими показателями.
Слушатели должны уметь:
- установить тип зависимости между статистическими показателями;
- выбрать тот или иной тип зависимости между статистическими показателями при
анализе общественного здоровья и деятельности системы (организаций) здравоохранения;
- рассчитать выборочный коэффициент корреляции;
- провести оценку корреляционной зависимости с помощью непараметрических методов;
- использовать полученные знания при обучении на клинических кафедрах.
1.8.1. Блок информации
Типы зависимостей. Многие прикладные задачи, например изучение причинноследственных связей факторов риска и заболеваемости населения, требуют установления
вида зависимости между показателями, которые выступают как случайные величины.
Сама постановка множества задач в различных медико-социальных исследованиях предполагает построение и реализацию алгоритмов «фак- тор-отклик», «дозаэффект».
Случайные величины X и Y могут быть независимыми либо зависимыми.
Зависимость случайных величин называют стохастической (статистической), если
изменение одной из них приводит к изменению закона распределения другой. Если
изменение одной из случайных величин влечет изменение среднего другой случайной
величины, то стохастическую зависимость называют корреляционной (например,
зависимость заболеваемости населения от воздействия внешних факторов - экологогигиенических (климатические факторы, содержание различных соединений в
атмосферном воздухе, воде, почве, пищевых продуктах), медико-организационных
(уровень диспансеризации населения, обеспеченность больничными койками,
медицинским персоналом) и т.д.). Сами случайные величины, связанные корреляционной
зависимостью, оказываются коррелированными. При корреляционной зависимости Y и X
возможно наблюдать тенденцию роста: с увеличением значений Х среднее значение Y
возрастает или с увеличением значений Х среднее значение Y уменьшается. В этих
случаях говорят соответственно о положительной или отрицательной корреляции.
Выборочный коэффициент корреляции. Как известно, степень зависимости случайных
величин Х и Y (двух признаков) характеризуется значением коэффициента корреляции:
где K(X, Y) - корреляционный момент (ковариация) случайных величин X и Y, D(X) и
D(Y) - дисперсии случайных величин.
Отметим, что всегда -1  r  1. Чем больше значение r отличается от нуля, тем сильнее
зависимость X и Y. Если |r| = 1, то случайные величины X и Y связаны линейной
функциональной зависимостью, Y = аХ + b, причем при r = -1 коэффициент а <0
(зависимость X и Y обратная), а при r = 1 коэффициент а >0 (зависимость X и Y прямая).
При этом коэффициент корреляции, как и всякая другая теоретическая характеристика,
вычисляется, исходя из всех возможных значений Хи Y. На практике мы не имеем
возможности охватить наблюдениями все указанное множество, а используем лишь ограниченное число наблюдений: двухмерную выборку1 значений (x, y). Полученные числа
можно занести в таблицу.
Таблица. Запись двумерной выборки
По данным наблюдений можно вычислить значение коэффициента корреляции так же, как
и в случае системы дискретных случайных величин, с той лишь разницей, что вместо
известных вероятностей для каждой пары возможных значений будем использовать
соответствующий аналог: относительную частоту 1/n. Формула для вычисления
выборочного коэффициента корреляции генеральных совокупностей (случайных величин)
X и Y, исходя из двухмерной выборки, выглядит так:
Если наблюдения объединяются по интервалам, т.е. все значения, попавшие в интервал,
округляются до значения середины интервала, то каждая из наблюдаемых пар значений
может встретиться неоднократно. В этом случае обычно данные заносят в таблицу с
учетом частот встречаемости. Такую таблицу сгруппированных данных называют
корреляционной.
Выборочный коэффициент корреляции rB - оценка коэффициента корреляции r,
рассчитанного по всей генеральной совокупности, т.е. rB ≈ r. Следовательно, рассчитав rB,
можно судить о силе линейной связи. В случае если выборка имеет достаточно большой
объем n, порядка сотен, то целесообразно воспользоваться rB как точечной оценкой
коэффициента корреляции r.
Отметим, что в случае двумерной выборки значения случайных величин Х и Y
располагаются не произвольно, а в соответствии с номером испытания i, т.е. каждому xi
соответствует yi.
1
Непараметрические методы оценки корреляционной зависимости.
Приведем ряд характеристик, оценивающих тесноту связи различных факторов
(признаков), причем не только количественных, но и качественных. В простейшем случае
это признаки, представленные двумя альтернативными исходами типа «да-нет», «живумер», «заболел- не заболел» и т.д. Показатели тесноты связи вычисляются с
использованием таблиц сопряженности.
Таблица. Сопряженность признаков
Для характеристики тесноты связи между признаками используются коэффициент
ассоциации Юла и коэффициент контингенции Пирсона.
Коэффициент ассоциации Юла (KJ в соответствии с приведенной таблицей
рассчитывают по формуле:
Коэффициент ассоциации Ка может принимать значения от -1 до +1. В случаях когда Ка =
±1, теснота связи между признаками считается наиболее сильной, причем так же, как и
для коэффициента корреляции, положительный или отрицательный знак Ка
свидетельствует о прямой или соответственно обратной зависимости значений признаков.
Коэффициент контингенции Пирсона Кк рассчитывают по формуле:
Коэффициент контингенции также изменяется от -1 до +1, но его значения всегда (за
исключением граничных случаев KK = ±1)
несколько меньше значений коэффициента ассоциации. Эта характеристика имеет тот же
смысл, что и Ka.
Для качественной оценки силы связи при использовании коэффициента ассоциации Юла
и коэффициента контингенции Пирсона можно руководствоваться шкалой Чеддока.
Таблица. Шкала Чеддока
В случае когда каждый из двух качественных признаков содержат более двух групп
значений, тесноту связи признаков измеряют с помощью коэффициента взаимной
сопряженности, который рассчитывается по специальным формулам1.
1.8.2. Задания для самостоятельной работы
1. Изучить материалы соответствующей главы учебника [1], модуля, рекомендуемой
литературы.
2. Ответить на контрольные вопросы.
3. Разобрать задачу-эталон.
4. Ответить на вопросы тестового задания модуля.
5. Решить задачи.
Задача-эталон
Исходные данные
1. При изучении общественного здоровья населения некоторого субъекта РФ возникла
необходимость провести анализ зависимости показателя смертности от возраста и пола.
Необходимые статистические данные представлены в таблице.
Таблица. Возрастно-половые статистические показатели смертности населения (на 1000
населения соответствующего пола и возраста)
2. Для углубленного изучения смертности от туберкулеза в зависимости от пола больных
потребовалось выявить возможную связь между полом больных и исходом заболевания.
Были взяты две группы больных туберкулезом органов дыхания - мужчины и женщины. В
первой группе (мужчины) из 221 заболевшего 68 умерли в течение первого года после
заболевания. Во второй группе (женщины) из 194 заболевших 83 умерли. Полученные
данные представлены в таблице.
Таблица. Распределение больных туберкулезом по полу и исходу заболевания
(абсолютные числа)
Задание
На основание исходных данных, представленных в таблицах:
1) оценить степень зависимости показателя смертности в группах мужчин и женщин с
помощью коэффициента корреляции;
2) оценить корреляционную зависимость между признаками «пол» и «исход» с
использованием непараметрических методов
(коэффициента ассоциации Юла) и коэффициента контингенции Пирсона. Решение
1. Расчет выборочного коэффициента корреляции
Для удобства вычислений поместим значения в таблицу и представим результаты
вычислений.
Таблица. Расчетная таблица к задаче 1
Все значения из таблицы переносим в формулу расчета выборочного коэффициента
корреляции:
2. Оценка корреляционной зависимости непараметрическими методами
2.1. Расчет коэффициента ассоциации Юла - Ka:
2.2. Расчет коэффициента контингенции Пирсона - KK:
Вывод
1. Оценка значения коэффициента корреляции по шкале Чеддока 0,927 свидетельствует о
прямой и достаточно высокой зависимости коэффициента смертности в группах мужчин и
женщин.
2. Хотя значения коэффициентов Ka и KK отличаются друг от друга, согласно шкале
Чеддока качественная характеристика тесноты связи одна и та же: сила связи слабая.
Логически эта характеристика вполне закономерна, так как в нашем примере градация
«мужчина-женщина» не является определяющей для второго признака «живы-умерли», а
лишь оказывает некоторое влияние; величину этого влияния и описывают коэффициенты
ассоциации и контингенции.
1.8.7. Рекомендуемая литература
1. Медик В.А., Юрьев В.К. Общественное здоровье и здравоохранение: учебник. - 2-е изд.,
перераб. и доп. - М.: ГЭОТАР-Медиа,
2012.
2. Медик В.А., Токмачев М.С. Статистика здоровья населения и здравоохранения: учеб.
пособие. - М.: Финансы и статистика, 2009. 368 с.
3. Медик В.А., Токмачев М.С. Математическая статистика в медицине: учеб. пособие. - М.:
Финансы и статистика, 2007. - 800 с.
4. Ефимова М.Р., Бычкова С.Г. Практикум по социальной статистике: учеб. пособие / под
ред. М.Р. Ефимовой. - М:. Финансы и статистика,
2005. - 448 с.
Download