анализ зависимостей статистических показателей

АНАЛИЗ ЗАВИСИМОСТЕЙ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ Цель изучения модуля: показать значение зависимостей между статистическими показателями для изучения общественного здоровья, деятельности системы (организаций) здравоохранения, в клинической практике. После изучения темы слушатели должны знать: - типы зависимостей между статистическими показателями; - непараметрические методы оценки корреляционной зависимости; - методику расчета, анализа и интерпретации выявленных зависимостей между статистическими показателями. Слушатели должны уметь: - установить тип зависимости между статистическими показателями; - выбрать тот или иной тип зависимости между статистическими показателями при анализе общественного здоровья и деятельности системы (организаций) здравоохранения; - рассчитать выборочный коэффициент корреляции; - провести оценку корреляционной зависимости с помощью непараметрических методов; - использовать полученные знания при обучении на клинических кафедрах. 1.8.1. Блок информации Типы зависимостей. Многие прикладные задачи, например изучение причинноследственных связей факторов риска и заболеваемости населения, требуют установления вида зависимости между показателями, которые выступают как случайные величины. Сама постановка множества задач в различных медико-социальных исследованиях предполагает построение и реализацию алгоритмов «фак- тор-отклик», «дозаэффект». Случайные величины X и Y могут быть независимыми либо зависимыми. Зависимость случайных величин называют стохастической (статистической), если изменение одной из них приводит к изменению закона распределения другой. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то стохастическую зависимость называют корреляционной (например, зависимость заболеваемости населения от воздействия внешних факторов - экологогигиенических (климатические факторы, содержание различных соединений в атмосферном воздухе, воде, почве, пищевых продуктах), медико-организационных (уровень диспансеризации населения, обеспеченность больничными койками, медицинским персоналом) и т.д.). Сами случайные величины, связанные корреляционной зависимостью, оказываются коррелированными. При корреляционной зависимости Y и X возможно наблюдать тенденцию роста: с увеличением значений Х среднее значение Y возрастает или с увеличением значений Х среднее значение Y уменьшается. В этих случаях говорят соответственно о положительной или отрицательной корреляции. Выборочный коэффициент корреляции. Как известно, степень зависимости случайных величин Х и Y (двух признаков) характеризуется значением коэффициента корреляции: где K(X, Y) - корреляционный момент (ковариация) случайных величин X и Y, D(X) и D(Y) - дисперсии случайных величин. Отметим, что всегда -1  r  1. Чем больше значение r отличается от нуля, тем сильнее зависимость X и Y. Если |r| = 1, то случайные величины X и Y связаны линейной функциональной зависимостью, Y = аХ + b, причем при r = -1 коэффициент а <0 (зависимость X и Y обратная), а при r = 1 коэффициент а >0 (зависимость X и Y прямая). При этом коэффициент корреляции, как и всякая другая теоретическая характеристика, вычисляется, исходя из всех возможных значений Хи Y. На практике мы не имеем возможности охватить наблюдениями все указанное множество, а используем лишь ограниченное число наблюдений: двухмерную выборку1 значений (x, y). Полученные числа можно занести в таблицу. Таблица. Запись двумерной выборки По данным наблюдений можно вычислить значение коэффициента корреляции так же, как и в случае системы дискретных случайных величин, с той лишь разницей, что вместо известных вероятностей для каждой пары возможных значений будем использовать соответствующий аналог: относительную частоту 1/n. Формула для вычисления выборочного коэффициента корреляции генеральных совокупностей (случайных величин) X и Y, исходя из двухмерной выборки, выглядит так: Если наблюдения объединяются по интервалам, т.е. все значения, попавшие в интервал, округляются до значения середины интервала, то каждая из наблюдаемых пар значений может встретиться неоднократно. В этом случае обычно данные заносят в таблицу с учетом частот встречаемости. Такую таблицу сгруппированных данных называют корреляционной. Выборочный коэффициент корреляции rB - оценка коэффициента корреляции r, рассчитанного по всей генеральной совокупности, т.е. rB ≈ r. Следовательно, рассчитав rB, можно судить о силе линейной связи. В случае если выборка имеет достаточно большой объем n, порядка сотен, то целесообразно воспользоваться rB как точечной оценкой коэффициента корреляции r. Отметим, что в случае двумерной выборки значения случайных величин Х и Y располагаются не произвольно, а в соответствии с номером испытания i, т.е. каждому xi соответствует yi. 1 Непараметрические методы оценки корреляционной зависимости. Приведем ряд характеристик, оценивающих тесноту связи различных факторов (признаков), причем не только количественных, но и качественных. В простейшем случае это признаки, представленные двумя альтернативными исходами типа «да-нет», «живумер», «заболел- не заболел» и т.д. Показатели тесноты связи вычисляются с использованием таблиц сопряженности. Таблица. Сопряженность признаков Для характеристики тесноты связи между признаками используются коэффициент ассоциации Юла и коэффициент контингенции Пирсона. Коэффициент ассоциации Юла (KJ в соответствии с приведенной таблицей рассчитывают по формуле: Коэффициент ассоциации Ка может принимать значения от -1 до +1. В случаях когда Ка = ±1, теснота связи между признаками считается наиболее сильной, причем так же, как и для коэффициента корреляции, положительный или отрицательный знак Ка свидетельствует о прямой или соответственно обратной зависимости значений признаков. Коэффициент контингенции Пирсона Кк рассчитывают по формуле: Коэффициент контингенции также изменяется от -1 до +1, но его значения всегда (за исключением граничных случаев KK = ±1) несколько меньше значений коэффициента ассоциации. Эта характеристика имеет тот же смысл, что и Ka. Для качественной оценки силы связи при использовании коэффициента ассоциации Юла и коэффициента контингенции Пирсона можно руководствоваться шкалой Чеддока. Таблица. Шкала Чеддока В случае когда каждый из двух качественных признаков содержат более двух групп значений, тесноту связи признаков измеряют с помощью коэффициента взаимной сопряженности, который рассчитывается по специальным формулам1. 1.8.2. Задания для самостоятельной работы 1. Изучить материалы соответствующей главы учебника [1], модуля, рекомендуемой литературы. 2. Ответить на контрольные вопросы. 3. Разобрать задачу-эталон. 4. Ответить на вопросы тестового задания модуля. 5. Решить задачи. Задача-эталон Исходные данные 1. При изучении общественного здоровья населения некоторого субъекта РФ возникла необходимость провести анализ зависимости показателя смертности от возраста и пола. Необходимые статистические данные представлены в таблице. Таблица. Возрастно-половые статистические показатели смертности населения (на 1000 населения соответствующего пола и возраста) 2. Для углубленного изучения смертности от туберкулеза в зависимости от пола больных потребовалось выявить возможную связь между полом больных и исходом заболевания. Были взяты две группы больных туберкулезом органов дыхания - мужчины и женщины. В первой группе (мужчины) из 221 заболевшего 68 умерли в течение первого года после заболевания. Во второй группе (женщины) из 194 заболевших 83 умерли. Полученные данные представлены в таблице. Таблица. Распределение больных туберкулезом по полу и исходу заболевания (абсолютные числа) Задание На основание исходных данных, представленных в таблицах: 1) оценить степень зависимости показателя смертности в группах мужчин и женщин с помощью коэффициента корреляции; 2) оценить корреляционную зависимость между признаками «пол» и «исход» с использованием непараметрических методов (коэффициента ассоциации Юла) и коэффициента контингенции Пирсона. Решение 1. Расчет выборочного коэффициента корреляции Для удобства вычислений поместим значения в таблицу и представим результаты вычислений. Таблица. Расчетная таблица к задаче 1 Все значения из таблицы переносим в формулу расчета выборочного коэффициента корреляции: 2. Оценка корреляционной зависимости непараметрическими методами 2.1. Расчет коэффициента ассоциации Юла - Ka: 2.2. Расчет коэффициента контингенции Пирсона - KK: Вывод 1. Оценка значения коэффициента корреляции по шкале Чеддока 0,927 свидетельствует о прямой и достаточно высокой зависимости коэффициента смертности в группах мужчин и женщин. 2. Хотя значения коэффициентов Ka и KK отличаются друг от друга, согласно шкале Чеддока качественная характеристика тесноты связи одна и та же: сила связи слабая. Логически эта характеристика вполне закономерна, так как в нашем примере градация «мужчина-женщина» не является определяющей для второго признака «живы-умерли», а лишь оказывает некоторое влияние; величину этого влияния и описывают коэффициенты ассоциации и контингенции. 1.8.7. Рекомендуемая литература 1. Медик В.А., Юрьев В.К. Общественное здоровье и здравоохранение: учебник. - 2-е изд., перераб. и доп. - М.: ГЭОТАР-Медиа, 2012. 2. Медик В.А., Токмачев М.С. Статистика здоровья населения и здравоохранения: учеб. пособие. - М.: Финансы и статистика, 2009. 368 с. 3. Медик В.А., Токмачев М.С. Математическая статистика в медицине: учеб. пособие. - М.: Финансы и статистика, 2007. - 800 с. 4. Ефимова М.Р., Бычкова С.Г. Практикум по социальной статистике: учеб. пособие / под ред. М.Р. Ефимовой. - М:. Финансы и статистика, 2005. - 448 с.

анализ зависимостей статистических показателей

Related documents

Products

Support

анализ зависимостей статистических показателей

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib