Статистический анализ влияния качества питьевой воды на

advertisement
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
№ 2 (22) 2011
Л. П. Бакуменко, П. А. Коротков
Статистический анализ влияния качества
питьевой воды на здоровье населения региона
В статье исследуется влияние качества питьевой воды на здоровье населения региона
с использованием моделей регрессионного типа. Рассмотрены публикации, посвященные статистической оценке влияния качества питьевой воды на здоровье. Проведен
анализ медико-экологических данных. Выявлены статистически значимые в условиях
Республики Марий Эл корреляции между показателями заболеваемости и загрязнения
питьевой воды. Построены регрессионные модели, устанавливающие количественные
зависимости между этими показателями.
Ключевые слова: экологически зависимая заболеваемость, качество питьевой воды, регрессионные модели в экологии и медицине.
Статистический анализ влияния качества питьевой воды на здоровье населения региона
JEL classification: I18, Q53.
1. Введение
С
остояние окружающей среды в регионах России остается критическим. Уровень
загрязнения воздуха, водных ресурсов, почв значительно превышает установленные нормативы, растут площади земель, отчуждаемых под размещение отходов,
из‑за чрезмерных антропогенных нагрузок меняются природные ландшафты, обостряется
проблема сохранения биоразнообразия животных и растений, увеличивается вероятность
возникновения техногенных аварий с негативными экологическими последствиями.
Неблагоприятная экологическая ситуация приводит к ухудшению здоровья, сокращению
продолжительности жизни людей, созданию сложной демографической ситуации. Учитывая, что в соответствии с данными Всемирной организации здравоохранения (ВОЗ) от 40
до 60% всех заболеваний и, соответственно, смертей обусловлены состоянием окружающей
среды, обеспечение здоровых условий жизни населения невозможно без улучшения экологических показателей.
Первое место среди экологически зависимой заболеваемости занимают острые кишечные инфекции, бактериальная дизентерия, гепатит A, сальмонеллез, т. е. заболевания, связанные с воздействием микробного и вирусного загрязнения воды и продуктов питания.
Порядка 400 – 500 тыс. жителей России ежегодно страдают этими заболеваниями, в том
числе вследствие микробного загрязнения продуктов питания и питьевой воды — около 100 тыс. жителей. Высокие показатели заболеваемости этими инфекциями во многом
связаны с неудовлетворительным обеспечением населения доброкачественной питьевой
водой и загрязнением открытых водоемов неочищенными канализационными стоками (Захаров, Дмитриев, 2008).
Для проведения целенаправленной политики в области экологии и в области охраны здоровья населения, минимизации затрат в условиях дефицита бюджетных средств необходимо
32
Здравоохранение 
№ 2 (22) 2011
определить и количественно оценить взаимосвязи между воздействиями неблагоприятных
факторов окружающей среды и здоровьем человека. Это требует применения новых методических подходов с привлечением современных статистических методов, что определяет
актуальность темы исследования, ее научную и практическую значимость.
Целью данной работы является статистический анализ влияния качества питьевой воды на здоровье населения в Республике Марий Эл на основе моделей регрессионного типа.
В соответствии с этим в статье:
zz
проанализированы работы, посвященные оценке влияния качества питьевой воды
на здоровье населения с применением корреляционно-регрессионного анализа;
zz
сформирован теоретически обоснованный набор исходных данных и проанализированы его динамические характеристики;
zz
выявлены статистически значимые для данного региона корреляции между показателями заболеваемости и загрязнения питьевой воды;
zz
построены регрессионные модели, устанавливающие количественные взаимосвязи
между этими показателями.
2. Особенности применения корреляционно-регрессионного анализа при оценке влияния качества питьевой воды на здоровье населения
Модели регрессионного типа предназначены для первичной проверки гипотез о наличии статистической связи между показателями здоровья и факторами окружающей среды.
В системе доказательства наличия причинно-следственных связей модели регрессионного
типа являются одним из необходимых звеньев (Вараксин, 2006).
В России было проведено значительное количество исследований, посвященных изучению влияния качества питьевой воды на здоровье населения с использованием корреляционно-регрессионного анализа (Веселова и др., 1999; Ерофеев и др., 2006; Ивлева, Сабирова,
2000; Коньшина и др., 2002; Красовский и др., 1991; Понкратов, Махотина, 2001; Рахманин
и др., 2001; Сабирова и др., 2003; Стародубов и др., 2002; Фетисова, 2004). Рассмотрим наиболее значимые, по нашему мнению, публикации.
В работе (Понкратов, Махотина, 2001) исследуется влияние качества питьевой воды
на распространенность острых кишечных инфекций (ОКИ) у детей Старого Оскола. Результаты корреляционного анализа свидетельствуют о прямой сильной зависимости заболеваемости ОКИ детей, проживающих в Центральном и Юго-Западном районах города, от количества аварий в разводящих сетях (коэффициенты корреляции равны 0.76 и 0.89 соответственно). Отмечается, что наличие сильной корреляционной связи не означает реализацию
водного пути в фекально-оральном механизме передачи эпидемиологического процесса
таких заболеваний, как шигеллез Флекснера, а лишь подтверждает, что качество питьевой
воды является одним из главных факторов, определяющих коммунально-бытовые условия
населения, с которыми связана заболеваемость ОКИ.
Выявлена сильная достоверная корреляционная зависимость заболеваемости ОКИ установленной этиологии детей, проживающих в Центральном и Юго-Западном районах города, от микробного загрязнения водопроводной воды в этом районе (0.76 и 0.71 соответственно).
33
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Статистический анализ влияния качества питьевой воды на здоровье населения региона
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Получено уравнение регрессии, показывающее, что при увеличении частоты проб воды,
не отвечающих гигиеническим требованиям, на 1%, заболеваемость, связанная с качеством
питьевой воды, растет в среднем на 7.6 случаев в расчете на 100 тыс. детского населения.
К сожалению, в работе не указано число наблюдений, не показано взаимное расположение точек наблюдения на диаграмме рассеяния, что снижает качество полученных результатов.
В работе (Веселова и др., 1999) проведен анализ данных о несоответствующих ГОСТу
пробах питьевой воды по бактериологическим и физико-химическим показателям (в %)
за 11 лет, а также данных о среднемесячной и среднегодовой заболеваемости ОКИ, вирусным гепатитом А (ВГА) и дизентерией среди жителей Ярославля. Отмечается, что коммунальный водопровод в городе представлен тремя станциями, а в отдельных районах имеются артезианские скважины.
При исследовании связи между загрязнением питьевой воды и здоровьем населения получены следующие результаты. В 1992 г. по Ярославлю в целом найдены высокие коэффициенты корреляции между среднемесячными показателями бактериального загрязнения воды
и среднемесячной заболеваемостью ВГА (0.77) и дизентерией (0.84). Аналогичная картина
наблюдалась в 1995 г. Данные для других лет не приводятся.
Далее приведены среднегодовые показатели за 1988 – 1994 гг. по каждой из трех водопроводных станций отдельно (7 точек наблюдения). Для всех трех станций (ЦВС, СВС и ЮВС)
получены высокие, по мнению авторов, коэффициенты корреляции между бактериальной
загрязненностью и заболеваемостью ОКИ (0.80). Для двух станций (ЦВС и СВС) получены
высокие коэффициенты корреляции между бактериальной загрязненностью и заболеваемостью ВГА (0.83), для двух других (ЦВС и ЮВС) — высокие коэффициенты корреляции между физико-химическими показателями загрязненности и заболеваемостью ВГА (0.80).
Как показал анализ, результаты, полученные по каждой станции отдельно, требуют разъяснений: непонятно, почему для станции ЮВС нет связи между бактериальной загрязненностью и заболеваемостью ВГА, которая наблюдается для ЦВС и СВС. Кроме того, при использовании коротких временных рядов (как в данной работе), отсутствие диаграмм рассеяния,
показывающих расположение наблюдений в координатах «загрязнение — заболеваемость»,
снижает доверие к результатам корреляционного анализа. Учитывая, что временные ряды
не удовлетворяют условию независимости наблюдений, возникают сомнения в достоверности полученных коэффициентов корреляции. Также не установлены количественные связи
показателей загрязненности питьевой воды и заболеваемости населения.
В монографии (Стародубов и др., 2002) проведен корреляционный анализ взаимосвязи
загрязнения питьевой воды и заболеваемости населения Волжского бассейна, основанный
на коротких временных рядах. Для каждой исследованной территории Волжского бассейна
данные о заболеваемости и загрязнении представлены в виде временных рядов за период
1996 – 2000 гг. (всего 5 точек наблюдений). Между тем известно, что при корреляционнорегрессионном анализе на основе коротких временных рядов можно легко придти к ложным выводам. Действительно, для Липецкой области при исследовании взаимосвязи между показателем загрязнения (удельный вес проб питьевой воды, не отвечающих гигиеническим нормативам по микробиологическим показателям) и показателями здоровья (ожирение
и гипертоническая болезнь) авторами монографии получены следующие парные коэффициенты корреляции: 0.985 («ожирение — загрязнение воды») и – 0.974 («гипертоническая
болезнь — загрязнение воды»). Если интерпретировать эти результаты непосредственно,
34
Здравоохранение 
№ 2 (22) 2011
получается, что грязная вода является одной из причин возникновения ожирения и одновременно средством профилактики гипертонической болезни. Очевидно, что полученные
корреляции недостоверны.
Вместе с тем в монографии (Вараксин, 2006) при переходе от временных рядов, использованных в (Стародубов и др., 2002), к пространственным совокупностям получено уравнение регрессии, показывающее, что заболеваемость ОКИ возрастает в среднем на 4.9 случаев при увеличении на 1% удельного веса проб, не отвечающих гигиеническому нормативу
по санитарно-химическим показателям. Подчеркивается, что вопрос о наличии причинноследственной связи между заболеваемостью ОКИ и удельным весом таких проб необходимо обсуждать в комплексе с другими работами данного профиля, опираясь на этиопатогенный анализ.
В заключение отметим, что, поскольку построением моделей в области экологии и медицины занимаются, как правило, экологи и медики, а не специалисты-математики в области моделирования, то при построении и анализе моделей регрессионного типа допускается
много ошибок или неточностей: в постановке задачи, построении модели, представлении
и интерпретации результатов (Вараксин, 2006).
3. Предпосылки моделирования. Динамические характеристики данных
Существенное значение при доказательстве связи с участием регрессионных моделей
имеет первичная информация, используемая исследователем для статистической обработки.
Выбранные показатели (показатели здоровья населения и состояния окружающей среды)
должны быть максимально связаны между собой с предметной точки зрения (с точки зрения
этиологии), а также быть объективными и непротиворечивыми (Вараксин, 2006).
Заболевания экологической этиологии разделяют на экологически зависимые болезни
и экологически обусловленные заболевания (Вараксин, 2006). Экологически зависимые болезни — более «слабый» термин, относящийся к широкому кругу заболеваний, для которых
состояние окружающей среды вносит вклад в их распространенность, особенности их течения, но не является единственной и главной причиной их возникновения. Экологически
обусловленные заболевания — более «сильный» термин, относящийся к узкому кругу заболеваний, причины возникновения которых достаточно очевидно связаны с окружающей
средой. Необходимо отметить, что экологически зависимые заболевания значительно более
распространены, нежели экологически обусловленные.
В зависимости от природы и особенностей биологического и химического действия загрязняющих веществ, его длительности и интенсивности выделяют два типа влияния загрязнения на здоровье (Суржиков и др., 2003):
1) моментальный эффект — все острые кишечные инфекции, а также вспышки заболеваний бронхоаллергизмами (провоцируется низким качеством питьевой воды, продуктов
питания и токсическими туманами);
2) отставленный эффект — проявляется через определенное время.
Следует помнить, что при исследовании влияния загрязнения окружающей среды на здоровье с отставленным эффектом на основе коротких временных рядов можно придти к ложным выводам. В самом деле, тест на причинность очень чувствителен к количеству выбранных лагов, а при малой выборке это количество практически невозможно варьировать.
35
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Статистический анализ влияния качества питьевой воды на здоровье населения региона
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
В этой связи, при небольшом количестве наблюдений целесообразно исследовать влияние
загрязнения на здоровье с моментальным эффектом.
Обзор публикаций показал, что при исследовании влияния качества питьевой воды на здоровье населения широко используются показатели заболеваемости острыми кишечными
инфекциями, вирусным гепатитом А и бактериальной дизентерией, а также микробиологические и санитарно-химические показатели загрязнения питьевой воды.
Таким образом, проведенный анализ имеющейся информации и теоретические соображения позволили сформировать исходный набор показателей, представленных короткими
временными рядами:
Зависимые переменные:
y1 — общая заболеваемость острыми кишечные инфекциями на 100 тыс. населения;
y2 — заболеваемость бактериальной дизентерией на 100 тыс. населения;
y3 — заболеваемость бактериальной дизентерией, вызванная шигеллами Флекснера, на
100 тыс. населения;
y4 — заболеваемость вирусным гепатитом A на 100 тыс. населения;
y5 — заболеваемость сальмонеллезом на 100 тыс. населения.
Независимые переменные:
x1 — удельный вес проб питьевой воды централизованных систем питьевого водоснабжения, не соответствующих гигиеническим требованиям по микробиологическим показателям, %;
x11 — удельный вес проб питьевой воды из разводящей сети коммунальных водопроводов, не соответствующих гигиеническим требованиям по микробиологическим показателям, %;
x12— удельный вес проб питьевой воды из разводящей сети ведомственных водопроводов, не соответствующих гигиеническим требованиям по микробиологическим показателям, %;
x21 — удельный вес проб питьевой воды из разводящей сети коммунальных водопроводов, не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям, %;
x22 — удельный вес проб питьевой воды из разводящей сети ведомственных водопроводов, не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям, %;
x3 — удельный вес проб воды из децентрализованных источников водоснабжения, не отвечающих гигиеническим требованиям по микробиологическим показателям, %;
x4 — удельный вес проб воды из децентрализованных источников водоснабжения, не отвечающих гигиеническим требованиям по санитарно-гигиеническим показателям, %.
В зависимости от информационной доступности для анализа использовались годовые
данные за период с 1990 по 2009 гг. (20 наблюдений) и с 1991 по 2009 гг. (19 наблюдений). Источниками исходных данных являлись официальные статистические данные Территориального органа Федеральной службы государственной статистики по Республике
Марий Эл (Статистический ежегодник, 2009), ФГУЗ «Центр гигиены и эпидемиологии
в Марий Эл», а также данные государственных докладов «О состоянии окружающей природной среды Республики Марий Эл» (Государственные доклады, 1993 – 2010), «О санитарно-эпидемиологической обстановке в Республике Марий Эл» (Государственные доклады, 2006 – 2010).
36
Здравоохранение 
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Исследуемые временные ряды в уровнях и их первые разности представлены на рис. 1а – к.
30
24
25
20
20
16
15
12
10
8
5
4
0
0
-5
-4
-10
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
x1
-8
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
d x1
x11
а)
dx11
б)
30
25
20
20
15
10
10
0
5
-10
0
-5
-20
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
x12
x21
dx12
в)
d x21
г)
20
400
15
300
10
200
5
100
0
0
-5
-10
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
x22
д)
d x22
-100
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
y1
dy1
е)
37
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
№ 2 (22) 2011
80
300
60
200
40
100
20
0
0
-100
-20
-200
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
y2
-40
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
y3
dy2
ж)
dy3
з)
200
500
400
150
Статистический анализ влияния качества питьевой воды на здоровье населения региона
300
100
200
50
100
0
0
-100
-50
-200
-300
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
y4
и)
dy4
-100
90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09
y5
dy5
к)
Рис. 1. Динамика уровней и первых разностей исследуемых переменных
Уровни всех рассматриваемых переменных имеют достаточно сложную динамику, не позволяющую на основе графического анализа дать даже приблизительный ответ на вопрос
об их стационарности. В тоже время следует обратить внимание на структурные сдвиги
в динамике уровней общей заболеваемости ОКИ (y1) и удельного веса проб питьевой воды из разводящей сети ведомственных водопроводов, не соответствующих гигиеническим
требованиям по санитарно-гигиеническим показателям (x22). Вместе с тем, первые разности
исследуемых рядов визуально представляются стационарными.
Учитывая неправомерность применения стандартных методов оценивания моделей в случае нестационарности используемых временных рядов, прежде чем перейти к описанию
их структуры, необходимо провести предварительный анализ переменных на стационарность и определить порядок их интегрированности. Известно, что если нестационарная переменная становится стационарной после взятия первых разностей, то она является интегрированной с порядком интегрированности, равным 1, или I (1) . Другими словами, иссле-
38
Здравоохранение 
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
дуемый временной ряд содержит единичный корень. Соответственно, его первые разности
будут иметь нулевой порядок интегрированности I (0).
Анализ порядка интегрированности рассматриваемых переменных проводился при помощи расширенного теста Дики – Фуллера (ADF-теста), в основе которого лежит регрессия
вида (Крук и др., 2006):
n
Dyt = m+ dt + ayt-1 + å b j Dyt-i + et ,
(1)
j=1
где D — оператор разности, m, d, a, b — коэффициенты регрессии, t — тренд, et — ошибки регрессии. Проверяется нулевая гипотеза H 0 : a = 0. Если она не может быть отвергнута,
то ряд является нестационарным (альтернативная гипотеза — ряд стационарен). Нулевая
гипотеза проверяется при помощи сравнения t-статистики при коэффициенте a с соответствующими критическими значениями.
В данной работе был избран следующий алгоритм тестирования порядка интегрированности при помощи ADF-теста (Крук и др., 2006). Вначале строились регрессии вида (1)
n
без компоненты
å b Dy
j
t-i
с константой и трендом, с константой без тренда, без констан-
j=1
ты и тренда. Затем остатки уравнения (1) тестировались на наличие автокорреляции первого – третьего порядков при помощи LM‑теста ( H 0 : автокорреляция остатков 1 – 3 порядков
отсутствует). Если гипотеза отвергалась, в указанные регрессии последовательно добавлялись лаги зависимой переменной до исчезновения автокорреляции. Затем, если коэффициент при тренде оказывался незначимым, выбиралось уравнение с константой, если же
и константа оказывалась незначимой, то t-статистика ADF-теста оценивалась из регрессии
без константы и тренда.
Результаты тестирования исследуемых переменных приведены в табл. 1.
Для тестирования временных рядов со структурными сдвигами применялись модифицированные ADF-тесты (Пелипась, 2001). Конкретная форма теста зависела от типа структурных сдвигов (Perron, 1989). Выделяют три основных типа структурных сдвигов: 1) изменение уровня кривой, отражающей динамику переменной, когда качественно различным
отрезкам времени соответствуют различные средние значения показателя; 2) изменение угла наклона кривой, отражающей динамику переменной; 3) комбинация первого и второго
случаев.
Для тестирования временных рядов со структурным сдвигом первого типа можно использовать модифицированный ADF-тест следующего вида:
n
Dyt = m+ bt + gDU t + dD(TB )t + ayt-1 + å c j Dyt-i + et ,
(2)
j=1
где DU t =1 (T > Tb ), D(TB )t =1 (t = Tb +1) — фиктивные переменные; Tb — точка структурного сдвига; m, b, g, d , a, c j — параметры регрессии. Данная регрессия посредством
фиктивных переменных позволяет учесть изменение среднего и представляет собой модель
с инновационным выбросом. Такая модель используется, когда структурный сдвиг происходит не моментально.
39
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
№ 2 (22) 2011
Таблица 1. Результаты тестирования исследуемых переменных на единичный корень
Переменные
Статистический анализ влияния качества питьевой воды на здоровье населения региона
3
ADF-тест
t-ADF
4
tкрит1
Спецификация2
Результат
y1
– 3.850 (0) *
– 3.850
CT (Tb = 2002)
I (0)
y2
– 5.021 (2) ***
– 3.710
CT
I (0)
y3
– 2.204 (0) **
– 1.960
N
I (0)
y4
– 29.068 (1) ***
– 1.961
N
I (0)
y5
– 5.273 (2) ***
– 3.710
CT
I (0)
x1
– 2.867 (0) ***
– 1.960
N
I (0)
– 1.960
N
I (0)
x11
– 4.203 (0) ***
4
x12
– 3.659 (0) ***
– 1.960
N
I (0)
x21
– 4.273 (0) ***
– 3.030
C
I (0)
x22
5
– 5.627 (0) ***
– 3.770
CT (Tb = 1992)
I (0)
x3
– 4.554 (0) ***
– 3.040
C
I (0)
x4
– 3.619 (0) **
– 3.040
С
I (0)
Примечания. Расчеты осуществлены при помощи программы EViews 5.1.
*, ** и *** означают отклонение нулевой гипотезы на 10%, 5% и 1%-ном уровнях значимости соответственно.
1
Критическое значение теста для отклонения гипотезы о наличии единичного корня на 5%-ном уровне значимости.
2
N — без константы и тренда; С — константа; T — тренд; Tb — точка структурного сдвига.
3
Критические значения для модифицированного ADF-теста при l = 3/20 = 0.15 равны – 3.77 и – 4.39 на 5%
и 1%‑ном уровнях значимости соответственно (Perron, 1989).
4
В скобках около значений тестов приведена оптимальная длина лага, выбранная таким образом, чтобы устранить автокорреляцию остатков.
5
Критические значения для модифицированного ADF-теста при l = 13/20 = 0.65 равны – 3.57 и – 3.85 на 10%
и 5%-ном уровнях значимости соответственно (Perron, 1989).
Если t-ADF статистика при коэффициенте a является отрицательной величиной и превышает по модулю критическое значение t-статистики критерия Перрона (Perron, 1989) на определенном уровне значимости, то нулевая гипотеза отвергается. При этом асимптотические
критические значения t‑статистики критерия Перрона зависят от типа структурного сдвига
и от положения момента структурного сдвига относительно длины временного ряда (через
параметр l=Tb / T , где Tb — точка структурного сдвига, а T — количество наблюдений).
Для тестирования временных рядов со структурным сдвигом второго типа может использоваться следующая процедура (Пелипась, 2001). Вначале следует оценить статистическую модель:
yt = m+ bt + gDTSt + et ,
(3)
где: yt — уровень переменной; m, b, g — параметры регрессии; DTSt — фиктивная переменная, равная (t - Tb ) для t > Tb и 0 для всех других значений t, позволяющая учесть излом тренда; t — тренд; et — ошибки регрессии. При помощи регрессии (3) из временного ряда устраняется тренд, а полученные остатки затем используются в следующем тесте
на единичный корень:
40
Здравоохранение 
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
p
Det = aet-1 + å c j Det- j + xt ,
(4)
j=1
где: Det = et - et-1 ; a, c j — параметры регрессии; p — количество лагов, включаемых в регрессию; xt — ошибки регрессии. В правую часть оцениваемой статистической модели следует включать достаточное количество запаздывающих разностей, чтобы исключить автокоррелированность ошибок в расширенной модели. Проверка нулевой гипотезы осуществляется, как и в предыдущем случае.
Согласно ADF-тесту уровни десяти переменных оказались стационарными: y2, y3, y4, y5,
x11, x12, x21, x3, x4 (табл. 1).
Наибольшую проблему для тестирования представляли собой уровни общей заболеваемости ОКИ (y1) и удельного веса проб питьевой воды из разводящей сети ведомственных
водопроводов, не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям (x22 ). Специфицировать ADF- и KPSS-тесты для этих рядов не удалось.
Однако, учитывая особенности их динамики (указанные ряды содержат структурные сдвиги,
рис. 1д, е), для анализа порядка их интегрированности в регрессию ADF-теста были включены фиктивные переменные. Для ряда y1 — D1 = (t - Tb ) при t > Tb , Tb = 2002; для ряда
x22 — D1 =1 при t > Tb , 0 в остальное время, D2 =1 (t = Tb +1), Tb =1992 . Точки структурных сдвигов Tb = 2002 и Tb = 1992 определялись экзогенно на основании визуального обращения к графикам рядов y1 и x22 соответственно (рис. 1д, е). Согласно модифицированному
ADF-тесту гипотеза о наличии единичного корня в уровнях переменных y1, x22 отвергается
на 10% и 1%-ном уровнях значимости соответственно (табл. 1).
Таким образом, все исследуемые временные ряды в дальнейшем анализе рассматривались как стационарные с нулевым порядком интегрированности I (0) . Отметим, что стационарность рядов позволяет использовать стандартные процедуры регрессионного анализа,
имея в виду их асимптотическую обоснованность (Носко, 2002).
4. Связь «заболеваемость — загрязнение». Эконометрический анализ
Прежде чем перейти к корреляционно-регрессионному анализу, необходимо построить
диаграммы рассеяния (Y – X), чтобы визуально оценить возможные связи между зависимыми переменными Y и независимыми X. Анализ диаграмм рассеяния (Y – X) показал отсутствие явно выделенных групп наблюдений и выбросов и позволил предположить наличие линейных связей для пар переменных: ( y1, x1), ( y1, x11), ( y1, x12), ( y1, x22), ( y1, x3); ( y2, x1),
( y2, x11), ( y2, x12); ( y3, x1), ( y3, x11), ( y3, x22), ( y3, x22); ( y4, x1), ( y4, x11), ( y4, x12); ( y5, x1), ( y5, x11), ( y5, x12),
а также — нелинейных связей для пар переменных: ( y1, x21), ( y1, x22); ( y2, x1), ( y2, x11), ( y2, x12);
( y3, x1), ( y3, x11), ( y3, x12); ( y4, x1), ( y4, x11), ( y4, x12), ( y4, x22).
Для выявления наиболее значимых независимых переменных и возможной мультиколлинеарности были рассчитаны значения коэффициентов корреляции Пирсона (табл. 2). При
этом высокие значения коэффициентов корреляции указывают на наиболее значимые независимые переменные в условиях данного региона.
41
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
№ 2 (22) 2011
Таблица 2. Матрица парных коэффициентов корреляции Пирсона
x1
x1
x11
x12
x21
x22
x3
1
0.96
0.97
0.51
0.81
0.44
1
1.00
0.47
0.87
1
0.44
1
x11
x12
x21
x22
y1
y2
y3
y4
y5
– 0.34
0.53
0.56
0.66
0.93
0.61
0.31
– 0.46
0.49
0.51
0.65
0.92
0.65
0.88
0.31
– 0.46
0.50
0.52
0.64
0.91
0.65
0.43
0.77
0.53
0.52
0.13
0.24
0.61
0.27
1
0.35
– 0.23
0.60
0.40
0.46
0.82
0.54
0.48
0.63
0.01
0.19
0.45
0.23
1
0.15
– 0.23
– 0.34
– 0.18
– 0.18
0.32
0.43
0.53
0.61
1
0.71
0.51
0.41
1
0.60
0.60
1
0.44
x3
1
x4
x4
y1
1
y2
y3
y4
Статистический анализ влияния качества питьевой воды на здоровье населения региона
Примечание: Расчеты выполнены в программе Statistica 6.0. Курсивом выделены статистически значимые коэффициенты на уровне значимости 0.05.
Учитывая наличие предполагаемых нелинейных связей между переменными, были рассчитаны индексы корреляции (табл. 3).
Таблица 3. Матрица индексов корреляции
x1
x11
x12
x21
x1
x11
x12
x21
x22
x3
1
0.85
0.85
0.41
0.47
1
1.00
0.08
0.59
1
0.08
1
x22
x3
x4
y1
y2
y3
y4
x4
y1
y2
y3
y4
y5
0.30
0.41
0.36
0.77
0.75
0.90
0.75
0.07
– 0.60
0.30
0.73
0.78
0.87
0.72
0.59
0.07
– 0.60
0.30
0.73
0.78
0.86
0.72
0.24
0.77
0.39
0.64
0.07
0.01
0.45
0.24
1
0.44
0.03
0.48
0.38
0.36
0.67
0.48
1
0.46
0.62
0.07
0.03
0.29
0.22
1
0.19
– 0.46
– 0.52
– 0.39
– 0.18
0.19
0.18
0.41
0.49
1
0.84
0.75
0.65
1
0.72
0.69
1
0.71
1
Примечание: См. примечание к табл. 2.
Анализ матриц парных коэффициентов и индексов корреляции позволил выявить статистически значимые линейные и нелинейные корреляционные связи между исследуемыми переменными. Видно, что результаты корреляционного анализа в целом согласуются с результатами анализа диаграмм рассеяния. Показатели заболеваемости в основном положительно коррелируют с показателями загрязнения питьевой воды, что вполне объяснимо с предметной точки
зрения: рост загрязнения питьевой воды способствует росту заболеваемости. Последующий
этап моделирования направлен на исследование именно статистически значимых связей.
42
Здравоохранение 
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Кроме того, результаты корреляционного анализа свидетельствуют о наличии мультиколлинеарности между независимыми переменными. Очень тесные корреляционные связи
выявлены между переменными x1 , x11 , x12 . Очевидно, что переменные x11 и x12 дублируют
друг друга ( rx11 x12 =1, I x11 x12 =1). В дальнейшем анализе использовалась переменная x1, т. к.
при достаточно тесной связи фактора x1 с зависимыми переменными он имеет наибольшую тесноту связи с факторами x11 и x12 , что вполне логично, поскольку показатели x11
и x12 входят в показатель x1 .
5. Моделирование. Интерпретация результатов
Первоначальная спецификация уравнений регрессионных моделей зависимости заболеваемости населения от загрязнения питьевой воды задавалась, исходя из результатов анализа диаграмм рассеяния (Y – X) и корреляционного анализа (табл. 2, 3). Для отбора наиболее информативных независимых переменных использовался метод «пошаговой регрессии
с последовательным исключением переменных», реализованный в статистическом пакете
Statistica. При выборе формы модели предпочтение отдавалось линейной форме. В случае
выявления ошибок в спецификации формы или предположения нелинейной зависимости
строились лог-линейные уравнения. Затем отбиралась окончательная модель.
Уравнение регрессионной модели, устанавливающей количественную статистическую
зависимость между показателем общей заболеваемости ОКИ на 100 тыс. населения и показателями загрязнения питьевой воды, имеет вид:
y1
t-значения: 107.286 6.243x22 4.332 x3 ,
(2.03) (2.42) (5)
(2.69)
2
R = 0.56; F (2.16) =10.06; DW =1.23.
Статистические показатели качества модели и тесты на спецификацию подтверждают ее
приемлемое качество. Анализ остатков не выявляет автокоррелированность (значение критерия Дарбина –Уотсона (DW = 1.23) попадает в зону неопределенности; p-значение критерия Бреуша – Годфри при AR(1) альтернативе равно 0.072), не выявляет значимого отклонения от нормальности распределения (p-значение критерия Жарке – Бера (Jarque – Bera)
равно 0.917), не обнаруживает гетероскедастичность (p-значение критерия Уайта (White)
равно 0.606).
В связи с низким коэффициентом детерминации R 2 = 0.56 (всего 56% дисперсии показателя заболеваемости ОКИ объясняется уравнением регрессии) модель может быть использована только для анализа данных.
Коэффициенты при независимых переменных x22 и x3 статистически значимы и имеют ожидаемые знаки. При неизменном значении переменной x3 рост удельного веса проб
питьевой воды из разводящей сети ведомственных водопроводов, не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям, на 1% влечет за собой
рост общей заболеваемости ОКИ на 100 тыс. населения в среднем на 6.24 случаев. При неизменном значении переменной x22 рост удельного веса проб воды из децентрализованных
источников водоснабжения, не отвечающих гигиеническим требованиям по микробиологическим показателям, на 1% влечет за собой рост общей заболеваемости ОКИ на 100 тыс.
43
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
№ 2 (22) 2011
населения в среднем на 4.33 случаев. Очевидно, что фактор x22 оказывает более сильное
влияние на результат y1 , чем фактор x3 .
Полученные результаты согласуются с результатами других работ данного профиля (Вараксин, 2006; Понкратов, Махотина, 2001) и подтверждаются данными эпидемиологического
исследования (Булатова, 2009), в котором установлено, что основным фактором передачи ОКИ
(в частности, ротавирусной инфекции) в Республике Марий Эл является питьевая вода.
Построить статистически значимую линейную регрессионную модель зависимости между заболеваемостью бактериальной дизентерией и показателями загрязнения питьевой
воды по имеющимся данным не удалось.
Проведенный ранее анализ диаграмм рассеяния и результаты корреляционного анализа
(табл. 3) позволили предположить нелинейную зависимость между переменными y2 и x1 , x4
и выбрать лог-линейную форму регрессионной модели.
Уравнение регрессионной модели имеет вид:
ln y2
1.6031.209 ln x1 t-значения: (6)
(3.00) (5.15)
2
Статистический анализ влияния качества питьевой воды на здоровье населения региона
R = 0. 60; F (1.18) = 26. 56; DW =1. 63.
Выполнив потенцирование, получим:
y2
4.967 x11.209 .
(7)
Статистические показатели качества модели и тесты на спецификацию подтверждают ее
приемлемое качество. Анализ остатков не выявляет автокоррелированность, не обнаруживает гетероскедастичность (p-значение теста Уайта равно 0.482), не выявляет значимого отклонения от нормальности распределения (p-значение критерия Жарке – Бера равно 0.063).
Модель (7) может быть использована для анализа данных. Коэффициент при независимой
переменной x1 статистически значим и имеет ожидаемый знак.
Построить статистически значимую линейную регрессионную модель зависимости между заболеваемостью бактериальной дизентерией, вызванной шигеллами Флекснера, и показателями загрязнения питьевой воды по имеющимся данным не удалось.
Проведенный ранее анализ диаграмм рассеяния и результаты корреляционного анализа
(табл. 3) позволили предположить нелинейную зависимость между переменными y3 и x1 , x4
и выбрать лог-линейную форму регрессионной модели.
Уравнение регрессионной модели имеет вид:
ln y3
t-значения: 0.215 1.204 ln x1 ,
(8)
(0.38) (4.85)
2
R = 0. 57; F (1. 18) = 23. 48; DW =1. 32 ,
y3
1.240 x11.204 .
(9)
Статистические показатели качества модели и тесты на спецификацию подтверждают ее
приемлемое качество. Анализ остатков не выявляет автокоррелированность (значение критерия Дарбина – Уотсона (DW = 1.32) попадает в зону неопределенности; p-значение критерия Бреуша – Годфри при AR(1) альтернативе равно 0.143), не обнаруживает гетероске-
44
Здравоохранение 
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
дастичность (p-значение критерия Уайта равно 0.597), не выявляет значимого отклонения
от нормальности распределения (p‑значение критерия Жарке – Бера равно 0.636). Модель (9)
может быть использована для анализа данных.
Построить удовлетворяющую критериальным значениям линейную регрессионную модель зависимости между заболеваемостью ВГА и показателями загрязнения питьевой воды
по имеющимся данным не удалось.
Проведенный ранее анализ диаграмм рассеяния и результаты корреляционного анализа
(табл. 3) позволили предположить нелинейную зависимость между переменными y4 и x21, x22,
и выбрать лог-линейную форму регрессионной модели.
Уравнение регрессионной модели имеет вид:
ln y4
3.743 2.337 ln x1 0.758 ln x22 ,
(10)
t-значения: (–5.21) (6.61) (2.15)
2
R = 0.84; F (2. 17) = 45. 90; DW = 2. 08 .
Выполнив потенцирование, получим:
y4
0.758
0.024 x12.337 x22
.
(11)
Статистические показатели качества модели и тесты на спецификацию подтверждают ее
приемлемое качество. Анализ остатков не выявляет автокоррелированность, не обнаруживает
гетероскедастичность (p-значение критерия Уайта равно 0.258), не выявляет значимого отклонения от нормальности распределения (p-значение критерия Жарке – Бера равно 0.540).
Модель (11) может быть использована для анализа данных. Коэффициенты при независимых переменных x1 и x22 статистически значимы и имеют ожидаемые знаки. Фактор x1
оказывает более сильное влияние на результат y4, чем фактор x22 .
Полученные результаты согласуются с данными эпидемиологического исследования (Булатова, 2009), в котором установлено, что основным фактором передачи ВГА в Республике
Марий Эл является питьевая вода.
Построить статистически значимые регрессионные модели зависимости между заболеваемостью сальмонеллезом и показателями загрязнения питьевой воды по имеющимся
данным не удалось. Это не противоречит данным эпидемиологического исследования (Булатова, 2009), в котором установлено, что рост заболеваемости населения сальмонеллезом
в Республике Марий Эл связан с активизацией эпизоотического процесса этой инфекции
среди кур, выращиваемых на промышленных птицекомплексах.
В связи с относительно низкими коэффициентами детерминации (только 56 – 84% дисперсии зависимых переменных объясняется в рамках полученных моделей) регрессионные
модели (5), (7), (9), (11) не могут быть использованы в качестве прогнозных. Вместе с тем
они являются удовлетворительными предметными моделями.
6. Выводы
Проведенный обзор научных информационных источников по тематике исследуемой проблемы позволил выбрать максимально связанные между собой с предметной точки зрения
(с точки зрения этиологии) исходные показатели здоровья населения и качества питьевой
45
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
№ 2 (22) 2011
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Статистический анализ влияния качества питьевой воды на здоровье населения региона
№ 2 (22) 2011
воды. Вследствие малости выборки (1991 – 2009 гг.) использовались показатели заболеваемости, мгновенно откликающиеся на загрязнение питьевой воды.
В исходный набор вошли следующие показатели:
zz
общая заболеваемость острыми кишечными инфекциями на 100 тыс. населения;
zz
заболеваемость бактериальной дизентерией на 100 тыс. населения;
zz
заболеваемость бактериальной дизентерией, вызванная шигеллами Флекснера, на 100 тыс.
населения;
zz
заболеваемость вирусным гепатитом A на 100 тыс. населения;
zz
заболеваемость сальмонеллезом на 100 тыс. населения;
zz
удельный вес проб питьевой воды централизованных систем питьевого водоснабжения,
не соответствующих гигиеническим требованиям по микробиологическим показателям;
zz
удельный вес проб питьевой воды из разводящей сети коммунальных водопроводов
не соответствующих гигиеническим требованиям по микробиологическим показателям;
zz
удельный вес проб питьевой воды из разводящей сети ведомственных водопроводов,
не соответствующих гигиеническим требованиям по микробиологическим показателям;
zz
удельный вес проб питьевой воды из разводящей сети коммунальных водопроводов,
не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям;
zz
удельный вес проб питьевой воды из разводящей сети ведомственных водопроводов,
не соответствующих гигиеническим требованиям по санитарно-гигиеническим показателям;
zz
удельный вес проб воды из децентрализованных источников водоснабжения, не отвечающих гигиеническим требованиям по микробиологическим показателям;
zz
удельный вес проб воды из децентрализованных источников водоснабжения, не отвечающих гигиеническим требованиям по санитарно-гигиеническим показателям.
Тесты на стационарность и наличие единичного корня показали, что все исследуемые переменные являются стационарными в уровнях и имеют первый порядок интегрированности. Это
позволило использовать стандартные процедуры корреляционно-регрессионного анализа.
Полученные регрессионные модели, устанавливающие количественные взаимосвязи между показателями заболеваемости населения и загрязнения питьевой воды в условиях Республики Марий Эл, подтверждают, что качество питьевой воды является одним из основных
факторов, определяющих здоровье населения. Модели (5), (7), (9), (11) могут использоваться для поиска путей управления снижением заболеваемости через сокращение загрязнения
и улучшение качества питьевой воды.
Список литературы
Булатова С. И. (2009). Обоснование комплекса санитарно-противоэпидемических мероприятий
по предупреждению и снижению медико-санитарных последствий биолого-социальных чрезвычайных ситуаций (на примере Республики Марий Эл): автореф. дис.…канд. мед. наук: 05.26.02 14.00.30.
ФГУ «Всероссийский центр медицины катастроф «Защита». Москва.
Вараксин А. Н. (2006). Статистические модели регрессионного типа в экологии и медицине.
Екатеринбург: Гощицкий.
Веселова А. К., Глазкова Т. М., Меркулова Л. К., Федотова Г. П. (1999). Влияние качества питьевой воды на заболеваемость населения Ярославля. Гигиена и санитария, 4, 11 – 13.
46
Здравоохранение 
№ 2 (22) 2011
Государственные доклады (1993–2010). О состоянии окружающей природной среды Республики
Марий Эл в 1992 – 2009 гг. Йошкар-Ола.
Государственные доклады (2006–2010). О санитарно-эпидемиологической обстановке в Республике Марий Эл в 2005 – 2009 гг. Йошкар-Ола.
Ерофеев Ю. В., Нескин Т. А., Турчанинов Д. В. (2006). Влияние кальция и магния в питьевой воде на заболеваемость населения Омской области. Гигиена и санитария, 6, 23 – 27.
Захаров В. М., Дмитриев С. Г. (2008). Опыт общественного участия в реализации экологической
политики в регионах России. М. Акрополь. Центр экологической политики и культуры. Центр здоровья среды.
Ивлева Н. А., Сабирова З. Ф. (2000). Роль факторов риска в формировании хронических заболеваний органов пищеварения у детей. Гигиена и санитария, 5, 5 – 7.
Коньшина Л. Г., Вараксин А. Н., Шершнев В. Н., Коновалов В. Ю., Маркелов Ю. И., Живодеров А. А., Макаров Е. Н., Кочева Н. О., Попова Л. Л. (2002). Фактоpы, влияющие на заболеваемость
дошкольников гоpода Оpска. Гигиена и санитария, 2, 52 – 55.
Красовский Г. Н., Зайцева Н. В., Вайсман Я. И., Жолдакова З. И., Михайлов А. В. (1991). Построение и анализ математических моделей зависимости водная химическая нагрузка — здоровье населения. Гигиена и санитария, 5, 11 – 14.
Крук Д. Э., Пелипась И. В., Чубрик А. С. (2006). Основные макроэкономические взаимосвязи в экономике Беларуси: результаты эконометрического моделирования. Исследовательский центр ИПМ.
Носко В. П. (2002). Эконометрика. Введение в регрессионный анализ временных рядов. М.:
НФПК.
Пелипась И. В. (2001). Спрос на деньги и инфляция в Беларуси. Экономический вестник (ЭКОВЕСТ), 1, 6 – 63.
Понкратов А. В., Махотина И. Г. (2001). Качество питьевой воды как фактор риска заболеваемости острыми кишечными инфекциями. Здравоохранение РФ, 2, 52 – 55.
Рахманин Ю. А., Михайлова Р. И., Кирьянова Л. Ф., Рыжова И. Н., Севостьянова Е. М. (2001).
Модели «копия — пара» для вычисления влияния водного фактора на состояние здоровья населения
в эпидемиологическом исследовании. Гигиена и санитария, 5, 36 – 39.
Сабирова З. Ф., Фаттахова Н. Ф., Пинигин М. А. (2003). Оценка потенциальной опасности для
здоровья населения загрязнения окружающей среды. Гигиена и санитария, 2, 74 – 76.
Стародубов В. И., Беляев Е. Н., Киселев А. С. (2002). Исследование методами многофакторного
анализа причинно-следственных связей между степенью загрязнения воды и здоровьем населения
Волжского бассейна. М. Федеральный центр Госсанэпиднадзора Минздрава России.
Статистический ежегодник (2009). Республика Марий Эл. Территориальный орган Федеральной
службы государственной статистики по Республике Марий Эл. Йошкар-Ола.
Суржиков В. Д., Олещенко А. М., Суржиков Д. В., Ксенофонтова И. Ю, Лапшин М. С. (2003).
Здоровье человека и факторы окружающей среды в индустриальных городах. Гигиена и санитария,
6, 85 – 87.
Фетисова Г. К. (2004). Роль минерального состава питьевой воды в формировании неинфекционной патологии населения. Гигиена и санитария, 1, 20 – 22.
Perron P. (1989). The great crash, the oil price shock, and the unit root hypothesis. Econometrica, 57 (6),
1361 – 1401.
47
 Здравоохранение
Л. П. Бакуменко, П. А. Коротков
ПРИКЛАДНАЯ ЭКОНОМЕТРИКА
Download