Рис.2 - Институт космических исследований РАН

advertisement
Линейное и нелинейное
распознавание признаков
неблагоприятных метео- и
геомагнитных условий в отношении
заболеванием инфарктом миокарда
и гипертонической болезнью
Ожередов В.А.1/2, Бреус Т.К.1, Гурфинкель Ю.И.3, Ревич
Б.А.4, Митрофанова Т.А.5 Т.А.Зенченко 1/6
ИКИ РАН, Москва, ojymail@mail.ru;
SiA Technology, Москва, info@sialab.ru;
3Центральная Клиническая Больница №1 ОАО РосЖелДор, Москва;
4Институт Народнохозяйственного Прогнозирования РАН, Москва;
5ИЗМИРАН, Троицк, Московская Область
6Институт теоретической и экспериментальной биофизики РАН
1
2
Семинар «Методы исследования нелинейных электромагнитных
явлений в сложных системах и их применение в медицине»,
Таруса, 8-10 Мая, 2009
Состояние вопроса и постановка задачи
1. Как известно, погодные условия и геомагнитная активность влияют на здоровье
людей.
Примеры: 2003 год, Франция, Италия; от сильной жары погибло от 24 000 до 40 000
человек. 1979-81 гг, Москва, Россия; сильные магнитные бури с АА>60 привели к 11
000 инфарктам миокарда из 80 000 и 7% инсультов из 78 000.
2. Вопрос своевременного обнаружения опасных погодных условий по - прежнему
остается весьма актуальным.
3. Известные до настоящего времени способы обнаружения погодных воздействий на
человека [Б.Ревич, Д.Шапошников, Т.Зенченко, Ю.Гурфинкель, Виллорези,
Т.К.Бреус, Ф.Халберг] основывались на модели с постоянными характеристиками
влияния погодной среды на организм, тогда как в реальности последний производит
фильтрацию факторов по принципу “winner takes it all”.
4. Наша цель – на основе теории распознавания образов выявить потенциально
опасные для здоровья области погодных параметров, при вхождении в которые
погодные факторы получают наибольшее влияние из всех остальных.
Особенности модели распознавания применительно к
задаче с инфарктами миокарда
Сущность распознавания образов заключается в разделении
параметрического пространства на подообласти, соответствующие
разным ситуациям.
Алгоритм разделения пространства требуется обучить. Обучение
происходит по параметрам, полученным в уже известных ситуациях.
Каждая ситуация принадлежит к известному классу.
Пример: наша задача разделить пространство параметров погодных
условий (температура – давление) на две области: 1) люди заболевают
инфарктом миокарда при изменении погоды – один известный класс; 2)
люди не реагируют на изменение погоды – второй известный класс.
Материалы: База данных по ежедневным заболеваниям инфарктами
миокарда в 2 клиниках Москвы - 2800 измерений. База данных по
гипертонической болезни – 8 чел. (680 ежесуточных измерений АД утром и
вечером, Москва, РКНЦ им.Л.Мясникова)
Измерения давления, температуры, и К-индекса за эти дни –
классифицированные нами образы – всего 2800 и 680 образов.
Образы, используемые в обучении, называются
прецедентами.
Особенности модели распознавания
применительно к нашей задаче
(продолжение)
Самым непараметрическим способом
разделения является линейный. Q-мерное
пространство делит гиперплоскость
наделенную Q+1 параметром (исключение –
Q=1 там 1 параметр). Это наименьшее число
параметров, определяющих форму
сепаратрисы. Поэтому мы используем его.
Выпуклая оболочка – минимальное по
включению выпуклое множество,
содержащее прецеденты (данные по
инфарктам миокарда).
Устойчивость алгоритма линейного
распознавания доказана для
непересекающихся (в крайнем случае –
частично пересекающихся) выпуклых
оболочек.
В нашем случае оболочки перекрываются
полностью (см. рис.1), и центры обоих
множеств почти совпадают. Причины
полного перекрытия и близости центров –
это то, что погодные факторы являются не
основными агентами, действующими на
заболеваемость инфарктами. Тем не менее –
справа от сепаратрисы крестиков в два раза
больше чем кружков, т.е. мы добиваемся
достаточно эффективного разделения
пространства признаков, и таким образом
выделяем область максимальной
температуры и скачка давления, которые
приводят к возникновению инфарктов.
Рис.1. Разделение (черная линия –
сепаратриса) параметрического
пространства масимальной температуры
(за день) и скачка давления (по
отношению к предыдущему дню).
Крестики отражают ситуацию, когда в
день измерения были инфаркты. Кружки
– когда их не было. Черный и серый
кресты – центры множеств кружков и
крестиков соответственно.
Метод 1
Традиционные методы линейного разделения встречаются с
необходимостью прямого перерасчета целевого функционала
(баланс ошибок первого и второго рода) по всему множеству
точек. К ошибкам первого рода относятся те, когда мы
принимаем «плохой день» (с заболеванием ИМ) за обычный. К
ошибкам второго рода относятся дни, когда мы принимаем
«хорошие» условия (нет заболеваний ИМ) за плохие
(заболевания есть). Этот функционал не будет гладким, и поиск
его оптимальной величины потребует бесконечно большого
времени.
По этой причине мы вводим гладкий функционал, связанный с
верхним пределом взвешенной суммы ошибок первого и второго
рода. Процедура поиска его оптимального значения
завершается за конечное время.
Оценки эффективности разделения и статистической достоверности
Результаты оценок эффективности и статистической
достоверности
Возьмем пары параметров погоды, дающих наиболее сильный вклад в
эффект заболеваемости инфарктом миокарда. Рис.1 показывает
разделение пространства признаков Tмакс и ∆P.
Рис.2 показывает статистику и эффективность разделения для разных
соотношений вкладов ошибок первого и второго рода.
Статистика это количество измерений принадлежащих «плохой» области.
Эффективность это соотношение количеств «плохих» и «хороших»
измерений соответственно в «плохой» области.
Рис.2
Серыми цифрами показаны значения соотношения между ошибками первого и
второго рода, принятыми для конечного распознавания, исходя из компромисса
статистики и эффективности (λ).
Разделение в пространстве скачков
давления ∆Р и ∆К-индекса
Очевидно что ∆K и ∆P дают
13% статистики из 2800
случаев, т.е. 380 случаев,
принадлежащих «плохой»
области. Эта цифра
максимальна среди
исследованных нами пар.
Ранние исследования
давали такую же цифру 13%
для Москвы за 3 года (из
80000 инфарктов миокарда)
[Бреус, Раппопорт 2003].
Рис.3
Метод 2
Fig.4. Верхний график: Схематическое
представление оценки импакт – фактора в
случае
двумерной
картины
для
индивидуальных параметров. Черные
точки – «плохие» измерения, когда были
ИМ,
белые
точки
соответствуют
нормальной ситуации (нет ИМ). Черная
линия – сепаратриса, приблизительно
разделяющая нормальные и «плохие»
измерения.
На
нижнем
графике
показан
относительный
вклад
факторов
космической и обычной погоды. Как
можно видеть проекция вектора W
(перпендикуляра к сепаратрисе) на ось p2
заметно больше проекции на ось p1. Таким
образом, мы получаем относительные
вклады каждого из 7 факторов (P, ∆P, K –
индекс,
∆K,
Tмакс,
Tсредн,
∆T),
принимающего участие в формировании
космической и обычной погоды. (см. рис.4
нижняя часть).
Очевидно, что скачки атмосферного
давления ∆P, температура и скачки ∆K
играют главную роль в формировании
«плохих» условий.
Рис.4
Относительный вклад каждого из
рассмотренных факторов погоды
P
∆P
K
∆K
Tмакс
Tсредн
∆T
0.04
34.29
1.66
18.05
22.72
20.89
2.33
Таблица получена подсчетом квадратов проекций единичной нормали к
сепаратрисе на оси параметров погоды при разделении в пространстве всех
факторов одновременно (см. Рис.4, нижний график).
Соотношение между вкладами факторов считается суммированием по
параметрам, относящимся к одному и тому же фактору. Итого получаем: Т : K :
Р = 26%, 20% и 34% : :, или
T:K:P=5:4:7
Основной вклад вносит обычная погода. Общий вклад от
геомагнитной активности составляет 20%.
Заключение по инфарктам миркарда
,
Одновременные скачки индекса геомагнитной активности ∆K и атмосферного давления
∆Р приводят 13% заболеваний из 2800 случаев, т.е. 380 случаев, принадлежащих к
области погодных условий, приводящих к катастрофам. Эта цифра максимальна среди
исследованных нами пар метео и гемагнитных параметров. Ранние исследования
давали такую же цифру для Москвы за 3 года (из 80000 инфарктов миокарда) [12].
Соотношение между вкладами факторов, просуммированных по исследованным
параметрам, относящимся к одному и тому же фактору, приводят к следующему:
T:K:P=9:4:7
Таким образом, в возникновение инфарктов основной вклад вносят изменения
обычной погоды, главным образом, атмоферная температура. Общий вклад
геомагнитной активности составляет 20% в те дни, когда возрастает число
инфарктов.
Из предыдущих работ известно, что основное влияние геомагнитные факторы
оказывают на сосудистый тонус, и неспецифическая реакция на ГМА подобна
реакции на метео-факторы (Бреус, Баевский и др. 1998).
Поэтому в случае комбинированного действия геомагнитной активности на фоне,
например, пониженных температур (холодовые волны) эффективность
воздействия возрастает.
Концепция нечетких
ассоциаций в
нелинейной теории
принятия решений
Сущность распознавания образов заключается в
разделении параметрического пространства на
подообласти, соответствующие разным ситуациям.
Алгоритм разделения пространства требуется
обучить. Обучение происходит по параметрам,
полученным в уже известных ситуациях. Каждая
ситуация принадлежит к известному классу.
Причины и необходимость использования
нелинейного разделения (достоинства и
недостатки)
Недостаточная
эффективность линейного
разделения при сильном
пересечении выпуклых
оболочек прецедентов
Достоинства:
Отсутствие жестких
ограничений на модель
генерации прецедентов.
Хорошая эффективность
разделения.
Недостатки:
Состоятельность оценок
плотностей резко падает с
ростом размерности.
Разделение пространства признаков
в случае непересечения (а) и
пересечения (б) выпуклых оболочек
прецедентов
Топологическая
дифференциация прецедентов
Прецедент – вектор из
компонентов признаков
ситуации и отклика
Главный вопрос – насколько
прогнозируемая ситуация
близка к обучающим
прецедентам и как
количественно определяется
понятие «БЛИЗКА»?
«Ближайшие» (внутри
эллипса на рис. внизу) к
прогнозируемой ситуации
прецеденты имеют большее
влияние на прогнозирующий
алгоритм, нежели более
дальние – топологическая
дифференциация
Нечеткая vs Четкая ассоциация
Оптимизация алгоритма (нахождение «подгоночных»
параметров топологической дифференциации) при
прогнозировании / распознавании осуществляется по
определенному критерию качества. Зависимость критерия
качества от «подгоночных» параметров – функционал качества.
Система обнаружения максимума должна чувствовать градиент
функционала качества для выявления точки оптимальных
параметров
Для этого фукционал качества должен быть гладким
Функционал качества получается гладким при нечетких
ассоциациях (более далекие прецеденты меньше участвуют в
процессе обучения) и негладким при четких (внутри
дифференцирующего контура прецеденты в равной степени
участвуют в обучении и перестают участвовать вообще вне его)
Нечеткая ассоциация и гладкость
функционалов качества
а)
б)
а) Четкая ассоциация (концепция «ближайшего соседа»)
б) Нечеткая ассоциация
Двухклассовая модель генерации
прецедентов
В обучении
принимают участие
рандомизированно
отобранные из базы
данных прецеденты
обоих классов
Рандомизация
выбора гарантирует
независимость
обучающей выборки
в совокупности
Расположение обучающих прецедентов
в пространстве признаков
Алгоритм рандомизации выбора
(стохастический отбор без возвращения)
Оптимизация положения
критического множества при
заданных плотностях
распределения: простая гипотеза
против простой альтернативы
Многоядерная аппроксимация плотности
Результат рандомизированного выбора обучающих и
экзаменационных прецедентов по данныим
гипертонической болезни (680 прецедентов)
Сигмоидная индикатриса нечеткой ассоциации, кривые ошибок I и II
рода и критическая область для возникновения гипертонических
кризов по по данныим гипертонической болезни (680 прецедентов)
Download