14 апреля 2014 года состоится предварительное рассмотрение

advertisement
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ
ИНСТИТУТ ХИМИИ НЕФТИ СИБИРСКОГО ОТДЕЛЕНИЯ
РОССИЙСКОЙ АКАДЕМИИ НАУК (ИХН СО РАН)
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ "ТОМСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ" (ТУСУР)
На правах рукописи
ЛУЧКОВА СОФЬЯ ВИКТОРОВНА
АЛГОРИТМЫ И ПРОГРАММНЫЙ КОМПЛЕКС АНАЛИЗА
МНОГОМЕРНЫХ ДАННЫХ О ПРИРОДНЫХ ОБЪЕКТАХ С ПРИМЕНЕНИЕМ
СТАТИСТИЧЕСКОГО И НЕЧЕТКОГО МОДЕЛИРОВАНИЯ
05.13.18 — Математическое моделирование,
численные методы и комплексы программ
Диссертация на соискание ученой степени
кандидата технических наук
Научный руководитель:
кандидат технических наук
Перемитина Т.О.
Томск – 2014
2
СОДЕРЖАНИЕ
Сокращения............................................................................................................................................. 4
Введение .................................................................................................................................................. 5
Глава 1. Обзор методов моделирования и исследования многомерных данных ........................... 12
1.1 Особенности предмета исследования и область применения .......................................... 12
1.2 Обзор методов восстановления пропущенных значений в многомерных данных ........ 14
1.2.1 Классические методы восстановления пропущенных значений ................................... 14
1.2.2 Неклассические методы восстановления пропущенных значений ............................... 21
1.3 Численные и статистические методы анализа многомерных данных ............................. 27
1.4 Методы классификации многомерных данных ................................................................. 34
1.5 Пространственный анализ данных с применением геоинформационных систем ......... 36
1.6 Программно-инструментальные средства анализа многомерных данных ..................... 38
1.7 Постановка задач диссертационных исследований .......................................................... 41
Глава 2. Разработка методики комплексного анализа многомерных данных................................ 42
2.1 Схема проведения комплексного анализа многомерных данных .................................... 42
2.2 Алгоритмическое обеспечение ............................................................................................ 43
2.2.1 Алгоритмы нечеткого моделирования ............................................................................ 43
2.2.2 Алгоритм восстановления данных................................................................................... 63
2.2.3 Алгоритм факторного анализа с вращением ................................................................. 65
2.2.4 Алгоритм классификации многомерных данных ............................................................ 68
2.3 Методические вопросы пространственного анализа данных с применением ГИС ....... 69
Выводы по главе 2 ................................................................................................................................ 71
Глава 3. Программная реализация разработанной методики .......................................................... 72
3.1 Выбор средства реализации ................................................................................................. 72
3.2 Архитектура программного комплекса .............................................................................. 72
3.3 Визуальная часть программного комплекса ...................................................................... 74
3.3.1 Блок "Моделирование" ....................................................................................................... 75
3.3.2 Блок "Восстановление данных" ........................................................................................ 81
3.3.3 Блок "Анализ данных" ........................................................................................................ 83
Выводы по главе 3 ................................................................................................................................ 87
Глава 4. Практическое применение результатов диссертационного исследования ...................... 88
4.1 Исследование адекватности результатов моделирования ................................................ 88
4.2 Анализ точности алгоритмов восстановления пропущенных значений ......................... 93
3
4.3 Комплексный анализ многомерных данных о микробиологических и физикохимических свойствах нефти ......................................................................................................... 95
ЗАКЛЮЧЕНИЕ .................................................................................................................................. 106
СПИСОК ЛИТЕРАТУРЫ .................................................................................................................. 109
4
Сокращения
АМК – алгоритм муравьиной колонии
ГА – генетический алгоритм
ГИС – геоинформационная система
ЛП – лингвистическая переменная
МГК – метод главных компонент
МНК – метод наименьших квадратов
НГП – нефтегазовая провинция
НС – нечеткая система
ПК – программный комплекс
САО – средняя абсолютная ошибка
СКО – среднеквадратичная ошибка
ФА – факторный анализ
ФП – функция принадлежности
ЭС – эволюционная стратегия
5
"Каждый день мы используем числа, чтобы
прогнозировать погоду, определять время, считать
деньги… С помощью математики мы можем
анализировать
преступления,
выявлять
закономерности,
предсказывать
поведение…
Используя числа, мы можем решить величайшие
загадки." - Numb3rs
ВВЕДЕНИЕ
Актуальность работы
Научно-исследовательская
деятельность
сопряжена
с
обработкой
постоянно
увеличивающегося массива разрозненной совокупной информации об объектах исследования.
Аналитические процессы предполагают обработку огромного количества материалов и
включают
такие
трудоемкие
процессы
как
систематизация,
выявление
каких-либо
закономерностей, преобразование данных для последующего математического моделирования.
Модели данных – это важнейшая составляющая для анализа, так как то, насколько полно и
детально модель может представить предметную область и ее явления, в значительной степени
определяет функциональные возможности создаваемой системы. Однако построение модели и
последующего анализа осложняется проблемой неточного или неполного описания изучаемых
объектов. Одним из подходов к решению данной проблемы является применение методов
статистического и нечеткого моделирования.
Нечеткое моделирование используется при построении сложных моделей, когда трудно
сформировать аналитическую модель объекта: когда аналитическая модель слишком сложна,
когда имеется неполнота экспертных данных для статистического моделирования и т.д.
Нечеткие системы применяются в таких проблемных областях науки и техники как
прогнозирование, распознавание образов, автоматическое управление, системы принятия
решений, робототехника. Преимуществами НС является невысокая стоимость разработки,
гибкость, интуитивно понятная логика функционирования.
Важным моментом, решаемым в процессе построения НС, является идентификация ее
параметров. Актуальной задачей является повышение точности вывода НС на реальных
данных. Для настройки параметров НС используются различные методы оптимизации, наряду с
методами,
основанными
на
производных,
применяются
генетические
алгоритмы,
эволюционные стратегии и нейронные сети. Эволюционные стратегии (ЭС) совместно с
эволюционным программированием и генетический алгоритм представляют три главных
направления развития эволюционного моделирования. Несмотря на то, что каждый из методов
6
возник независимо от других, они характеризуются рядом общих свойств. Для любого из них
формируется исходная популяция, которая подвергается селекции и воздействию различных
генетических операторов, что позволяет находить лучшие решения. Построение алгоритмов на
основе метода эволюционной стратегии основываются на трудах Ingo Rechenberg, Hans-Paul
Schwefel, H.-G. Beyer, J, Klockgether, S. Kern, A. Auger, Д. Рутковской, S.L. Luke, N. Hansen, A.
Ostermeir а алгоритмы нечеткого моделирования на работах
А.Н. Аверкина, И.А.
Ходашинского, И.З. Батыршина, Л.С. Берштейна, Л.Г. Комарцовой, А.В. Язенина, Н.Г.,
Ярушкиной, P.H. Ishibuchi,n, R.R. Yager, T.Yasukawa, L.-X. Wang, L. Zadeh, H. Bahrami, M.
Abdechiri, M.R. Meybodi, Y. Zhang, X. Wu, Z. Xing, W. Hu.
Ввиду многомерности изучаемых данных для проведения анализа появляется
потребность в их более компактном описании, то есть в сжатии информации до более важных
характеристик.
Факторный
анализ
(ФА)
позволяет
учитывать
эффект
существенной
многомерности данных и дает возможность более простого, лаконичного объяснения
многомерной структуры. Сжатие информации получается за счет того, что число факторов
значительно меньше, чем было исходных параметров. Отсюда основными целями ФА является
понижение числа используемых переменных и наглядная визуализация полученных данных.
При исследовании природных объектов, таких как нефть, для повышения наглядности
результатов и помощи в их интерпретации требуют включения в анализ пространственных
свойств объектов исследования – географические координаты, глубина залегания и др. Для
учета и анализа пространственных данных применяются геоинформационные системы (ГИС),
позволяющие визуализировать большие объемы информации с пространственными свойствами,
включая связанную с ними количественную информацию об объектах.
Выявленные особенности широкого класса природных объектов требуют комплексного
подхода к анализу. Комплексность понимается как возможность проведения исследований
многомерных неполных данных на основе сочетания методов нечеткого моделирования и
многомерного статистического анализа с целью восстановления пропущенных значений,
проведения анализа структуры данных, выявления скрытых взаимосвязей между свойствами, а
также исследования пространственных свойств объектов, отображая результаты анализа
средствами ГИС в едином комплексе программ.
В настоящее время методические вопросы комплексного анализа многомерных данных,
решающие одновременно вопросы восстановления неполных данных, редукции исходных
данных, выявление значимых свойств объектов исследования, а так же визуализации с
географической привязкой, разработаны недостаточно. В связи с этим возникла потребность
разработки новой методики, основанной на сочетании методов нечеткого и статистического
моделирования.
7
Объект исследования – природные пространственно-распределенные объекты, например
нефти, для описания свойств которых используются многомерные массивы данных.
Предмет исследования – комплекс алгоритмов и программ определения зависимостей
между различными свойствами природных объектов (например, между физическими,
химическими и пространственными свойствами).
Цель работы – разработка алгоритмов и комплекса программ анализа многомерных
данных о различных свойствах природных объектов, основанных на сочетании методов
нечеткого
моделирования,
многомерного
статистического
анализа
и
методов
пространственного анализа с применением геоинформационных систем.
Задачи исследования:
1. Анализ предметной области и обзор существующих решений в области комплексного
анализа многомерных неполных данных.
2. Разработка методики проведения комплексного анализа многомерных неполных
данных с применением нечеткого и статистического моделирования.
3. Разработка алгоритмов комплексного анализа многомерных неполных данных.
4. Проведение исследований разработанных алгоритмов на типовых контрольных
примерах и тестовых выборках.
5. Проектирование и разработка программного комплекса.
6. Применение и внедрение программного комплекса анализа многомерных неполных
данных.
Методы исследований: методы нечеткого моделирования, нечетких множеств,
математической статистики, линейной алгебры, метод факторного анализа, численные методы,
метод кластеризации, методы пространственного анализа средствами ГИС, методы объектноориентированного программирования.
Достоверность результатов обеспечивается строгостью применения математических
методов, результатами проведенных численных экспериментов, которые сопоставлены с
данными, полученными другими авторами.
Научная новизна. В диссертационной работе получены следующие новые научные
результаты:
1. Предложена
методика проведения комплексного анализа многомерных данных о
природных пространственно-распределенных объектах, обеспечивающая выявление новых
закономерностей между свойствами исследуемых объектов.
2. Модифицированный алгоритм идентификации нечеткой системы с заданной
структурой, включающий генерацию структуры НС с заданными параметрами функции
8
принадлежности и оптимизацию параметров НС, основанную на методе эволюционной
стратегии и методе наименьших квадратов.
3. Впервые разработан алгоритм восстановления пропущенных значений, основанный
на
разработанном
модифицированном
алгоритме
идентификации
нечеткой
системы,
отличающийся от известных алгоритмов и статистических методов снятием требований к
знанию закона распределения.
Практическая ценность.
Созданный программный комплекс внедрен в ИХН СО РАН и применялся при
выполнении Бюджетного проекта V.39.3.1. Исследование физико-химических свойств
гетерогенных нефтесодержащих систем и их структурной организации на микро- и наноуровне
с целью развития научных основ экологически безопасных технологий извлечения вязких
парафинистых
нефтей
по
теме
«Разработка
методических
вопросов
восстановления
пропущенных значений в выборочном массиве из базы данных по свойствам вязких
парафинистых нефтей с использованием методов вероятностного моделирования и кластерного
анализа данных» и проекта РФФИ 11-05-98023 «Исследование влияния химического состава и
условий залегания нефтей на численность, распространение и активность пластовой
микрофлоры для повышения нефтеотдачи».
Разработанный программный комплекс внедрен в Федеральном государственном
бюджетном учреждении науки Институте мониторинга климатических и экологических систем
Сибирского отделения Российской академии наук (ИМКЭС СО РАН) и используется в рамках
выполнения работ по программе интеграционного проекта № 70 Сибирского отделения РАН
«Анализ и прогноз проявлений вынуждающего воздействия в ритмике метеорологических
полей Северного полушария Земли»
для анализа разнородной междисциплинарной
информации о состоянии и изменениях климатообразующих параметров исследуемых
территорий.
Разработанные алгоритмы и программный комплекс используются при выполнении
научно-исследовательских
работ
(задание
№
2014/225)
в
рамках
базовой
части
государственного задания Минобрнауки России для проведения комплексного анализа
многомерных характеристик, описывающих процесс принятия решений в производственноэкономических и социальных системах, для решения задач
определения границ объектов
территориального устройства на основе многомерных данных об инфраструктурной среде и
социально-экономических характеристиках в условиях нормативных ограничений.
Алгоритмы блока «Анализ данных» программного комплекса используются в учебном
процессе при проведении лабораторных работ по дисциплине «Качество программных систем»
9
на кафедре АОИ ТУСУР, являясь инструментом анализа показателей качества программных
систем.
Апробация работы. Основные положения работы докладывались на научных
конференциях различного уровня. На VII и VIII международных конференциях "Химии нефти и
газа" г. Томск, 2009, 2012 г.; на VII всероссийской научно-практической конференции
студентов, аспирантов и молодых ученых «Молодежь и современные информационные
технологии», г. Томск, 2009 г.; на IV Всероссийской конференции молодых ученых
«Материаловедение, технологии и экология в 3-м тысячелетии», г. Томск, 2009 г.; на IX
всероссийской научно-практической конференции студентов, аспирантов и молодых ученых
«Молодежь и современные информационные технологии», г. Томск, 2011 г.; на XVIII
Международной научно-практической конференции студентов, аспирантов и молодых ученых
"Современные техника и технологии", г. Томск, 2012 г.; на III Всероссийской молодежной
научной конференции «Современные проблемы математики и механики», г. Томск, 2012 г.; на
Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых
«Научная сессия ТУСУР», г. Томск, 2010, 2011, 2012 г, так же опубликованы работы в сборнике
«Доклады ТУСУР» (г. Томск, 2013 г.), в журнале «Информационные технологии» (г. Москва,
2013-2014 г.).
Защищаемые положения:
1. Методика проведения комплексного анализа многомерных данных о природных
пространственно-распределенных
объектах,
обеспечивающая
выявление
новых
закономерностей между свойствами исследуемых объектов.
Соответствуют пункту 5 паспорта специальности: Комплексные исследования
научных и технических проблем с применением современной технологии математического
моделирования и вычислительного эксперимента.
2. Модифицированный алгоритм идентификации нечеткой системы с заданной
структурой, включающий генерацию структуры НС с заданными параметрами функции
принадлежности и оптимизацию параметров НС, основанную на методе эволюционной
стратегии и методе наименьших квадратов. Модель позволяет детально учитывать структуру
входных данных объекта моделирования, снимая требования к знанию закона распределения.
3. Алгоритм восстановления пропущенных значений на основе модифицированного
алгоритма идентификации НС с заданной структурой позволяет увеличить точность
восстановления пропущенных значений по сравнению с алгоритмами, предлагаемыми другими
авторами как минимум в 1,5 раза на тестовых данных.
Соответствуют пункту 1 и 3 паспорта специальности: 1)Разработка новых
математических методов моделирования объектов и явлений. 3)Разработка, обоснование и
10
тестирование
эффективных
вычислительных
методов
с
применением
современных
компьютерных технологий.
4.
Программный комплекс анализа многомерных неполных данных о природных
объектах, позволяющий выявлять существующие закономерности
между различными
свойствами исследуемых объектов.
Соответствует пункту 4 паспорта специальности: Реализация эффективных
численных методов и алгоритмов в виде комплексов проблемно-ориентированных программ для
проведения вычислительного эксперимента.
Публикации по теме работы. Основные положения диссертации отражены в 19
опубликованных работах. В том числе 5 статей напечатаны в ведущих рецензируемых научных
журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов
диссертационных работ, и получено 1 свидетельство об официальной регистрации программы
для ЭВМ (Свидетельство: № 2013619931 от 21.10.2013 г.).
Личный вклад автора. Постановка задачи, а также подготовка материалов к печати
велась совместно с научным руководителем. Все основные результаты диссертации получены
лично автором. Автор самостоятельно разработал программный комплекс для комплексного
анализа многомерных неполных данных.
Структура и объем работы. Диссертация состоит из введения, основной части,
включающей в себя четыре главы, заключения, списка используемой литературы из 113
источников, 5 приложений. Объем диссертационной работы состовляет 122 страницы. Работа
иллюстрируется 33 рисунками и 24 таблицами.
В первой главе диссертации приведен обзор проблемы исследования. Описываются
основные понятия и методы статистического анализа многомерных данных с пропусками, их
классификация и модели. Приведены основные понятия и методы нечеткого моделирования
многомерных данных с пропусками, методы анализа многомерных данных и методы
классификации данных. Рассмотрен пространственный анализ данных с применением ГИС и
приведен
обзор
существующих
программных
систем
статистического
и
нечеткого
моделирования. Проанализированы особенности основных задач, решаемых в диссертационной
работе.
Во второй главе диссертационной работы приводятся алгоритмы инициализации
антецедентов правил нечеткой системы (равномерная, случайная), алгоритмы инициализации
консеквентов правил на основе алгоритмов: метода наименьших квадратов, метода ближайшего
соседа из таблицы наблюдений. Представлены алгоритмы параметрической идентификации
нечеткой системы на основе алгоритмов эволюционной стратегии, алгоритмы восстановления
данных с использованием нечетких систем: алгоритм восстановления пропущенных значений в
11
многомерных данных и алгоритм "тестового" восстановления с использованием метода
скользящего экзамена. Также приводятся алгоритм факторного анализа с вращением, алгоритм
классификации данных и алгоритм передачи данных в геоинформационную систему для
картографического отображения.
В третьей главе рассматриваются вопросы проектирования и реализации программного
комплекса
анализа
моделирования,
многомерных
включающего
данных
модули
на
основе
идентификации
статистического
нечетких
систем
и
нечеткого
на
основе
эволюционных стратегий, восстановления данных, факторного анализа с вращением,
классификации данных и экспорта данных в геоинформационную систему.
В четвертой главе диссертационной работы представлены примеры практического
применения разработанного подхода для проведения комплексного анализа многомерных
данных с пропущенными значениями. Даются рекомендации по использованию параметров
разработанных алгоритмов для моделирования системы.
В заключении формируются основные результаты диссертационного исследования.
В приложении приведены документы, подтверждающие практическое применение
диссертационных результатов.
12
ГЛАВА 1. ОБЗОР МЕТОДОВ МОДЕЛИРОВАНИЯ И ИССЛЕДОВАНИЯ
МНОГОМЕРНЫХ ДАННЫХ
1.1 Особенности предмета исследования и область применения
Многие исследования связаны со сбором и обработкой многомерных данных,
представленных в виде различных баз данных или таблиц наблюдений типа "объект-свойство".
Данные из этих таблиц участвуют при решении широкого круга задач анализа: классификации,
прогнозирования, выявления различных закономерностей. Однако, в большинстве случаев,
задачи проведения анализа осложняются: 1) проблемой неточного или неполного описания
изучаемого объекта; 2) большим объемом данных, сформированных по самым различным
свойствам; 3) наличием географической привязки, когда объекты исследования относятся к
числу пространственных.
Для детального изучения явления или объекта необходимо включать в анализ как можно
большее число характеристик, всесторонне описывающих объект анализа. Существует
широкий класс природных объектов, представленных многомерными массивами данных, для
анализа
которых
необходимо
учитывать
их
пространственные
характеристики.
Пространственными принято считать те объекты, для анализа которых важен учет их
расположения, географическая форма (точка, линия, полигон) и их взаиморасположение с
другими пространственными объектами.
Таким образом, можно сформулировать наиболее характерные особенности объектов
исследования:
1. Многомерность данных.
2. Пропущенные значения в данных.
3. Разнородность данных.
4. Наличие пространственных свойств.
5. Статистический характер информации об объектах.
Объекты
исследования,
обладающие
перечисленными
свойствами,
встречаются
довольно часто при проведении исследований. Практически всем исследователям на
определенном этапе работы приходится анализировать и интерпретировать многомерные
массивы экспериментальных данных об объектах или явлениях. Таким образом, необходимо
проводить комплексный анализ, включающий различные статистические методы обработки
многомерных данных об объекте и методы пространственного анализа объектов исследования.
Большой объем данных и разрозненность свойств делают объекты не наглядными,
вследствие
чего
применение
одного
метода
для
корректного
анализа
становится
недостаточным. Для решения проблемы неточного или неполного описания объекта нужно
13
применить один метод, для сжатия информации - второй, для выявления важных свойств третий, для пространственных свойств - четвертый и т.д. Отсюда возникает потребность в
комплексном подходе к анализу данных, который позволит адекватно проанализировать,
выявить закономерности, смоделировать системы и получить целостную картинку изучаемого
объекта с учетом всех его особенностей.
Комплексный анализ может включать в себя несколько условных этапов:
1. Первый этап решает проблему неточного или неполного описания изучаемого
объекта. Традиционные причины, которые приводят к появлению пропусков, можно разделить
на два типа. Первый тип - это объективные причины, то есть поломка оборудования при
измерении тех или иных характеристик, потеря ретроспективной информации, ограничение
доступа к информации и другое. И второй тип - субъективные причины, которые обусловлены
человеческим фактором при накоплении информации. В результате, для обработки или анализа
собранных данных имеются неполные сведения [1]. Поэтому первый этап - восстановление
данных - является необходимым условием построения каких-либо моделей, как этап
предварительной подготовки данных перед проведением анализа.
2. Второй этап – вычислительный. Данный этап включает все необходимые расчеты и
является основным этапом анализа. Например, факторный анализ - включает в себя расчет
корреляционной матрицы, которая позволяет выявить корреляционную связь между
свойствами, включает расчет собственных чисел и векторов, по которым определяются
значимые факторы, и производится сжатие информации.
3.
Третий
этап
-
применение
дополнительных
методов,
например,
методов
классификации для наглядного отображения данных.
4. Четвертый этап - рассмотрение полученных численных результатов, графического
отображения, экспорт результатов, например, для отображения результатов на карте.
В качестве примера применения такого комплексного подхода рассмотрим задачу
анализа данных о физико-химических свойствах вязких парафинистых нефтей. Для анализа
выбрано 148 образцов нефти, из созданной в Институте химии нефти СО РАН базы данных [2],
включающей описание более 20 тыс. образцов.
Каждая запись содержит 25 характеристик о составе и свойствах нефти, технологических
и физико-химических данных о нефти. Предварительный анализ показал, что из 3700 значений
пропущено 1864 (50%), такой показатель требует исключения некоторых характеристик из
дальнейшего исследования. После исключения характеристик была создана новая выборка,
состоящая из 148 образцов нефти по 8 характеристикам (Табл. 1.1).
14
Таблица 1.1 - Информация о пропущенных значениях в исследуемой выборке
Характеристики нефти
№
Кол-во
пропусков
Пропущено
значений из 148
(%)
1
плотность, г/см3
1
0.67
2
вязкость при 20  С, мм2/с
0
0
3
температура застывания,  С
44
30
4
содержание общей серы, масс. %
18
12
5
содержание твердого парафина, масс. %
0
0
6
содержание силикагелевых смол, масс. %
14
9
7
содержание асфальтенов, масс. %
11
7
8
содержание асфальто-смолистых веществ, масс. %
18
12
Однако данный объём выборки по-прежнему не позволяет получать обоснованные
результаты статистического анализа, поэтому предварительно необходимо расширить объём
выборки за счет использования метода восстановления данных. После восстановления
пропущенных значений в изучаемой выборке, можно будет провести статистический анализ
для выявления особенностей структуры данных и некоторых характеристик, которые помогут
выбрать методы добычи вязких парафинистых нефтей.
Перейдем к рассмотрению и сравнению методов, которые позволяют сделать
комплексный анализ с учетом всех свойств изучаемого объекта.
1.2 Обзор методов восстановления пропущенных значений в многомерных
данных
В данном разделе рассмотрим методы восстановления пропущенных значений, которые
можно разделить условно на классические методы (известные из теории вероятности и
статистики с 70-х годов 20 века) и неклассические методы, которые пришли из машинного
обучения, кластерного анализа, нейронных сетей и нечетких систем в более позднее время.
1.2.1 Классические методы восстановления пропущенных значений
В начале 70-х годов начался расцвет исследований по статистическому анализу данных с
пропусками, последовавший за успехами в развитии компьютерной техники, которая сделала
доступными вычисления, которые были очень трудоемкими для расчета ранее.
Среди работ по анализу данных с пропусками выделяют:
- Afifi A.A. и Elashoff R.M. (1966) - Неполные данные в многомерной статистике;
15
- Хартлей Х.О. и Хоккинг Р.Р. (1971) - Анализ неполный данных;
- Орчард Т. и Вудбери М. (1972) - Принцип неполной информации: теория и
приложение;
- Демптер А.П., Лаирд Н.М., Рубин Д.Б. (1977) - Метод максимального правдоподобия
на неполных данных с помощью EM-алгоритма;
- Литтл Р.Дж. А, Рубин Д.Б. (1982) - Статистический анализ данных с пропусками.
Рассмотрим алгоритмы импутирования (заполнения пропусков в данных) по группам [3]:
1. Простые алгоритмы – неитеративные алгоритмы, основанные на простых
арифметических операциях, расстояниях между объектами, регрессионном моделировании. К
ним относятся заполнение пропусков средним арифметическим, регрессионное моделирование
пропусков, метод ближайших соседей и метод подбора в группе.
2. Сложные алгоритмы – итеративные алгоритмы, предполагающие оптимизацию
некоторого функционала, отражающего точность расчета подставляемых на место пропуска
значений. Их можно разделить на глобальные и локальные методы.
2.1 Глобальные алгоритмы – алгоритмы, предусматривающие, что в оценивании
(предсказании) каждого пропущенного значения участвуют все объекты рассматриваемой
совокупности: метод Бартлетта, ЕМ - оценивание и метод главных компонент (МГК).
2.2. Локальные алгоритмы – алгоритмы, в которых для оценивания (предсказания)
каждого пропущенного значения участвуют полные наблюдения, находящиеся в некоторой
окрестности предсказываемого объекта. К данной группе относятся алгоритмы множественного
импутирования, Zet и ZetBraid.
Кратко рассмотрим методы импутирования входящие в состав перечисленных групп (в
порядке исследования).
Метод (безусловного) среднего, предполагает, что все пропущенные значения
заменяются средним значением данного признака. Самый простой, но не самый точный метод
заполнения пропусков в данных [3,4].
Регрессионные модели. Термин "регрессия" [5] был введен Ф. Гальтоном в конце 19
века. Гальтон обнаружил, что дети родителей с высоким/низким ростом обычно не наследуют
выдающийся рост и назвал этот феномен "регрессия к посредственности". Сначала этот термин
использовался исключительно в биологическом смысле. После работ К. Пирсона этот термин
стали использовать и в статистике. В статистической литературе различают регрессию с
участием одной свободной переменной и с несколькими свободными переменными —
одномерную и многомерную регрессию. Также различают линейную и нелинейную регрессию.
Если регрессионная модель не является линейной комбинацией функций от параметров, то
говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией
16
функций g из некоторого набора. Нелинейными моделями являются: экспоненциальные,
тригонометрические и другие (например, радиальные базисные функции или персептрон
Розенблатта), полагающие зависимость между параметрами и зависимой переменной
нелинейной. Еще различают параметрическую и непараметрическую регрессию. Строгую
границу между этими двумя типами регрессий провести сложно. Сейчас не существует
общепринятого критерия отличия одного типа моделей от другого. Например, считается, что
линейные модели являются параметрическими, а модели, включающие усреднение зависимой
переменной по пространству свободной переменной - непараметрическими.
В большинстве случаев, регрессионные модели в задаче импутирования осуществляются
в два этапа [3]:
1. На первом этапе по совокупности полных наблюдений отстраивается регрессионная
модель, и оцениваются коэффициенты в уравнении, где в качестве зависимой переменной
выступает целевая переменная, пропущенные значения по которой необходимо восстановить;
2. По полученному на предыдущем этапе уравнению, в которое подставляются
известные значения независимых переменных предикторов, для каждого целевого объекта
рассчитывается отсутствующее значение по зависимой целевой переменной. В случае
интервальных и абсолютных переменных рассчитывается конкретное значение, а для
порядковых и номинальных переменных с некоторой вероятностью предсказывается категория,
к которой должен быть отнесен объект.
Выбор регрессионной модели для расчета пропущенных значений переменной
определяется
уровнем измерения целевой зависимой переменной (значения которой
необходимо восстановить) и независимых переменных, по которым будут предсказываться
отсутствующие значения.
Например, метод многомерной регрессии строит модель линейной зависимости
переменной, в которой необходимо заполнить пропуски от ряда других имеющихся признаков.
Регрессионные коэффициенты для каждого из предикторов находятся методом наименьших
квадратов на массиве с полными данными, который был сформулирован еще в 1794 -1795 годах
немецким математиком И.К. Гауссом (1777-1855). При подстановке значения предикторов в
регрессионное уравнение получим прогноз пропущенного показателя.
Проблема применения этого метода заключается в том, что у некоторых случаев могут
быть пропущены не только значения переменной, которую необходимо предсказать с помощью
регрессии, но и значения предикторов, тогда предсказание непосредственно на основе
коэффициентов уравнения оказывается невозможным. Сложность применения данного метода
еще и в том, что исследователь должен выбрать переменные, которые коррелируют [6] с
рабочей переменной и хорошо объясняют ее вариацию. В массиве может просто не оказаться
17
достаточного количества предикторов. Наконец, предсказанные значения не содержат остатков,
характерных для любых данных. И, например, метод кусочно-линейной регрессии
используется как методика восстановления данных при анализе технологических индексов
мустьерских комплексов Средней Азии, который проводили Ю.П. Холюшкин и Г.Ю. Жилицкая
в 1998 году [7].
Метод главных компонент (изобретен К. Пирсоном в 1901г.). Пусть задана таблица с
пропусками A=(aij). Ставится задача поиска наилучшего приближения A матрицей вида xiyj+bj
методом наименьших квадратов. Для данной матрицы A ищем наилучшее приближение
матрицей P1 вида xiyj+bj. Далее, для A–P1 ищем наилучшее приближение этого же вида P2 и т.д.
q q
q
В результате строится последовательность матриц Pq вида xiyj+bj ( Pq  xi y j  b j ),
исчерпывающая исходную матрицу A с заданной точностью. Если пробелы отсутствуют, то
описанный метод приводит к обычным главным компонентам – сингулярному разложению
исходной таблицы данных. Также следует учесть, что при отсутствии пробелов, полученные
прямые будут ортогональны. Исходя из этого, при неполных данных возможен процесс
ортогонализации полученной системы факторов. Процесс заключается в том, что исходная
таблица восстанавливается при помощи полученной системы, после чего эта система
пересчитывается заново, но уже на полных данных [3].
Метод Бартлетта - алгоритм импутирования, предложенный М.С. Бартлеттом (1937г),
заключается
в
подстановке
начальных
значений
вместо
пропусков
и
проведении
ковариационного анализа, то есть метод включает два этапа:
1. Вместо пропусков выполняется подстановка начальных значений.
2. Проводится ковариационный анализ целевой переменной и дихотомического
индикатора полноты наблюдения по целевой переменной.
Метод Бартлетта имеет следующие преимущества: он не итеративный и, следовательно,
снимает вопрос о сходимости. Если структура пропусков обладает вырожденностью (ситуация,
когда нельзя оценить некоторые параметры при отсутствии всех значений для какой-то
обработки), то метод предупреждает исследователя об этом. Кроме того, метод дает
правильные оценки и остаточные суммы квадратов, а также верные стандартные ошибки,
суммы квадратов и критерии Фишера [3].
Алгоритм ближайшего соседа был изобретён в 1950 годах математиком Г.
Штейнгаузом. В основе лежит предположение, что если объекты близки по значениям n-1
свойств, то они близки по значению n-го свойства. Заполнение пропусков в таблице данных
методом ближайших соседей выглядит следующим образом: среди всех строк таблицы
(объектов) находят k-строк, наиболее "похожих" на строку, содержащую пробел. В качестве
18
меры "похожести" строк фигурирует декартово расстояние между строками в пространстве
столбцов (свойств). Чем меньше декартово расстояние между объектами в пространстве
свойств, тем более они "похожи" друг на друга. Столбец, содержащий предсказываемое
значение принято называть целевым столбцом. Для получения предсказания неизвестного
элемента значения целевого свойства у k-ближайших соседей усредняются с весами, обратно
пропорциональными их декартовому расстоянию до строки, содержащей пробел [3].
Метод подбора внутри групп предполагает, что вся совокупность объектов разбивается
на группы по определенному признаку, внутри каждой группы для заполнения пропусков
используются только присутствующие в ней значения.
Методы подбора используются в одномоментных исследованиях, и представляют собой
подстановку вместо пропуска значения по данной переменной у наиболее близкого объекта с
полной информацией. Причем подбор может осуществляться как из всей совокупности полных
наблюдений, так из ее некоторой подгруппы – кластера, к которому принадлежит целевой
объект. Тип функции расстояния для определения наблюдения выбирается исходя из типа
используемых данных, представлений исследователя о характере связи между переменными и
задач каждого конкретного исследования [3].
Zet - метод. Данный метод широко представлен Н.Г. Загоруйко в 1975 году. Суть
метода заключается в подборе для каждого пропуска импутируемого значения не из всей
совокупности полных наблюдений, а из некоторой ее части, называемой компетентной
матрицей (рис. 1.1). Данная матрица состоит из компетентных строк и столбцов.
Рис. 1.1 – Этапы алгоритма Zet предсказания неизвестного значения
В основе алгоритма Zet лежат три предположения:
1. Гипотеза избыточности – состоит в том, что реальные таблицы имеют избыточность,
проявляющуюся в наличии похожих между собой объектов (строк) и зависящих друг от друга
свойств (столбцов). Если избыточность отсутствует (как, например, в таблице случайных
чисел), то предпочесть один прогноз другому невозможно.
2. Гипотеза аналогичности состоит в утверждении, что если некоторая пара объектов
близка по значениям (n-1) свойств, то она близка и по свойству n.
19
3. Гипотеза локальной компетентности заключается в том, что избыточность носит
локальный характер: у каждого объекта есть свое подмножество объектов-аналогов и у каждого
свойства есть свое подмножество свойств-аналогов. Если это так, то нет смысла привлекать к
предсказанию значения некоторого элемента aij информацию, содержащуюся в строках, не
похожих на i-ю строку, и в столбцах, не похожих на j-й столбец. В предсказаниях должны
участвовать только те компетентные строки и столбцы, которые выбираются для каждого
предсказываемого элемента отдельно [3].
Алгоритм Resampling. В 1977 году американским статистиком Б. Эфроном был
предложен метод "bootstrap" [8]. Первоначально этот метод возник как средство преодоления
смещения, обусловленного выборкой, затем, начал широко применяться для работы с любыми
статистическими задачами: проверка гипотезы о законах распределения случайных величин,
регрессия, дисперсионный анализ или многомерная классификация. Основным преимуществом
бутстреп-подхода является то, что он не нуждается в априорном знании закона вероятностного
распределения исходных данных, а значит подходит для работы с любыми данными. Отличие
бутстрепа от традиционных методов заключается в том, что он предполагает многократную
обработку различных частей одних и тех же данных, как бы рассмотрение под разными
углами, и сопоставление полученных таким образом результатов.
Разновидностью бутсреп-метода является сравнительно новый метод обработки
статистических данных, называемый resampling. Resampling-метод применяется для решения
задачи заполнения пропусков в неполных данных, когда значения для заполнения
пропущенных элементов выбираются случайным образом из исходного множества данных Х i.
Значение для замены пропуска можно выбрать двумя способами: с вращением (когда ранее
выбранное значение может участвовать в замене еще раз) и без вращения. После этого на всем
массиве строится регрессионная модель, позволяющая предсказать значения для пробелов. Для
всех предполагаемых предикторов находятся регрессионные коэффициенты и константа.
Данный алгоритм повторяется r раз, после чего вычисляются итоговые значения регрессионных
коэффициентов, по которым и будут предсказаны окончательные пропущенные значения.
Преимуществом данного метода, по сравнению с простым предсказанием с помощью
множественной регрессии или методом Барлетта, является то, что информация, которая
содержится в исходном массиве, используется более полно, а итерационный характер
алгоритма позволяет получить более точный прогноз.
Алгоритм множественного импутирования был разработан Д. Рубиным в 1970-х
годах. Как считал Рубин, приписывание каждому пропуску нескольких потенциальных
значений отразит степень неопределенности, с которой осуществляется импутирование.
Техника множественного импутирования предусматривает подстановку сразу нескольких
20
значений
на
место
каждого
из
пропусков.
Существенный
разброс
этих
значений
свидетельствует о неопределенности модели и не позволяет сделать однозначный вывод об их
типе и причине возникновения. Данные с каждым набором заполненных пропусков
сохраняются в отдельный массив, каждый из которых затем анализируется как состоящий
только из полных наблюдений [3].
Метод главных кривых, впервые понятие главной кривой появилось в 1989 году. Т.
Хастие в своей работе о главных кривых, определил их как "self-consistent" – гладкие кривые,
которые проходят через середину d-мерного вероятностного распределения или облака данных.
Self-consistency означает, что каждая точка кривой есть среднее всех точек данных, которые
проецируются в эту точку кривой. В качестве связи между главными компонентами и главными
кривыми показано, что если прямая линия есть self-consistent, тогда она является главной
компонентой. Также показано, что при некоторых условиях главные кривые представляют
собой критические точки расстояния от наблюдения. Основываясь на этом свойстве, авторы
разработали алгоритм для нахождения главных кривых и для распределений, и для множеств
данных [9].
Многомерные адаптивные регрессионные сплайны были впервые предложены
Фридманом в 1991 г. [10] для решения регрессионных задач и задач классификации, в которых
требуется предсказать значения набора зависимых переменных по набору независимых
переменных. Данный метод является непараметрической процедурой, не использующей в своей
работе никаких предположений о виде функциональной зависимости между зависимыми и
независимыми переменными. МАР-сплайны задаются базисными функциями и набором
коэффициентов, полностью определяемых по данным. Метод МАР-сплайнов находит искомую
зависимость за 2 стадии: “вперед” (forward stage) и “назад” (backward stage). Первая стадия
заключается в добавлении базисных функций к набору, пока не будет достигнут максимальный
уровень сложности. На второй стадии из набора удаляются функции, которые вносят
наименьший вклад в ошибку [11].
Алгоритм ZetBraid это переработанный в 2005 году выше упомянутый Zet-метод
(Рыскуловым Сергеем Николаевичем). Основное отличие и одновременно достоинство этого
алгоритма ZetBraid (плетение) от алгоритма Zet заключается в том, что в нем заложен аппарат
для объективного определения размерности компонентной матрицы. В процессе работы
алгоритма происходит последовательный поочередный отбор компетентных строк и
компетентных столбцов. При каждом новом отборе строки или столбца формируется новая
компетентная матрица. По заданному критерию определяется ее эффективность при
прогнозировании пропусков [12].
21
Метод максимизации ожиданий (ЕМ – expectation maximization), в некоторых
источниках так же называемый ЕМ - оцениванием, позволяет не только восстанавливать
пропущенные значения с использованием двухэтапного итеративного алгоритма, но и
оценивать средние значения, ковариационные и корреляционные матрицы для количественных
переменных. ЕМ - алгоритм, в самом общем смысле представляет собой итерационную
процедуру, предназначенную для решения задач оптимизации некоторого функционала, через
аналитический поиск экстремума целевой функции. ЕМ - алгоритм используется в
математической статистике для нахождения оценок максимального правдоподобия параметров
вероятностных моделей, в случае, когда модель зависит от некоторых скрытых переменных.
Метод
максимального
правдоподобия
был
проанализирован,
рекомендован
и
значительно популяризирован Рональдом Фишером между 1912 и 1922 годами. Каждая
итерация данного алгоритма состоит из двух шагов: 1. E-шаг (expectation) вычисляет ожидаемое
значение функции правдоподобия, при этом скрытые переменные рассматриваются как
наблюдаемые. 2. M-шаг (maximization) вычисляет оценку максимального правдоподобия, таким
образом, увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение
используется для E-шага на следующей итерации. Алгоритм выполняется до сходимости [3].
1.2.2 Неклассические методы восстановления пропущенных значений
Классические методы различными способами восстанавливают значения по имеющимся
данным, но, что очень важно, они требуют от данных определенных условий, например,
нормальности распределения, однородности и полноты. Данные требования зачастую не
выполняются, так как в анализе участвуют данные природного характера, они не имеют
однородной структуры из-за своих свойств, а процедуры нормировки разрушают связи в
данных. Поэтому, в настоящее время исследуются неклассические методы, связанные с
машинным обучением, нейронными сетями, искусственным интеллектом, которые дают
максимально точное восстановленное значение пропуска, и при этом не требовательны к
структуре таблицы наблюдений [13].
Метод на основе многообразия малой размерности. Методы, представляющие данное
направление, разработаны учеными Красноярской школы нейроматематики в 1990-х годах под
руководством профессора А.Н. Горбаня. Их главная идея заключается в том, что набор точек,
который является многообразием при наличии пропусков, позволяет строить линейные и
нелинейные приближения – модели, посредством которых возобновляют пропущенные
значения.
Результаты
алгоритмизации
этих
методов
и
экспериментальных
проверок
22
засвидетельствовали достаточно высокую точность. Проведенные исследования указывают на
удовлетворительное функционирование алгоритма при 10–15% пропусков. В то же время,
математические
изложения
базируются
на
достаточно
сильных
предположениях
о
распределении входных данных, гладкости функций и обусловленности матрицы исходных
значений. К недостаткам следует также отнести сложность реализации и верификации
алгоритма [14].
Метод кластерного анализа. Большинство исследователей склоняются к тому, что
впервые термин "кластерный анализ" (cluster (англ.) – гроздь, сгусток, пучок) был предложен
математиком К. Трионом в 1939 году, но активное развитие этого метода и его широкое
использование началось в конце 1960-х-начале 1970-х годах.
Согласно Триону, кластерный анализ – это совокупность методов, позволяющих
классифицировать многомерные наблюдения, каждое из которых описывается набором
исходных данных Х1.Х2....,Хm. Особенность метода – его применение не опирается на какуюлибо вероятностную модель, но при этом оценить его свойства в статистических терминах не
представляется возможным. Однако данный метод обладает существенным достоинством в
виде
алгоритмической
простоты
его
реализации,
а
также
он
позволяет
указать
предпочтительный порядок восстановления данных и выявить случаи, когда пропуски не могут
быть восстановлены по имеющимся данным [15].
В настоящее время сформировалось два общих подхода для решения задачи
кластеризации данных с пропусками. Первый подход - состоит в восстановлении пропущенных
значений признаков и последующей кластеризации полученных полных данных. Второй метод
- осуществляет прямую кластеризацию неполных данных.
Оба подхода имеют свои преимущества и недостатки. При первом подходе требуется
создание методов восстановления значений признаков, при их восстановлении теряется
некоторая информация. Однако здесь возможно последующее использование существующих
алгоритмов и программ кластеризации полных данных. При прямой кластеризации неполных
данных не теряется дополнительная информация, но здесь необходимо создание новых
алгоритмов кластеризации неполных данных или нужна модификация известных методов на
случай неполноты данных. Существуют многочисленные алгоритмы для восстановления
значений признаков и ряд методов прямой кластеризации неполных данных. Алгоритмы
восстановления значений признаков можно условно разделить на два типа. Первый тип
алгоритмов (marginalization) предполагает простое исключение из обучающих выборок
неполных признаковых описаний. Ясно, что этот путь может быть целесообразным только при
относительно малой доле неполных объектов. При втором типе алгоритмов пропущенные
значения признаков заменяются их оценками (imputation). Здесь применяются обычно
23
простейшие подходы классических методов. Второй подход при кластеризации неполных
данных состоит в адаптации методов к случаям неполных данных. В данном случае не
требуется предварительное восстановление значений признаков [16 - 18].
Эволюционный метод восстановления пропусков в данных, который предложил В.Е.
Снитюк. в 2006 году [19], основывается на композиции нейронной сети и генетического
алгоритма. То есть входные данные для обучения нейронной сети имеют пропуски значений, и
необходимо решить задачу параметрической оптимизации с помощью генетического
алгоритма.
Разработанный
эволюционный
метод
имеет
ряд
преимуществ.
Так,
его
использование не требует выполнения ограничений на исходную информацию, связанных с
линейностью модели, распределением параметров и т.д. Таблица исходных данных может
иметь произвольную размерность и структуру пропусков. Но также еще требуется исследовать
эффективность использования нейронных сетей с не итеративными алгоритмами обучения и
выяснить влияние распределения значений факторов на точность восстановления пропусков.
Алгоритм нечеткой системы на основе эволюционной стратегии был предложен
автором в задаче импутирования в 2011 году.
Понятия нечетких множеств, нечеткой логики, мягких вычислений было введено в 1965
году Л. Заде [20]. Основной причиной появления новой теории стало наличие нечетких и
приближенных рассуждений при описании человеком процессов, систем, объектов. Прежде чем
нечеткий подход к моделированию сложных систем получил признание во всем мире, прошло
не одно десятилетие с момента зарождения теории нечетких множеств. И на этом пути развития
нечетких систем принято выделять три периода.
Первый период (конец 60-х–начало 70 гг.) характеризуется развитием теоретического
аппарата нечетких множеств (Л. Заде, Э. Мамдани, Р. Беллман).
Во втором периоде (70–80-е годы) появляются первые практические результаты в
области нечеткого управления сложными техническими системами (парогенератор с нечетким
управлением). Одновременно стало уделяться внимание вопросам построения экспертных
систем, построенных на нечеткой логике, разработке нечетких контроллеров. Нечеткие
экспертные системы для поддержки принятия решений находят широкое применение в
медицине и экономике.
Наконец, в третьем периоде, который длится с конца 80-х годов и продолжается по
настоящее время, появляются пакеты программ для построения нечетких экспертных систем, и
расширяются области применения нечеткой логики. Она применяется в автомобильной,
аэрокосмической и транспортной промышленности, в области изделий бытовой техники, в
сфере финансов, анализа и принятия управленческих решений и многих других.
24
Триумфальное шествие нечеткой логики по миру началось после доказательства в конце
80-х Б. Коско знаменитой теоремы FAT (Fuzzy Approximation Theorem). В бизнесе и финансах
нечеткая логика получила признание после того как в 1988 году экспертная система на основе
нечетких правил для прогнозирования финансовых индикаторов единственная предсказала
биржевой крах. И количество успешных фаззи-применений в настоящее время исчисляется
тысячами.
За основу модели, для задачи импутирования, была взята нечеткая система типа
синглтон [21, 22], в которой i-ое правило выглядит следующим образом:
IF x1=A1i AND … AND xm=Ami THEN y = ri,
где Aij — лингвистический терм, которым оценивается переменная xi; ri — действительное
число, которым оценивается выход y.
Модель осуществляет отображение F : m   , заменяя оператор нечеткой конъюнкции
произведением, а оператор агрегации нечетких правил – сложением. Отображение F для
модели типа синглтон определяется формулой:
n
m
r  μ
F ( x)=
j 1
m
j
где
( xi )
,
n
 μ
j 1
Aij
i 1
Aij
( xi )
i 1
x  [ x1 ,..., x n ]T   n – значение i-го входа;
 A (x j ) –
ij
функция принадлежности
лингвистического терма Aij; rj – значение консеквента в j-м правиле.
Нечеткая система может быть представлена как y = f(x, θ), где θ = ||θ1.…, θN|| — вектор
параметров, N = сумма термов по каждому исследуемому параметру, y — скалярный выход
системы.
Для идентификации вектора параметров нечеткой системы используется метод
эволюционной стратегии.
Метод эволюционной стратегии – эвристический метод оптимизации в разделе
эволюционных алгоритмов, основанный на адаптации и эволюции. Изначально эволюционная
стратегия была предложена в 1964 как метод оптимизации для сложных, многомодальных и
недифференцируемых функций немецким ученым Инго Рехенбергом и развит в дальнейшем
Ханс-Полом Швефелом и другими. Стратегия основана на механизмах естественного отбора и
наследования. В ней используется принцип выживания наиболее приспособленных особей.
Преимущества алгоритма перед другими методами оптимизации заключаются в параллельной
обработке множества альтернативных решений [23, 24].
25
Алгоритм работает с популяцией особей (хромосом), каждая из которых представляет
собой упорядоченный набор параметров задачи, подлежащих оптимизации. Основной
характеристикой каждой особи является ее мера приспособленности. При поиске решения в
эволюционной стратегии вначале происходит мутация и скрещивание особей для получения
потомков, затем происходит детерминированный отбор без повторений лучших особей из
общего поколения родителей и потомков. Работа алгоритма представляет собой итерационный
процесс, который продолжается до выполнения заданного числа поколений.
Чтобы убедиться в адекватности выбранных методов, проводились исследование
алгоритма идентификации нечеткой системы методом эволюционной стратегии на шести
тестовых функциях:
1) f(x1. x2) = sin(2x1/π) * sin(2x2/π), -5< x1. x2 <5;
2) f(x1. x2) = x1*sin(x2), -π/2 < x1. x2 < π/2;
3) f(x1.x2) =x1+x2-5. 0<x1.x2<5;
4) f ( x1, x2 )  (1  x12  x21,5 ) 2 , x1, x2  [1, 5] ;
 sin 125 /( x  1,5)  
5) f ( x)  1  10 exp  100 ( x  0,7) 2 
,0  x  1 ;
x  0,1





6) f ( x)  i 1 (100  ( xi 1  xi2 ) 2  ( xi  1) 2 ), где x  [100,100], D  10.
D 1
Суть эксперимента заключалась в аппроксимации нечеткой системой тестовыми
функциями на основе треугольной функции принадлежности, критерием адекватности модели
являлась средняя квадратичная ошибка (СКО) вывода.
Рассмотрим сравнение работы системы с аналогами на примере четвертой и шестой
функции.
Настройка
нечетких
моделей
разработанным
алгоритмом
и
аналогами
для
аппроксимации четвертой тестовой функции производилась по таблице наблюдений, состоящей
из 400 строк. В табл. 1.2 представлены результаты работы эволюционной стратегии + метода
наименьших квадратов (ЭС+МНК), и алгоритмов, описанных в работе [22]. Как видно из
таблицы, представленный в работе, алгоритм превосходит аналоги.
Таблица 1.2. - Результат работы алгоритмов на четвертой тестовой функции
Алгоритм
Алгоритм раздела входного пространства на
несколько характерных областей
(Rojas, Pomares, Ortega, Prieto)
Прямой АМК + МНК
Кол-во правил
СКО
9
0.146
16
0.051
25
0.026
36
0.017
9
0.00391
16
0.00302
26
Гибридный алгоритм = (ГА + МНК) и (Фильтр
Калмана + Градиентный метод)
Метод ЭС + МНК
25
0.00189
36
0.000219
9
0.0075
16
0.0027
25
0.0016
9
0.00309
16
0.00233
25
0.00113
36
0.000372
Настройка нечетких моделей для аппроксимации шестой функции производилась в 10мерном пространстве, использовалось 1000 поколений и был взят средний результат САО 20
запусков. В таблице 1.3 представлены результаты работы алгоритма и аналогов из работы [25]:
генетический алгоритм, алгоритм роящихся частиц, метод дифференциальной эволюции (DE),
империалистический алгоритм (ICA), империалистический алгоритм с адаптивным радиусом
(ICAR). Как видно из таблицы алгоритм не уступает аналогам.
Таблица 1.3 – Результаты работы алгоритмов на шестой функции.
Алгоритм
САО
Генетический алгоритм
48.9673
Алгоритм роящихся частиц
0.020
Алгоритм дифференциальной эволюции
11.0433
Империалистический алгоритм
0.4466
Империалистический алгоритм с адаптивным радиусом
0.0017
НС с заданной структурой на основе ЭС
0.0018
Далее были исследованы рассмотренные классические методы из теории вероятности и
статистики и неклассические методы из машинного обучения, кластерного анализа, нейронных
сетей и нечетких систем относительно точности методик восстановления. Для исследования
были взяты самые применяемые методы.
Точность алгоритмов сравнивалась на эталонной таблице наблюдения, в которой была
141 запись о вязких парафинистых нефтях, методом "скользящего экзамена" [26].
Рассмотрим кратко суть метода. Закроем в таблице известный элемент aij, стоящий на
пересечении строки i и столбца j, и предскажем его. Алгоритм получит свое значение a*ij,
которое будет отличаться от исходного значения на величину dij = |a*ij-aij|.
Восстановим в таблице элемент аij, уберем элемент аi
Получим отклонение di,
j+1.
j+1.
и повторим процедуру.
Проделав это по очереди со всеми элементами таблицы и
27
просуммировав полученные отклонения, будет получена суммарная величина отклонений Dn
для алгоритма. Чем меньше данная сумма, тем выше достоверность восстановления.
Результаты сравнения алгоритмов представлены в табл. 1.4. где СКО это среднее
значение среднеквадратичной ошибки расчетов 100 повторений эксперимента.
Таблица 1.4 - Результаты сравнительного анализа методов восстановления
Наименование метода
СКО
Метод безусловных средних
9.597
Метод ближайших соседей
5.966
ZET метод
2.835
Метод главных компонент
1.457
Нечеткая система на основе эволюционной стратегии
0.678
Как видно из таблицы, наибольшую точность вычисляемых значений по сравнению с
другими методами, работающими с восстановлением пропущенных данных, можно получить
методом нечеткой системы на основе эволюционных стратегий [27], это позволяет сделать
вывод, что данная модель хорошо подходит для анализа многомерных природных данных.
1.3 Численные и статистические методы анализа многомерных данных
Наиболее широко для анализа многомерных данных применяются классические
статистические
методы,
такие
как
дисперсионный,
регрессионный,
корреляционный,
ковариационный анализ.
Дисперсионный анализ необходим для анализа изменчивости признака под влиянием
каких-либо контролируемых переменных факторов, то есть исследования влияния нескольких
качественных переменных на одну зависимую количественную переменную. Другими словами
целью дисперсионного анализа является расщепление суммарной дисперсии изучаемой
величины на отдельные составляющие: дисперсию, обусловленную действием одного или
нескольких параметров, изменяющих свое значение от объекта к объекту, и дисперсию,
вызванную совместимым действием всех остальных, не учитываемых факторов. Для
проведения дисперсионного анализа требуются данные трех и более выборок, и его следует
применять только тогда, когда доказано, что распределение является нормальным [28, 29].
Регрессионный анализ используется для исследования влияния одной или нескольких
независимых переменных на зависимую. Терминология зависимых и независимых переменных
отражает лишь математическую зависимость переменных, а не причинно-следственные
отношения, так же регрессионный анализ нельзя использовать для определения наличия связей
между переменными, поскольку наличие такой связи и есть предпосылка применения анализа.
28
Таким образом, с помощью регрессионного анализа исследуется форма связи между
исследуемыми переменными, определяется вид [30 - 33].
Корреляционный
анализ
используется
для
обнаружения
взаимосвязей
между
случайными параметрами, то есть получение некоторой информации об одной переменной с
помощью другой, что позволяет рассмотреть структурную взаимосвязь, а также помогает
подобрать набор независимых параметров для последующей классификации [30, 34].
Ковариационный анализ относится к анализу модели зависимости среднего значения
некоторой случайной величины одновременно от набора качественных и количественных
факторов, и такой анализ часто применяют перед дисперсионным анализом, чтобы проверить
однородность выборки наблюдений по количественным факторам [34, 35].
Как отдельный анализ, выше приведенные методы не достаточно полны. Сделать по
одному из них достоверный анализ многомерных данных практически невозможно. Данные
методы не отвечают на многие вопросы, такие как, например, "Какие признаки являются
самыми главными?", "Можно ли сократить количество признаков для повышения наглядности
анализа?" и т.д. Поэтому для анализа многомерных данных чаще всего используются метод
главных компонент или факторный анализ, которые основываются на ковариационных и
корреляционных данных соответственно.
Метод главных компонент это один из способов уменьшить размерность данных,
потеряв наименьшее количество информации. Вычисление главных компонент сводится к
вычислению собственных значений и собственных векторов ковариационной матрицы
исходных данных. МГК является линейным и аддитивным методом, который выполняет
простое геометрическое представление объектов и переменных в пространстве меньшей
размерности, то есть осуществляет переход к новой системе координат y1....,ур в исходном
пространстве признаков x1....,xp, который является системой ортнормированных линейных
комбинаций:

 y ( x)  w ( x  m )  ...  w ( x  m );
1f
1
1
pj
p
p
 jp

2
( j  1, p );
  wij  1
i

1
 p

( j , k  1, p, j  k );
 wij wik  0
 i 1
где mi — математическое ожидание признака xi.
Линейные комбинации выбираются таким образом, что среди всех возможных линейных
нормированных комбинаций исходных признаков первая главная компонента у1(х) обладает
наибольшей дисперсией. Геометрически это выглядит как ориентация новой координатной оси
у1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой
29
выборки в пространстве признаков x1....,xp. Вторая главная компонента имеет наибольшую
дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой
главной компонентой. Она интерпретируется как направление наибольшей вытянутости
эллипсоида рассеивания, перпендикулярное первой главной компоненте. Следующие главные
компоненты определяются по аналогичной схеме.
Вычисление коэффициентов главных компонент wij основано на том факте, что векторы
wi= (w11....,wpl)', ... ,wp = (w1p, ... ,wpp)' являются собственными (характеристическими) векторами
корреляционной матрицы S. В свою очередь, соответствующие собственные числа этой
матрицы равны дисперсиям проекций множества объектов на оси главных компонент [36, 37].
В МГК под критерием автоинформативности пространства признаков подразумевается,
что ценную для анализа информацию можно отразить в линейной модели, которая
соответствует новой координатной оси в данном пространстве с максимальной дисперсией
распределения проекций исследуемых объектов.
Таким образом, метод главных компонент используется для решения таких задач, как:
1. Обнаружение скрытых, но объективно существующих закономерностей, которые
обусловлены воздействием как внутренних, так и внешних причин.
2. Описание исследуемого процесса числом главных компонент m, значительно
меньшим, чем число исходных признаков. Этим достигается редукция имеющейся информации
с минимальными потерями. Выделенные главные компоненты содержат в среднем больше
информации, чем отдельные измеряемые признаки.
3. Выявление и изучение стохастических связей признаков с главными компонентами,
что позволяет определить исходные признаки, наиболее тесно связанные с найденными
главными компонентами.
4. Использование полученных результатов для прогнозирования развития процесса,
явления на основе знания величины отдельных главных компонент.
В отличие от МГК, факторный анализ основан не на дисперсионном критерии
автоинформативности системы признаков, а ориентирован на объяснение имеющихся между
признаками корреляций, то есть способ приведения множества наблюдаемых признаков к
меньшему числу неявных, но объективных факторов. Поэтому факторный анализ применяется
в более сложных случаях проявления на структуре наблюдаемых данных исследуемого и
иррелевантного свойства объектов, сопоставимых по степени внутренней согласованности, а
также для выделения группы диагностических показателей из общего исходного множества
признаков. К тому же длительное время МГК рассматривался как одна из разновидностей или в
качестве разновидности ФА из-за схожего применения. Однако между ними имеется
30
существенное различие: МГК направлен на объяснение полной дисперсии переменных, ФА –
на объяснение корреляционных зависимостей между переменными [36, 38].
Идея, заложенная в основе факторного анализа, достаточно проста. В результате
измерения исследователь имеет дело с набором элементарных признаков Хi, измеренных по
нескольким шкалам. Это – явные переменные. Если признаки изменяются согласованно, то
можно предположить существование определенных общих причин этой изменчивости, т.е.
существование некоторых скрытых (латентных) факторов. Задача анализа – найти эти факторы.
Так как факторы представляют собой объединение определенных переменных, то из
этого следует, что эти переменные связаны друг с другом, т.е. обладают корреляцией, причем
большей между собой, чем с другими переменными, входящими в другой фактор. Методы
отыскания факторов и основываются на использовании коэффициентов корреляции между
переменными. Факторный анализ дает нетривиальное решение, т.е. решение нельзя предвидеть,
не применяя специальную технику извлечения факторов. Это решение имеет большое значение
для характеристики явления, так как вначале оно характеризовалось достаточно большим
числом переменных, а в результате применения анализа оказалось, что его можно
охарактеризовать меньшим числом других переменных – факторов.
Коррелировать могут не только явные переменные Хi, но и наблюдаемые объекты Ni. В
зависимости от того, какой тип корреляционной связи рассматривается – между признаками
или объектами – различают соответственно R и Q техники обработки данных.
В соответствии с общими принципами факторного анализа, результат каждого
измерения определяется действием общих факторов, специфических факторов и "фактором"
ошибки измерения. Общими называются факторы, влияющие на результаты измерений по
нескольким измерительным шкалам. Каждый из специфических факторов оказывает влияние на
результат измерения только по одной из шкал. Под ошибкой измерения подразумевается
совокупность не поддающихся учету причин, определяющих результаты измерения.
Изменчивость полученных эмпирических данных обычно описывают с помощью их дисперсии.
Пусть имеется N объектов. В каждом из них измерены значения K параметров и
получены значения случайных многомерных нормально распределенных величин. Эти
значения случайных многомерных величин обусловлены различными причинами, которые
называются факторами. Предполагается, что число этих факторов всегда меньше, чем число K
измеряемых параметров изучаемого объекта. Эти факторы являются скрытыми, их нельзя
непосредственно измерить и поэтому они представляются гипотетическими. Выявление данных
факторов и есть сущность факторного анализа. В настоящее время насчитываются десятки
различных методик и приемов обработки данных для выявления данных факторов, согласно
одной из классификаций они делятся на метод главных компонент (который был рассмотрен
31
выше), простые методы, современно-аппроксимирующие методы факторного анализа.
Рассмотрим основные методы из оставшихся.
Простые
методы
факторного
анализа
в
основном
связаны
с
начальными
теоретическими разработками и имеют ограниченные возможности в выделении латентных
переменных и аппроксимации факторных решений.
Однофакторная модель (Ч. Спирмен) позволяет выделить только один генеральный
фактор и один специфический (иногда в литературе этот фактор называется характерным).
Другие возможно существующие латентные факторы считаются незначимыми.
Бифакторная модель (Г. Хользингер) допускает влияние на дисперсию элементарных
признаков нескольких латентных факторов (чаще всего двух) и одного специфического
фактора.
В центроидном методе (Л. Тэрстоун) корреляция между переменными рассматривается
как пучок векторов, а латентный фактор представляется как уравновешивающий вектор,
проходящий через центр этого пучка (центроид). Метод позволяет выделять несколько
латентных и специфических факторов, а также появляется возможность соотнести факторное
решение с исходными данными, т.е. решить задачу аппроксимации. Другими словами метод
основан на предположении о том, что каждый из исходных признаков Х
ij
может быть
представлен как функция небольшого числа общих факторов F1.F2.…,Fk и характерного фактора
Uj. При этом считается, что каждый общий фактор имеет существенное значение для анализа
всех исходных признаков, т.е. фактор Fj -общий для всех X1.X2....,Xm. В то же время изменения в
характерном факторе Uj воздействуют на значения только соответствующего признака Xj.
Таким образом, характерный фактор Uj отражает ту специфику признака Xj, которая не может
быть выражена через общие факторы.
В современных аппроксимирующих методах предполагается, что первое приближенное
решение уже найдено каким-либо способом и последующими шагами это решение
оптимизируется.
В групповом методе (Л. Гутман, П. Хорст) решение базируется на предварительно
отобранных группах элементарных признаков. Метод основан на обработке матрицы
коэффициентов корреляции между исходными признаками и проверяется гипотеза о том, что
совокупность исходных признаков может быть разбита на группы, каждая из которых отражает
действие определенного фактора – причины. Поскольку признаки внутри каждой из таких
групп должны быть связаны между собой более тесно, чем признаки разных групп, то задача
сводится к выявлению наиболее коррелированных групп признаков, а это позволяет выделить
соответствующие факторы.
32
Метод главных факторов (Г. Томсон) очень близок к методу главных компонент, в
котором предполагается существование как специфического фактора, так, соответственно, и его
дисперсии.
Метод максимального правдоподобия (Д. Лоули), минимальных остатков (Г. Харман),
-факторного анализа (Г. Кайзер, И. Кэффри), канонического факторного анализа (К. Рао) –
являются оптимизирующими. Они позволяют последовательно улучшать предварительно
найденные решения. Наиболее удобным, но не единственным, для оптимизации признается
метод максимального правдоподобия. Другие методы оптимизации основаны на использовании
статистических приемов оценивания случайной величины или статистических критериев и
предполагают большой объем вычислений.
Результаты ФА будут успешными, если удастся дать содержательную интерпретацию
выявленных факторов, исходя из смысла показателей, характеризующих эти факторы. Данная
стадия работы требует от исследователя четкого представления о содержательном смысле
показателей, которые привлечены для анализа и на основе которых выделены факторы.
Поэтому при предварительном отборе показателей для ФА следует руководствоваться их
содержательным смыслом, а не стремлением к включению в анализ как можно большего их
числа.
Однако факторный анализ обладает одним важным парадоксом, хотя и обеспечен
солидным математическим аппаратом. Он заключается в том, что расчеты факторных нагрузок
по исходной корреляционной матрице не является однозначным. Любой из вышеописанных
алгоритмов выявления факторов, дает один из вариантов расчета факторных нагрузок из
множества эквивалентных с точностью до любого угла поворота ортогональных факторных
осей. Отсюда возникает потребность применения процедуры вращения для поиска оптимальной
структуры факторных нагрузок [39 - 41].
Цель процедуры вращения заключается в поиске "простой структуры" оптимальной для
данного исследования и легкой для интерпретации. С формальной точки зрения при поиске
простой структуры следует иметь в виду следующее: целесообразно стремиться к получению
для каждой переменной максимального числа больших факторных нагрузок по одним факторам
и одновременно наибольшего количества минимальных факторных нагрузок по другим
факторам. Следуя этому правилу, необходимо сделать так, чтобы одну группу переменных
можно было в большей степени объяснить влиянием одних факторов, а другую — других.
Таким образом, "простота" хорошего факторного решения заключается в том, что каждая
переменная
имеет
наиболее
простое
факторное
объяснение,
т.е.
характеризуется
преобладающим влиянием некоторого одного фактора, и в меньшей степени связана с другими
факторами. И наоборот: один фактор должен быть специфическим образом связан с одной
33
группой переменных и не связан с другими переменными. В предельном случае самая простая
структура получается тогда, когда все переменные располагаются на соответствующих
факторных осях, т. е. имеют ненулевые факторные нагрузки только по одному фактору, а по
остальным — нулевые.
Выделяют два класса методов вращения — методы косоугольного вращения, когда
первоначальное ограничение о некоррелированности факторов снимается, и методы
ортогонального вращения, когда при повороте осей координат угол между факторами
остается прямым (и, следовательно, остается верным предположение о некоррелированности
факторов).
Методы косоугольного вращения позволяют упростить описание факторного решения
за счет введения предположения о коррелированности факторов и, следовательно, о
возможности существования факторов более высокого порядка, объясняющих наблюдаемую
корреляцию. Основное преимущество косоугольного вращения состоит в возможности
проверки ортогональности получаемых факторов: если в результате вращения получаются
действительно ортогональные факторы, то можно быть уверенным в том, что ортогональность
им действительно свойственна, а не является следствием использования метода ортогонального
вращения. В статистических программах наибольшую популярность получил метод облимин,
который использует специальный параметр (называемый в разных программах α или δ),
задающий степень косоугольности факторов при вращении. Большие отрицательные значения
этого параметра соответствуют наиболее косоугольным решениям, а меньшие отрицательные
значения — наиболее ортогональному решению.
К методам ортогонального вращения относятся: варимакс, квартимакс, эквимакс и
биквартимакс.
Варимакс – наиболее часто используемый на практике метод, его цель –
минимизировать количество переменных, имеющих высокие нагрузки на данный фактор, что
способствует упрощению описания фактора за счет группировки вокруг него только тех
переменных, которые с ним связаны в большей степени, чем остальные.
Квартимакс
в
определенном
смысле
противоположен
варимаксу,
поскольку
минимизирует количество факторов, необходимых для объяснения данной переменной.
Поэтому он усиливает лучшую интерпретацию переменных. Квартимакс-вращение приводит к
выделению одного из общих факторов с достаточно высокими нагрузками на большинство
переменных.
Эквимакс и биквартимакс - это два схожих метода, являющихся своеобразной
комбинацией варимакса (упрощающего описание факторов) и квартимакса (упрощающего
описание переменных) [41 - 44].
34
Согласно исследованиям X. Кайзера (1958) при прочих равных условиях применение
метода Варимакс является предпочтительным.
Подытоживая краткое рассмотрение ФА, следует отметить главные особенности,
которые послужили опорой для выбора факторного анализа как метода для решения
поставленных задач:
1. Факторный анализ позволяет производить разбиение объектов не по одному
параметру, а по целому набору признаков.
2. Факторный анализ не накладывает никаких ограничений на вид рассматриваемых
объектов,
что
позволяет
рассматривать
множество
исходных
данных
практически
произвольной природы.
3. Факторный анализ позволяет рассматривать достаточно большой объем информации
и резко его сокращать, сжимать, делая при этом более компактное и наглядное отображение.
4. Факторный анализ можно использовать циклически. В этом случае исследование
производится до тех пор, пока не будут достигнуты необходимые результаты.
Также,
для
более
продуктивного
поиска
необходимых
результатов
весьма
перспективным является сочетание факторного анализа с методами классификации.
1.4 Методы классификации многомерных данных
Методы классификации, в зависимости от области применения и решаемой задачи,
относят к разделу распознавания образов, кластерному анализу или дискриминантному анализу
[45], довольно часто в задачах классификации используются методы, не опирающиеся на
строгую математическую модель, не допускающие полного и обоснованного исследования их
свойств.
По способу задания показателя качества классификации, методы можно разделить на
эвристические
и
оптимизационные,
а
по
способу объединения
–
на
дивизимные,
агломеративные и итеративные [46].
Эвристические алгоритмы основаны на опыте и интуиции человека. Показатель
качества классификации, который необходимо обратить в экстремум, в этих алгоритмах в
явном виде не задан. Эвристические алгоритмы реализуют процедуры, обладающие
рациональным смыслом с точки зрения логики человека и приводящие во многих случаях к
хорошим результатам на практике. Данные алгоритмы основаны на представлении выборки в
виде графа. Достоинством таких алгоритмов считается наглядность, относительная простота
реализации и возможность вносить различные усовершенствования из геометрических
соображений. К данным алгоритмам, например, относятся: алгоритм выделения связных
компонент, алгоритм кратчайшего незамкнутого пути, алгоритм "FOREL" [47].
35
К оптимизационным алгоритмам относятся методы классификации, в которых в
явном виде задан показатель качества, который необходимо обратить в экстремум по
множеству допустимых разбиений. В отличие от алгоритмов первой группы, разбиения,
получаемые оптимизационными алгоритмами классификации, являются наилучшими с точки
зрения выбранного показателя качества. Выбор конкретного показателя зависит от специфики и
ограничений решаемой задачи, а также принятых предложений. Следует отметить, что во
многих случаях в эвристических алгоритмах показатель качества задан в неявном виде, и они
могут стать оптимизационными, если удается его формализовать и сформулировать в явном
виде.
Кластерный анализ – это совокупность методов, позволяющих классифицировать
многомерные наблюдения, каждое из которых описывается набором исходных переменных х 1.
х2. ... xm. В отличие от комбинационных группировок кластерный анализ приводит к разбиению
на группы с учетом всех группировочных признаков одновременно. При этом, как правило, не
указаны четкие границы каждой группы, а также неизвестно заранее, сколько же групп
целесообразно выделить в исследуемой совокупности.
Методы кластерного анализа позволяют решать следующие задачи:
1. Проведение классификации объектов с учетом признаков, отражающих сущность,
природу объектов. Это позволяет более углубленно изучать рассматриваемые данные.
2. Проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой
совокупности объектов, т.е. поиск существующей структуры.
3. Построение новых классификаций для слабоизученных явлений, когда необходимо
установить наличие связей внутри совокупности и попытаться привнести в нее структуру.
Агломеративные методы последовательно объединяют отдельные объекты в группы
(кластеры), а дивизимные методы расчленяют группы на отдельные объекты. В свою очередь
каждый метод классификации как объединяющего, так и разделяющего типа может быть
реализован при помощи различных алгоритмов. Следует заметить, что как агломеративные, так
и дивизимные алгоритмы трудоемки, их сложно использовать для больших совокупностей.
Кроме того, результаты работы таких алгоритмов (их графическое изображение) трудно
поддаются визуальному анализу.
Итеративные методы – это те методы, которые трудно отнести к агломеративным или
дивизимным алгоритмам. В данных методах кластеры формируются исходя из задаваемых
условий разбиения, которые могут быть изменены пользователем для достижения желаемого
качества. К итеративным методам относятся, например, метод k-средней кластеризации, метод
поиска сгущений и другие. Итеративные методы относятся к быстродействующим, что
позволяет использовать их для обработки больших массивов исходной информации.
36
Если алгоритм кластеризации основан на измерении сходства между переменными, то в
качестве мер сходства могут быть использованы:
1. Линейные коэффициенты корреляции.
2. Коэффициенты ранговой корреляции.
3. Коэффициенты контингенции и т.д.
Для решения задачи классификации был выбран метод k-средней кластеризации [48].
Сущность метода заключается в том, что он стремится минимизировать суммарное
квадратичное отклонение точек кластеров от центров этих кластеров:
k
V 
 (x
i 1 x j  S i
j
 i ) 2
где k - число кластеров, Si - полученные кластеры, i  1, k и  i - центр масс векторов x j  S i .
Алгоритм разбивает множество элементов векторного пространства на заранее известное
число кластеров k. При этом на каждой итерации перевычисляется центр масс для каждого
кластера, полученного на предыдущем шаге. Затем векторы разбиваются на кластеры вновь в
соответствии с тем, какой из новых центров оказался ближе по выбранной метрике. Алгоритм
завершается, когда на какой-то итерации не происходит изменения кластеров. Это происходит
за конечное число итераций, так как количество возможных разбиений конечного множества
конечно, а на каждом шаге суммарное квадратичное уклонение V уменьшается, поэтому
зацикливание невозможно.
Последовательность объединения легко поддается геометрической интерпретации и
может быть представлена в виде графа-дерева [49]. На дендрограмме указываются имена
объединяемых объектов, так же можно отобразить расстояние (или иную меру сходства), при
котором произошло объединение.
1.5 Пространственный анализ данных с применением геоинформационных
систем
В научных исследованиях приходится иметь дело с объектами различной природы. Для
описания свойств и поведения таких объектов требуются большие объемы разнородной
информации. Главным моментом в исследовании разрозненной информации о природных
процессах является глубина наших знаний. Выявление закономерностей, построение моделей и
расшифровка результатов предполагает умение извлекать на научно-методической основе
требуемую информацию из наблюдений природных объектов, а также исследований
фактических значений параметров, характеризующих эти объекты [50 - 52].
37
Природные
объекты
часто
обладают
пространственными
свойствами,
которые
необходимо включать в анализ для полноценного представления исследуемых данных. Целью
пространственного анализа является лучшее понимание пространственных скоплений какихлибо явлений и их пространственных отношений.
Использование статистических методов недопустимо, так как они, во-первых,
сосредоточены на самих данных и игнорируют их местоположение, следовательно, не могут
адекватно
обрабатывать
данные
с
географической
привязкой.
Во-вторых,
многие
статистические методы предполагают независимость и случайность исследуемых наблюдений,
другими словами, каждое наблюдение не будет затрагивать или затрагиваться другими
наблюдениями. Поэтому для того, чтобы не терять важные данные об объектах, появляется
необходимость использовать геоинформационные системы для пространственного анализа.
Пространственный
анализ
в
ГИС
открывает
новые
подходы
к
пониманию
пространственных зависимостей и закономерностей [53, 54]. ГИС позволяют сделать
результаты исследования более информативными и "наглядными", за счет отображения
цифровых карт исследуемых территорий и картирования полученных результатов.
Пространственный анализ с использованием ГИС, как дополнение к комплексному
анализу, требует выполнения нескольких подготовительных этапов:
1. Подготовка цифровой карты:
на этом этапе необходимо сконфигурировать цифровую карту: отобразить исследуемые данные,
территориальные привязки объектов, рельеф местности и т.д., в зависимости от поставленной
цели анализа или имеющихся данных;
2. Отображение результатов комплексного анализа:
на данном этапе необходимо добавить результаты нашего исследования на цифровую карту –
экспортировать результаты в ГИС и отобразить.
Заключительным
этапом
будет
сам
пространственный
анализ,
когда
объекты
исследования совмещены на цифровой карте с результатами исследования и исследователь
имеет
возможность
интерпретировать
полученные
результаты
с
использованием
пространственных свойств объектов.
Анализ современных программных средств ГИС показал, что для поставленных задач
подходит программный продукт ArcGis 9.3.1. ArcGIS позволяет визуализировать большие
объёмы статистической информации, имеющей географическую привязку, и в него встроен
широкий инструментарий анализа пространственной информации [54].
Подводя итог краткого рассмотрения пространственного анализа, следует отметить, что
данный анализ – это инструмент для объяснения взаимоотношений и особенностей данных,
38
выявления
пространственных
закономерностей,
подтверждения
каких-либо
гипотез,
выдвинутых на предыдущих этапах анализа.
1.6 Программно-инструментальные средства анализа многомерных данных
В настоящее время разработано большое число подходов и методов анализа многомерных
данных. Интеллектуальный анализ данных – одно из новых направлений искусственного
интеллекта. Этот термин является кратким и весьма неточным переводом с английского языка
терминов "Data Mining" и "Knowledge Discovery in Databases" (DM&KDD). Data Mining – это
процесс обнаружения в сырых данных (row data) раннее неизвестных, нетривиальных, практически
полезных, доступных интерпретации знаний (закономерностей), необходимых для принятия
решений в различных сферах человеческой деятельности. К интеллектуальным средствам
DM&KDD относятся нейронные сети, деревья решений, индуктивные выводы, методы
рассуждения по аналогии, нечеткие логические выводы, генетические алгоритмы, алгоритмы
определения ассоциаций и последовательностей, анализ с избирательным действием, логическая
регрессия, эволюционное программирование, визуализация данных. Иногда перечисленные методы
применяются в различных комбинациях.
Генетические алгоритмы входят в инструментарий DM&KDD как мощное средство
решения комбинаторных и оптимизационных задач. Они часто применяются в сочетании с
нейронными сетями. В задачах извлечения знаний применение генетических алгоритмов
сопряжено со сложностью оценки статистической значимости полученных решений и с
трудностями построения критериев отбора удачных решений. Представителем пакетов из этой
категории является GeneHunter фирмы Ward Systems Group. Генетические алгоритмы
используются также в пакете XpertRule Miner [55].
Эволюционное программирование – самая новая и наиболее перспективная ветвь
DM&KDD. Суть метода заключается в том, что гипотезы о форме зависимости целевой
переменной от других переменных формулируются компьютерной системой в виде программ на
определенном внутреннем языке программирования. Если это универсальный язык, то
теоретически он способен выразить зависимости произвольной формы. Процесс построения таких
программ организован как эволюция в мире программ. Когда система находит программу,
достаточно точно выражающую искомую зависимость, она начинает вносить в нее небольшие
модификации и отбирает среди построенных дочерних программ те, которые являются наиболее
точными. Затем найденные зависимости переводятся с внутреннего языка системы на понятный
пользователю язык (математические формулы, таблицы и т.п.). При этом активно используются
средства визуализации. Методы эволюционного программирования реализованы в системе
PolyAnalyst (Unica, США), средняя стоимость которых составляет $5000 [56].
39
Нечеткая логика применяется для обработки данных с размытыми значениями истинности,
которые могут быть представлены разнообразными лингвистическими переменными. Нечеткое
представление знаний широко применяется в системах с логическими выводами (дедуктивными,
индуктивными, абдуктивными) для решения задач классификации и прогнозирования, например, в
системе XpertRule Miner (Attar Software Ltd., Великобритания), а также в AIS и NeuFuz и др [57].
Недостатком
систем
статистического
анализа,
как
STATGRAPICS
(Manugistics),
STATISTICA, STADIA, считают требование к специальной подготовке пользователя. Отмечают,
что мощные современные статистические пакеты являются слишком "тяжеловесными" для
массового применения в рамках решения узкого класса задач. К тому же, часто эти системы весьма
дороги от $1000 до $15000 [58].
Популярный пакет для решения прикладных программ – это Fuzzy Logic Toolbox в составе
MATLAB (MathWorks, США) [59]. В данном пакете имеется настройка с использованием
технологии ANFIS для нечетких систем типа Сугено (параметрическая идентификация).
MATLAB это интерактивная система для выполнения инженерных и научных расчетов,
ориентированная на работу с массивами данных. Имеет собственный язык программирования,
напоминающий BASIC, а также располагает большими возможностями для работы с сигналами,
для расчета и проектирования систем связи, цифровых и аналоговых фильтров, различных
вычислительных систем. Имеются в наличии и средства для спектрального анализа и синтеза,
быстрого преобразования Фурье (БПФ), обработки изображений, Wavelet-анализа. Кроме этого,
пользователь может ввести в систему любую новую встроенную команду, оператор или функцию.
Недостатками Matlab являются невысокая интегрированность среды и специфический редактор
кода Matlab-программ [60, 61].
Mathcad ориентирован на численное решение математических задач прикладного характера,
когда нужно получить результат без углубления в математическую суть задачи. Используется для
решения дифференциальных уравнений, интегралов, производных,
построение графиков, для
работы с векторами и матрицами, для решения систем уравнений, аппроксимации кривых,
статистических расчетов и работы с распределением вероятностей, а так же для поиска
собственных чисел и векторов [62, 63].
Программный
продукт
Maple
предназначен
главным
образом
для
выполнения
аналитических (символьных) вычислений и имеет для этого один из самых мощных в своем классе
арсенал
специализированных процедур и
функций
(более 3000). Возможности Maple
ориентированы в основном на профессиональных математиков, так как решения задач в среде
Maple требуют не только умения оперировать какой-либо функцией, но и знания методов решения,
которые заложены в нее, так как во многих встроенных функциях Maple фигурирует аргумент,
задающий метод решения [64, 65].
40
Mathematica
одна
из
самых
мощных
систем,
имеющая
чрезвычайно
большую
функциональную направленность, включающая даже синтезирование звука. Она обладает высокой
скоростью вычислений, но требует изучение довольно необычного языка программирования,
который поддерживает множество парадигм программирования, продвинутые инструменты
отладки, автоматическое проектирование интерфейса и многое другое. Он упрощает весь процесс
разработки от дизайна до внедрения, все данные, программы и формулы представлены в виде
символьных выражений [66, 67].
Программный продукт Origin используется для численного анализа данных и "научной
графики", для выполнения операций можно использовать как инструмент графического
интерфейса пользователя (диалоги/меню), так и вызывать их в программах [68, 69]. В Origin
включён собственный компилятор C/C++ с поддержкой и оптимизацией векторных и матричных
вычислений. Origin поддерживает создание двумерной, трёхмерной научной графики, которая
создаётся с помощью готовых шаблонов, доступных для редактирования пользователем. Также
возможно создавать новые собственные шаблоны. После создания изображения оно может быть
отредактировано с помощью меню и диалогов, вызываемых двойным щелчком мыши на его
элементах. Можно экспортировать полученные графики и таблицы в ряд форматов, таких как PDF,
EPS, WMF, TIFF, JPEG, GIF и др.
Следует отметить, что большинство из универсальных статистических пакетов имеют
следующие недостатки:

Требуют наличия профессиональных навыков и высокой квалификации, широкого
первоначального статистического образования, доступной литературы и консультационных
служб.

Содержат
мало
экранных
подсказок
и
требуют
внимательного
изучения
документации (зачастую на английском языке).

Представляют сложности для быстрого освоения и использования.

Отсутствие подробной документации, доступной для начинающих и информативной
для специалистов-статистиков.

Требуют больших финансовых затрат, так как немаловажное значение имеет цена
пакета. Профессиональные западные статистические пакеты (SРSS, SAS, BMDР и т.д.) обычно
стоят от 1 до 10 тыс. долларов и более.

Многофункциональная комплектация описанных программных продуктов для
большинства пользователей является избыточной.
Таким образом, обзор различных подходов к анализу многомерных неполных данных о
природных объектах показал, что в настоящее время методические вопросы комплексного
анализа многомерных данных, решающие одновременно вопросы восстановления неполных
41
данных, редукции исходных данных, выявление значимых свойств объектов исследования, а
так же визуализации с географической привязкой, разработаны недостаточно. В связи с этим
возникла потребность разработки новой методики, основанной на сочетании методов нечеткого
и статистического моделирования.
1.7 Постановка задач диссертационных исследований
Анализ современного состояния подходов к комплексному анализу многомерных
неполных данных о природных объектах позволил сделать выводы о перспективности
использования сочетания методов нечеткого и статистического моделирования. Обзор
существующих программных пакетов (п.1.6) показал, что их комплектации избыточны, сложны
в освоении, не позволяют учитывать пространственные свойства объектов исследования и
обладают рядом недостатков. В настоящее время методические вопросы комплексного анализа
многомерных
данных
о
природных
объектах,
решающие
одновременно
вопросы
восстановления неполных данных, редукции исходных данных, выявления значимых
характеристик объектов исследования, а так же визуализации с географической привязкой,
разработаны
недостаточно.
В
связи
с
актуальностью
решения
этих
задач
целью
диссертационной работы является разработка алгоритмов и комплекса программ анализа
многомерных данных о свойствах природных объектов исследования, имеющих неполное
описание и пространственные признаки.
Для достижения поставленной цели необходимо решить следующие задачи:
1. Анализ
предметной
области
и
обзор
существующих
решений
в
области
комплексного анализа многомерных неполных данных.
2. Разработка методики проведения комплексного анализа многомерных неполных
данных с применением нечеткого и статистического моделирования.
3. Разработка алгоритмов комплексного анализа многомерных неполных данных.
4. Проведение исследований разработанных алгоритмов на типовых контрольных
примерах и тестовых выборках.
5. Проектирование и разработка программного комплекса.
6. Применение и внедрение программного комплекса анализа многомерных неполных
данных.
42
ГЛАВА
2.
РАЗРАБОТКА
МЕТОДИКИ
КОМПЛЕКСНОГО
АНАЛИЗА
МНОГОМЕРНЫХ ДАННЫХ
2.1 Схема проведения комплексного анализа многомерных данных
Предлагаемый комплексный подход для анализа многомерных неполных данных на
основе нечеткого и статистического моделирования включает в себя следующие основные
задачи:
1. Идентификация нечеткой системы методом эволюционной стратегии.
2. Восстановление пропущенных значений в многомерных данных.
3. Анализ данных с применением факторного анализа и классификации.
4. Экспорт результатов в ГИС для их картирования и пространственного анализа.
Перечисленные этапы можно выполнять как последовательно, так и по отдельности, в
зависимости от задачи исследования и имеющихся данных.
Первый этап комплексного анализа включает процесс математического моделирования
системы, то есть генерацию приближенного описания какого-либо объекта реального мира на
языке математики. Основной целью является исследование свойств этих объектов [70, 71].
Практически всегда математическое моделирование требует от разработчиков глубоких
математических знаний и навыков, и многие модели являются результатом работы
математических методов, а не исследованием предметной области или проблемы. Если же
исследователь не может разработать математическую модель, он всегда может описать
изучаемую область и ее поведение лингвистически. Остается решить вопрос преобразования
лингвистического описания в математическую модель.
В
предлагаемом
комплексном
подходе
на
этапе
моделирования
проводится
идентификация нечеткой системы (НС), то есть нахождение основных параметров системы,
которые необходимы для построения адекватной модели – наиболее приближенной к
изучаемым данным. Моделирование нечеткой системы необходимо как для решения самой
задачи идентификации НС, так и для последующего второго этапа комплексного подхода –
восстановления пропущенных значений в данных. Так же результаты идентификации НС
можно использовать для "имитации восстановления", то есть для подтверждения адекватности
полученной модели. На третьем этапе проводится анализ данных с помощью факторного
анализа, результаты которого можно улучшить за счет дополнительного функционала
вращения и классификации данных. Далее можно импортировать результаты факторного
анализа и классификации для их картирования в ГИС. Использование ГИС позволяет включить
в анализ пространственные свойства объектов исследования.
43
В зависимости от решаемой задачи исследования и имеющихся данных, можно
выполнять любой из этапов по отдельности, то есть при наличии полных данных можно
опустить 1 и 2 этапы. Схема проведения комплексного анализа приведена на рис. 2.1.
Объекты исследования:
таблицы «объект-свойства»
Моделирование объекта исследования
Восстановление пропущенных значений
Проведение факторного анализа с вращением и
классификации данных
Отображение
результатов
Экспорт результатов в ГИС
Отображение результатов в ГИС
Рис. 2.1 – Схема проведения комплексного анализа данных
Далее рассмотрим более подробно методы нечеткого и статистического моделирования,
которые используются для комплексного анализа многомерных неполных данных в
приведенной схеме.
2.2 Алгоритмическое обеспечение
2.2.1 Алгоритмы нечеткого моделирования
Нечеткое
моделирование
является
эффективным
подходом
к
преобразованию
лингвистических данных в математические формулы. Нечеткая система описывает реальную
систему в легко понимаемой форме и интерпретируемой непрофессиональным математиком. В
системе нечеткого моделирования собственно знания или модель изучаемой системы отделены
от средств манипулирования этими знаниями, что позволяет исследователям ускорить процесс
разработки модели, сосредоточившись на вопросе "что делать" вместо вопроса "как делать".
Важно отметить, что собственно сами процедуры нечеткого моделирования многократно
опробованы и проверены и превратились в стандартные методы [72].
Описание предметной области может быть проведено посредством лингвистических
переменных (ЛП) и правил естественного языка, содержащих качественную оценку ситуации.
44
Основой для описания ситуации является нечеткое высказывание следующего вида [22, 58, 72 77]:
xi есть Ai или xi = Ai,
где xi – некоторая величина; Ai – элемент терм-множества лингвистической переменной из
исследуемой предметной области.
Нечеткая система выполняет отображение из входного пространства
A  m в
r
выходное пространство B   . Такая система является системой типа "много входов – много
выходов" [23, 75, 76].
Структура нечеткой системы представлена на рисунке 2.2.
База правил
x
y
~x
~
y
Машина
вывода
Фаззификатор
Дефаззификатор
Рис. 2.2 - Типовая структура системы нечеткого логического вывода
Нечеткая система содержит следующие функциональные блоки [59]:
1. Фаззификатор, преобразующий вектор x значений входных переменных в вектор
нечетких множеств ~x , необходимых для выполнения нечеткого логического вывода;
2. Нечеткая база знаний, содержащая информацию о зависимости между входными и
выходными переменными в виде "ЕСЛИ-ТО" правил;
3. Машина нечеткого вывода, которая на основе правил базы знаний определяет
значение выходного вектора в виде вектора нечетких множеств
~
y , соответствующего нечетким
~
значениям входных переменных x ;
4. Дефаззификатор, преобразующий
~
y в вектор значений выходных переменных y.
Нечеткая система
Нечеткая система типа синглтон была кратко рассмотрена в п.1.2.2. где было
представлено правило построения базы правил:
IF x1=A1i AND … AND xm=Ami THEN y = ri,
где Aij — лингвистический терм, которым оценивается переменная xi; ri — действительное
число, которым оценивается выход y.
Оно состоит из двух частей: условной и заключительной. Антецедент или условная часть
(ЕСЛИ–часть) содержит утверждение относительно значений входных переменных, в
45
консеквенте или заключительной части (ТО-части) указывается значение, которое принимает
выходная переменная.
Исходя из данного правила, инициализация нечеткой системы на основе данных
таблицы наблюдения включает в себя две составляющие: формирование антецедентов и
формирование консеквентов правил.
Формирование антецедентов правил ведется методом экстремальных значений или
методом равномерного покрытия области определения переменных, а формирование
консеквентов правил ведется методом поиска ближайшего соседа или методом наименьших
квадратов.
Структура же базы правил нечеткой системы строится с помощью субъективного
разделения данных на основе входного параметра функции принадлежности.
Функция принадлежности
Функции принадлежности для нечетких систем представляют собой субъективное
представление эксперта о предметной области. Часто такая субъективность помогает снизить
степень неопределенности при решении слабо формализованных задач.
Существует
свыше
десятка
типовых
форм
кривых
для
задания
функций
принадлежности. Наибольшее распространение получили: трапецеидальная, гауссова и
треугольная функции принадлежности. Каждая функция принадлежности обладает своим
набором параметров [22, 75-77].
Трапецеидальная
функция
принадлежности
(рис.
2.3)
определяется
параметров (u1. u01 ,u02. ,u2) и ее значение в точке x вычисляется по формуле:

 x  u 1 , u 1  x  u 01

 u 01  u 1


01  x  u 02
( x)  1, u

 x u 2
, u 02  x  u 2

 u 02  u 2

0, в остальных случаях
Рис. 2.3 - Трапецеидальная функция принадлежности
четверкой
46
Гауссова функция принадлежности (рис. 2.4) определяется парой чисел (m0. σ0). Ее
значение в точке x вычисляется по формуле:
  xm
0
( x)  exp   
  0




2




Рис. 2.4 - Гауссова функция принадлежности
Треугольная функция принадлежности (рис. 2.5) определяется тройкой чисел (a,b,c), и ее
значение в точке x вычисляется согласно выражению:
bx

1

,a  x  b

ba

xb


(x )   1 
,b  x  c
A
j
c

b

ij
0, в остальных случаях


(2.1)
Рис. 2.5 – Треугольная функция принадлежности
Треугольная функция принадлежности обладает таким важным свойством как
однозначность определения значения в точке x, что делает ее наиболее подходящей для
нечеткой системы типа синглтон.
Инициализация параметров функции принадлежности ведется несколькими способами.
Алгоритм равномерного покрытия области определения переменных
Равномерному разделению соответствуют такие функции принадлежности, для которых
графики всех соседних функций принадлежности пересекаются на уровне 0.5 (рис. 2.6).
Алгоритм:
47
Вход: таблица наблюдений и ti – количество термов для i-ой переменной; вычисляемые
значения: xmin i, xmax i – граничные значения переменной i.
Шаг 1. Сделать текущей первую ЛП, i=1.
Шаг 2. Сгенерировать ti ФП по следующей формуле:
x min i , x min i , x min i   i , если j  1

{a ij , bij , cij }  x min i   i ( j  1), x min i   i j , x min i   i ( j  1), если 1  j  t i ,
x , x , x
 max i max i max i   i , если j  t i
где  i  xmax i  xmin i  / ti  1 .
Шаг 3. Если имеется следующая ЛП, то сделать ее текущей i = i +1 и перейти на Шаг 2.
Иначе Шаг 4.
Шаг 4. Выход.
Выход: (aij, bij, cij) параметры j-ой треугольной функции принадлежности i-ой
переменной, i=1.…, m, j=1.…,ti.
Рис. 2.6 - Равномерное разделение переменной на три лингвистических терма
треугольной функции принадлежности
Алгоритм случайного покрытия области определения переменных
Алгоритм случайного покрытия генерирует случайные параметры ФП с соблюдением
вычислительной формулы ФП.
Алгоритм:
Вход: таблица наблюдений и ti – количество термов для i-ой переменной; вычисляемые
значения: xmin i, xmax i – граничные значения переменной i.
Шаг 1. Сделать текущей первую ЛП, i=1.
Шаг 2. Сгенерировать случайным образом ti векторов с упорядоченными элементами (aij,
bij, cij), значения aij, bij, cij генерируются в интервале [xmin i; xmax i].
Шаг 3. Проверить выполнение условия покрытия входной переменной (формула 2.1).
Если условие НЕ выполняется, то перейти на Шаг 2.
48
Шаг 4. Если имеется следующая ЛП, то сделать ее текущей i = i +1 и перейти на Шаг 2.
Иначе Шаг 5.
Шаг 5. Выход.
Выход: (aij, bij, cij) параметры j-ой треугольной функции принадлежности i-ой
переменной, i=1.…, m, j=1.…,ti.
Представление одной переменной на основе данного алгоритма выглядит как на рис. 2.7.
µ(x1 )
1.0
лп 1
лп 2
лп 3
0.5
0.0
0,825
0,828
0,831
0,834
Рис. 2.7 - Случайное разделение переменной на три лингвистических терма треугольной
функции принадлежности
Субъективное определение базы правил предполагает формирование базы правил
путем перебора всех сочетаний термов входных переменных. Субъективное разделение данных
имеет важное достоинство – охвачено все входное пространство, а недостатком такой схемы
является экспоненциальный рост числа правил с ростом числа входных переменных и
лингвистических термов, то есть затрудняется обработка схемы, пропадает наглядность и
интерпретируемость системы. Другими словами, схема страдает от "размерности", если каждая
входная переменная представлена t лингвистическими термами, нечеткая система имеет m
входов и один выход, то система будет иметь tm правил.
Нечеткие системы с большим числом правил имеют более высокую точность, однако
более слабую вычислительную эффективность [23, 75 - 77].
Алгоритм инициализации консеквентов методом поиска ближайшего соседа
Алгоритм:
Вход: Таблица наблюдений вида (x1k, x2k,..., xmk, T(x1k, x2k,..., xmk)), где T(x1k, x2k,..., xmk) –
значение из таблицы наблюдений в точке с координатами (x1k, x2k,..., xmk); xmini, xmaxi – граничные
значения переменной xi; набор {aij, bij, cij} – параметры j-ой треугольной ФП i-ой переменной;
i=1.…,m, j=1.…, ti. ti – количество термов i-ой переменной.
Шаг 1. Делаем текущим первое правило в базе правил l=1.
Шаг 2. Формируем точку x  {bj1l , bj2l ,..., bjml } , где jil – номер ФП i-ой переменной в l-ой
1
строке базы правил.
2
m
49
Шаг
3.
Для
 m  bi  x
j
ik
min  

k 
x
i 1 x
  max i min i




точки
2
~x
находим
ближайшее
значение
из
ТН
по
формуле

 . В качестве консеквента rl берем значение из ТН в ближайшей точке


T(x1k, x2k,..., xnk). Если найдено несколько ближайших решений, то в качестве консеквента rl
берем значение в точке с максимальным значением.
Шаг 4. Если есть следующее правило в базе правил, то делаем его текущим (l=l+1) и
переходим на Шаг 2.
Выход: rl – значения консеквента l-го правила, l=1.…,R.
Алгоритм метода наименьших квадратов для инициализации консеквентов
Рассмотрим случай с двумя входными переменными нечеткой системы типа синглтон.
Таблица наблюдений задается тройкой значений (x1k; x2k; yk*). Где xik - значение i-й входной
переменной k-го наблюдения, а yk* - значение выходной переменной k-го наблюдения. Тогда
необходимо минимизировать функцию:
K
f   ( yk  yk ) 2  min
k 1
*
(2.2)
где yk — выходное значение, полученное в результате нечеткого вывода для входных значений
(x1k, x2k). Для нечеткой системы типа синглтон значение выходной переменной определяется по
формуле (1.1). Тогда получаем:

f
 K
*
2
   ( yk  yk ) 
as  k 1

2 
R
 


K
 ai Ai1 ( x1k ) Ai 2 ( x2 k )  
*
    yk  i 1R
  
 k 1
  Ai1 ( x1k ) Ai 2 ( x2 k )  
 
i 1
 



R
R





ai Ai1 ( x1k ) Ai 2 ( x2 k )  
 ai Ai1 ( x1k ) Ai 2 ( x2k )  * 
K
 * i 1

 2  yk  R
yk  i 1R



k 1

(
x
)

(
x
)

(
x
)

(
x
)





Ai 1
1k
Ai 2
2k
Ai 1
1k
Ai 2
2k
i 1
i 1




R



a

(
x
)

(
x
)



i Ai 1
1k
Ai 2
2k
K 
 AS 1 ( x1k ) AS 2 ( x2 k ) 
*
i 1



  0,
 2 yk  R
R


k 1 
 Ai1 ( x1k ) Ai 2 ( x2 k )    Ai1 ( x1k ) Ai 2 ( x2 k ) 


i 1
 i 1


50
R


a

(
x
)

(
x
)



i Ai1
1k
Ai 2
2k
K 
 AS 1 ( x1k )  AS 2 ( x2 k ) 
*  AS 1 ( x1k )  AS 2 ( x 2 k )
i

1

 yk R
 0,
 R

R




k 1
   Ai1 ( x1k )  Ai 2 ( x2 k )   Ai1 ( x1k )  Ai 2 ( x2 k )   Ai1 ( x1k )  Ai 2 ( x2 k ) 
i 1
i 1
i 1


R
K
y
k 1
 A ( x1k )  A ( x2 k )
*
k
S1
R

i 1
K
 yk
S2
S1
 yk
k 1
S2
R

i 1
K
( x1k )  Ai 2 ( x2 k )
 A ( x1k )  A ( x2 k )
*
k 1
Ai1
Ai1
( x1k )  Ai 2 ( x2 k )
K

S1
R

i 1
Ai 1
i 1
R
K
 
i 1 k 1
S2
i
Ai1
( x1k )  Ai 2 ( x2 k )   AS 1 ( x1k )  AS 2 ( x2 k )
2
k 1
 A ( x1k )  A ( x2 k )
*
a 
 R

   Ai1 ( x1k )  Ai 2 ( x2 k ) 
 i 1

ai  Ai1 ( x1k )  Ai 2 ( x2 k )   AS 1 ( x1k )  AS 2 ( x2 k )


   A j1 ( x1k )  A j 2 ( x2 k ) 


 j 1

R
2
,
,

( x1k )  Ai 2 ( x2 k )

2
K  R
 


  Ai1 ( x1k )  Ai 2 ( x2 k )   AS 1 ( x1k )  AS 2 ( x2 k )      A j1 ( x1m )  A j 2 ( x2 m )  
m 1  j 1
k 1
 

R
m
k

 .
ai

2
K  R
i 1




(
x
)

(
x
)

  A j1 1k A j 2 2 k 
k 1  j 1

K
Пусть
 A01 ( x1k ) A02 ( x 2 k ) 
K
*
y
 k R

k

1

 Ai1 ( x1k ) Ai 2 ( x 2 k ) 



i 1
,
B

K
 AR1 ( x1k ) AR 2 ( x 2 k ) 
*
 y k R

 k 1


(
x
)

(
x
)

A
1
k
A
2
k
i1
i2


i 1


 a0 
X    ,
a R 
51
 
2
K  R
K

 

   Ai1 ( x1k )  Ai 2 ( x2 k )   Aw1 ( x1k )  Aw 2 ( x2 k )      A j1 ( x1m )  A j 2 ( x2 m )   
m 1  j 1
 
 k 1 
m k

 ,
A  Awi   
2
K  R

 (2.3)





 A j1 ( x1k )  A j 2 ( x2 k ) 





k 1  j 1





w,i =1..R . Тогда A 
X  B . Если A - не вырожденная (det(A) ≠ 0), то X  A1  B .
Алгоритм:
Вход: Таблица наблюдений вида (x1k, x2k,..., xmk, yk =T(x1k, x2k,..., xmk)), где yk – значение из
таблицы наблюдений в точке с координатами (x1k, x2k,..., xmk).
Шаг 1. Рассчитать значения элементов матрицы А (формула 2.3)
Шаг 2. Если det(A) ≠ 0. то найти обратную матрицу А-1. иначе Шаг 5.
Шаг 3. Рассчитать значения элементов вектора B.
Шаг 4. Найти значения элементов вектора
X  A 1  B .
Принять в качестве
параметров консеквентов правил элементы вектора X=(r0. r1.…, rR).
Шаг 5. Выход.
Выход: rl – значения консеквента l-го правила, l=1,...,R.
Данный алгоритм позволяет найти лучшие консеквенты при фиксированных параметрах
антецедента [75, 77]. Однако является затратным в вычислительном плане для первоначального
построения консеквентов правил. Поэтому для оптимальности можно использовать сочетание
описанных методов: для первоначального построения использовать метод ближайшего соседа,
для оптимизации – метод наименьшего квадрата.
Параметрическая идентификация
Параметры функции принадлежности термов входных переменных нечеткой системы
можно представить в виде вектора. Например, при n входных переменных, определённых на t
термах с треугольными функциями принадлежности, описываемыми тройкой параметров, в
модели типа синглтон, вектор параметров будет выглядеть следующим образом:
 n = [a11b11c11…a1tb1tc1ta21b21c21…a2tb2tc2t…an1bn1cn1…antbntcnt],
где aij, cij, bij – параметры треугольной функции принадлежности формулы (2.2), i-й
лингвистической переменной, j-го терма.
Параметры, входящие в данный вектор влияют на адекватность модели. Задача
параметрической идентификации – определить неизвестные параметры антецедентов и
52
консеквентов нечетких правил путем оптимизации работы нечеткой системы по заданному
критерию.
Методы идентификации нечетких моделей могут быть разделены на два типа: первый
тип – это те, что явно используют производные от параметров нечеткой системы, а второй тип –
это те, которые не используют производные. К первому типу относятся: генетический
алгоритм, эволюционные стратегии, алгоритм муравьиной колонии. К методам, использующим
производные, относят: градиентный метод, метод наименьших квадратов и другие числовые
методы [75 - 77].
Методы без производной имеют преимущество в том, что они не требуют явных
производных объективной функции относительно нечетких параметров. Они являются более
понятными, чем методы на основе производной, при поиске глобального оптимума. Но они
обычно имеют тенденцию сходиться более медленно, чем методы на основе производной,
которые в свою очередь имеют свойство сходиться к локальным оптимумам. Кроме того, из-за
их зависимости от аналитических производных, они ограничены определенными видами
функций, определенными типами вывода и определенными типами функций принадлежности.
Параметрическая идентификация рассматривается как процесс оптимизации нечеткой
модели, который сводится к нахождению таких параметров нечеткой системы, при которых
ошибка вывода была бы минимальной. При этом оценивается качество нечеткого вывода по
значениям ошибки вывода, разницы между значениями выходной переменной из таблицы
наблюдений f(x) и значениями F(x), полученными нечеткой системой по формуле (1.1).
Исследуются три типа ошибки вывода[22, 23]:
N
 ( f (x )  F (x , ))
i
1)
среднеквадратичная ошибка (СКО):
i
N
2)
средняя абсолютная ошибка (САО):
3)
максимальная ошибка (МО):
;
N

2
i
f (x i )  F (x i ,  )
i
N
;
max (| f (x i )  F (x i , ) |) .
i
Генетические операторы
1) Алгоритм скрещивания
Скрещивание хромосом заключается в выборе тех хромосом, которые в дальнейшем
будут участвовать в создании потомков для следующей популяции [22].
"Многоточечное скрещивание"
Случайным образом выбирается n точек разрыва из отрезка. Таким образом, получается
разбиение хромосом на n+1 часть. Участки с четными номерами меняются. Нечетные участки
53
остаются без изменений.
Алгоритм "Многоточечного скрещивания":
Вход:
Родитель1[1..N], Родитель2[1..N]  популяции родительских хромосом, 2N – размер
популяции, M – размер хромосомы.
Алгоритм:
k:=1;
пока (k <= N)
{
{
L:= random(M);//количество точек скрещивания
t:= 1;
пока (t <= L)
{
p:= random(M);
Точка[t]:=p;
}
сортировка по возрастанию (Точка[1..L]);
i:= 1;
t:=1;
пока (i <= M)
{
если (i < Точка[t]) то
t:=t+1;
если n — четное, то
{
Потомок[2*k-1]:=Родитель1[k];
Потомок[2*k]:=Родитель2[k];
}
иначе
{
Потомок[2*k-1]:=Родитель2[k];
Потомок[2* k]:=Родитель1[k];
}
}
54
}
пока Потомок[2*k-1] и Потомок[k*2] не удовлетворяют условиям
включения в популяцию
}
Выход:
Потомок[1..2×N]  дочерняя популяция хромосом.
"Унифицированное скрещивание"
Особенность заключается в том, что значение каждого гена в хромосоме потомка
определяется случайным образом из соответствующих генов родителей. Для этого вводится
некоторая величина 0<p0<1. если случайное число больше p0. то на n-ю позицию первого
потомка попадает n-й ген первого родителя, а на n-ю позицию второго  n-й ген второго
родителя. В противном случае к первому потомку попадает ген второго родителя, а ко второму
 первого. Такая операция проводится для всех генов хромосомы.
Алгоритм "Унифицированного скрещивания":
Вход:
Родитель1[1..N], Родитель2[1..N]  популяции родительских хромосом, 2N – размер
популяции, M – размер хромосомы.
Алгоритм:
k:=1
пока (k <= N)
{
{
i:= 1;
пока (i <= M)
{
P:= random;
x:= random;
если (x < p) то
{
Потомок[2*k-1]:= Родитель1 [k];
Потомок[k*2]:= Родитель2 [k];
}
иначе
{
Потомок[2*k-1]:= Родитель2 [k];
55
Потомок[k*2]:= Родитель1 [k];
}
}
}
пока Потомок[2*k-1] и Потомок[k*2] не удовлетворяют условиям
включения в популяцию
}
Выход:
Потомок[1..2×N] — дочерняя популяция хромосом.
2) Алгоритм мутации
Мутация – это преобразование хромосомы, случайно изменяющее один или несколько ее
генов. Оператор мутации необходим для внесения случайности в процесс работы генетических
операторов, что снижает вероятность застревания в локальных минимумах. С учетом
специфики задачи, хромосомы подвергаются мутации с соблюдением условий включения в
популяцию[22].
"Многоточечная мутация"
Случайным образом выбирается n генов хромосомы, которые меняют свое значение.
Алгоритм "Многоточечной мутации":
Вход:
Потомок[1..2×N]  дочерняя популяция хромосом, N – размер популяции, M – размер
хромосомы, P – вероятность мутации.
Алгоритм:
k:=1;
пока (k <= 2*N)
{
p:= random;
если (x < P)
{
d:= random(M);//количество точек мутации
i:= 1;
пока (i <= d)
{
t:= random(M);
Точка[i]:= t;
}
56
i:= 1;
t:= 1;
пока (i <= M)
{
если (i = Точка[t])
{
{
x:=random;
ген i Потомка[k]:= x;
}
пока
Потомок[k]
не
удовлетворяет
условиям
включения
в
популяцию
t:= t+1;
}
}
}
}
Выход:
Потомок[1..2×N]  мутированная дочерняя популяция хромосом.
3) Алгоритм селекции
"Случайный отбор"
Случайным образом выбираем первого родителя. Из числа оставшихся хромосом
выбираем случайным образом второго родителя.
Алгоритм "Случайного отбора":
Вход:
Хромосома[1..2N]  популяция хромосом, 2N  размер популяции.
Алгоритм:
k:=1;
пока (k <= N)
{
{
i:= random[2N];
j:= random[2N];
}
пока (i = j);
57
Родитель1[k]:=Хромосома[i];
Родитель2[k]:=Хромосома[j];
}
Выход:
Родитель1[1..N], Родитель2[1..N]  массивы родительских хромосом.
"Турнирный отбор"
Для каждого турнира выбирается случайным образом t хромосом. Из этих t хромосом
выбирается наилучшая хромосома (наилучшей оценкой), которая берется в качестве одного из
родителей.
Алгоритм "Турнирного отбора":
Вход:
Хромосома[1..2N]  популяция хромосом, 2N  размер популяции.
Алгоритм:
K:=1;
пока (k <= N)
{
{
M:= random[2N]; //размер турнира
t:= 1;
пока (t <= M)
{
i:= random[N];
Участник[t]:= Хромосома[i]; //участник в турнире
}
i:= номер лучшей хромосомы в турнире;
M:= random[2N];
повтор проведения турнира;
j:= номер лучшей хромосомы в турнире;
}
пока (i = j);
Родитель1[k]:=Хромосома[i];
Родитель2[k]:=Хромосома[j];
}
Выход:
Родитель1[1..N], Родитель2[1..N]  массивы родительских хромосом.
58
"Рулеточный отбор"
Вероятность i-ой хромосомы принять участие в скрещивании pi пропорциональна
значению ее приспособленности fi и равна pi 
fi
 fk
, то есть весь круг рулетки равен 1.
k
площадь сектора i-ой особи пропорциональна значению pi.
Алгоритм "Рулеточного отбора":
Вход:
Хромосома[1..2N]  популяция хромосом, 2N  размер популяции. Ф[1..2N] –
приспособленность хромосом.
Алгоритм:
i:=1;
сектор[1]:= 0;
пока (i <= 2N)
{
p:=1/(Ф[i]*сумма);
сектор[i+1]:= сектор[i]+p;
}
k:=1;
пока (k <= N)
{
{
x1:= random;
x2:= random;
t:= 1;
пока (t <= N+1)
{
если (сектор[t]<= x1 < сектор[t+1]) то
i:=t;
если (сектор[t]<= x2 < сектор[t+1]) то
j:=t;
}
}
пока (i = j);
Родитель1[k]:=Хромосома[i];
Родитель2[k]:=Хромосома[j];
}
59
Выход:
Родитель1[1..N], Родитель2[1..N]  массивы родительских хромосом.
"Стратегия элитаризма"
Суть метода сводится к скрещиванию наилучшей хромосомы последовательно со всеми
остальными.
Алгоритм "Стратегии элитаризма":
Вход:
Хромосома[1..2N]  популяция хромосом, 2N  размер популяции.
Алгоритм:
k:=2;
пока (k <= N)
{
Родитель1[k]:=Хромосома[1];
Родитель2[k]:=Хромосома[k];
}
Выход:
Родитель1[1..N], Родитель2[1..N]  популяции родительских хромосом.
Метод эволюционной стратегии
1) Классический алгоритм эволюционной стратегии
Алгоритм работает с популяцией особей (хромосом), каждая из которых представляет
собой упорядоченный набор параметров задачи, подлежащих оптимизации. Основной
характеристикой каждой особи является ее мера приспособленности.
Классический алгоритм эволюционной стратегии [23]:
k:=0;
инициализация популяции P(k);
оценивание приспособленности особей из P(k);
пока (не условие завершения)
{
k:=k+1;
применение
генетических
операторов
(скрещивание,
селекция);
оценивание приспособленности особей из P(k);
формирование новой популяции P(k+1)
}
мутация,
60
При поиске решения в эволюционной стратегии вначале происходит мутация и
скрещивание особей для получения потомков, затем происходит детерминированный отбор без
повторений лучших особей из общего поколения родителей и потомков. В качестве мутации
часто используется добавление нормально распределенной случайной величины к каждой
компоненте хромосомы. При этом параметры нормального распределения самоадаптируются в
процессе выполнения алгоритма.
Работа алгоритма представляет собой итерационный процесс, который продолжается до
выполнения одного из условий заверения:
 выполнение заданного числа поколений;
 прекращение улучшения популяции.
2) Алгоритм (    ) - эволюционная стратегия и
( ,  )
- эволюционная стратегия
В настоящее время имеются различные операторы скрещивания, применяемые в
эволюционной стратегии. От операторов скрещивания зависит то, каким образом формируется
следующее поколение из предыдущего. Чаще всего используют:
1. (    ) - эволюционная стратегия (набор родителей и потомков);
2. (  ,  ) - эволюционная стратегия (набор только потомков).
Рассмотрим свойства и сформируем алгоритмы стратегии. В (    ) - эволюционной
стратегии,
 -родителей может участвовать в воспроизводстве  -потомков. Тогда    -
поколение будет уменьшено до

-потомков следующего поколения селекцией. Главные шаги
(    ) - эволюционной стратегии представлены на рис. 2.8.
61
Инициализация итераций k=0,
Инициализация популяции P(k) из µ-особей
Сформировать новое поколение из µ-особей
Не выполнено
Условие
завершения
Выполнено
k=k+1
Выполнить t-раз
Выход
Выбрать случайным образом 2 особи
из µ-особей P(k)
Скрестить особи, скопировав компоненты с
равной вероятностью в одного потомка
Провести мутацию полученного потомка
Оценить приспособленность особей из P(k)
Удалить ƛ-особей наименее приспособленных
из (µ+ƛ)-особей
Сформировать новое поколение из µ-особей
Рис. 2.8 – Алгоритм (    ) - эволюционной стратегии
Основным преимуществом данного подхода является непринужденное использование
адаптивных стратегических параметров. Однако есть и недостатки, а именно – частое
"застревание" в локальном оптимуме. Например, в алгоритме это выражается так – поколениеродитель не дает поколение-потомок лучше себя. Чтобы предотвратить этот недостаток, был
предложен для использования метод ( ,  ) - эволюционной стратегии, где селекция подчинена
условию
   . Предыдущие

-родители будут полностью заменены и не будут
использоваться в следующем поколении. Алгоритм описан на рис. 2.9.
62
Инициализация итераций k=0,
Инициализация популяции P(k) из µ-особей
Сформировать новое поколение из µ-особей
Не выполнено
Условие
завершения
Выполнено
k=k+1
Выполнить t-раз
Выход
Выбрать случайным образом 2 особи
из µ-особей P(k)
Скрестить особи, скопировав компоненты с
равной вероятностью в одного потомка
Провести мутацию полученного потомка
Оценить приспособленность особей из P(k)
Удалить (ƛ-µ)-особей наименее
приспособленных из µ-особей
Сформировать новое поколение из µ-особей
Рис. 2.9 – Алгоритм ( ,  ) - эволюционной стратегии
Недостатком этого алгоритма является то, что "лучшие" из
заменены более "худшими" сгенерированными
 -потомками

-родителей могут быть
и будут потеряны. В итоге это
может дать не самый корректный результат. Поэтому в работе используются оба алгоритма.
3) Алгоритм идентификации нечеткой системы методом эволюционной стратегии
Алгоритм для настройки параметров нечеткой системы модели типа синглтон выглядит
следующим образом:
Вход: Таблица наблюдений;
Алгоритм:
Шаг 1. Задание параметров нечеткой системы:

задание количества термов;
63


задание количества генерируемых хромосом для начальной популяции

выбор параметра функции приспособленности, для построения базы правил.
;
Шаг 2. Загрузка таблицы наблюдения:

построение базы правил для обучения, на основе нечетких термов, равномерно
распределенных по каждому входному параметру из таблицы наблюдения;
n ;

формирование хромосомы

задание консеквенты для каждого правила методом ближайшего из таблицы
наблюдение;

Расчет адекватности модели.
Шаг 3. Выбор параметров алгоритма эволюционной стратегии:

задание количества итераций;

задание количества генерируемых хромосом в скрещивании

выбор количества точек скрещивания;

задание алгоритма скрещивания;

задание вероятности мутации;

задание алгоритма селекции;

выбор свойства следующего поколения.
;
Шаг 4. Вычисление меры приспособленности.
Шаг 5. Применение алгоритма скрещивания.
Шаг 6. Применение алгоритма мутации.
Шаг 7. Применение алгоритма селекция для отбора хромосом для новой популяции.
Шаг 8. Рассмотрение ошибки расчетов. Если достигнуто условие выхода Шаг 9. иначе
Шаг 3.
Шаг 9. Вывод решения – "наилучшей" хромосомы.
Выход: Оптимизированная база правил. Значение ошибки нечеткого вывода.
2.2.2 Алгоритм восстановления данных
Рассмотрим особенности структуры входных данных в задаче восстановления
пропущенных значений.
Пусть X=(X1. X2.… Xn) – вектор входных параметров, m – количество записей в таблице,
A  (aij )im1, nj 1
– матрица исходной информации, которая имеет пропуски, обозначенные
звездочками (табл.2.1).
64
Таблица 2.1 – Структура входной информации
X1
X2
X3
...
Xn-1
Xn
1
а11
а12
а13
.
*
а1n
2
а21
а22
а23
.
а2n-1
а2n
…
.
.
.
.
.
.
m
аm1
аm2
аm3
.
аmn-1
amn
Таким образом, задача восстановления пропусков в данных заключается в нахождении
выходного значения для каждой записи с пропуском, основанного на всех записях, кроме той, в
которой идет восстановление:
Yi  Fi ( X i ), i  1, m,
где F - функция от входного вектора
X=(X1. X2.… Xn), а Y - значение, полученное по
идентифицированным зависимостям.
Алгоритм восстановления [24] будет выглядеть так:
Вход: таблица наблюдений с пропусками в записях.
Шаг 1. Задаем параметры нечеткой системы и выбираем параметры алгоритма
эволюционной стратегии.
Шаг 2. Загружаем входные данные (таблицу наблюдения).
Шаг 3. Делим входные данные на полные записи и с пропусками. Строим нечеткую
систему по полным записям.
Шаг 4. Применяем эволюционную стратегию для настройки параметров построенной
нечеткой системы.
Шаг 5.Отбираем лучшую хромосому. Если достигнуто условие выхода Шаг 7. Иначе
Шаг 4.
Шаг 6. Подставляем в базу правил записи с пропусками и восстанавливаем пропуск на
основе сформированной базы правил и лучшей хромосомы.
Шаг 7. Выводим решения.
Выход: таблица наблюдений с восстановленными значениями.
Алгоритм имитации восстановления использует такую же схему, однако проводится
согласно методу "скользящего экзамена" [26]:
Вход: таблица наблюдений без пропущенных значений.
Шаг 1. Закрываем в таблице известный элемент aij, стоящий на пересечении строки i и
столбца j, и восстанавливаем его, получая новое значение a*ij
Шаг 2. Рассчитаем величину отклонение полученного нового значения от известного
(закрытого) элемента dij = |a*ij-aij|.
65
Шаг 3. Заменяем в таблице элемент аij на a*ij.
Шаг 4. Суммируем отклонения Dn =
 di
j
.
Шаг 5. Повторяем Шаг 1-3 для всех строк таблицы наблюдений.
Выход: таблица наблюдений с вычисленными значениями и показатель точности
восстановления Dn. Чем меньше данный показатель, тем выше достоверность восстановления.
Данный алгоритм проведения восстановления имитирует пропущенные значения в таблице
наблюдений, что позволяет определить адекватность построенной модели.
2.2.3 Алгоритм факторного анализа с вращением
Факторный анализ (ФА) основан на представлении о комплексном характере изучаемых
объектов, выражающемся, в частности, во взаимосвязях и взаимообусловленности их
отдельных признаков. Особое внимание в ФА уделяется исследованию внутренних причин,
формирующих специфику изучаемых объектов. ФА не требует априорного разделения
признаков на зависимые и независимые – все признаки рассматриваются как равноправные.
Цель ФА – выразить большое число анализируемых признаков через меньшее число более
емких внутренних характеристик объекта исследования, которые могут не поддаваться
непосредственному измерению. При этом предполагается, что наиболее емкие характеристики
окажутся наиболее существенными, значимыми.
ФА основан на многомерном нормальном распределении – каждый из используемых
признаков изучаемого объекта должен иметь нормальный закон распределения. ФА исследует
внутреннюю структуру ковариационной и корреляционной матриц системы признаков
изучаемого объекта [42]. Рассмотрим его подробнее.
Пусть в изучаемом объекте отобрано N записей. В каждой из них измерены значения K
параметров и получены значения случайных многомерных нормально распределенных
величин. Эти значения случайных многомерных величин обусловлены различными причинами,
которые называются факторами. Предполагается, что число этих факторов всегда меньше, чем
число K измеряемых параметров изучаемого объекта. Эти факторы являются скрытыми, их
нельзя непосредственно измерить и поэтому они представляются гипотетическими. Однако
имеются методы их выявления, которые и составляют сущность факторного анализа.
В факторном анализе решаются следующие задачи [39 - 44, 78 - 82]:
1. Определение количества действующих факторов и указание относительной ёмкости.
2. Выявление признаковой структуры факторов – рассмотрение, какими признаками
объекта обусловлено действие того или иного фактора и в какой относительной мере.
66
3. Выявление факторной структуры изучаемых параметров объекта – анализ доли
влияния каждого из факторов на значение того или иного параметра этого объекта.
4. Воссоздание в факторном координатном пространстве облика изучаемого объекта, с
помощью использования вычисляемых значений факторов для каждого наблюдения исходной
выборочной совокупности.
В основе ФА лежит математический метод нахождения собственных значений и
собственных векторов корреляционной матрицы [53], для нахождения которых используются
различные численные методы работы с матрицами. Рассмотрим наиболее популярные методы:
1. Разложение Холецкого [84, 85] – это представление симметричной положительноопределённой матрицы A в виде A  LLT , где L - нижняя треугольная матрица со строго
положительными элементами на диагонали. Разложение Холецкого всегда существует и
единственно для любой симметричной положительно-определенной матрицы. Существует
также обобщение этого разложения на случай комплекснозначных матриц. Если матрица A положительно-определенная эрмитова матрица, то существует разложение A  LL* , где L нижняя треугольная матрица с положительными действительными элементами на диагонали, а
L* - эрмитово-сопряженная к ней матрица.
Алгоритм разложения Холецкого:
Элементы матрицы L можно вычислить, начиная с верхнего левого угла, по формулам:
Lii 
i 1
Aii   L2ik ,
k 1
j 1

1 
 Aij   Lik L jk , если
Lij 
L jj 
k 1

j  i.
Выражение под корнем всегда положительно: если A - действительная положительноопределенная матрица, то вычисление происходит сверху вниз, слева направо (вначале Lij , а
затем Lii ).
Для комплекснозначных эрмитовых матриц используются формулы:
Lii 
i 1
Aii   L2ik L*ik ,
1
Lij 
L jj
k 1
j 1


 Aij   Lik L*jk , если
k 1


j  i.
Данный метод используется для решения системы линейных уравнений, так как он
обладает численной устойчивостью и небольшим числом арифметических операций.
67
2. LU-разложение [85, 86] – это представление матрицы A в виде произведения двух
матриц A  LU , где L - нижняя треугольная матрица, а U - верхняя треугольная матрица.
Данное разложение используется для вычисления определителя матрицы.
Обозначение элементов матриц L  (lij ),U  (ui j ), i, j  1..n . Диагональные элементы
матрицы L : lii  1, i  1..n .
Алгоритм выглядит так:
Шаг 1. Вычисление первых элементов матриц по формулам:
1)
u1 j  a1 j ,
2)
l j1 
a j1
u11
j  1..n ,
,
j  2..n(l11  0).
Шаг 2. Последовательное вычисление остальных элементов матриц:
Для i  2..n .
i 1
1)
uij  ai j   lik u kj ,
j  i..n ,
k 1
2)
l ji 
i 1
1 

 a ji   l jk u ki , j  i  1..n.
uii 
k 1

Шаг 3. Вычисление определителя матрицы:
 n  n

det( A)  det( LU )  det( L) det(U )  det(U )    lii   uii  .
 i 1  i 1 
Для улучшения решения ФА, то есть для более четкого выявления структуры факторов,
необходима процедура вращения, которая позволит сделать окончательное решение ФА
наиболее адаптированными к области исследуемых данных и обеспечит возможность легче
интерпретировать полученную факторную структуру.
Для процедуры вращения был выбран наиболее часто используемый на практике метод
"Варимакс" [79], в котором для каждого признака добиваются того, чтобы дисперсия квадратов
нагрузок факторов была максимальна.
Согласно вышеприведенным методам, алгоритм ФА с вращением будет выглядеть так:
Вход: таблица наблюдений без пропусков (с восстановленными данными).
Шаг 0. Загружаем данные и выбираем анализируемые параметры.
Шаг 1. Нормируем данные.
Шаг 2. Рассчитываем матрицу корреляции.
68
Шаг 3. Вычисляем собственные числа и собственные вектора (при помощи применения
разложения Холецкого, LU-разложения).
Шаг 4. Рассчитываем факторы, вычисляем доли влияния каждого из факторов на
значение параметров.
Шаг 5. Выявляем наиболее значимые факторы.
Шаг 6. Воссоздаем в факторном координатном пространстве изучаемый объект
(отображаем на пространственном графике).
Шаг 7. Применяем ортогональное вращение методом "Варимакс" для увеличения
критерия качества каждого фактора. Если достигнуто условие завершения анализа Шаг 8. иначе
Шаг 0.
Шаг 8. Выход.
Выход: таблицы с рассчитанными данными и графические отображения.
2.2.4 Алгоритм классификации многомерных данных
В разделе 1.4 были представлены различные методы классификации, из которых был
выбран метод k-средней кластеризации, так как он относится к последовательным алгоритмам,
а значит хорошо подходит для классификации большого числа объектов. Рассмотрим
подробнее данный метод.
Основная идея метода k-средних [87, 88] заключается в том, что он последовательно
уточняет эталонные точки и стремится минимизировать суммарное квадратичное отклонение
точек кластеров от центров этих кластеров:
k
V 
 (x
i 1 x j  S i
j
 i ) 2 ,
где k - число кластеров, Si - полученные кластеры, i  1, k и  i - центр масс элементов x j  S i ,
которому на j-ой итерации приписался элемент xj.
Согласно этому принципу, алгоритм метода k-средней классификации выглядит так:
Шаг 1. j:=0. Случайным образом приписываем каждый элемент исходного множества по
одному из k-кластеров.
Шаг 2. Определяем  i - центр масс каждого кластера, как среднее всех точек кластера.
Шаг 3. Для каждого xj-элемента вычисляется расстояние до центра каждого кластера.
Шаг 4. Приписываем элементы к кластеру по принципу минимального расстояния до
него.
Шаг 5. Вычисляем суммы расстояния от каждого элемента до центра его кластера. Если
значение  i - центра кластера уменьшилось, то Шаг 6. иначе Шаг 7.
69
Шаг 6. j:=j+1. Шаг 2.
Шаг 7. Выход.
2.3
Методические
вопросы
пространственного
анализа
данных
с
применением ГИС
В разделе 1.1 были описаны характерные особенности анализируемых объектов
исследования,
отличительным
свойством
которых
было
наличие
пространственных
характеристик у объектов. Для учета пространственных характеристик было предложено
(п. 1.5) использовать экспортирование результатов предыдущих этапов комплексного анализа в
ГИС для проведения пространственного анализа.
Схема проведения пространственного анализа в ГИС предполагает проведение
визуального анализа объектов в пространстве выбранных факторов, согласно результатам
классификации (рис. 2.10).
Пространственный
анализ
результатов
комплексного
анализа
средствами
ГИС
позволяют выявить закономерности, связанные с взаиморасположением объектов на цифровых
картах. Это необходимо, когда проводится анализ значительного количества объектов, и
отображение результатов в пространстве выбранных факторов не позволяет оценить
значимость отличительных особенностей между ними, согласно их географическому
расположению (рис. 2.11).
Рис. 2.10 – Отображение классов объектов в пространстве выбранных факторов
70
Рис. 2.11 – Отображение классов объектов на цифровой карте
Для проведения пространственного анализа в ГИС используется процедура сохранения
результатов классификации в дополнительный столбец "CLASS", то есть создается выходная
таблица вида "объект-свойство", состоящая из исходных данных и дополнительного столбца
результата классификации данных.
Пространственный анализ полученных классов объектов проводится средствами ArcGis
9.3.1 с применением легенды "цветовая шкала" или "градуированный символ", где все классы
объектов отображаются различным цветом и формой. Проведение формализованного
пространственного анализа требуется для выявления пространственных особенностей объектов
различных классов, также установить закономерности в их распределении по классам.
71
ВЫВОДЫ ПО ГЛАВЕ 2
В результате решения методических и алгоритмических вопросов комплексного анализа
многомерных неполных
данных о природных объектах на основе методов нечеткого и
статистического моделирования, получен ряд новых научных результатов, основными из
которых являются следующие:
 разработана методика проведения комплексного анализа многомерных данных о
природных пространственно-распределенных объектах, обеспечивающая выявление новых
закономерностей между свойствами исследуемых объектов.
 представлен модифицированный алгоритм идентификации нечеткой системы с
заданной структурой, включающий генерацию структуры НС с заданными параметрами
функции
принадлежности
и
оптимизацию
параметров
НС,
основанную
на
методе
эволюционной стратегии и методе наименьших квадратов.
 представлен алгоритм восстановления пропущенных значений, основанный на
разработанном
модифицированном
алгоритме
идентификации
нечеткой
системы,
отличающийся от известных алгоритмов и статистических методов снятием требований к
знанию закона распределения.
72
ГЛАВА 3. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАЗРАБОТАННОЙ МЕТОДИКИ
3.1 Выбор средства реализации
В качестве средства реализации программного комплекса выбран язык объектноориентированного программирования C#, а средой разработки - Microsoft Visual Studio 2012.
Обзор средств реализации показал, что C# - это объектно-ориентированный язык
программирования общего назначения. C# дает разработчикам, занимающимся написанием
кода, широкие возможности и языковую поддержку для создания сложных приложений. C# один из языков программирования, который может использоваться для создания приложений,
выполняемых в среде .NET CLR. Этот язык является результатом эволюции языков C и C++,
созданный компанией Microsoft специально для использования на платформе .NET. Данный
язык включает в себя полную поддержку структурного, компонентно-ориентированного и
объектно-ориентированного
программирования,
которую
только
можно
ожидать
от
современного языка [89, 90].
Среда разработки Microsoft Visual Studio 2012 - это набор инструментов и средств,
предназначенных для помощи разработчикам программ любого уровня квалификации в
решении сложных задач. Visual Studio улучшает процесс разработки и упрощает разработку
высокоэффективных программ. Средства Visual Studio позволяют разработчикам работать с
большей отдачей и затрачивать меньше усилий на повторяющиеся задачи. В версиях Visual
Studio постоянно появляются новые средства, позволяющие разработчикам сосредоточиться на
решении основных проблем, а не на рутинной работе. Например, дополнение ReSharper [91]
созданное для повышения эффективности работы, проводит статистический анализ кода в
масштабе всего решения, предусматривает дополнительные средства автозаполнения,
навигации, поиска, подсветки синтаксиса, форматирования, оптимизации и генерации кода.
Также Visual Studio разрабатывается таким образом, чтобы обеспечить высокую надежность и
совместимость. Visual Studio обладает удачным сочетанием безопасности, масштабируемости и
взаимодействия. В Visual Studio всегда поддерживаются новейшие технологии, и по
возможности, обеспечивается обратная совместимость.
3.2 Архитектура программного комплекса
После изучения основных задач исследования, особенностей анализируемых данных,
выбранных алгоритмов и методов, было спроектировано и реализовано приложение, имеющее
простую систему классов.
Требования к системе:
1. Универсальность классов системы.
73
2. Универсальность методов и функций.
3. Оптимальность хранения информации и удобное обращение к ней.
4. Расширяемость, возможность добавлять новые методы к базовой сборке.
Согласно схеме проведения комплексного анализа (раздел 2.1) и требованиям к системе,
программный комплекс будет состоять из 4 основных блоков, каждый из которых будет
включать в себя все необходимые классы, методы и функции для решения своей задачи, а также
методы
для
взаимодействия
между блоками.
Архитектура
программного
комплекса
представлена на рис. 3.1.
Рис. 3.1 - Архитектура программного комплекса
Блок "Моделирование" выполняет задачу идентификации нечеткой системы на основе
метода эволюционной стратегии. Входными данными являются записи из тестовой выборки
исследуемой таблицы "объект-свойство", которая состоит из всех полных записей (полными
записями считаются те, в которых нет пропущенных значений). На основе тестовой выборки
будут подбираться оптимальные параметры нечеткой системы и метода эволюционной
стратегии. Данный блок обладает визуальным отображением результатов построения нечеткой
системы, то есть можно просмотреть базу правил, функцию принадлежности и значения
критерия приспособленности элементов системы. Выходными данными блока являются
подобранные параметры системы.
Блок "Восстановление" отвечает за задачу восстановления пропущенных значений,
включая в себя тестовое восстановление с помощью методики скользящего экзамена (раздел
1.2.2) и восстановление на основе полученной модели в блоке "Моделирование". Входными
74
данными для тестового восстановления являются записи из той же тестовой выборки, что
использовалась в блоке "Моделирование". Выходным значением тестового восстановления
является оценка подобранной модели (точность), с которой будут восстанавливаться
пропущенные значения. Входными данными для восстановления являются данные из исходной
таблицы "объект-свойство" с пропущенными значениями, а выходными – данные "полной"
таблицы – таблицы с исходными данными и восстановленными значениями.
Блок "Анализ" отвечает за задачу анализа многомерных данных методами ФА с
вращением и классификацией. Входными данными являются данные из восстановленной или
полной исследуемой таблицы. Блок включает возможности отображения результатов
вычисления в виде таблиц (ковариационная и корреляционная матрицы, собственные значения,
собственные вектора и т.д.), гистограмм нагрузок факторов, дендрограмм и графиков
(пространственное отображение в пространстве выбранных факторов и прочее). Отображаемые
выходные данные позволяют интерпретировать полученные результаты.
Блок "Пространственный анализ" используется для учета пространственных
характеристик исследуемых объектов с применение средств ArcGis 9.3.1. В блоке "Анализ"
реализована функция экспортирования результатов, которая формирует выходную таблицу.
Таблица состоит из исходных данных блока "Анализ" и результатов классификации. Входными
же
данными
блока
"Пространственный
анализ"
является
исходная
таблица
с
пространственными характеристиками объектов и экспортированная таблица с результатами
классификации. Выходными данными является картографическое отображение объектов с
результатами анализа.
3.3 Визуальная часть программного комплекса
В среде визуального программирования Microsoft Visual Studio 2012 был реализован
программный комплекс, выполняющий поставленные задачи с помощью описанных
алгоритмов (раздел 2), согласно приведенной архитектуре программного комплекса (рис. 3.1).
На главной форме (рис. 3.2) необходимо выбрать решаемую задачу, после чего откроется
соответствующий интерфейс для ввода данных.
75
Рис. 3.2 – Главная форма программного комплекса
3.3.1 Блок "Моделирование"
Интерфейс блока "Моделирование" (рис. 3.3) включает в себя меню, с помощью
которого можно загрузить тестовые данные, сохранить полученную нечеткую систему. Также,
через меню можно просмотреть "базу правил", графическое представление функции
принадлежности входных переменных и сводную таблицу результатов (до загрузки данных
доступна только функция "загрузить таблицу").
На форме представлены все необходимые параметры для моделирования, а именно,
параметры нечеткой системы, функции принадлежности, метода эволюционной стратегии и
критерия оптимальности.
Перечисленные параметры и методы включают: количество термов на параметр,
количество хромосом для начальной популяции, количество итераций, количество хромосом
будущих популяций; предлагается выбрать алгоритмы селекции, скрещивания и мутации; вид
эволюционной стратегии и вид ошибки для расчета.
76
Рис. 3.3 – Экранная форма "Моделирование"
После загрузки входных данных на форме можно увидеть: таблицу наблюдений (рис.
3.4), также, появляется кнопка "дополнительные параметры" (рис. 3.5), которые позволяют
выбрать "количество термов на параметр" и "диапазон" (минимальное и максимальное значение
исследуемого свойства) индивидуально для каждой переменной.
77
Загруженные данные
Ошибки расчетов для всех хромосом популяции
Ошибки расчетов лучшей хромосомы
Рис. 3.4 – Экранная форма "Моделирование" после загрузки данных
Рис. 3.5 – Экранная форма "Дополнительные параметры"
После выбора параметров необходимо построить нечеткую систему, после чего на
форме отобразятся рассчитанные ошибки для всех хромосом начальной популяции, и значение
лучшей хромосомы. Кнопка "Вычислить" (рис. 3.4) задействует выбранные параметры
эволюционной стратегии, которые оптимизируют построенную модель нечеткой системы.
78
При "двойном нажатии" на значения ошибки хромосом открывается форма (рис. 3.6) с ее
видом функции принадлежности. Переключение между переменными происходит с помощью
выпадающего списка.
Рис. 3.6 – Экранная форма графического представления функции принадлежности
"Треугольники"
Так же через меню "Просмотр" можно просмотреть базу правил (рис. 3.7) и
результирующие значения (рис. 3.8).
Рис. 3.7 – Экранная форма "База правил"
79
Рис. 3.8 – Экранная форма "Результат"
Результирующие значения – это таблица, включающая входные и выходные значения в
следующей
последовательности:
таблица
наблюдений,
соответствующие
значения,
вычисленные нечеткой системой, модифицированные значения методом наименьших квадратов
и ошибка между этими значениями (тип ошибки определяет пользователь на главной форме, по
умолчанию – абсолютная). Кроме того, есть отдельно вынесенные ошибки системы для лучшей
хромосомы.
Дополнительно в меню (рис. 3.3) и в окне "Результатов" (рис. 3.8) можно сохранить
построенную нечеткую модель, если есть в этом необходимость. Сохранение параметров
нечеткой системы выполняется в формате XML. Запись в файл происходит путем сериализации
объекта данного класса, а чтение путем десериализации. Такой способ работы с файлами
обеспечивает надежность, расширяемость и простоту [92].
Визуально структура может быть представлена как дерево элементов. Элементы XML
описываются тегами. Таким образом, описание XML структуры представления нечеткой
системы типа Синглтон [92] представлено так:
<FuzzySystem/> – корневой тег, включает в себя три основных тега: <Variables/>,
<Rules/>, <Table/>.
●
<Variables/> – описание лингвистических переменных (ЛП). Является тегом
контейнером для тегов <Variable/>. Атрибуты: Count – количество ЛП.
○
<Variable/> - описание ЛП.
80
Атрибуты: Name – имя ЛП; Min – минимальное значение области определения ЛП; Max
– максимальное значение области определения ЛП.
Подтеги: <Terms/>.
<Terms/> - тег контейнер для тегов <Term/>. Атрибуты: Count – количество
■
термов в ЛП.
●
<Term/> - описание терма.
Атрибуты: Name – имя терма; TermType – тип терма.
Подтеги: < Params/>.
○
<Params/> - тег контейнер для термов, описываемых тегом <Param/>.
Количество параметров терма зависит от его типа, так для треугольного терма три параметра.
<Param/> - параметры терма. Атрибуты: Number – номер параметра; Value –
■
значение параметра.
●
<Rules/> - описание базы правил (БП) нечеткой системы. Атрибуты: Count –
количество правил в БП. Подтеги: <Rule/>.
○
<Rule/> - описывает правило в БП.
Подтеги: <Antecedent/>, <Consequent/>.
<Antecedent/> - тег контейнер для тегов <AntecedentPair/>.
■
●
<AntecedentPair/> - тег описывающий антецедент правила. Атрибуты: Variable -
имя ЛП; Term - имя терма.
●
<Table/> - содержит описание таблицы наблюдений. Атрибуты: Count -
количество наблюдений в таблице.
Подтеги: <Row/> .
○
<Row/> - содержит информацию об одной строке таблицы наблюдений. Подтеги:
<Cells/>, <Result/>:
■
●
<Cells/> - содержит информацию о значение входных ЛП. Подтеги <Cell/>:
<Cell/> - информация по значению входной переменной в данной строке таблицы
наблюдений. Атрибуты: VarName - имя переменной, для которой определенно значение; Value значение переменной
■
<Result/> - значение результирующей переменной. Атрибуты: VarName - имя
результирующей переменной; Value - значение результирующей переменной.
Графически структура файлов представлена на рис. 3.9.
81
Рис. 3.9 – Структура XML - файла
3.3.2 Блок "Восстановление данных"
Интерфейс блока "Восстановление" (рис. 3.10) включает в себя меню, с помощью
которого можно загрузить тестовые данные для задачи "восстановление данных" с
пропущенными значениями, либо перейти к задаче "Имитация восстановления". На форме
представлены все необходимые параметры для модели восстановления.
82
Рис. 3.10 – Экранная форма блока "Восстановление данных"
После загрузки данных, построения системы и выполнения расчетов на вкладках
"Загруженные данные", "Восстановленные данные" и "Общий результат" можно просматривать
входные данные, данные восстановленные системой и общий результат, состоящий из
исходных данных и восстановленных данных в одной таблице.
"Имитация восстановления" выполняет тот же алгоритм восстановления, но на полных
данных с помощью методики скользящего экзамена. Форма (рис. 3.11) включает в себя загрузку
входных данных, построение нечеткой системы и процесс имитации восстановления.
Рис. 3.11 – Экранная форма "Имитация восстановления"
83
На
форме
отображаются
загруженные
данные
и
результаты
восстановления,
включающие рассчитанные значения и точность их расчетов.
3.3.3 Блок "Анализ данных"
Интерфейс блока "Анализ данных" представлен на рис. 3.12. Для работы необходимо
загрузить данные для анализа, при необходимости в "Настройки" можно изменить диапазон
данных для обработки и транспонировать данные.
Рис. 3.12 – Экранная форма блока "Анализ данных"
После загрузки данных появляется возможность применения факторного анализа и
перехода к просмотру его результатов (рис. 3.13).
84
Рис. 3.13 – Экранная форма результатов факторного анализа
Результаты ФА включают в себя таблицу рассчитанных собственных значений, с
вкладом (%) объясняемой дисперсии и суммарным вкладом (%) объясняемой дисперсии по все
собственным
числам.
Также,
представлены
графические
отображения
"зависимости
собственных значений и факторов" и "признаковой структуры данных в пространстве
выбранных факторов".
На
вкладках
данной
формы
дополнительно
представлены
ковариационная
и
корреляционная матрицы, что позволяет проводить ковариационный или корреляционный
анализ полученных значений соответственно. На вкладке "Диаграмма связи признаков"
представлена структура исследуемых данных в виде дендрограммы, которая строится на основе
корреляционной матрицы методом кластеризации (рис. 3.14).
85
Рис. 3.14 – Экранная форма вкладки "Диаграмма связи признаков"
На вкладке "Нагрузки на факторы" представлены собственные вектора в табличном и
графическом отображении нагрузок на факторы (рис. 3.15).
На данной вкладке можно воспользоваться методом вращения "Варимакс", выбирая угол
вращения и нажимая кнопку "Повернуть".
Рис. 3.15 – Экранная форма вкладки "Нагрузки на факторы"
86
На вкладке "Классификация" отображаются результаты классификации (рис. 3.16) в
пространстве выбранных факторов. По умолчанию классификация производится на 2 класса,
выбирая другое количество классов, происходит перерасчет и перерисовка результатов
классификации. Помимо этого, на этой вкладке производится экспортирование результатов для
блока "Пространственный анализ" согласно отображаемым результатам классификации.
Рис. 3.16 – Экранная форма вкладки "Классификация"
Рис. 3. 17 – Отображение результатов анализа в ArcGis
87
ВЫВОДЫ ПО ГЛАВЕ 3
В результате выполненной работы получены следующие результаты:
 рассмотрены вопросы проектирования и реализации программного комплекса;
 разработана структура программного комплекса анализа многомерных неполных
данных о пространственно-распределенных природных объектах исследования;
 спроектирован и реализован программный комплекс анализа многомерных неполных
данных о природных объектах, позволяющий проводить исследования на основе сочетания
методов нечеткого моделирования и многомерного статистического анализа с целью
восстановления пропущенных значений, проведения анализа структуры данных, выявления
скрытых взаимосвязей между свойствами, а также исследования пространственных свойств
объектов, отображая результаты анализа средствами ГИС.
88
ГЛАВА
4.
ПРАКТИЧЕСКОЕ
ПРИМЕНЕНИЕ
РЕЗУЛЬТАТОВ
ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ
4.1 Исследование адекватности результатов моделирования
Для исследования влияния параметров нечеткой системы на точность восстановления
пропущенных значений была подготовлена выборка многомерных данных о свойствах нефти.
Выборка сформирована из общей БД Института химии нефти СО РАН, включающей описание
более 23 000 образцов нефти описанных 200 различными характеристиками и параметрами.
Исследование влияния параметров нечеткой системы на точность восстановления,
реализуемой с использованием модифицированного алгоритма идентификации нечеткой
системы с заданной структурой, проводилось на тестовой выборке, где 141 образец нефти
описан характеристиками:
1) содержание твердого парафина, масс.%;
2) температура застывания,  С;
3) содержание асфальтенов, масс. %;
4) плотность, г/см3;
5) содержание общей серы, масс. %.
В полном тестовом массиве были специально созданы пропуски. Это классический
(традиционный) подход позволяющий рассчитывать точность восстановления путем сравнения
полученных результатов с реальными значениями характеристик.
Как показал анализ, на процесс восстановления данных в первую очередь влияют
параметры нечеткой системы, то есть количество лингвистических термов (далее просто
термов), от которого зависит база правил для обучения системы. "Классический" вариант
нечеткой системы предполагает, что все переменные разбиваются на равное число термов.
После проведения ряда тестов, были получены следующие результаты, представленные в
табл. 4.1.
Таблица 4.1 - Исследование параметров нечеткой системы
Кол-во термов на
Ошибка вычисления
параметр
Ср.квадратичная (СКО)
Ср.абсолютная(САО)
3
0.080946
0.550576
4
0.072553
0.620107
5
0.062454
0.468006
6
0.057758
0.415331
7
0.059252
0.489001
89
Как видно из табл. 4.1 наилучшее начальное решение приходится на 6 термов. 7 термов
уже не приводит к улучшению. Такое поведение нечеткой системы объясняется тем, что для
каждого интервала данных существует "разумное" количество термов, на которое следует
производить разбиение функцией принадлежности.
Для наглядности приведем пример: пусть у нас есть интервал данных от 0 до 1, тогда
при равномерном разбиении на 5 и 7 термов получим результат как на рис. 4.1а и рис. 4.1б
соответственно. При 7 термах видно, что "частокол" из треугольной функции принадлежности
сильно частый, что в данном случае не оптимально и приведет к увеличению времени расчетов,
так как количество правил возрастает экспоненциально, как описывалось в п. 2.2.1.
Рис. 4.1 - Разбиение на термы
Дополнительно на процесс восстановления влияют параметры метода эволюционной
стратегии, так как именно этим методом происходит настройка нечеткой системы или ее
обучение.
У
эволюционной
стратегии
необходимо
выбрать
алгоритм
скрещивания
(одноточечный, многоточечный или унифицированный), вероятность мутации, алгоритм
селекции (турнирный отбор, случайный, рулеточный или элитарный), соотношение начального
количества хромосом

и генерируемых

и свойство следующего поколения ( (    ) или
(  ,  ) ). Результаты экспериментов представлены в табл. 4.2 - 4.6.
Примечание: для экспериментов использовались следующие параметры: 6 термов,
параметр "разрешено выходить за начальные границы", количество итераций для расчетов
равно 1000, если не указано другое.
Таблица 4.2 -Исследование параметров эволюционной стратегии
Алгоритм скрещивания
Усредненная ошибка вычисления
СКО
САО
Алгоритм селекции: случайный отбор, вероятность мутации 0.07. свойство следующего
поколения (    ) ,
Одноточечный

2.55265
= 20.
 = 40
4.95727
90
Многоточечный (4 точки)
2.46616
4.85605
Унифицированный
1.99767
4.37111
Алгоритм селекции: турнирный отбор, вероятность мутации 0.07. свойство следующего
поколения (    ) ,
Унифицированный

= 20,
 = 40
2.14579
4.20841
Алгоритм селекции: рулеточный отбор, вероятность мутации 0.07. свойство следующего
поколения (    ) ,
Унифицированный

= 20,
 = 40
2.1356
4.57524
Алгоритм селекции: элитарный отбор, вероятность мутации 0.07. свойство следующего
поколения (    ) ,
Унифицированный

= 20,
 = 40
1.68311
3.3928
Как видно из табл. 4.2 унифицированный алгоритм скрещивания дал лучший результат
при случайном отборе, поэтому для рассмотрения остальных алгоритмов отбора использовался
только унифицированный алгоритм.
Наиболее точный результат в совокупности предоставил элитарный отбор, рассмотрим
его более подробно. Таблица 4.3 показывает результаты влияния количества итераций на время
вычисления.
Таблица 4.3 - Результаты влияния количества итераций на время вычисления
Количество
Время вычисления
Усредненная ошибка вычисления
итераций
(чч:мм:сс)
СКО
САО
0
-
2.52901
5.29846
50
00:04:43
2.30549
4.67326
100
00:09:27
2.26192
4.59192
500
00:47:51
2.21651
4.43482
1000
01:34:38
2.10361
4.09103
1500
02:23:46
2.09505
4.04241
2000
03:11:59
2.06241
3.85821
Из табл. 4.3 видно, что увеличение количества итераций работы алгоритма уменьшает
ошибку, но увеличивает время работы системы. На время работы системы также влияет
количество термов, так, например, если при 6 термах время вычисления 500 итераций
составляет около 48 минут, то при 7 термах время уже – около 90 минут.
91
Вероятность мутации на время вычисления не очень влияет, однако влияет на точность
работы. В таблице 4.4 представлен выбор вероятности мутации, для данного примера
наилучший результат дает вероятность мутации 0.15.
Таблица 4.4 - Результаты влияния вероятности мутации
Вероятность мутации
Усредненная ошибка вычисления
СКО
САО
0.03
2.21353
4.5846
0.07
2.12239
4.3686
0.09
2.15042
4.3765
0.10
2.14764
4.3898
0.15
2.05346
4.6121
0.20
2.20968
4.4008
В таблице 4.5 представлено исследование влияния "соотношения начального количества
хромосом

к генерируемым
"
и влияние свойства следующего поколения ( (    ) или
(  ,  ) ).
Таблица 4.5 - Влияние количества хромосом и свойства следующего поколения
Кол-во хромосом, и
свойство следующего
Усредненная ошибка вычисления
СКО
САО
(10+20)
2.18887
4.61617
(10+30)
2.17641
4.42053
(20+40)
2.18851
4.76471
(20+50)
2.06061
4.35609
(10,20)
2.44669
5.06788
(10,30)
1.95399
3.99733
(20,40)
2.43172
5.18523
(20,50)
2.22017
4.54274
поколения
Согласно исследованию наименьшие ошибки расчетов получаются при комбинации
(20+50) - эволюционной стратегии и (10,30), что подтверждает плюсы и минусы алгоритмов
стратегий, описанные выше, и дает итоговые комбинации настроек. Но остается проверить, как
влияет свойство функции принадлежности о запрете или разрешении выходить за пределы
начальных границ параметров (табл. 4.6).
92
Таблица 4.6 - Влияние свойства функции принадлежности
Свойство функции
принадлежности
Усредненная ошибка вычисления
СКО
САО
Разрешено выходить за пределы начальных границ
(Время вычисления 1000 итераций в среднем 95 минут)
(20+50)
2.06061
4.35609
(10,30)
1.95399
3.99733
Запрещено выходить за пределы начальных границ
(Время вычисления 1000 итераций в среднем 155 минут)
(20+50)
2.81386
4.14932
(10,30)
3.27282
4.44925
Влияние свойства функции принадлежности значительно: возросли и ошибки расчетов,
и время вычисления из-за того, что комбинаций треугольников на ограниченном интервале
меньше, а проверок их построения больше. Проверки построения касаются следующего:
разбиение термов должно покрывать весь заданный интервал, термы не должны перекрываться
полностью и прочее. Как результат, следует использовать алгоритм с разрешением выхода за
начальные интервалы.
Итак, так как в алгоритме присутствует компонента случайности (как в построении
нечеткой системы, так и в ее настройке), имеем две итоговые комбинации, каждая из которых
может быть выигрышной (табл. 4.7).
Таблица 4.7 - Итоговые комбинации параметров
Количество термов
6
Количество итераций
1000
Алгоритм скрещивания
Унифицированный
Алгоритм селекции
Элитарный
Вероятность мутации
0.15
Свойство следующего поколения
(20+50) и (10,30)
Свойство функции принадлежности
Разрешено выходить за начальные пределы
Однако, так как исследуются природные данные, исследователь часто сталкивается с
тем, что у каждой входной переменной различный диапазон значений. Так, разность диапазона
значений плотности часто составляет 0.2 единицы, а температуры 122 единицы. Такой разброс
значений показывает, что применять нечеткую систему с одним параметром количества термов
для всех переменных не является корректным.
93
Поэтому была реализована нечеткая система с заданной структурой, которая позволяет
для каждой характеристики задать свое значения количества термов. Использование такой
нечеткой системы позволяет детальней рассматривать обрабатываемые данные и повысить
точность анализа. За счет снижения размерности базы правил снижается и время вычислений.
Для
рассматриваемого
примера
результаты
моделирования
системы
по
модифицированной схеме нечеткой системы представлены в табл. 4.8.
Таблица 4.8 – Результаты исследования количества термов на параметр в
модифицированной нечеткой системе
Ошибка вычислений
Кол-во термов на параметр /
кол-во правил
СКО
Время (мм:сс)
САО
1000 итераций, алгоритм ЭС (20+50), унифицированное скрещивание, элитарный отбор,
р=0.15
(3,5,4,3,4) / (720)
0.050777
0.414548
07:30
(4,6,5,3,5) / (1800)
0.044097
0.365197
15:00
(5,7,6,4,6) / (5040)
0.044166
0.338046
35:00
(6,6,6,6,6) / (7776)
0.043761
0.343073
52:00
1000 итераций, алгоритм ЭС (10,30), унифицированное скрещивание, элитарный отбор,
р=0.15
(3,5,4,3,4) / (720)
0.043938
0.363538
06:30
(4,6,5,3,5) / (1800)
0.043196
0.341876
14:00
(5,7,6,4,6) / (5040)
0.044166
0.338046
30:00
(6,6,6,6,6) / (7776)
0.043305
0.342118
45:00
Как видно из таблицы 4.8 нечеткая система с заданной структурой обладает лучшими
результатами. Хотя результаты и близки к результатам с изначально выбранным параметром "6
термов для всех переменных" по классической схеме, но преимущество модифицированной
системы заключается в меньшем числе правил и, соответственно, лучшей временной
эффективности.
4.2 Анализ точности алгоритмов восстановления пропущенных значений
Результаты диссертационного исследования были применены в рамках бюджетного
проекта ИХН СО РАН V.39.3.1. Исследование физико-химических свойств гетерогенных
нефтесодержащих систем и их структурной организации на микро- и наноуровне с целью
развития
научных
парафинистых
основ
нефтей
по
экологически
теме
безопасных
"Разработка
технологий
методических
извлечения
вопросов
вязких
восстановления
94
пропущенных значений в выборочном массиве из базы данных по свойствам вязких
парафинистых нефтей с использованием методов вероятностного моделирования и кластерного
анализа данных".
В рамках проекта был выполнен анализ точности алгоритмов восстановления
пропущенных значений, согласно которому сравнивались наиболее используемые алгоритмы
восстановления. Для проведения анализа точности алгоритмов была сформирована полная
выборка данных (без пропущенных значений) из общей базы данных ИХН СО РАН [2], из
которых 983 образцов относятся к вязким парафинистым нефтям. В тестовую (полную)
выборку вошел 141 образец нефти, описанный восемью характеристиками.
Анализ точности алгоритмов восстановления проводился двумя способами. Первый
способ был представлен в п. 2.2.1 и заключался в использовании алгоритма "имитации
восстановления" с помощью метода скользящего экзамена. После модификации нечеткой
системы эксперимент был дополнен новыми результатами (табл. 4.9).
Таблица 4.9. - Результаты сравнительного анализа точности методов
Наименование метода
СКО
Метод ближайших соседей
9.597
Метод безусловных средних
5.966
Метод главных компонент
2.835
ZET метод
1.457
НС+ЭС
0.678
НС с заданной структурой +ЭС
0.294
Как видно из табл. 4.9, модифицированный алгоритм увеличил точность восстановления
реализованной системы.
Суть второго способа заключалась в восстановлении пропущенных значений созданных
искусственно, то есть в полной таблице были специально убраны некоторые значения
(табл. 4.10). Такой подход позволяет рассчитывать точность восстановления
– есть
возможность сравнения полученного результата восстановления с реальными данными
(введенными пропусками).
Таблица 4.10 - Пропущенные значения в исследуемой выборке
№
Характеристики нефти
Количество
пропусков
1
содержание твердого парафина в нефти, масс. %
3
2
температура застывания нефти, С
3
3
содержание асфальтенов, масс. %
3
95
4
содержание силикагелеловых смол в нефти, масс. %
5
5
содержание асфальто-смолистых веществ, масс. %
2
6
плотность нефти, г/см3
2
7
содержание фракции н.к. 200 С, масс. %
2
8
содержание общей серы, масс. %
5
Анализ точности алгоритма нечеткой системы на основе эволюционной стратегии
сравнивался с двумя статистическими методами: методом главных компонент и Z-методом.
Результаты исследования представлены в табл. 4.11.
Таблица 4.11 – Результаты исследования точности алгоритмов
Метод
Ошибка вычисления
САО
СКО
Z-метод
21.90008
13.69443
Метод главных компонент
8.242295
2.592043
НС+ЭС
3.775572
1.462417
НС с заданной структурой +ЭС
3.163913
1.189791
Результаты второго эксперимента на определение точности также показали, что
алгоритм построения нечеткой системы с заданной структурой обладает лучшим результатом.
Таким образом, применение разработанного алгоритма позволяет расширять объем
выборки для проведения аналитической обработка информации о трудноизвлекаемых нефтях и
использовать для анализа расширенный набор характеристик.
4.3 Комплексный анализ многомерных данных о микробиологических и
физико-химических свойствах нефти
Разработанный в диссертации комплексный подход к анализу многомерных данных о
природных объектах был применен в рамках работ по проекту РФФИ 11-05-98023
"Исследование влияния химического состава и условий залегания нефтей на численность,
распространение и активность пластовой микрофлоры для повышения нефтеотдачи".
Нефть является одним из основных энергетических и химических сырьевых ресурсов.
Однако по некоторым прогнозам мировые запасы "легкой" нефти могут быть исчерпаны уже в
течение ближайших 50 лет. В связи с этим в настоящее время заметно возрос интерес к поиску
путей и средств повышения нефтедобычи и извлечения трудноизвлекаемой нефти, и особое
внимание уделяется физико-химическим и микробиологическим методам. Практическое
96
применение биотехнологии позволяет на 5 - 7 % увеличить вовлекаемые в разработку запасы, в
1.5 - 2 раза повысить продуктивность скважин, а текущую добычу нефти - на 15 - 25 %.
Объектами исследований являлись нефти России, Монголии, Китая, Вьетнама и
пластовые
воды
залежей.
Для
проведения
анализа
в
научно-исследовательском
информационном центре ИХН СО РАН был сформирован многомерный массив данных о
физико-химических свойствах нефти, в лаборатории коллоидной химии СО РАН сформирован
многомерный массив данных о микробиологических свойствах пластовых вод (табл. 4.12).
Анализ и подготовка данных
Первоначальный анализ многомерного массива [93] данных о свойствах нефти и
пластовой воды (включающий 18 образцов, табл. 4.12) показал, что из 234 значений пропущено
19 значений (8 %).
Таблица 4.12 - Перечень исследуемых свойств нефти и пластовой воды
Характеристики
Исследуемые свойства
1.1 Степень кислотности или щелочности воды pH
1.2 Окислительно-восстановительный потенциал Eh, мВ
1.3 Сухой остаток (минерализация), г/л
1. Микробиологические 1.4 Гетеротрофы, тысяч колон/мл
1.5Сульфовосстанавливающие бактерии (СВБ), тысяч клеток/мл
1.6 Денитрифицирующие бактерии (ДНБ), тысяч клеток/мл
1.7 Углеводородокисляющие бактерии (УОБ), тысяч клеток/мл
2.1 Плотность, г/см3
2.2 Вязкость при 20 С, мм2/с
2. Физико-химические
2.3 Содержание серы, мас. %
2.4 Содержание смол, мас. %
2.5 Содержание твердого парафина, мас. %
2.6 Содержание асфальтенов, мас. %
Комплексный анализ предполагает последовательное выполнение следующих шагов:
1. Моделирование системы.
2. Восстановление данных.
3. Проведение факторного анализа и классификации.
4. Передача результатов в ГИС и их картографирование.
Шаг 1. Моделирование системы
Согласно
предложенной
методике
для
достижения
наилучшего
моделирования необходимо придерживаться следующего алгоритма действий:
результата
97
1 этап - "тестовая выборка". Данный этап заключается в подготовке тестового массива
(без пропущенных значений) из исходного массива данных – формируется тестовая выборка
путем удаления объектов исследования, у которых присутствует хотя бы одно пропущенное
значение исследуемых свойств.
2 этап - "идентификация параметров". На тестовой выборке осуществляется подбор
оптимальных параметров для нечеткой системы и эволюционной стратегии. Оптимальными
параметрами считаются те, при которых вычисленные параметры адекватности системы (СКО,
САО) минимальны.
В таблицах 4.13 - 4.14 представлены результаты найденных оптимальных параметров:
для всех исследований был выбран алгоритм селекции - элитаризм, количество итераций - 100.
алгоритм эволюционной стратегии - (    ).
Таблица 4.13 - Определение оптимальных параметров для восстановления
микробиологических свойств пластовой воды
№ Кол-во
Нечеткая система
термов
Вероятность Кол-во точек
мутации
Нечеткая системы +
скрещивания
эволюционная
стратегия
1
5
2
4
Из
СКО
САО
СКО
САО
1.639417
2.841294
0.07
2
0.172152
0.265985
1.091512
1.581562
0.15
2
0.001728
0.001728
1.314787
1.595775
0.07
1
0.012963
0.012980
1.960365
2.776339
0.15
1
0.040040
0.047981
1.433235
1.497938
0.07
2
0.248370
0.344219
1.168981
1.509409
0.15
2
0.199201
0.214759
2.350941
2.599198
0.07
1
0.049932
0.064202
1.522571
1.610331
0.15
1
0.045919
0.072270
табл. 4.13
видно,
что
оптимальными
параметрами
для
восстановления
микробиологических характеристик стали следующие: разбиение на 5 термов, вероятность
мутации 0.15 и количество точек скрещивания – две.
Таблица 4.14 - Определение оптимальных параметров для восстановления физикохимических свойств нефти
№ Кол-во
термов
1
5
Нечеткая система
Вероятность Кол-во точек
НС + ЭС
мутации
скрещивания
0.063509 0.134732
0.07
2
0.010676 0.019013
0.111063 0.222951
0.15
2
0.077900 0.150831
СКО
САО
СКО
САО
98
0.07657
2
4
3
3
0.159842
0.07
1
0.001244 0.001839
0.128038 0.212568
0.15
1
0.048846 0.081185
0.176496 0.320374
0.07
2
0.076237 0.141649
0.176012 0.313267
0.15
2
0.03569
0.176301 0.282243
0.07
1
0.054371 0.101118
0.174429 0.308912
0.15
1
0.044623 0.053214
0.093136 0.177516
0.07
2
0.078819 0.126887
0.079287 0.135085
0.15
2
0.078642 0.126227
0.080613 0.130992
0.07
1
0.074626 0.129153
0.073727 0.116417
0.15
1
0.062256 0.099513
0.070199
Из табл. 4.14 видно, что оптимальными параметрами для восстановления физикохимических характеристик стали следующие: разбиение на 5 термов, вероятность мутации 0.07.
количество точек скрещивания – одна.
Шаг 2. Восстановление данных
1 этап - "Проверка подобранных параметров". На данном этапе в тестовом массиве
вводились искусственные пропуски, и проводился ряд экспериментов по восстановлению
пропущенных значений с подобранными параметрами на шаге 1 и оценивались критерии
адекватности выбранной модели восстановления (СКО, САО).
2 этап
-
"Восстановление параметров"
предполагает
проведение
процедуры
восстановления пропущенных значений в исходном массиве с подобранными параметрами.
Шаг 3. Факторный анализ и классификация
Средствами разработанного программного комплекса (блок "Анализ данных") был
проанализирован полный (восстановленный) массив данных. Рассмотрим полученные
результаты. Корреляционная матрица нормированных признаков представлена в табл. 4.15.1 –
4.15.2. Нумерация признаков соответствует списку в табл. 4.12.
Таблица 4.15.1 - Корреляционная матрица физико-химических свойств
Признаки
Коэффициенты корреляции
1.1
1.2
1.3
1.4
1.5
1.6
1.1
1
0.82
0.52
0.57
0.11
0.27
1.2
0.82
1
0.26
0.20
0.18
0.08
1.3
0.52
0.26
1
0.88
-0.31
0.01
1.4
0.57
0.20
0.88
1
-0.11
0.30
1.5
0.11
0.18
-0.31
-0.11
1
-0.03
1.6
0.27
0.08
0.01
0.30
-0.03
1
99
2.1
-0.25
-0.21
0.04
-0.27
-0.24
-0.32
2.2
-0.45
-0.71
-0.26
0.01
0.32
0.01
2.3
0.48
0.62
0.18
0.20
-0.25
0.11
2.4
0.21
0.39
0.11
-0.002
-0.16
-0.06
2.5
0.67
0.86
0.36
0.18
-0.16
0.13
2.6
0.47
0.67
0.39
0.13
-0.23
0.01
2.7
0.68
0.87
0.34
0.15
-0.12
0.08
Таблица 4.15.2 - Корреляционная матрица микробиологических свойств
Коэффициенты корреляции
Признаки
2.1
2.2
2.3
2.4
2.5
2.6
2.7
1.1
-0.25
-0.45
0.48
0.21
0.67
0.47
0.68
1.2
-0.21
-0.71
0.62
0.39
0.86
0.67
0.87
1.3
0.04
-0.26
0.18
0.11
0.36
0.39
0.34
1.4
-0.27
0.01
0.20
-0.002
0.18
0.13
0.15
1.5
-0.24
0.32
-0.25
-0.16
-0.16
-0.23
-0.12
1.6
-0.32
0.01
0.11
-0.06
0.13
0.01
0.08
2.1
1
-0.12
-0.45
0.003
0.03
0.18
0.04
2.2
-0.12
1
-0.57
-0.43
-0.90
-0.69
-0.86
2.3
-0.45
-0.57
1
0.55
0.59
0.30
0.55
2.4
0.003
-0.43
0.55
1
0.45
0.32
0.46
2.5
0.03
-0.90
0.59
0.45
1
0.82
0.98
2.6
0.18
-0.69
0.30
0.32
0.82
1
0.82
2.7
0.04
-0.86
0.55
0.46
0.98
0.82
1
Примечание: коэффициенты корреляции являются значимыми (0.05) при их
абсолютном значении не менее 0.46.
Анализ коэффициентов корреляции показывает, что признак плотности нефти связан
одновременно
с
вязкостью
нефти
(0.82),
содержанием
смол
(0.57),
серы
(0.52),
микробиологическими данными УОБ (0.68), СВБ (0.67), сухим остатком (0.48) и ДНБ (0.47), но
не связан и биполярен со следующими признаками: содержание парафина, асфальтенов, pH,
концентрацией гетеротрофов и Eh. При этом концентрации гетеротрофов связаны с УОБ (0.46).
Вязкость нефти также связана с микробиологическими признаками - СВБ (0.86), УОБ (0.87),
ДНБ (0.67) и сухим остатком (0.62), но с остальными признаками биполярна и не связана.
Содержание серы и смол связаны между собой (0.88), а с остальными признаками не связаны
или биполярны.
100
Анализ корреляционной матрицы признаков позволяет выявить структуру взаимосвязей
признаков, которая графически может быть представлена в виде иерархической дендрограммы
(рис. 4.2).
Рис. 4.2 - Диаграмма связи признаков
Многие корреляции не являются очевидными, так как они могут быть вторичными – не
прямыми, а следствием более сложных зависимостей.
Перейдем к рассмотрению собственных чисел и собственных векторов корреляционной
матрицы. Данные представлены в табл. 4.16.1 – 4.16.2.
Таблица 4.16.1 - Факторные нагрузки, собственные значения и вектора
Факторные нагрузки aij
Признаки
F1
F2
F3
F4
F5
F6
1.1
0.781
-0.422
0.097
0.254
0.039
0.035
1.2
0.895
-0.005
0.319
0.247
0.085
-0.042
1.3
0.503
-0.483
-0.660
0.054
0.232
0.011
1.4
0.360
-0.819
-0.404
0.004
0.137
0.079
1.5
-0.190
-0.176
0.625
0.638
0.231
0.205
1.6
0.142
-0.499
0.192
-0.161
-0.762
0.288
2.1
-0.098
0.596
-0.602
0.295
-0.089
0.287
2.2
-0.840
-0.374
0.037
0.072
0.110
0.160
2.3
0.692
-0.075
0.309
-0.542
0.177
-0.153
2.4
0.516
0.271
0.127
-0.440
0.327
0.573
101
2.5
0.959
0.177
0.025
0.092
-0.131
-0.016
2.6
0.790
0.258
-0.208
0.212
-0.155
-0.037
2.7
0.946
0.203
0.044
0.139
-0.084
-0.009
Собственные значения  j
5.7493
2.0743
1.658
1.2137
0.9218
0.595
Вес факторов, %
44.23
15.96
12.75
9.34
7.09
4.58
Таблица 4.16.2 - Факторные нагрузки, собственные значения и вектора
Факторные нагрузки aij
Признаки
F7
F8
F9
F10
F11
F12
F13
1.1
0.230
0.242
-0.137
-0.030
0.058
0.005
0.0002
1.2
0.052
0.080
0.035
-0.056
-0.115
-0.014
0.008
1.3
-0.050
-0.116
0.017
-0.027
0.013
-0.056
0.035
1.4
-0.005
-0.065
0.043
0.027
-0.030
0.050
-0.038
1.5
-0.034
-0.166
0.095
-0.018
0.038
-0.006
-0.003
1.6
0.013
-0.042
0.041
-0.025
-0.003
-0.021
0.006
2.1
0.268
0.054
0.143
-0.010
-0.0003
0.001
-0.006
2.2
-0.138
0.262
0.097
0.108
-0.015
0.004
0.021
2.3
0.122
0.048
0.233
-0.007
0.036
-0.010
-0.002
2.4
-0.092
0.001
-0.082
-0.013
-0.004
0.003
-0.0002
2.5
0.003
-0.095
0.016
0.074
0.009
0.086
0.034
2.6
-0.409
0.135
0.069
-0.068
0.030
0.005
-0.013
2.7
-0.015
-0.029
-0.030
0.172
0.001
-0.061
-0.018
0.13
0.0583
0.0217
0.0177
0.0049
1
0.45
0.17
0.14
0.04
Собственные значения  j
Вес факторов, %
0.3411 0.2141
2.62
1.65
Величины собственных чисел  j (факторные нагрузки aij ) и векторов факторной
нагрузки признаков (веса факторов, %) в табл. 4.15.1 – 4.15.2 показывают, что на численность,
распространение и активность пластовой микрофлоры оказывают влияние факторы F1 =
44.23 %, F2 =15.96 % и фактор F3 = 12.75 %.
Анализ признаковой структуры фактора F1 показывает, что нагрузка этого фактора
значимо определяется концентрациями СВБ (0.959), УОБ (0.946), вязкостью нефти (0.895), ДНБ
(0.790), плотностью нефти (0.781), количеством сухого остатка (0.692), гетеротрофов (0.516),
содержанием серы (0.503) и также имеет значимую отрицательную связь с Eh (-0.840).
Самое значимое влияние оказывают сульфатвосстанавливающие бактерии (СВБ),
концентрация которых влияет на процессы и качество нефтедобычи [94]. Так, адаптация СВБ в
102
нефтяном пласте вызывает интенсивные процессы образования сероводорода, который
усиливает коррозию нефтяного оборудования, ухудшает товарное качество добываемой нефти
и создает дополнительные технологические сложности при очистке и переработке добытой
нефти.
Значимость же углеводородокисляющих бактерий (УОБ) объясняется тем, что продукты
жизнедеятельности этих бактерий служат источниками питания для СВБ. В комплексном
развитии с другими группами аэробных и анаэробных микроорганизмов СВБ участвуют в
разложении простых и сложных субстратов. В сообществе с УОБ они принимают участие в
окислении углеводородов [94]. Это в свою очередь объясняет большую связь с параметром
сухого остатка (минерализации) [95-97]. Выделение сульфатов показывает, что исследуемые
месторождения обладают солоноватыми пластовыми водами.
Значимость денитрифицирующих бактерий (ДНБ) объясняется тем, что они в большей
степени способны к использованию жидких легкокипящих n-алканов и ароматических
углеводородов. Другой причиной их преимущественного распространения в нефтяных пластах
является принадлежность к факультативным анаэробам, то есть способности существовать в
анаэробных и микроаэрофильных условиях.
Отрицательную
связь
окислительно-восстановительного
потенциала
(Eh)
можно
объяснить тем, что окислительно-восстановительные процессы зависят от концентрации
окисленной и восстановленной формы элемента, температуры и особенно сильно от степени
кислотности (рН) раствора. У окислителей, молекулы которых содержат кислород,
окислительно-восстановительный потенциал возрастает с увеличением концентрации ионов
водорода, а F1 практически не обладает связью с концентрацией рН.
Анализ признаковой структуры фактора F2 наоборот показывает именно значимость
степени кислотности рН. Влияние содержания твердого парафина выявляется факторами F3 и
F4.
Определим минимальное число факторов, адекватно воспроизводящих наблюдаемые
корреляции. Наиболее часто число выделяемых факторов определяется количеством
собственных чисел больше единицы. В нашем случае это факторы с 1 по 9. Но, как видно из
табл. 4.16.1 – 4.16.2. факторы с 5 по 9 не обладают значимыми коэффициентами исследуемых
свойств и три-четыре фактора наиболее полно характеризуют признаковую структуру данных
месторождений (рис. 4.3), так как описывают более 82 % совокупной информации. В
двумерном факторном пространстве отображены результаты классификации. Методом kсредней кластеризации позволил разделить объекты исследования на 3 класса месторождений.
"Класс 1" включает в себя 3 месторождения: это Северное, Усинское и Урманское, которые
сильно выделяются по параметру концентрации гетеротрофов. В "Класс 2" вошло 11
103
месторождений: Вахское, Самотлорское, Советское (проба 2004 .г), Вахское (проба 2004 г.),
Зуунбаян,
Тамсагбулаг,
Русское,
Ульяновское,
Фуларти,
Шингинское
и
Арчинское,
отличающиеся максимальным содержанием смол и асфальтенов. А "Класс 3" содержит 4
месторождения: Советское, Крапивинское, Белый Тигр и Цаган-Элс, которые обладают
максимальными концентрациями УОБ, ДНБ, гетеротрофов, наибольшим содержанием
парафинов и наибольшей вязкостью, при этом данные характеристики в 2 - 55 раз выше, чем у
образцов "Класса 2".
Рис. 4.3 - Пространственная структура данных с разделением на классы
Для решения вопроса о существовании или отсутствии значимого различия между
свойствами образцов трех классов исследуемых месторождений были проанализированы
собственные числа и собственные вектора корреляционной матрицы каждого класса,
представленных в табл. 4.17.
Таблица 4.17 - Факторные нагрузки, собственные значения и веса признаков
Факторные нагрузки aij
Признаки
F1
F2
F3
F4
F5
1.1
-0.865
-0.085
-0.168
-0.045
0.105
1.2
-0.744
0.431
0.214
0.084
-0.206
1.3
-0.300
-0.536
-0.695
-0.175
-0.210
1.4
-0.616
-0.595
-0.452
-0.141
-0.018
1.5
-0.488
0.469
0.214
0.600
0.060
1.6
-0.279
-0.399
0.235
-0.022
0.740
2.1
0.639
0.105
-0.491
0.311
-0.010
2.2
-0.674
0.135
-0.314
0.222
0.357
2.3
-0.409
-0.230
0.531
-0.454
-0.364
104
2.4
-0.234
0.848
-0.241
-0.364
0.028
2.5
0.401
0.025
0.210
-0.483
0.480
2.6
0.257
0.168
-0.613
-0.016
0.079
2.7
-0.111
0.787
-0.300
-0.447
0.078
Собственные значения  j
3.409
2.662
2.052
1.338
1.154
Вес факторов, %
26.230
20.470
15.780
10.290
8.870
Примечание: коэффициенты являются значимыми (0.05) при их абсолютном значении
не менее 0.5.
Сопоставление результатов комплексного анализа позволило выделить взаимосвязи
свойств
микрофлоры
парафинистым
нефтям
и
физико-химических
сопутствуют
пластовые
характеристик
воды
с
нефти:
высоковязким,
наибольшей
концентрацией
гетеротрофов, ДНБ и УОБ. При этом для менее вязких, смолистых нефтей характерно почти
одинаковые окислительно-восстановительный потенциал, минерализация и концентрация ДНБ,
СВБ и УОБ.
Шаг 4. Передача результатов в ГИС и их картографирование
После классификации результатов факторного анализа данные были экспортированы в
специальный файл, который необходим для отображения результатов анализа в ГИС.
На рис. 4.4 представлены результаты классификации с рис. 4.3, которые были
картографированы в ГИС. Объекты были отображены на карте, что увеличивает наглядность
результатов нашего анализа.
Рис. 4.4 – Результаты классификации в ГИС
105
Распределение объектов на карте показало, что результаты анализа хорошо согласуются
с фактическим распределением нефти, так как к первому классу относятся нефти ТиманоПечорского нефтегазоносного бассейна (НГБ) и Волго-Уральского НГБ. Это тяжелые и вязкие
нефти с высоким содержанием смол и асфальтенов. Ко второму классу относятся нефти Китая и
Монголии – это вязкие и парафинистым нефти. К третьему же классу относятся тяжелые и
вязкие нефти Монголии и Вьетнами с меньшим содержанием смол и асфальтенов, по
сравнению с нефтями первого класса.
Таким образом, применение методов нечеткого моделирования в сочетании с факторным
анализом многомерных данных о физико-химических свойствах нефти и микробиологических
свойств пластовых вод позволило получить новые знания о закономерностях размещения
нефти,
а
так
же
взаимосвязи
между
физико-химическими
свойствами
нефти
и
микробиологическими свойствами пластовых вод, что имеет важное научное значение и
практическую ценность при совершенствовании технологий повышения нефтеотдачи нефтяных
запасов.
106
ЗАКЛЮЧЕНИЕ
Работа направлена на решение актуальной проблемы комплексного анализа сложных
объектов, для описания которых используются многомерные, разнородные данные, часто с
географической привязкой и пропущенными значениями. Целью диссертационной работы была
разработка методики проведения комплексного анализа многомерных данных, имеющих
неполное описание изучаемых объектов, многомерность и пространственными признаками и
комплекса программ, обеспечивающего проведение комплексного анализа. Для достижения
цели потребовалось решить следующие задачи:
 Разработать модель представления объекта исследования, основанную на нечеткой
системе с заданной структурой, которая позволяет более детально подбирать параметры
системы для природных объектов, снижает количество правил и повышает точность вывода
НС.
 Разработать алгоритм восстановления пропущенных значений, основанный на
предложенной модели.
 Разработать методику проведения комплексного анализа данных, основанную на
синтезе методов нечеткого моделирования и многомерного статистического анализа с целью
восстановления пропущенных значений, проведения анализа структуры данных, выявления
скрытых взаимосвязей между свойствами, а также исследования пространственных свойств
объектов, отображая результаты анализа средствами ГИС.
 Разработать структуру программного комплекса для анализа многомерных данных о
различных свойствах природных объектов, сочетающего методы нечеткого моделирования,
многомерного статистического анализа и методов пространственного анализа с применением
геоинформационных систем.
 Реализовать и внедрить программный комплекс для анализа свойств природных
объектов.
К основным результатам, полученным в результате выполнения диссертационной
работы, можно отнести следующие:
1. Разработана методика проведения комплексного анализа многомерных данных о
природных пространственно-распределенных объектах, обеспечивающая выявление новых
закономерностей между свойствами исследуемых.
2. Разработан модифицированный алгоритм идентификации НС с заданной структурой,
включающий генерацию структуры НС с заданными параметрами функции принадлежности и
оптимизацию параметров НС методом эволюционной стратегии и МНК. Алгоритм
107
обеспечивает детальный учет структуры данных объекта моделирования, снимая требования к
знанию закона распределения.
3. Разработан алгоритм восстановления пропущенных значений, основанный на
модифицированном алгоритме идентификации НС.
4. Спроектирован и реализован программный комплекс анализа многомерных неполных
данных о природных объектах, позволяющий выявлять существующие закономерности между
различными свойствами исследуемых объектов.
5. Разработанный программный комплекс внедрен в ИХН СО РАН и используется для
восстановления пропущенных значений и обработки многомерных данных о свойствах нефти,
повышая оперативность обработки данных и наглядность представления результатов анализа.
6. Программный комплекс был применен для восстановления пропущенных значений в
данных о трудноизвлекаемых нефтях в рамках бюджетного проекта ИХН СО РАН V.39.3.1.
Исследование физико-химических свойств гетерогенных нефтесодержащих систем и их
структурной организации на микро- и наноуровне с целью развития научных основ
экологически безопасных технологий извлечения вязких парафинистых нефтей по теме
«Разработка методических вопросов восстановления пропущенных значений в выборочном
массиве из базы данных по свойствам вязких парафинистых нефтей с использованием методов
вероятностного моделирования и кластерного анализа данных».
7. Программный комплекс использовался для анализа данных о микробиологических
свойствах пластовых вод и физико-химических свойствах нефти в рамках проекта РФФИ № 1105-98023 «Исследование влияния химического состава и условий залегания нефтей на
численность, распространение и
активность
пластовой
микрофлоры для
повышения
нефтеотдачи.
8. Разработанные алгоритмы и программный комплекс используются в Федеральном
государственном бюджетном учреждении науки Институте мониторинга климатических и
экологических систем Сибирского отделения Российской академии наук (ИМКЭС СО РАН) по
программе интеграционного проекта № 70 Сибирского отделения РАН «Анализ и прогноз
проявлений вынуждающего воздействия в ритмике метеорологических полей Северного
полушария Земли» для анализа разнородной междисциплинарной информации о состоянии и
изменениях климатообразующих параметров исследуемых территорий.
9. Разработанные алгоритмы и программный комплекс используются при выполнении
научно-исследовательских
работ
(задание
№
2014/225)
в
рамках
базовой
части
государственного задания Минобрнауки России для проведения комплексного анализа
многомерных характеристик, описывающих процесс принятия решений в производственноэкономических и социальных системах, для решения задач
определения границ объектов
108
территориального устройства на основе многомерных данных об инфраструктурной среде и
социально-экономических характеристиках в условиях нормативных ограничений.
10. Алгоритмы блока "Анализ данных" используются в учебном процессе для
проведения лабораторных работ на кафедре АОИ ТУСУР по предмету "Качество программных
систем".
Основные результаты диссертационной работы изложены в 19 опубликованных работах
[1, 13, 27, 98 – 113].
109
СПИСОК ЛИТЕРАТУРЫ
1.
Лучкова С.В. Применение программного комплекса "Нечеткая система на основе
эволюционной стратегии" для задачи импутирования / Т.О. Перемитина, С.В. Лучкова //
Информационные технологии, – 2013. – № 2. – С. 47-50.
2.
База данных "химия нефти и газа" [Электронный ресурс]. Режим доступа:
http://enrit.ipc.tsc.ru/base1.htm, свободный (дата посещения 15.08.2013).
3.
Литтл Р.Дж.А. Статистический анализ данных с пропусками / Р. Дж.А. Литтл,
Д.Б. Рубин. - Москва, "Финансы и статистика", 1991. – 336 с.
4.
Среднее
значение
[Электронный
ресурс].
Режим
доступа:
http://en.wikipedia.org/wiki/Mean, свободный (дата обращения 24.01.2012).
5.
Регрессия
[Электронный
ресурс].
Режим
свободный
http://en.wikipedia.org/wiki/Regression_toward_the_mean,
(дата
доступа:
обращения
24.01.2012).
6.
Корреляция
[Электронный
ресурс].
Режим
доступа:
http://en.wikipedia.org/wiki/Correlation_and_dependence, свободный (дата обращения 25.01.2012).
7.
Холюшкин
Ю.П.
К
методике
восстановления
данных
при
анализе
технологических индексов мустьерских комплексов Средней Азии / Ю.П. Холюшкин, Г.Ю.
Жилицкая
//
[Электронный
ресурс].
Режим
http://www.sati.archaeology.nsc.ru/Home/pub/Data/?html=hol9.htm&id=175
(дата
доступа:
обращения
20.02.2012).
8.
Эфрон Б. Нетрадиционные метода многомерного статистического анализа. –
Москва, "Финансы и статистика", 1988. – 263 с.
9.
Hastie T. Principal Curves / T. Hastie, Stuetzle W. – Journal of the American Statistical
Association, 1989. – P. 502-516.
10.
Friedman J.H. Multivariate adaptive regression splines. – The Annals of Statistics,
1990. – Vol. 19. – № 1. – Р. 1-141.
11.
Целых В.Р. Многомерные адаптивные регрессионные сплайны // Машинное
обучение и анализ данных. – 2012. – Т1. № 3. – С. 272-278.
12.
Рыскулов С.Н. Разработка и исследование новых версий zet заполнения пробелов
в эмпирических таблицах. [Электронный ресурс]. Режим доступа: http://www.zetbraid.narod.ru/,
свободный (дата обращения 15.12.2011).
13.
Лучкова С.О. Применение нечеткой системы на основе эволюционной стратегии
для восстановления пропусков в данных // Материалы докладов Всероссийской научно-
110
технической конференции студентов, аспирантов и молодых ученых "Научная сессия ТУСУР2011". –Томск: "В-Спектр", 2011. – Ч.2. – С. 184-186.
Россиев А.А, Итерационное моделирование неполных дынных с помощью
14.
многообразий
малой
размерности
[Электронный
ресурс].
Режим
доступа:
http://pca.narod.ru/DisRos.htm, свободный (дата обращения 09.10.2011).
15.
Trion R.G. Cluster analysis. – London: Ann Arbor Edwards Bros, 1939. – 139 p.
16.
Рязанов В. Кластеризация неполных данных [Электронный ресурс]. Режим
доступа:
http://www.foibg.com/ibs_isc/ibs-22/ibs-22-p02.pdf,
свободный
(дата
обращения
24.12.2011).
17.
Дюран B. Кластерный анализ / В. Дюран, П. Оделл. – М.: Статистика, 1977. – 128
18.
Райзен Д. В. Классификация и кластер. – М.: Мир, 1980.
19.
Снитюк В.Е. Эволюционный метод восстановления пропусков в данных //
с.
Сборник трудов VI-й Межд. конференции "Интеллектуальный анализ информации". – Киев,
2006. – С. 262-271.
20.
Заде Л. Понятие лингвистической переменной и его применение к принятию
приближенных решений. – М.: Мир, 1976. – 146 c.
21.
Hoche S. A Comparative Evaluation of Feature Set Evolution Strategies for
Multirelational Boosting / S. Hoche, S. Wrobel. – Proc. 13th Int. Conf. on ILP. – P. 180-196.
22.
Ходашинский И.А. Основанные на производных и метаэвристические методы
идентификации параметров нечетких моделей / И.А. Ходашинский, В.Ю. Гнездилова, П.А.
Дудин, А.В. Лавыгина // Труды VIII международной конференции "Идентификация систем и
задачи управления" SICPRO '08. – Москва, 2009 г. – С. 501-529.
23.
Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д.
Рутковская, М. Пилиньский, Л. Рутковский. – М.: Горячая линия. 2006. – 383 с.
24.
Sean Luke. Essentials of Metaheuristics. – Lulu, 2009. – 235 c.
25.
Bahrami H. Imperialist competitive algorithm adaptive colonies movement / H.
Bahrami, M. Abdechiri, M.R. Meybodi // I.J. Intelligent system and applications. – 2012. – № 2. –
P.49-57.
26.
Загоруйко Н. Г. Методы распознавания и их применение. – М.: "Сов.радио", 1972.
– 216 с.
27.
Лучкова С.О. Идентификация нечеткой системы методом эволюционной
стратегии // Материалы сб. трудов Всероссийского конкурса научно-исследовательских работ
111
студентов и аспирантов в области информатики и информационных технологий в рамках
Всероссийского фестиваля науки. – Белгород, 2011. – С. 92-101.
28.
Аренс Х. Многомерный дисперсионный анализ / Х. Аренс, Ю. Лейтер. – М.:
Финансы и статистика, 1985. – 230 с.
29.
Шеффе Г. Дисперсионный анализ. – М.: Физматгиз, 1963.
30.
Фёрстер Э. Методы корреляционного и регрессионного анализа / Э.Ферстер, Б.
Ренц. – М.: Финансы и статистика, 1983. – 302 с.
31.
Дрейпер Н. Прикладной регрессионный анализ /Н. Дрейпер, Г. Смит. – М.:
Статистика, 1973. – 392 с.
32.
Демиденко Е. З. Линейная и нелинейная регрессии. – М.: Финансы и статистика,
1981. – 302 с.
33.
Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980.
34.
Езекиэл М. Методы анализа корреляций и регрессий / М. Езекиэл, К.А. Фокс. –
М.: Статистика, 1966. – 559 с.
35.
Ковариационный
анализ
[Электронный
ресурс].
–
Режим
http://www.machinelearning.ru/wiki/index.php?title=Ковариационный_анализ,
доступа:
свободный
(дата
обращения 15.05.2013).
36.
Андрукович П.Ф. Применение метода главных компонент в практических
исследованиях. – М.: Изд-во МГУ, 1973 – вып. 36. – 124 с.
37.
Метод
главных
компонент
[Электронный
ресурс].
–
Режим
доступа:
http://psyfactor.org/lib/dyuk2.htm, свободный (дата обращения 15.05.2013).
38.
Ступнева А. В. Метод главных компонент в решении задач дендроклиматологии //
Временные и пространственные изменения климата и годичные кольца деревьев. – Институт
ботаники АН Лит. ССР, Каунас,1984. – С. 49 -53.
39.
Белонин М.Д. Факторный анализ в геологии / М.Д. Белонин, В.А. Голубева, Г.Т.
Скублов. – М.: Недра, 1982 . – 269 с.
40.
Уилкинсон Дж. Алгебраическая проблема собственных значений. – М.: Наука,
1970. – 564 с.
41.
Гусев А. Н. Измерение в психологии: общий психологический практикум / А.Н.
Гусев, Ч.А. Измайлов, М.Б. Михалевская. – 2-е изд. М.: Смысл, 1998. – 286 с.
42.
Дэвис Д. Статистика и анализ геологических данных. – М.: Мир, 1977. – 571 с.
43.
Андерсон Т. Введение в многомерный статистический анализ. – М.: Физматгиз,
1963. – 500 с.
112
Йёреског К.Г. Геологический факторный анализ / К.Г. Йереског, Д.И. Клован,
44.
Р.А. Реймент // Л.: Недра, 1980. – 220 с.
Айвазян С.А. Классификация многомерных наблюдений / С.А. Айвазян, И.З.
45.
Бежаева, О.В. Староверов. – М.: Статистика, 1975. – 238 с.
Методы
46.
классификации
[Электронный
ресурс].
–
Режим
доступа:
http://www.aiportal.ru/articles/autoclassification/methods-class.html, свободный (дата обращения
03.06.2013).
Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс
47.
лекций.
МГУ,
2007.
[Электронный
ресурс].
–
Режим
доступа:
http://www.ccas.ru/voron/download/Clustering.pdf, свободный (дата обращения 11.08.2010)
48.
K-means
clustering
[Электронный
ресурс].
–
Режим
доступа:
http://en.wikipedia.org/wiki/K-means_clustering, свободный (дата обращения 06.05.2012).
49.
Гусев В.А. Алгоритм построения иерархической дендограммы кластер-анализом в
геолого-геохимических приложениях / В.А. Гусев, И.К. Карпов, А.И. Киселев // Известия АН
СССР, серия геологическая, – 1974. – №8. – С. 61-67.
50.
Пасхина М.В. Пространственный анализ в ГИС-системах: сущность, направления,
возможности (Часть I) // Ярославский педагогический вестник, 2011. – № 1. – Том III
(Естественные науки). – С. 156-163.
51.
Кошкарев А.В. Теоретические и методические аспекты развития географических
информационных систем / А.В. Кошкарев, В.С. Тикунов, А.М. Трофимов // География и
природные ресурсы, 1991. – №1. – С. 11-16.
52.
Тикунов В.С. Географические информационные системы: сущность, структура,
перспективы. – В кн.: Картография и геоинформатика. Итоги науки и техники, сер.
Картография. – М.: ВИНИТИ АН СССР, 1991.– т. 14. – С. 6-79.
53.
ArcView GIS. – Envorinmental Systems Research Institute. Inc. N.Y., 1997. – 376 p.
54.
Коновалова Н. В. Введение в ГИС / Н.В. Коновалова, Е.Г. Карпалов. – Москва,
1997. – 160 с.
55.
Режим
Методы и средства интеллектуального анализа данных [Электронный ресурс]. –
доступа:
http://itteach.ru/predstavlenie-znaniy/metodi-i-sredstva-intellektual-nogo-analiza-
dannich, свободный (дата обращения 15.04.2011).
56.
Джонс М.Т. Программирование искусственного интеллекта в приложениях. –
ДМК Пресс, 2004. – 312с.
57.
Краткий обзор некоторых статистических пакетов [Электронный ресурс]. – Режим
доступа: http://www.quality-life.ru/metodologiya01.php, свободный (дата обращения 15.04.2011).
113
58.
Леоненков А.В. Нечеткое моделирование MATLAB и fuzzyTECH. – СПб.: БХВ-
Петербург, 2003. – 736 с.
59.
Самарский А.А. Математическое моделирование: Идеи. Методы. Примеры / А.А.
Самарский, А.П. Михайлов. – М.: ФИЗМАТЛИТ, 2002. – 320 с.
60.
Официальная страница Matlab (EN). [Электронный ресурс]. – Режим доступа:
http://www.mathworks.com/, свободный (дата обращения 26.02.2014).
61.
Программный продукт Matlab. [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/MATLAB, свободный (дата обращения 26.02.2014).
62.
Официальная страница Mathcad (EN). [Электронный ресурс]. – Режим доступа:
http://www.ptc.com/product/mathcad/, свободный (дата обращения 26.02.2014).
63.
Программный продукт Mathcad. [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/Mathcad, свободный (дата обращения 26.02.2014).
64.
Официальная страница Maple (EN). [Электронный ресурс]. – Режим доступа:
http://www.maplesoft.com/products/maple/, свободный (дата обращения 26.02.2014).
65.
Программный продукт Maple. [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/Maple_(software), свободный (дата обращения 26.02.2014).
66.
Официальная страница Mathematica. [Электронный ресурс]. – Режим доступа:
http://www.wolfram.com/mathematica/, свободный (дата обращения 26.02.2014).
67.
Программный продукт Mathematica. [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/Mathematica, свободный (дата обращения 26.02.2014).
68.
Официальная страница Origin (EN). [Электронный ресурс]. – Режим доступа:
http://www.originlab.com/, свободный (дата обращения 26.02.2014).
69.
Программный продукт Origin. [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/Origin_(software), свободный (дата обращения 26.02.2014).
70.
Математическое моделирование [Электронный ресурс]. – Режим доступа:
http://en.wikipedia.org/wiki/Mathematical_model, свободный (дата обращения 12.05.2013).
71.
Tron E. Mathematical modeling of observed natural behavior: a fuzzy logic approach /
E. Tron, M. Margaliot // Fuzzy Sets and Systems. – 2004. – P. 437-450.
72.
Штовба С.Д. Введение в теорию нечетких множеств и нечеткую логику: Нечеткая
кластеризация [Электронный ресурс]. – Режим доступа: http://matlab.exponenta.ru/, свободный
(дата обращения 10.04.2010).
73.
p. 43.
Kosko B. Fuzzy systems as universal approximators. – IEEE Trans. Comput. – 1994. –
114
74.
Espinosa J. Fuzzy logic, identification and predictive control / J. Espinosa, J.
Vandewalle, V. Wertz. – London: Springer-Verlag, 2005. – 263 p.
75.
Ходашинский
И.А.
Биоинспирированные
методы
параметрической
идентификации нечетких моделей / И.А. Ходашинский, П.А. Дудин, А.В. Лавыгина // Доклады
ТУСУР. – 2007. – С. 81-92.
76.
Ходашинский И.А. Технология идентификации нечетких моделей типа синглтон
и Мамдани // Труды VII международной конференции "Идентификация систем и задачи
управления" SICPRO '08. Москва, 28-31 января 2008 г. Институт проблем управления им. В.А.
Трапезникова РАН. М: Институт проблем управления им. В.А. Трапезникова РАН. – 2008. – С.
137-163.
77.
Дудин П.А. Применение алгоритма муравьиной колонии для идентификации
нечетких моделей // Материалы XLV Международной научной конференции "Студент и
научно-технический прогресс": Информационные технологии. НГУ. – Новосибирск, 2007. – С.
188-189.
78.
Лоули Д. Факторный анализ как статистический метод / Д. Лоули, А. Максвелл. –
М.: Мир, 1967. – 144 с.
79.
Ким Дж. Факторный, дискриминантный и кластерный анализ / Дж. Ким, Ч.У.
Мюллер. – М.: Финансы и статистика, 1989. – 215 с
80.
Харман Г. Современный факторный анализ. – М.: Статистика, 1972. – 483 с.
81.
Жуковская В.М. Факторный анализ в социально-экономических исследованиях /
В.М. Жуковская, И.Б. Мучник. – М.: Статистика, 1976. – 152 с.
82.
Иберла К. Факторный анализ. Пер. с нем. – М.: Статистика, 1980. – 398 с.
83.
Наследов А.Д. Математические метода психологического исследования. Анализ и
интерпретация данных. Учебное пособие. – СПб.: Речь, 2004. – 392 с.
84.
Разложение
Холецкого
[Электронный
ресурс].
–
Режим
доступа:
http://en.wikipedia.org/wiki/Cholesky_decomposition, свободный (дата обращения14.09.2012).
85.
Trefethen Lloyd N. Numerical linear algebra / Lloyd N. Trefethen, David Bau. –
Philadelphia, USA: Society for Industrial and Applied Mathematics, 1997. – 263 р.
86.
LU
-
decomposton
[Электронный
ресурс].
–
Режим
доступа:
http://en.wikipedia.org/wiki/LU_decomposition, свободный (дата обращения 14.09.2012).
87.
K-means [Электронный ресурс]. – Режим доступа: http://mechanoid.kiev.ua/ml-k-
means.html, свободный (дата обращения 06.05.2012).
88.
Vance F. Clustering and the continuous k-Means Algorithm. // Los Alamos Science. –
1994. – № 22. – P. 138-144.
115
Шилдт Герберт. С#: полное руководство. Пер. с англ. – М.: ООО "И.Д.Вильямс",
89.
2011. – 1056 с.
Официальная страница Vision Studio 2012 (EN) [Электронный ресурс]. – Режим
90.
доступа:
http://www.microsoft.com/visualstudio/rus/downloads,
свободный
(дата
обращения
05.08.2012).
91.
Официальная страница ReSharper (EN) [Электронный ресурс]. – Режим доступа:
http://www.jetbrains.com/resharper/download/, свободный (дата обращения 14.08.2012).
92.
Дудин П.А. Унифицированное представление параметров нечеткой системы /
П.А. Дудин, И.В. Горбунов, А.В. Боровков // Материалы докладов Всероссийской научнотехнической конференции студентов, аспирантов и молодых ученых "Научная сессия ТУСУР2011". – Томск: "В-Спектр", 2011. – Ч.2. – С. 168-170.
93.
Перемитина Т.О. Исследование влияния химического состава и условий залегания
нефтей на численность и активность пластовой микрофлоры в задачах повышения нефтеотдачи
на основе статистического анализа / И.Г. Ященко, Л.И. Сваровская, Т.О. Перемитина //
Экспозиция Нефть Газ . – 2013. – № 2. – С. 35-38.
94.
Ткачев Ю. А. Статистическая обработка геохимических данных / Ю.А. Ткачев,
Л.Э. Юдович. – М.: Наука, 1986. – 123с.
95.
Сухотин А.М. Коррозия под действием теплоносителей, хладагентов и рабочих
тел. – Ленинград, "Химия", 1988. – 360 с.
96.
Зайнуллин Р.С. Ресурс трубопроводных систем. – Уфа: Изд-во "БЭСТС", 2005. –
97.
Лукнер Р. Моделирование миграции подземных вод / Р. Лукнер, В.М. Шестаков. –
836 с.
М.: Недра, 1986. – 208 с.
98.
Лучкова С.О. Система автоматизированного прогнозирования состава и свойств
нефти новых месторождений / С.О. Лучкова, Т.О. Перемитина, Д.А. Семыкина // Сб. трудов VII
всероссийской научно-практической конференции студентов, аспирантов и молодых ученых
"Молодежь и современные информационные технологии". – Томск: Изд-во ТПУ, 2009. – С. 273274.
99.
Лучкова С.О. Вопросы анализа данных о нефтях и органическом веществе пород
на основе статистических методов / Т.О. Перемитина, Ю.М. Полищук, О.В. Серебренникова,
С.О. Лучкова, Д.А. Семыкина // Материалы VII Международной конференции "Химия нефти и
газа", – Томск: Изд-во ИОА СО РАН, 2009. – С. 166-168.
100. Лучкова C.О. Вопросы анализа данных о нефтях на основе статистических
методов / С.О. Лучкова, Т.О. Перемитина, Д.А. Семыкина // Материалы IV Всероссийской
116
конференции молодых ученых "Материаловедение, технологии и экология в 3-м тысячелетии".
– Томск: Изд-во ИОА СО РАН, 2009. – С. 620-624.
101. Лучкова С.О. Построение модели прогноза свойств нефти новых месторождений /
С.О. Лучкова, Д.А. Семыкина, Н.А. Доброжинская, А.А. Голубева, Г.Ю. Цуленкова //
Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и
молодых ученых "Научная сессия ТУСУР - 2010". – Томск: "В-Спектр", 2010. – Ч.4. – С. 234237.
102. Лучкова С.О. Идентификация нечеткой системы на основе классической
эволюционной стратегии // Сб. трудов IX всероссийской научно-практической конференции
студентов, аспирантов и молодых ученых "Молодежь и современные информационные
технологии". – Томск: Изд-во ТПУ, 2011. – Ч.1. – С. 272-274.
103. Лучкова С.О. Нечеткие системы в задачах импутирования // Сборник трудов
XVIII Международной научно-практической конференции студентов, аспирантов и молодых
ученых "Современные техника и технологии". – Томск: Изд-во ТПУ, 2012. – Т.2. – С. 347-349.
104. Лучкова С.О. Алгоритмы нечетких систем в задачах импутирования // Материалы
III Всероссийской молодежной научной конференции "Современные проблемы математики и
механики". – Томск: Изд-во Том. ун-та, 2012. – С. 329-334.
105. Лучкова С.В. Методические вопросы применения нечетких системы в задачах
анализа многомерных данных // Материалы Всероссийской научно-технической конференции
студентов, аспирантов и молодых ученых "Научная сессия ТУСУР-2012". – Томск: "В-Спектр",
2012. – Ч. 4. – С. 128-131.
106. Лучкова С.В. Методы статистического анализа и нечетких систем в
исследованиях влияния химического состава и условий залегания нефтей на численность и
активность пластовой микрофлоры в задачах повышения нефтеотдачи / С.В. Лучкова, И.Г.
Ященко, Л.И. Сваровская, Т.О. Перемитина // Материалы VIII Международной конференции
"Химия нефти и газа" – Томск: ТГУ, 2012. – С. 299-302.
107. Лучкова С.В. Применение нечеткого моделирования в задаче импутирования
данных / С.В. Лучкова, Т.О. Перемитина, И.Г. Ященко // Материалы 10 электронной
конференции "Информационно-вычислительные технологии в решении фундаментальных
проблем и прикладных научных задач", декабрь 2012 г. – http://www.ivtn.ru/2012/pdf/d12_12.pdf.
108. Лучкова С.В. Комплексный анализ многомерных данных на основе нечеткого и
статистического моделирования в задачах повышения нефтеотдачи / С.В. Лучкова, Т.О.
Перемитина, И.Г. Ященко // Добыча, подготовка, транспорт нефти и газа: Материалы VI
117
Всероссийской научно-практической конференции [Электронный ресурс]. – Электронные
данные. – Томск: Изд-во ИОА СО РАН, 2013. – 1 CD-ROM
109. Лучкова С.В. Применение программного комплекса анализа многомерных данных
на основе нечеткого и статистического моделирования / С.В. Лучкова, Т.О. Перемитина, И.Г.
Ященко // Информационные технологии. – 2014. – № 1. – С. 24-30.
110. Лучкова С.В. Повышение наглядности отображения результатов факторного
анализа / С.В. Лучкова, Т.О. Перемитина // Доклады ТУСУРа – 2013.– № 4. – С. 159-163.
111. Лучкова С.В. Программный комплекс восстановления пропущенных значений в
многомерных данных на основе методов нечеткого моделирования / С.В. Лучкова, Т.О.
Перемитина, И.Г. Ященко // Программные продукты и системы. – 2014. – № 1. – С. 80-86.
112. Лучкова С.В. Комплексная оценка экологических рисков аварийных разливов
нефти / С.В. Лучкова, Т.О. Перемитина, И.Г. Ященко // Защита окружающей среды в
нефтегазовом комплексе. – 2014. – № 4. – С. 5-9.
113. Лучкова С.В. Программа "Эволюционная стратегия", зарегистрирована в
государственном Реестре программ ЭВМ. Свидетельство о регистрации № 2013619931 от
21.10.2013 г.
118
Приложение 1
119
Приложение 2
120
Приложение 3
121
Приложение 4
122
Приложение 5
Download