МЕТОДЫ ВИЗУАЛИЗАЦИИ МОДЕЛЕЙ DATA MINING ПРИ

advertisement
76
МЕТОДЫ ВИЗУАЛИЗАЦИИ МОДЕЛЕЙ DATA MINING ПРИ
ОБРАБОТКЕ ТЕЛЕМЕТРИЧЕСКОЙ ИНФОРМАЦИИ
А.О. Дерипаска1, В.В. Геппенер1
1Научно-инженерный
центр Санкт-Петербургского государственного
электротехнического университета, 197376, Россия, Санкт-Петербург, ул. проф. Попова
5, (812) 346-08-67, deripas@yandex.ru
В работе рассматриваются особенности работы с телеметрическими измерениями.
Возможность применения Data Mining для обработки и анализа исходных данных,
а так же способы визуализации моделей Data Mining.
Введение
В буквальном смысле «телеметрия» [1]
означает измерение на расстоянии.
Содержание современной телеметрии
составляет широкий круг проблем,
связанных
с
получением,
преобразованием, передачей и обработкой
измерительной информации, используемой
при управлении удаленными объектами,
определение их состояния при изучении
физических процессов в местах, где
непосредственное
присутствие
наблюдателя
затруднительно
или
невозможно.
В
соответствии
с
ГОСТом
[2],
«телеметрия-это область науки и техники,
занимающаяся вопросами разработки
комплекса автоматизированных средств,
обеспечивающих
получение,
преобразование, передачу по каналу связи,
приём,
обработку
и
регистрацию
измерительной информации и информации
о событиях с целью контроля на
расстоянии
состояния
и
функционирования
технических
и
биологических систем различных объектов
и изучения явлений природы».
Средства телеметрии являются мощным
инструментом познания мира. Контроль
самых разнообразных явлений, процессов
и объектов, определение условий их
функционирования, стали возможны на
основе использования средств телеметрии.
В настоящее время телеметрическая
аппаратура широко используется в
метеорологии и геофизике, в газовой,
атомной и химической промышленности, в
медицине и других отраслях народного
хозяйства.
Ведущую роль играет телеметрия в
процессе испытания военной техники и
вооружения, а также при управлении
автоматизированными
техническими
системами в процессе решения целевых
задач. Сложность технических объектов
приводит к необходимости контроля
большого
числа
параметров,
характеризующих состояние и режимы
работы отдельных агрегатов и объектов в
целом. Вместе с этим в процессе
совершенствования техники к средствам
телеизмерений предъявляется все более
возрастающие требования в отношении
точности,
надежности
данных
и
оперативности их получения. Именно эти
вопросы находятся в центре проблем
современной телеметрии.
Сложность работы с телеметрическими
данными состоит в том, что обработка
происходит на расстоянии, передаётся
большой объем данных, требующих,
анализа в режиме реального времени. Для
регистрации, обработки и контроля
телеметрической информации необходимо
специальное программное обеспечение.
Основными
требованиями
к
программному обеспечению является
высокая эксплуатационная надежность,
оперативная обработка и контроль в
режиме реального времени. С развитием
компьютерной
техники,
появилась
возможность
применять
все
более
сложные методы обработки данных, такие
как Data Mining. В последнее время данное
направление
стало
стремительно
развиваться.
77
Data Mining
Визуализация моделей Data Mining
Термин Data Mining часто переводится как
добыча данных, извлечение информации,
раскопка
данных,
интеллектуальный
анализ
данных,
средства
поиска
закономерностей, извлечение знаний,
анализ шаблонов, "извлечение зерен
знаний из гор данных", раскопка знаний в
базах данных, информационная проходка
данных, "промывание" данных. Понятие
"обнаружение знаний в базах данных"
(Knowledge Discovery in Databases, KDD)
можно считать синонимом Data Mining [3].
Классическое определение этого термина
дал в 1996 г. один из основателей этого
направления
Пятецкий-Шапиро:
Data
Mining – исследование и обнаружение
«машиной» (алгоритмами, средствами
искусственного интеллекта) в сырых
данных скрытых знаний, которые ранее не
были
известны,
нетривиальны,
практически полезны, доступны для
интерпретации человеком [4].
Из большого объема исходных данных с
помощью Data Mining необходимо
выявить знания, обладающие следующими
свойствами:

знания должны быть новые, ранее
неизвестные;

знания должны быть нетривиальны;

знания должны быть практически
полезны;

знания должны быть доступны для
понимания человеку.
В Data Mining для предоставления
полученных знаний служат модели. Виды
моделей зависят от методов их создания.
При
обработке
телеметрической
информации с использованием методов
интеллектуального
анализа
проблема
визуализации результатов встает особенно
остро, в связи с большим объемом
исходных
данных
и
сложностью
получаемых в процессе обработки моделей
Data Mining. С помощью компьютерной
графики необходимо предоставить данные
сложной структуры в наглядном и
понятном виде, что позволит оператору
принимать решения в режиме реального
времени.
Основные модели, позволяющие провести
комплексный анализ данных: анализ и
предварительная обработка исходных
данных, модель кластеризации, модель
построения
классификаторов,
модель
построения ассоциативных правил. Для
каждой из моделей были выбраны и
реализованы
адекватные
методы
визуализации результатов.
Предварительный анализ данных. Данный
этап
очень
важен.
В
случае
необходимости,
можно
провести
предварительное преобразование данных,
применяя различные фильтры. Например,
провести дискретизацию данных. Это
необходимо для некоторых алгоритмов,
таких как построение ассоциативных
правил, которые не могут работать с
количественными данными. Точность
дальнейших результатов зависит от
грамотного анализа исходных данных и
выбора адекватной модели обработки.
В зависимости от типа исходных данных
(допускается обработка количественных и
качественных
признаков)
строятся
соответственно линейные графики или
гистограммы.
Для
количественных
признаков
возможно
отображение
скользящей медианы и скользящего
среднего с заданным окном. Так же
предусмотрена возможность отображения
зависимости
между
различными
атрибутами.
Подобные
зависимости
отображаются с использованием линейных
и
точечных
графиков.
Особенное
внимание
уделено
отображению
изменений параметров во времени. С
использованием
линейных
графиков
представляются
полиноминальные
и
экспоненциальные
модели
исходных
признаков.
С помощью компьютерной графики
процесс
дискретизации
становится
простым и быстрым, позволяющий
просматривать
предварительные
результаты в любой момент времени.
Подобные методы позволяют наглядно
предоставлять сами исходные данные,
зависимости между различными данными.
78
Методы классификации. Часто при
анализе требуется определить, к какому из
известных классов относятся исследуемые
объекты, т.е. классифицировать их. В Data
Mining
задачу
классификации
рассматривают как задачу определения
значения
одного
из
параметров
анализируемого объекта на основании
значений других параметров.
Результаты методов классификации также
представляются в структурном виде и в
виде графов. Создание классификаторов
проводится
на
основе
алгоритмов
построения
деревьев
решений
(в
дальнейшем просто «деревьев»).
Структурное представление позволяет
анализировать
дерево
с
различной
степенью детализации. Представление
дерева в виде графа раскрывает перед
пользователем
возможности
легкого
поиска, удобства просмотра данных и
перехода детального анализа к операциям
по конкретным узлам дерева. При
отображении дерева в виде графа узлы
дерева представляются в виде эллипсов, а
листья – в виде прямоугольников. Этот
способ визуализации является наиболее
наглядным среди всех, что объясняет его
использование в данной программе.
В программе предусмотрены опции
выравнивания дерева по центру окна и
подгона дерева по ширине окна.
Методы
построения
ассоциативных
правил. Поиск ассоциативных правил
является одним из самых популярных
приложений
Data
Mining.
Суть
заключается
в
определении
часто
встречающихся наборов объектов в
большом множестве таких наборов.
Данная задача является частным случаем
задачи классификации.
Применение
методов
построения
ассоциативных правил возможно только к
качественным
признакам.
Методы
построения ассоциативных правил удобно
отображать в трехмерном пространстве.
По оси OX и по оси OY откладываются,
соответственно, значения переменных,
расположенных в левой и правой частях
правила, а по оси OZ откладывается
достоверность
правила.
Поддержка
правила
отображается
с
помощью
цветовой гаммы.
Методы
кластеризации.
Задача
кластеризации состоит в разделении
исследуемого множества объектов на
группы «похожих» объектов, называемых
кластерами. Слово кластер [4] английского
происхождения (cluster), переводится как
сгусток, пучок, группа. Родственные
понятия, используемые в литературе,
класс, таксон, сгущение.
Кластеризация может применяться почти в
любой
отрасли,
где
необходимо
исследование экспериментальных или
статистических данных.
Реализовано четыре различных способа
визуализации результатов кластер анализа, что может значительно облегчить
работу эксперта при анализе выявленных
схожих групп объектов. Распределение
исходных данных по кластерам можно
проанализировать
с
использованием
точечных графиков. Суть метода: по осям
графика
откладываются
значения
выбранных атрибутов, принадлежность
объектов
к
различным
кластерам
отображается на графике различными
цветами.
Эффективными
способами
сокращения
пространства
исходных
признаков являются алгоритмы главных
компонент и многомерного шкалирования.
Они позволяют представить распределение
исходных данных по кластерам в
пространстве двух главных компонент, это
способствует
визуально
оценить
группировку исследуемых данных и
найденные кластеры. Для отображения
вероятностного
распределения
полученных результатов по кластерам
применяются гистограммы.
Разработанная в рамках пакета программ
анализа
измерительной
информации,
подсистема
визуализации
позволила
значительно облегчить интерпретацию
информации, получаемой в процессе
анализа данных.
Таким образом, мы еще раз убедились в
удобстве и необходимости визуализации
процессов при работе с данными.
79
Реализация способа визуализации
Представленные методы визуализации
были реализованы в пакете программ
обработки телеметрической информации.
Прежде чем приступать к визуализации,
был
проведен
поиск
графических
библиотек. Рассматривались следующие
библиотеки: JSCi, JFC, JFreeChart.
В библиотеке JSCi практически сразу
выявились серьезные недостатки, не
позволяющие
использовать
её
для
визуализации больших объемов данных.
Например, цветовая палитра ограничена 8
цветами.
Следующая
графическая
библиотека
является стандартной в Java, JFC (Java
Foundation
Classes)
–
проста
в
использовании, универсальна, но качество
изображения
уступает
библиотеке
JFreeChart.
После
рассмотрения
графических
библиотек, предоставляющих 2D графику,
была выбрана библиотека JFreeChart [5].
Преимущества
данной
библиотеки:
высокое качество картинки; имеется
возможность
масштабирования
изображения и сохранения графиков в
формате
*.png,
и
т.д.
Главное
преимущество – наличие большого выбора
различных типов графиков, это позволило
расширить набор методов визуализации
данных. Библиотека не имеет жесткой
привязки к системе, что позволяет
применять её в различных операционных
системах. Это делает программный
продукт мульти-платформенным. А это не
мало важный аспект в настоящее время.
С 3D библиотеками все гораздо серьезнее.
Огромный выбор различных библиотек.
После проведенного анализа выбор
остановил на OpenGL. Причина выбора
OpenGL, а не DirectX именно в мультиплатформенности
библиотеки.
Велся
поиск библиотек работающих с OpenGL. В
результате были выделены основные
библиотеки: LWIGL и JOGL.
LWIGL [6] – серьезная библиотека,
подходящая для создания игр. Для
построения 3D графиков лучше всего
подходит библиотека JOGL (Java OpenGL
[7]). Она гораздо проще в реализации,
более экономична в ресурсах и при этом
обеспечивает
всеми
необходимыми
средствами для разработки 3D. Библиотека
является
мульти-платформенной,
что
позволяет
разрабатывать
проекты
визуализации на многие современные
операционные системы.
Заключение
В заключение, можно сказать, что для
визуализации анализируемых данных
различных
проектов
обработки
и
прогнозировании
широкое
внедрение
компьютерной графики позволит довольно
быстро, наглядно и с наименьшими
затратами
представить
результаты
решения задач различными методами и
алгоритмами. Графика становится не
только
способом
визуализации
результатов,
но
и
полноценным
инструментом для работы с результатами.
Данное
направление
является
перспективным и развивающимся. Уже
сегодня
многие
методы
наглядней
демонстрировать
в
трехмерном
пространстве,
например
методы
построения ассоциативных правил.
Список литературы
1.
2.
3.
4.
5.
6.
7.
Назаров А.В., Козырев Г.И., Шитов И.В.,
Обрученков В.П., Древин А.В. Современная
телеметрия в теории и практике, 2007, 22-24с.
ГОСТ
19619-74
Оборудование
радиотелеметрическое.
Термины
и
определения.
Fayyad,
Piatetsky-Shapiro,
Smyth,
and
Uthurusamy Advances in Knowledge Discovery
and Data Mining, , (Chapter 1) AAAI/MIT Press
1996.
Барсегян А.А., Куприянов М.С., Степаненко
В.В., Холод И.И. Методы и модели анализа
данных: OLAP и Data Mining , 2004, 67с.
http://www.jfree.org/jfreechart/
http://www.lwjgl.org/
https://jogl.dev.java.net/
Download