автореферат Долгого А. И., , 1,2 Мб.

advertisement
На правах рукописи
ДОЛГИЙ АЛЕКСАНДР ИГОРЕВИЧ
ИНТЕЛЛЕКТУАЛЬНЫЕ МОДЕЛИ И КОМПЛЕКСЫ ПРОГРАММ
ОБРАБОТКИ ТЕМПОРАЛЬНОЙ ИНФОРМАЦИИ В БАЗАХ
ДАННЫХ ГЕОДИАГНОСТИЧЕСКИХ СИСТЕМ НА
ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ
Специальности: 05.13.06 –
05.13.17 –
Автоматизация и управление технологическими
процессами и производствами (на транспорте)
Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Ростов-на-Дону
2008
2
Работа выполнена в государственном образовательном учреждении высшего
профессионального образования «Ростовский государственный университет
путей сообщения» (РГУПС)
Научный руководитель:
доктор технических наук, профессор
Ковалев Сергей Михайлович
Официальные оппоненты:
доктор технических наук, профессор
Лябах Николай Николаевич
кандидат технических наук, профессор
Тарасов Валерий Борисович
Ведущая организация:
Таганрогский технологический институт
Южного федерального университета
(ТТИ ЮФУ), г. Таганрог
Защита диссертации состоится 24 сентября 2008 г. в 15.00 на заседании
диссертационного совета Д 218.010.03 при Ростовском государственном
университете путей сообщения по адресу: 344038, г. Ростов-на-Дону, пл.
Ростовского Стрелкового Полка Народного Ополчения, 2, конференц-зал.
С диссертацией можно ознакомиться в библиотеке Ростовского
государственного университета путей сообщения по адресу: 344038,
г.Ростов-на-Дону, пл. Ростовского Стрелкового Полка Народного Ополчения, 2.
Автореферат разослан «
» августа 2008 г.
Ученый секретарь
диссертационного совета Д 218.010.03
доктор технических наук, доцент
Бутакова М.А.
3
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность работы. В последние годы на железных дорогах
Российской Федерации наблюдается постоянный рост грузовых и
пассажирских перевозок, что влечет за собой усиление требований к
стабильности земляного полотна железнодорожного пути. В этом плане
определяющую роль играют оперативные диагностические мероприятия,
прямым образом влияющие на реализацию превентивных мер по
предотвращению деформаций рельсовой линии и достижению требуемой
работоспособности железнодорожного пути.
Диагностирование состояния земляного полотна железнодорожного
пути включает массу мероприятий, основанных на геофизических методах,
многие из которых базируются на традиционных технологиях сбора и
обработки данных, что заметно ограничивает их возможности. Повышение
требований к оперативности, производительности, достоверности и качеству
принимаемых решений обусловили перевод диагностических систем на
новую информационную основу. В частности, это касается развития методов
диагностирования состояния земляного полотна железнодорожного пути на
основе использования технологий георадиолокационного неразрушающего
зондирования.
На сегодняшний день такой подход удовлетворяет большинству
предложенных требований, но главным его достоинством является наличие
потенциальных возможностей интеллектуализации. Под интеллектуализацией
понимается извлечение полезных знаний из «сырых» георадиолокационных
данных и автоматический вывод заключений о состоянии зондируемой среды,
представленных в форме лингвистических экспертных оценок. Процесс
выявления знаний подразумевает анализ данных с целью получения знания,
представленного в виде новых, полезных, доступных для понимания и
пригодных для автоматической интерпретации образов в данных.
Многие проблемы, связанные с анализом данных, включают в себя
темпоральные аспекты. Наиболее распространенный вид темпоральных
данных – временные процессы и ряды, в которых повторяющиеся
наблюдения признаков порождают схожие по структуре последовательности
данных.
Особый
класс
временных
процессов
образуют
слабо
формализованные процессы, порожденные отраженными электромагнитными
сигналами, распространяемыми в нелинейных средах. Одной из ключевых
проблем, возникающих при разработке систем выявления знаний,
автоматической интерпретации и архивирования информации в системах
диагностики, базирующихся на таких принципах, является проблема
представления данных в информационных базах экспертно-диагностических
систем.
Развитие новых подходов к представлению информации в базах данных
временных рядов (БД ВР), ориентированных на использование в
геодиагностических системах, является необходимым условием на пути к
4
автоматизации процессов мониторинга и диагностики железнодорожных
объектов.
Большой вклад в развитие интеллектуальных технологий и
теоретических основ информатики внесли такие ученые как А.Н. Аверкин,
И.З. Батыршин, Л.С. Берштейн, Г.И. Белявский, В.Н. Вагин, А.Н. Гуда, А.П.
Еремеев, В.В. Емельянов, А.Н. Каркищенко, С.М. Ковалев, В.М. Курейчик,
Н.Н. Лябах, Г.С. Осипов, Э.В. Попов, Д.А. Поспелов, В.Б.Тарасов, В.К. Финн,
В.И. Финаев, И.Б. Фоминых, Н.Г. Ярушкина и др.
Большой вклад в развитие теории и практики георадиолокационной
диагностики на железнодорожном пути и автомобильных дорогах внесли
отечественные ученые Е.С. Ашпиз, В.И. Грицык, А.Г. Круглый, В.В Помозов,
Н.П. Семейкин, В.А. Явна и др.
Цель работы. Целью диссертационной работы является исследование и
разработка новых методов формализации, выявления и представления знаний
в базах данных временных рядов, с последующим их использованием при
выявлении и текстовом резюмировании аномалий в базах данных
геодиагностических систем.
Для достижения поставленной цели требуется решить следующие
задачи:
1. На основе комплексного анализа современных методов и средств
извлечения знаний в БД ВР определить концепцию совершенствования
средств автоматической обработки диагностической информации.
2. Разработать методологию представления нечетко-определенных
знаний в темпоральных базах данных, ориентированную на поддержку
процессов текстового резюмирования в подсистемах лингвистического
обеспечения АСУ ТП.
3. Сформировать
методологию
оценки
интерпретационной
пригодности и эффективности работы моделей представления и текстового
резюмирования нечетких темпоральных знаний в БД ВР.
4. Адаптировать статические алгоритмы выявления знаний к
процедурам поиска нечетких темпоральных знаний, представленных в форме
текстовых резюме.
5. Разработать методы извлечения и текстового резюмирования знаний
в БД геодиагностических систем с целью автоматизации процесса
интерпретации георадиолокационной информации.
Методы
исследования.
Для
решения
поставленных
задач
использовались следующие методы исследований: элементы темпоральной
логики, методы теории множеств и нечетких множеств, методы теории
графов, элементы теории эволюционного моделирования, методы цифровой
обработки временных сигналов.
Научная новизна. Научная новизна диссертационной работы
заключается в следующем:
1.
На основе общесистемных принципов организации человеческого
мышления и речевой коммуникации впервые разработана формализованная
методология оценки адекватности и интерпретационной пригодности
5
моделей представления нечетких темпоральных знаний в базах данных
интеллектуальных информационно-диагностических систем.
2.
На основе предложенной методологии оценки эффективности
представления знаний разработана иерархическая модель представления
нечетко-определенных
знаний
в
темпоральных
базах
данных,
удовлетворяющая
критериям
интерпретационной
пригодности
и
ориентированная на поддержку процессов текстового резюмирования в
подсистемах лингвистического обеспечения специализированных АСУ ТП.
3.
Разработаны алгоритмы и программы поиска нечетких
темпоральных знаний в базах данных временных рядов, основанные на
концепциях
эволюционного
моделирования
и
«априори-поиска»,
позволяющие выявлять элементы знаний в текстовой форме, пригодной для
непосредственного использования в подсистемах лингвистического
обеспечения автоматизированных информационно-диагностических систем.
4.
Разработан комплекс алгоритмов и программ для автоматического
поиска
темпоральных
знаний
в
темпоральных
базах
данных
геодиагностических систем и их лингвистической интерпретации в
организационно-технологической системе диагностирования состояния
земляного полотна железнодорожного пути.
Практическая ценность. Практическая ценность диссертационной
работы заключается в следующем:
1. Разработанная иерархическая модель представления нечетких
темпоральных знаний в БД ВР, ориентирована на использование в различных
поисковых
системах,
системах
архивации
данных,
подсистемах
лингвистического обеспечения и текстового резюмирования данных.
2. Разработана
методология
оценки
эффективности
моделей
представления нечетких темпоральных знаний в БД ВР, нашедшая
применение при разработке широкого класса систем интеллектуального
анализа темпоральной информации.
3. Формализованы темпоральные признаки, выступающие в качестве
базовых примитивов экспертного инструментария при создании программных
средств автоматической интерпретации георадиолокационной информации.
4. Реализован
программный
комплекс
автоматического
профилирования
и
интерпретации
георадиолокационных
данных
«GeoRailway+», позволяющий формировать подробное и наглядное
заключение о состоянии балластного слоя и в разы сокращающий время
обработки информации в БД геодиагностических систем (ГДС).
Достоверность и обоснованность. Достоверность и обоснованность
научных положений, выводов и результатов, сформулированных в
диссертации, подтверждается доказательством утверждений, результатами
вычислительных экспериментов на практических и модельных задачах,
публикациями и докладами на научно-практических конференциях, а также
актами внедрения результатов работы.
Реализация результатов работы. Предложенные алгоритмы выявления
нечетких темпоральных признаков и представления знаний в БД ГДС были
6
реализованы в программном комплексе автоматического профилирования и
интерпретации георадиолокационных данных «GeoRailway+», разработанного
согласно плану НИОКР Департамента пути и сооружений ОАО «РЖД» на
тему «Разработка технологии и программно-технического комплекса для
скоростной
диагностики
состояния
балластной
призмы
методом
георадиолокации», в 2007-2008 гг.
Апробация. Апробация основных теоретических и практических
результатов работы проводилась на научных семинарах кафедр «Автоматика
и телемеханика на железнодорожном транспорте» и «Физика» (с 2005 по 2008
гг., РГУПС), Шестом всероссийском симпозиуме по прикладной математике в
2005 г., международных научно-практических конференциях «Инженерная
геофизика 2006», «Инженерная и рудная геофизика 2007», «Инженерная и
рудная геофизика 2008» (Геленджик, 2006-2008 гг.).
Публикации. По теме диссертационной работы опубликовано
11 печатных работ, в том числе 7 работ опубликованы в изданиях, входящих в
перечень ведущих рецензируемых научных журналов и изданий ВАК.
Структура и объем работы. Диссертация состоит из введения, четырех
глав, общих выводов и списка литературы и приложения. Общий объем
работы составляет 192 страницы машинописного текста, 54 рисунка,
11 таблиц. Список литературы включает 103 наименования отечественных и
зарубежных авторов.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы,
сформулированы цели, дано общее описание выполненной работы.
В первой главе выполнен комплексный анализ объекта исследования –
баз данных временных рядов, включая хранилища геодиагностических
данных, методы и модели поддержки извлечения знаний из баз данных.
В процессе анализа произведена комплексная классификация
различных принципов построения современных БД, определены основные
проблемы, стоящие перед разработчиками современных программных
средств СУБД, а именно: постоянно растущие объемы БД и необходимость
совершенствования существующих технологий извлечения знаний и
адаптации их к решению частных задач. Рассмотрены основные задачи, фазы
и этапы процесса Knowledge Discovery in Databases (КDD), описана типовая
архитектура его программной реализации, а также приведены примеры
существующих систем KDD, базирующихся на различных вычислительных
инструментариях.
Руководствуясь интересами автора в области геодиагностики,
обоснована
необходимость
интеллектуализации
процесса
анализа
получаемых диагностических данных. Определена базовая концепция
формирования
экспертных
заключений
о
состоянии
объектов
диагностирования по средствам текстовых резюме. На основании этого
описана методика формирования баз знаний (БЗ) ГДС основываясь на
7
лингвистических описаниях отраженных электромагнитных сигналов на
примере гранулирования осей направления временных рядов и степени
выпуклости-вогнутости функций.
Во второй главе предложена новая иерархическая модель
представления нечетко-темпоральных знаний, опирающаяся на адекватное
обобщение существующих методов формализации темпоральных отношений.
Разработанная иерархическая модель представления нечетких
темпоральных образов включает три уровня, позволяющих представить в
модели все основные темпорально-логические концепты данных. Первый,
нижний уровень представлен темпоральными образами нечетких событий и
отражает темпорально-логический концепт нечеткой продолжительности.
Второй уровень представлен нечеткими темпоральными отношениями и
отражает два основных темпоральных концепта одновременности и
очередности, описывающих координацию нечетких событий во времени.
Третий, верхний уровень модели представлен нечетко-темпоральными
структурами, объединяющими образы событий и отношений в единый
нечетко-темпоральный образ.
Предложен подход к формализации нечетких темпоральных признаков
в виде семиотических кортежей-двоек, обеспечивающий возможность
унификации систем нечетких темпоральных признаков, а также их
алгоритмическую, синтаксическую и семантическую поддержку в процессе
выявления знаний. Для описания синтаксиса образов используется конечное
множество меток   {i } , а для описания семантики – множество нечетких
характеристических функций   {  :   [0,1]} , где ∑ – конечное
множество всех временных интервалов на дискретной временной шкале T.
Первый уровень модели представлен образом нечеткого темпорального
ПРИЗНАКА (НТП):
FT   ,    ,
где    – метка, обеспечивающая текстовое описание образа,     –
характеристическая функция выраженности признака на данном временном
интервале.
Второй уровень представлен образом ОТНОШЕНИЯ, в основу
определения которого положено обобщение темпоральных отношений Алена
на случай нечетких событий.
Нечетким темпоральным образом ОТНОШЕНИЯ называется двойка
  qi rt * q j ),   (rt *  RT ,   ) ,
где   qi rt * q j – название отношения, rt*  RT, RT – множество временных
отношений Алена,   – нечеткая характеристическая функция образа,
указывающая на наличие во ВР Y нечеткого темпорального отношения 
между событиями qi и qj, определяемая на основе выражения
 rt* (t )  sup{ q i ( I (qi )) &  q j ( I (q j )) / I (qi )  t , I (q j )  t , I (qi ) rt * I (q j } , (1)
I
8
где I(qi) – темпоральная интерпретация признака qi..
Истинность нечетко-темпорального отношения φ = qi rt* qj на интервале
∆t определяется как величина, равная максимальному значению истинности по
всем возможным интерпретациям данного отношения на интервале ∆t.
Для упрощения процедуры вычисления характеристической функции
нечетко-темпорального отношения предлагается подход, основанный на
сведении нечетких интервальных отношений, используемых в критерии (1), к
эквивалентной форме представления через отношения между граничными
точками интервалов.
Граничные точки нечетких интервалов определяются с помощью
нечетких характеристических функций-маркеров Fn(t) и Fk(t). Тогда нечеткая
характеристическая функция НТП определится через характеристические
функции его граничных точек как:
µq([ti, tj]) = µn(ti) & µk(tj).
(2)
Логическое условие, которому должны удовлетворять граничные точки
интервалов [t n , t k ], [t n , t k ] , находящихся в отношении rt* при их проецировании
на шкалу T, формализовано следующим образом:
4
& Fij (t j )  1 ( j  1,..., n) ,
*
i 1
где tj (j = 1,2,…,k) – образы граничных точек интервалов [t n , t k ], [t n , t k ] ,
спроецированные на временную шкалу T и упорядоченные в соответствии с
семантикой отношения rt*.
4
Выражение Frt*(t1,t2,…,tk) = & Fij (t j ) называется функтором отношения
i 1
rt*.
Используя понятие функтора, факт наличия отношения α rt* β на
интервале [ts, te] формально описывается как:
 rt *   ( t s  t1  t 2 ...  t k  t e ) , Frt* (t1 , t 2 ,..., t k )  1, (k  4) .
(3)
Опираясь на условие (2), характеристическую функцию темпорального
отношения α rt* β можно выразить через функтор:
 rt* (t s , t e ) 
max
Frt* (t1 , t 2 ,..., t k ) (k  4) .
(4)
tst1t 2t 3t 4te
Имеет место следующее:
Утверждение. Для любых НТП  ,   Q , характеристические функции
которых удовлетворяют условию (2), определения характеристических
функций (1) и (4) являются эквивалентными.
На основе приведенного утверждения предложен более простой по
сравнению
с
«переборной»
формулой
(1)
способ
вычисления
характеристических функций, опираясь на принцип ДП-программирования,
имеющий квадратичную оценку сложности.
В общем случае, образ нечеткого темпорального ОТНОШЕНИЯ на
интервале
τ
допускает
дизъюнктивную
форму
представления.
9
Дизъюнктивным нечетко-темпоральным образом ОТНОШЕНИЯ (НД-образ)
называется двойка
  qi { rt i1 , rt i 2 ,..., rt ik } q j ),   (rt i j  RT ,   ) ,
q i { rt i1 , rt i 2 ,..., rt ik } q j – название отношения;   – нечеткая
где
характеристическая функция НД-образа, характеризующая возможность
нахождения НТП qi, qj в нескольких отношениях.
Характеристическая функция НД-образа определена на основе
выражения:
 ( )  rti1 ( )  rti 2 ( )  ...  rti k ( ),    .
Третий уровень иерархической модели представлен нечетким
темпоральным образом СТРУКТУРА (НТС), характеризующим наличие
нескольких нечетко-темпоральных отношений на заданном временном
интервале.
Нечетко-темпоральным образом СТРУКТРА называется двойка:
W  w,   ,
где w – название структуры;  – нечеткая характеристическая функция,
указывающая на наличие нескольких образов ОТНОШЕНИЙ на заданном
временном интервале, определяемая на основе выражения:
  &  i ,
i
где   i – нечеткие характеристические функции образов ОТНОШЕНИЙ,
входящих в структуру.
Образ СТРУКТУРЫ позволяет отражать более специализированные
знания, включающие большее число различных нюансов о временном
взаимодействии НТП в структуре исследуемого ВР, нежели просто образ
ОТНОШЕНИЯ. Поэтому данный тип образа выбран в качестве универсального
средства представления нечетких темпоральных знаний о структуре ВР,
позволяющего отразить в нем все темпоральные аспекты знаний.
Рассматривается техника оперирования ε-срезами нечетко-темпоральных
структур на основе их представления в виде конъюнктивно-дизъюнктивных
форм (КД-формы), применяемых в темпоральной логике для описания
неопределенных отношений.
В заключении второй главы проведено исследование по оценке
эффективности предложенного класса иерархических моделей (HFTIмоделей), опираясь на критерии, затрагивающие аспекты выразительности и
интерпретационной пригодности моделей представления знаний. В качестве
объектов сравнения рассматривается TSKR-методология, UTG-методология,
НТВ-модели и специальный класс рекурсивных моделей (RFT-моделей).
Результаты проведенного анализа сведены в таблице 1. Строки таблицы
соответствуют отдельным концептам критериев выразительности и
интерпретационной пригодности, а столбцы – типам моделей. Крестики
10
проставлены в столбцах напротив тех концептов, которые отражены в
соответствующих моделях.
Таблица 1
Сравнительные оценки моделей представления темпоральных образов
TSKR UTG HTB RF HFTI
Выразительность
Интерпретационная
пригодность
Концепт
нечеткости
Концепт
продолжительности
Концепт
одновременности
Концепт
очередности
Концепт
количества
Концепт
качества
Концепт
манерности
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Анализ показал, что главными недостатками RF и UTG-моделей является
их плохая выразительность, однако эти модели в наилучшей мере
удовлетворяют концепту манерности. Основным недостатком НТВ-моделей
является их плохая интерпретационная пригодность, что выражено только в
удовлетворении одному из трех концептов интерпретационной пригодности.
Иерархическая структура TSKR и HFTI-моделей обеспечивает лучшие
показатели по сравнению с другими моделями, однако HFTI-модели являются
более предпочтительными по критерию выразительности, поскольку позволяют
в отличие от TSKR-моделей удовлетворить концепту нечеткости.
В третьей главе разработана общая схема выявления знаний в БД ВР
представленных в виде HFTI-образов, а также методика вычисления
характеристических функций. Для поиска частных модификаций нечетких
темпоральных структур предложены адаптированные алгоритмы выявления
знаний на основе методов «априори» и генетического поиска.
Общая поисковая схема (рис. 1) состоит из пяти этапов, охватывающих
все основные операции, связанные с предобработкой и постобработкой
темпоральных данных.
На примере георадиолокационных данных приведены основные
процедуры препроцессинга, такие как бинаризация, аспектирование и описание
радарограммы языком трендовых шейпов. На концептуальном уровне
рассмотрены возможные варианты методов нахождения трендовых и шейповых
НТП, используемые при поиске знаний в БД ГДС.
11
1
Препроцессинг
2
3
Нечетко-темпоральные Нечетко-темпоральные
признаки
отношения
4
5
Нечетко-темпоральные
структуры
Правила импликации
«Если…, то…»
«Если…, то…»
«Если…, то…»
Продолжительность Одновременность
Упорядоченность
Рис. 1. Общая схема поиска знаний
Далее рассматриваются процедуры вычисления характеристических
функций, являющиеся базовыми в решении всех поисковых задач.
Предложен метод вычисления характеристических функций нечеткотемпоральных структур последовательного вида, основанный на идеях ДПпрограммирования путем представления НТП в виде последовательности
граничных точек, доставляющих максимум функционалу  rt* (t1 , t 2 ,..., t k ) .
При практической реализации поисковых алгоритмов в БД ВР нечеткие
темпоральные образы представляются в виде КД-форм, являющихся ε-срезами
нечетких образов. В основе предлагаемого подхода к определению ε-срезов
нечетких темпоральных образов лежит идея анализа временных соотношений
между интервалами, полученными путем проецирования на временную ось εсрезов граничных точек темпоральных событий, входящих в описание образа.
Если при заданном пороге ε в нечетко-темпоральном образе ОТНОШЕНИЯ
требуется выявить весь ε-срез отношений, то для этого достаточно на основе
пересечений граничных ε-интервалов, входящих в данный образ событий,
сформировать все возможные соотношения между временными отсчетами,
пересекаемых граничных интервалов и включить в ε-срез соответствующие им
темпоральные отношения. Данная процедура реализуется средствами булевой
алгебры, для этого необходимо:
1) всем
возможным
пересечениям
граничных
интервалов
t  (   )  t  (   ) ( ,  {H , K }, ,  { ,  }) сопоставить дизъюнкции
ограничений, порождаемых этими пересечениями;
2) взять конъюнкцию всех сформированных в п.1) дизъюнктивных
ограничений, в результате чего получить конъюнктивно-дизъюнктивную
форму  (rt *) ;
3) путем раскрытия скобок в  (rt *) , получить все возможные
соотношения между граничными точками интервалов и сформировать из них
множество ограничений  (rt*) ;
4) выбрать в  (rt*) все допустимые по семантике темпоральных
отношений ограничения и из соответствующих темпоральных отношений
сформировать ε-срез нечетко-темпорального образа.
12
Далее рассмотрен метод извлечения темпоральных структур
последовательного
вида,
представленных
в
форме
выражений:
((...( A1 rt *1 A2 ) rt *2 A3 )...rt *k 1 Ak ) ,
где rt*RTP, RTР – подмножество
тепморальных отношений Алена, включающее семь прямых отношений.
Элементарные события A представлены в виде троек <A, ts, te >, где AQ, тип
НТП, ts, te – начальное и конечное время (номера трасс) интервала
радарограммы проявления НТП типа A. В основе работы настоящего алгоритма
лежит концепция «априои-поиска» в сочетании с процедурами хеширования.
Для работы с большими БД НТП предложен метод поиска НТС частного
вида: ( A1 rt *1 A2 rt *2 ... An ) rt *n ...rt *k 2 ( Ak 1 rt *k 1 Ak m ... Ak ) , где rt*RTT, RTT –
подмножество тепморальных отношений Алена, включающее три следующих
отношения: rtsn (СТЫК),
rts (СЛЕДОВАНИЕ), rte (СОВПАДЕНИЕ),
основанного на использовании концепций эволюционного моделирования.
Извлекаемые частные структуры НТС представляются в лингвистической
форме, удобной для непосредственного использования в системах текстового
резюмирования, например, (событие А во время события Б) перед событием В.
В четвертой главе для предложенных ранее моделей и методов выявления
знаний описаны результаты их практического использования в задачах
автоматического анализа состояния земляного полотна железнодорожного пути
на основе георадиолокационных данных (ГД).
Теоретической основой методологии интерпретации ГД является
интеллектуальная модель выявления нечетких темпоральных признаков в БД
ГДС с последующим текстовым резюмированием. В качестве базовых НТП
(рис. 2) в предложенной модели используются:
− НТП ТРЕНД (НТПТ), характеризующий «поведение» линий
синфазности (ЛС), посредством лингвистических значений: «спад», «подъем»,
«ровно» и «хаос», присваиваемых согласно системе нечетких правил,
описывающих связь между количеством ЛС и значениями их тренда, с одной
стороны, и типом самого тренда, с другой, например: «Если количество тупых
углов мало, количество острых углов велико и количество прямых углов
немало, значит НТПТ – спад».
− НТП КРУТИЗНЫ (НТПКр) описывает среднюю степень отклонения
ЛС от горизонтального положения. Данный признак несет детализирующую
информацию, повышающую полноту описания НТПТ за счет использования
дополнительных термов «Резкий», «Плавный».
− НТП СТРУКТУРЫ (НТПС) характеризует целостность фрагмента
радарограммы через характер ЛС, имеет два значения – «целостный»,
«нецелостный» – отражающих среднюю степень целостности слоев в теле
земляного полотна.
− НТП КОЛИЧЕСТВО (НТПК) детализирует информацию о количестве
обнаруженных ЛС и, по мнению экспертов, служит одним из индикаторов
наличия в земляном полотне переувлажненного грунта. В нем используются
нечеткие термы «Большое», «Среднее», «Малое».
13
НТПТ
СПАД
РОВНО
ПОДЪЕМ
ХАОС
НТПКр
НТПК
НТПС
НТПК
НТПКр
НТПК
РЕЗКИЙ
МАЛОСЛОЙНАЯ
ЦЕЛОСТНАЯ
МАЛОСЛОЙНАЯ
РЕЗКИЙ
МАЛОСЛОЙНАЯ
ПЛАВНЫЙ
СРЕДНЕСЛОЙНАЯ
НЕЦЕЛОСТНАЯ
СРЕДНЕСЛОЙНАЯ
ПЛАВНЫЙ
СРЕДНЕСЛОЙНАЯ
МНОГОСЛОЙНАЯ
МНОГОСЛОЙНАЯ
МНОГОСЛОЙНАЯ
Рис. 2. Иерархическая система НТП
При выявлении и формализации НТП важную роль играет выбор
масштаба временной шкалы, на которой оценивается значение НТП. Один и тот
же фрагмент ВР может восприниматься экспертом по разному, следовательно,
при формализации НТП необходимо выработать единый критерий выбора
масштаба. В качестве такого критерия предложено использовать устойчивость
оценок к масштабным изменениям.
Основой оценивания НТП являются специальные системы правил,
регулирующие приоритет тех или иных значений НТП. Например, значения
основного НТП ТРЕНД определены в соответствии со следующими правилами:
− при равных значениях НТПТ на соседних подинтервалах,
(  q  {С, П, Р, Х}) ( Fq ( i ) & Fq ( i 1 )  Fq ( n ) ), где С – СПАД, П – ПОДЪЕМ,
Р – РОВНО, Х – ХАОС (то есть, значение НТП на большем интервале
повторяет значения на меньших подинтервалах);
− при неравных значениях НТПТ на соседних подинтервалах,
FC ( i ) & F ( i 1 )  F ( i ) & FC ( i 1 )  FC ( n ),
F ( i ) & F ( i 1 )  F ( i ) & F ( i 1 )  F ( n ),
FC ( i ) & F ( i 1 )  F ( i ) & FC ( i 1 )  F ( n ).
Особую категорию НТП представляет НТП КОНТРАСНОСТИ, для
формализации которого используется процедура фаззификации параметров
преобразования Хафа, применяемого к фрагментам ВР, характеризующим
отдельные временные интервалы радарограмм. НТП КОНТРАСНОСТИ
определяется на основе оценки поведения временного процесса, отражающего
динамику перемещения зон пересечения параметрических кривых на плоскости
Хафа при монотонном изменении контрастности. Номинальное значение
признака определяется путем фаззификации величины производной,
характеризующей эту динамику.
После извлечения из БД ГДС всех содержащихся в ней НТП,
14
применяется процедура формирования предложений, описывающих текущий
георадиолокационный процесс, то есть интеграция НТП в форме текстовых
резюме. Ниже приведен практический пример текстового резюме фрагмента
радарограммы:
«С 1 по 350 трассы наблюдается среднеслойная горизонтальная среда
целостной структуры. С 325 по 500 трассы обнаружена балластная
просадка с начальной глубиной деформации около 1 метра. В ней, начиная с
325 по 375 трассы, наблюдается среднеслойная среда с нерезким спадом, с
375 по 400 трассы наблюдается малослойная горизонтальная среда
нерегулярной структуры, с 400 по 500 трассы наблюдается среднеслойная
среда с нерезким подъемом. С 500 по 1000 трассы наблюдается
среднеслойная горизонтальная среда целостной структуры».
Далее рассмотрен комплексный подход к оценке интерпретационной
пригодности моделей обобщения и текстового резюмирования данных в
интеллектуальных системах автоматической интерпретации БД ГДС,
основанный на разработанной методологии оценки моделей представления
нечетко-определенных знаний. В основу предложенного подхода положены два
критерия. Первый основан на сравнении результатов, полученных в процессе
экспертного оценивания с результатами работы формальной модели. Второй –
на принципах разговорной кооперации Герберта Пола Грайса, а именно:
−
принцип качества. Извлечение НТП осуществляется с
использованием параметрического преобразования Хафа, так как при
интерпретации радарограмм основной информацией являются общие
тенденции поведения ЛС, а не положения конечных точек временного ряда
(например, при использовании простой интерполяции);
−
принцип количества. Предложенная система формализованных
НТП является информативно безызбыточной и составляет часть базового
экспертного инструментария, используемого при интерпретации радарограмм;
−
принцип манерности. Наличие двух вариантов текстовых резюме с
различной степенью детализации, предназначенных для различных групп
пользователей (эксперты и операторы);
−
принцип способа. В формируемых текстовых резюме, допускается
возможность использования как прямых, так и исключающих признаков для
целей более компактного выражения смысла без потери точности.
В РГУПСе, в рамках плана выполняемой НИОКР Департамента пути и
сооружений ОАО «РЖД» на тему «Разработка технологии и программнотехнического комплекса для скоростной диагностики состояния балластной
призмы методом георадиолокации», в 2007-2008 гг. был спроектирован и
реализован программный комплекс автоматического профилирования и
интерпретации георадиолокационных данных «GeoRailway+» (рис. 3).
Программный комплекс «GeoRailway+» позволяет формировать более
подробные и наглядные заключения о состоянии балластного слоя, а также
исключать пропуск деформаций слоев земляного полотна железнодорожного
пути по причине человеческого фактора.
15
Рис. 3. Пример работы программного комплекса «GeoRailway+»
на участке Северо-Кавказской железной дороги с антенным
блоком АБ-400 в пошаговом режиме
В
заключении изложены
диссертационной работы.
основные
выводы
и
результаты
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
В ходе выполнения диссертационной работы получены следующие
основные результаты:
1.
На основе анализа практических проблем и существующих
подходов к выявлению темпоральных знаний и формирования БЗ разработана
иерархическая модель представления нечтко-определенных знаний в
темпоральных базах данных, ориентированная на поддержку процессов
текстового резюмирования в подсистемах лингвистического обеспечения АСУ
ТП.
2.
Разработана методология оценки эффективности моделей
представления нечетких темпоральных знаний в БД ВР, основанная на
формализации критериев выразительности и интерпретационной пригодности,
опираясь на общепринятые принципы человеческой коммуникации и
организации человеческого мышления. Элементы данной методологии нашли
применение в комплексном подходе к оценке работы модели текстового
резюмирования БД ГДС.
3.
В рамках разработанной HFTI-модели представления нечетких
темпоральных образов, предложена формализованная схема выявления
нечетких темпоральных знаний в БД ВР.
4.
Рассмотрен подход и алгоритм вычисления характеристических
функций нечетких темпоральных образов, а также предложены алгоритмы
поиска частных НТС, основанные на концепциях эволюционного
16
моделирования и «априори-поиска», позволяющие выявлять элементы знаний в
текстовой форме.
5.
Разработана модель текстового резюмирования темпоральных
данных в БД ГДС, на основе которой, в рамках плана НИОКР 2007-2008 гг.,
был спроектирован и реализован программный комплекс автоматического
профилирования
и
интерпретации
георадиолокационных
данных
«GeoRailway+».
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИОННОЙ РАБОТЫ
1.
Долгий А.И., Ковалев С.М. Модель представления и обработки
нечетко-временной информации о последовательных событиях в слабо
формализованных динамических процессах // Перспективные информационные
технологии и интеллектуальные системы. – Таганрог: Изд-во ТРТУ, 2004 (19).
– С. 77-79.
2.
Долгий А.И. Идентификация неоднородностей почвенных покровов
на основе алгоритмов распознавания // Сборник тезисов докладов 64-й
студенческой научно-практической конференции. – Ростов н/Д: Изд-во РГУПС,
2005. –С. 6.
3.
Долгий А.И., Ковалев С.М. Гибридная нечетко-динамическая
модель анализа отраженных сигналов георадара в неоднородной среде //
Обозрение прикладной и промышленной математики. Т. 12. Вып.2. – 2005. – С.
386.
4.
Долгий А.И., Ковалев С.М., Хатламаджиян А.Е. Модель
локализации неоднородностей в георадиолокационных данных на основе
нейросетей Кохонена // Известия ТРТУ. Тем. вып. «Интеллектуальные САПР».
– Таганрог: Изд-во ТРТУ, 2006. – №8. – С.180-186.
5.
Долгий А.И., Ковдус В.В., Явна В.А. Программно-аппаратное
профилирование балластной призмы и основной площадки земляного полотна
// Тезисы докладов второй международной научно-практической конференции
«Инженерная геофизика - 2006». – Геленджик, 2006. – С. 72-73.
6.
Долгий А.И., Хатламаджиян А.Е. Модель локализации и
определения характера деформаций в горизонтально-слоистой среде земляного
полотна на основе искусственной нейронной сети и преобразования Хафа //
Известия ТРТУ. Тем. вып. «Актуальные проблемы производства и потребления
электроэнергии». – Таганрог: Изд-во ТРТУ, 2006. – №15. – С. 232-235.
7.
Долгий А.И., Хатламаджиян А.Е. Модель интерпретации
деформаций в балластной призме и основной площадке земляного полотна//
Тезисы докладов третьей международной научно-практической конференции
«Инженерная и рудная геофизика - 2007». – Геленджик, 2007. – С. 139-141.
8.
Долгий А.И., Хатламаджиян А.Е. Гибридная модель интерпретации
деформаций в балластной призме и основной площадке земляного полотна на
основе целевого преобразования Хафа и нейронной сети Кохонена // Известия
ЮФУ. Технические науки. Тем. вып. «Интеллектуальные САПР». – Таганрог:
Изд-во ЮФУ, 2007. – №2. – С. 180-186.
17
9.
Долгий
А.И.
Программный
комплекс
автоматического
профилирования и сегментной интерпретации георадиолокационных данных
«GeoRailway+» // Вестник РГУПС, 2008 – №1. – С. 30-37.
10. Долгий А.И., Хатламаджиян А.Е., Окост М.В. Программный
комплекс
автоматического
анализа
георадиолокационных
данных
«GEORAILWAY+» // Тезисы докладов четвертой международной научнопрактической конференции «Инженерная и рудная геофизика – 2008». –
Геленджик, 2008.
11. Долгий
А.И.
Комплексный
подход
к
оцениванию
интерпретационной пригодности систем текстового резюмирования баз данных
геодиагностических систем // Вестник РГУПС, 2008. – №1.– С. 53-57.
Долгий Александр Игоревич
ИНТЕЛЛЕКТУАЛЬНЫЕ МОДЕЛИ И КОМПЛЕКСЫ ПРОГРАММ
ОБРАБОТКИ ТЕМПОРАЛЬНОЙ ИНФОРМАЦИИ В БАЗАХ ДАННЫХ
ГЕОДИАГНОСТИЧЕСКИХ СИСТЕМ НА ЖЕЛЕЗНОДОРОЖНОМ
ТРАНСПОРТЕ
Автореферат диссертации на соискание ученой степени
кандидата технических наук
Подписано к печати
Бумага офсетная. Печать офсетная.
Уч.-изд.Л.1 Тираж 100
Формат 60х84/16
Усл.печ.л.1,4
Заказ №
Ростовский государственный университет путей сообщения.
Ризография РГУПС.
Адрес университета: 344038, г. Ростов-на-Дону, пл. Ростовского
Стрелкового полка Народного Ополчения, 2.
Download