А.М. НАЛЕТОВ ВЗАИМОДЕЙСТВИЕ СИСТЕМ АНАЛИЗА ТЕКСТОВ И ПОСТРОЕНИЯ ОНТОЛОГИИ

advertisement
УДК 004.896(06) Интеллектуальные системы и технологии
А.М. НАЛЕТОВ
Институт математики СО РАН, Новосибирск
ВЗАИМОДЕЙСТВИЕ СИСТЕМ АНАЛИЗА ТЕКСТОВ
И ПОСТРОЕНИЯ ОНТОЛОГИИ
В настоящее время, с обвальным ростом объемов доступной информации при
слабой ее структурированности, задачи автоматического анализа ЕЯ текстов
становятся особенно актуальными. Здесь можно упомянуть такие задачи как
классификация, реферирование текстов, семантически ориентированный поиск
текстов по заданным концептам и др. Объективные сложности анализа ЕЯ текстов
накладывают ряд ограничений при применении систем анализа текстов. В
частности, осмысленным выглядит настройка таких систем на определенные
предметные области, с поддающейся описанию структурой элементов и их
взаимосвязей. В рамках такой фиксированной предметной области (ПрО), явным
представлением ее структуры является онтология. Между онтологией и системой
анализа текстов (САТ), устанавливается, таким образом, очевидная взаимосвязь.
Будем исходить из того, что структура ПрО отражается в текстах
данной ПрО. Поэтому, с одной стороны, при выявлении элементов
структуры ПрО, их взаимосвязей, способов их выражения в тексте в
рамках построения онтологии, эксперт может пользоваться САТ, с другой
стороны, при построенной (хотя бы частично) онтологии, она, в паре с
САТ, может применяться экспертом для решения упомянутых задач
анализа текстов данной ПрО. Таким образом, САТ должна стать удобным
инструментом
эксперта
при
построении
онтологии
ПрО,
совершенствующимся по мере построения онтологии, и позволяющим
эксперту в дальнейшем решать широкий спектр задач анализа текстов в
рамках данной ПрО.
В процессе анализа, рассматриваем текст как иерархическую
структуру. На нижнем уровне находятся словосочетания минимальной
(чаще всего равной двум) длины. Они являются реализациями некоторых
отношений и выражают соответствующий этой реализации смысл. Так,
например, словосочетание «звуковой сигнал» является реализацией в
тексте отношения «объект - свойство». Далее, более сложные
словосочетания и фрагменты текста представляются наборами
композиций таких словосочетаний. В качестве формализма для
представления такого рода структур, автор использует пирамидальные Qсети, являющиеся симбиозом сетей В.П. Гладуна и И.П. Кузнецова Они
сочетают лучшие их свойства и удобны не только для получения
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 3
76
УДК 004.896(06) Интеллектуальные системы и технологии
семантического представления текста, но и для дальнейшей обработки
этих представлений.
Пирамидальные сети, к которым относятся и Q-сети обладают
развитыми ассоциативными и классифицирующими средствами. В них
реализованы механизмы (алгоритм Гладуна формирования понятий в
пирамидальных сетях), позволяющие описывать классы объектов в
терминах как разделяющих (отличающие объекты разных классов), так и
объединяющих (характерных для большинства объектов какого-то класса,
но не обязательно только его) признаков. Причем, это булевы признаки
наличия или отсутствия в сети, представляющей объект набора некоторых
критичных, значимых фрагментов. Эти фрагменты выделяются на
предварительном этапе путем анализа обучающей выборки сетей
объектов, для которых известно, к какому классу они принадлежат.
В нашем случае, фрагменты сети представляют словосочетания и
композиции словосочетаний, объекты разных классов – тексты ПрО,
затрагивающие различные элементы структуры ПрО и, соответственно,
различные элементы ее онтологии. Упомянутый набор критичных
фрагментов (находящихся, в общем случае, на средних уровнях иерархии
сети), представляет набор словосочетаний текста. Это могут быть
отдельные слова, словосочетания из двух слов, наборы двухсловных,
двухсловных и многословных словосочетаний. Автор полагает, что эти
сочетания слов, характеризующие класс текстов, затрагивающих
определенные элементы онтологии, и будут отображением этих
элементов на текст (или, по крайней мере, эксперт сможет легко выявить
такое отображение на основе наборов критичных фрагментов).
По сути, когда онтология еще не построена, база, содержащая наборы
критичных фрагментов, используется САТ как ее суррогат. С позиции
САТ она и является не до конца сформированной онтологией. Для
эксперта же, в процессе работы над построением онтологии эта база
служит дополнительным материалом и пищей для размышления. Когда
онтология построена, такая база просто становится ее частью, точнее, ее
проекцией на ЕЯ тексты.
На разных стадиях готовности онтологии база критичных фрагментов
должна использоваться для решения задач классификации текстов, поиска
похожих текстов, определении элементов онтологии, затрагиваемых в
тексте.
САТ и база критичных фрагментов могут использоваться и для
поддержки существующей онтологии. Соотнесение потока семантических
портретов новых текстов с базой значимых фрагментов осуществляет с
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 3
77
УДК 004.896(06) Интеллектуальные системы и технологии
одной стороны наполнение элементов онтологии ссылками на текстовые
документы. По степени «наполнения», эксперт может принимать решение
о
разделении
«перегруженных»
элементов
и
объединении
«недогруженных». С другой стороны, при поступлении новых текстов,
отражающих динамику предметной области может происходить
изменения и в самой базе критичных фрагментов. Дело в том, что
алгоритм который применялся при создании этой базы может работать и в
режиме последовательного поступления объектов (текстов), при этом
наборы критичных фрагментов будут изменяться, отражая изменения в
структуре объектов. Изменение базы критичных фрагментов также может
послужить для эксперта основанием для внесения изменений в
онтологию. В дальнейшем, возможна разработка модификаций алгоритма
формирования понятий в пирамидальной сети направленных не только на
распознавание но и на таксономию объектов. Это позволит работать над
созданием и поддержкой базы критичных фрагментов в отсутствии
обучающей выборки текстов (для которых указанны затрагиваемые
элементы онтологии).
Анализ семантических сетей, построенных по текстам предметной
области, может послужить стимулом к введению новых элементов
онтологии, соответствующих часто встречаемым элементам структуры
семантических сетей.
Автором реализован инструмент, помогающий эксперту формировать
лингвистическую базу и осуществляющий последующее построение Qсетей по текстам предметной области. На его основе осуществляется
разработка системы анализа текста «САТ». Эта система реализуется как
многопараметрическая экспериментальная площадка, на основе которой
путем подбора параметров можно будет создать эффективную систему
позволяющую поддерживать построение онтологии ПрО и решать
различные задачи анализа текстов.
Список литературы
1. Гладун В.П. Планирование решений. Киев: Наукова думка, 1987. С.17-51
2. КузнецовИ.П. Семантические представления. Изд. «Наука», М. 1986 г.
3. Загоруйко Н.Г., Налетов А.М., Гребенкин И.М. На пути к автоматическому
построению онтологии // Труды международной конференции Диалог’2003.
4. Загоруйко Н.Г., Налетов А.М., Соколова А.А., Чурикова В.А. Формирование базы
лексических функций и других отношений для онтологии предметной области // Труды
международной конференции Диалог’2004
ISBN 5-7262-0555-3. НАУЧНАЯ СЕССИЯ МИФИ-2005. Том 3
78
Download