Описание семантических отношений в системе СКАЗКА-2

advertisement
Описание семантических отношений в системе СКАЗКА-2
Рафаева А.В. e-mail: anna_raf@rambler.ru
Московский государственный университет им. М.В. Ломоносова
Исследование фольклора – это прежде всего работа с большими объемами текстов, их сравнение и
сопоставление. Для частичной автоматизации этой работы автором разрабатывается система СКАЗКА-2. Ее
основная задача – служить инструментом для исследования текста русских волшебных сказок, предоставлять
исследователю данные для анализа, автоматизировать трудоёмкие действия и сопоставлять большие объемы
данных. Система позволяет в автоматическом или полуавтоматическом режиме создавать словари,
конкордансы, отбирать тексты, отвечающие определенным критериям, а также проводить эксперименты над
текстами сказок, входящих в систему.
В настоящее время система включает в себя тексты русских сказок из авторитетных сказочных
сборников и современных записей (всего ок. 1,5 млн. словоупотреблений), ряд модулей для обработки текста
(составление частотного словаря, составление конкордансов, обработка текстов как символьных
последовательностей и некоторые другие), а также частотный словарь словоформ и словарь Зализняка [1] в
электронной форме. Основными направлениями работы с системой сейчас являются следующие:
1. Обработка текста в автоматическом режиме без привлечения дополнительной информации (поиск
заданных слов или словосочетаний, составление конкордансов, автоматическое составление
частотного словаря словоформ, автоматическое сравнение и сопоставление текстов с
использованием алгоритмов обработки символьных последовательностей). Текст при этом
рассматривается как последовательность символов, дополнительные данные не привлекаются.
2. Обработка текста с учетом структуры и семантики сказочного текста и подготовка данных для
дальнейшего ручного анализа.
Второе направление работы требует учета семантических отношений в сказке. Необходимо учитывать
отношения между сказочными персонажами, связь между локусами и обитающими там сверхъестественными
существами, наиболее типичные роли сказочных персонажей и/или предметов и т.п. Как неоднократно
отмечалось (см [2, 3]), при работе с фольклорными текстами нельзя полностью полагаться на существующие
общеузуальные словари, более того, тексты различных жанров будут сильно различаться как по составу
используемой лексики, так и по семантическим ролям наиболее значимых единиц, например, дома.
Приведем пример. Как подробно рассмотрено в [4], в русских волшебных сказках болото служит
местом обитания чудесной невесты (царевны-лягушки), а также может, в зависимости от контекста, заменять
озеро (и то, и другое – место обитания чертей), лес (как место, где находится избушка лесного демона),
трудную дорогу (описание странствий героя), реку (как одно из препятствий в мотиве укрощения чудесного
коня). Такие характеристики болота, как топкое, зыбучее, отражающие промежуточное положение болота
между водой и сушей, часто используются в эпитетах и устойчивых формулах, однако практически не влияют
на развитие сказочного сюжета. Наконец, болото и всё, что с ним связано, имеет отчётливые отрицательные
коннотации. Все эти характеристики болота как одного из локусов, значимых для волшебной сказки, хотелось
бы учитывать при дальнейшем автоматическом анализе. В то же время обработанного материала недостаточно
для того, чтобы однозначно выделить существенные для сказки семантические отношения и составить даже
предварительную версию тезауруса сказочной лексики. В частности, добавление нового материала к системе
приводит к появлению новых семантических отношений. При этом уже накопленные и обработанные данные
могут быть использованы в дальнейшем автоматическом анализе, несмотря на их явную неполноту.
Таким образом, возникла необходимость создать программное средство для описания семантических
отношений между единицами будущего словаря и накопления как самих описаний, так и используемых
функций. Для этого в системе используется модуль для описания и визуализации семантических отношений
между словарными единицами (существительными или, реже, устойчивыми именными группами, например,
тридевятое царство).
В настоящее время семантические отношения, существенные для сказочного текста, являются
побочным продуктом анализа отдельных персонажей (сверхъестественных существ, животных и т.п.) или
мотивов. Алгоритм работы в этом случае следующий:
1. Выделение всех единиц для поиска с помощью частотного словаря.
2. Автоматическое составление конкордансов по всему корпусу или выборочно.
3. Ручной анализ семантических ролей искомых единиц и их фиксация в графе, описывающем
семантические отношения. На первом этапе семантические отношения описываются в
произвольной форме и включают, по большей части, функции искомой единицы в сказке.
Например, при описании персонажей учитываются как их возможные роли по Проппу (см. [5]), так
и дополнительные функции, например, быть диковинкой. Определяется также класс, к которому
может принадлежать словарная единица. Заметим, что такие классы не обязательно совпадают с
общеупотребительными. Например, кот предстает в волшебной сказке как домашнее животное,
как животное, живущее в лесу и подчиняющееся бабе-яге (т.е. дикое) и как заморская диковинка, в
том числе в виде украшения чудесного дерева.
4. Следующим этапом является проверка и уточнение выделенных семантических отношений. Для
этого в программе предусмотрена возможность редактирования полученного графа. Более сложные
операции над графом, а также визуализация, реализованы с помощью интерфейса, позволяющего
подключать открытый пакет для работы с графами GraphViz (см. [6]).
Описанные метод работы и программное обеспечение позволяют постепенно находить и уточнять
семантические отношения, актуальные для волшебной сказки, что позволяет при выделении их идти «от
материала», а не «от теории», учитывая специфику исследуемого жанра.
Литература
1. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. 2 е изд., стереотип. – М.:
Рус. Яз., 1980. – 880 с.
2. Никитина С. Е., Кукушкина Е. Ю. Дом в свадебных причитаниях и духовных стихах (опыт
тезаурусного описания). М.: ИЯз РАН, 2000. – 216 с.
3. Бобунова М. А., Хроленко А. Т. Словарь языка русского фольклора: Лексика былины. – Курск: Издво Курск. гос. ун-та, 2006. – 314 с.
4. Рафаева А.В. «И заехал в такие места пустынные, что только леса да болота»: болота и пустыни в
русской волшебной сказке // Универсалии русской литературы. 3. – Воронеж: ООО ИПЦ «Научная книга»,
2011. – С. 380 – 398.
5. Пропп В. Я. Морфология <волшебной> сказки. Исторические корни волшебной сказки. – М.:
Лабиринт, 1998. – 512 с.
6. Gansner E.R., North S.C. An open graph visualization system and its applications to software engineering
[Электронный
ресурс]//
Graphviz
–
graph
visualization
software.
Url:
http://www.graphviz.org/Documentation/GN99.pdf. [1999] (дата обращения 21.02.2011).
Download