avtoreferat_volskaya_2015 - Факультет искусств

advertisement
ПРАВИТЕЛЬСТВО РОСССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ФАКУЛЬТЕТ ИСКУССТВ
Кафедра информационных систем в искусстве и гуманитарных науках
Автореферат
магистерской диссертации
Основная образовательная программа
«Инженерия гуманитарных знаний»
Направление 230700 «Прикладная информатика»
Уровень Магистратура
На тему
« Методы анализа кореференции и их оценка»
Студента Вольской Светланы Александровны
Руководитель профессор, доктор филологических наук, СПбГУ,
Ягунова Елена Викторовна
Консультант Грановский Дмитрий Владимирович
Рецензенты:
кандидат филологических наук, доцент, СПбГУ,
Митренина Ольга Владимировна
кандидат филологических наук, доцент, СПбГУ
Митрофанова Ольга Александровна
Санкт-Петербург 2015
В реферируемой работе рассматривается проблема автоматического
разрешения кореференции. Кореференция - обозначение в тексте одного и
того же объекта при помощи различных номинаций с целью пополнения
знания адресата о референте и для обеспечения связности текста.
Рост объемов текстов на естественном языке доступных в электронном
виде вызвал значительное увеличение интереса к исследованиям в области
анализа
текстовых
данных.
Правильное
отождествление
повторно
упоминаемых объектов в тексте является важной задачей при процессе
извлечения информации из текста на естественном языке.
Частичный
анализ
текста,
заключающийся
в
установлении
референциальных связей между выражениями в тексте, необходим для
решения таких прикладных задач, как:

Машинный перевод

QA-системы

Информационный поиск

Извлечение информации

Автоматическое реферирование
и других.
Особый интерес автоматическое разрешение кореференции представляет
при
проектировании
систем
автоматического
машинного
перевода,
информационного поиска и разработке вопросно-ответных систем. Вместе с
тем, несмотря на востребованность практических систем автоматического
определения кореферентных связей, открытых развитых разработок для
русского языка в настоящее время не существует. На этом фоне, однако,
продолжают совершенствоваться зарубежные разработки текстового анализа.
Актуальность данного исследования заключается в высокой значимости
разрешения неоднозначности анафорических связей, особенно для русского
языка, в условиях недостатка ресурсов и плохой проработанности систем
описания синтаксических структур. Особенно явно ощущается недостаток
практических
открытых
систем
автоматического
определения
кореферентных связей в текстах на русском языке.
Разработанный первоначально подход к автоматическому разрешению
анафоры, реализованный в системе проекта OpenCorpora, прошел апробацию
на международной конференции «Диалог-2014» и представлен следующей
публикацией:
Protopopova E.V., Bodrova A.A., Volskaya S.A., Krylova I.V.,
Chuchunkov
A.S.,
Alexeeva
S.V.,
Bocharov
V.V.,
Granovsky
D.V. Anaphoric annotation and corpus-based anaphora resolution: an
experiment
//
Компьютерная
лингвистика
и
интеллектуальные
технологии: По материалам ежегодной Международной конференции
«Диалог» (Бекасово, 4–8 июня 2014 г.). Вып. 13 (20). — М.: РГГУ, 2014.
Данное
исследование
посвящено
встраиванию
синтаксических
характеристик и усовершенствованию первоначального варианта системы.
Целью исследования является разработка подхода к автоматическому
определению кореферентных связей для русского языка, основанного на
машинном
обучении
с
использованием
поверхностно-синтаксических
признаков.
Для достижения указанной цели необходимо решить следующие задачи и
подзадачи:
1. Определить синтаксические признаки, являющиеся потенциально
значимыми для процесса автоматического разрешения анафоры
2. Обучить модели на основе различных пространств признаков для
получения нескольких вариантов классификатора референциальных
выражений
a.
Выполнить
формальный
синтаксический
разбор
предложений корпуса
b.
Провести машинное обучение
3. Произвести оценку результатов
a.
Произвести
автоматический
связей обученными классификаторами
анализ
референциальных
b.
Сравнить
полученные
результаты
с
канонической
разметкой
c.
Сравнить результаты работы различных классификаторов
между собой с целью выявления наилучшей комбинации
признаков
d.
Сравнить результаты работы полученных классификаторов
с точностью работы оригинальной системы
Материалом настоящего исследования являются новостные тексты,
тексты художественной литературы, тексты постов в блогах, тексты статей
энциклопедий (на русском языке).
Предметом исследования являются методы автоматического определения
анафорических связей в текстах.
Для
существующих
систем
автоматического
разрешения
анафоры
практика применения сложных синтаксических признаков в пространстве
параметров для машинного обучения системы не является распространенной.
Подавляющее большинство существующих систем используют некоторые
простейшие
синтаксические
признаки,
не
требующие
сложного
синтаксического анализа предложения. В данной работе мы, напротив,
сконцентрировались на изучении влияния синтаксических признаков,
требующих полного синтаксического анализа предложения. Кроме того,
нами впервые была предпринята попытка добавить в действующую систему
комбинацию из синтаксических признаков, разработанных на основе
различных подходов к формальному описанию синтаксической структуры
предложения – грамматики независимости и грамматики непосредственных
составляющих.
Всем
этим
обусловлена
научная
новизна
данного
исследования.
Практическая значимость исследования состоит в том, что описанные
методы и полученные результаты могут быть использованы при разработке
различных систем автоматического понимания текста.
Данное исследование является частью проекта по разработке открытого
корпуса русского языка с анафорической разметкой, но предложенные
методы, без сомнения, могут применяться и в других разработках, в которых
отождествление повторно упоминаемых объектов является важной частью
автоматического семантического анализа текста (например, в системах
машинного перевода, поисковых системах и т.п.).
Достоверность
результатов
обеспечивается
репрезентативностью
выборки, на которой было проведено машинное обучение системы, а также
проведением всестороннего оценивания полученных результатов.
Реферируемая магистерская диссертация состоит из введения, двух
основных глав и заключения.
Введение содержит описание общей проблематики, темы, цели и задач
исследования.
Первая глава «Референциальный анализ и методы автоматического
разрешения референции» состоит из нескольких частей, в которых
описываются различные аспекты исследуемой проблемы.
В начале работы определяются ключевые для данного исследования
понятия «референциальные отношения» и «кореференция», приводится
типология референциальных связей.
В данном исследовании мы, главным образом, сосредоточились на
разрешении
местоименной
анафоры
как
одном
из
наиболее
распространенных проявлений кореференции в текстах на естественном
языке. В связи с этим, в главе также приводится информация о структуре
анафорического отношения, даются ссылки на существующие исследования
в области автоматического разрешения анафоры.
Проблема установления анафорических связей исследовалась различными
учеными как с практической, так и с теоретической стороны. В работе
описан практический подход к автоматическому разрешению анафоры,
разработанный Дугласом Аппельтом и Дэвидом Израэлем. Кроме того,
приводятся описания разработок Александра Кибрика и Ноама Хомского в
области теории разрешения кореференции. Приводится обоснование того
факта, что когнитивный подход к определению анафорической связи,
разработанный Кибриком, и исследования Хомского в области генеративного
синтаксиса частично могут являться хорошей основой для разработки
прикладных систем автоматического разрешения анафоры.
Для добавления синтаксических признаков в систему автоматического
разрешения
анафоры
нам
было
необходимо
провести
полный
синтаксический анализ предложений текста на естественном языке.
Использование формальных грамматик в данной работе является следствием
данной необходимости. В связи с этим в работе описываются основы двух
самых распространенных на сегодняшний момент способов формального
представления
синтаксической
структуры
предложения:
грамматики
непосредственных составляющих и грамматики зависимостей.
В работе использованы идеи, разработанные в одном из модулей
генеративной теории Хомского — в теории управления и связывания.
Основные идеи данной теории также перечислены в настоящей работе.
В своем исследовании мы также описываем некоторые системы анализа
кореференции. При этом все системы классифицируются на три основных
группы. Основой для классификации служит подход, использованный в
системе
для
автоматического
традиционный
(сочетаюший
(на
в
правилах),
себе
идеи
разрешения
анафорических
статистический
традиционных
или
систем
связей:
комбинированный
на
правилах
и
статистические методы).
Отдельно выделяются прикладные системы, разработанные для анализа
текста на русском языке, т. к. практическим результатом данной работы
является система автоматического разрешения анафоры именно для текстов
на русском языке.
В исследовании также освещаются некоторые соревнования, в рамках
которых
были
представлены
какие-либо
автоматического разрешения анафоры.
разработки
в
области
Вторая глава
«Разработка и реализация алгоритма разрешения
анафоры» содержит описание процесса решения поставленных в работе
задач.
В магистерской диссертации четко определяются границы задачи,
решаемой в практической части настоящего исследования.
Данная работа выполнялась на основе существующего инструмента
автоматического разрешения анафоры, разработанного в рамках проекта
«OpenCorpora», в связи с чем приводится подробное описание оригинальной
версии упомянутой системы, описываются инструменты, использованные в
оригинальной разработке проекта «OpenCorpora» для автоматической
обработки текста.
В
качестве
выбранного
метода
рассматривается
машинное
обучение,
обосновывается
их
использование
решения
поставленной
анализируются
для
внедрения
задачи
грамматики,
и
поверхностно-
синтаксических признаков в разрабатываемую нами систему; перечисляются
признаки, отобранные для реализации в виде синтаксического модуля
системы автоматического разрешения анафоры.
Далее описываются способы, с помощью которых предложенные варианты
решения исследуемой проблемы были реализованы. Для
представления
синтаксической структуры предложений в виде дерева зависимостей был
использован синтаксический парсер MaltParser. Машинное обучение системы
и оценка результатов работы классификатора проводилось при помощи
библиотеки Scikit-learn языка Python.
В магистерской диссертации также описан разработанный нами алгоритм,
использованный в работе для преобразования структур зависимостей в
структуры непосредственных составляющих; приводится оценка результатов
работы предложенного алгоритма.
На основе анализа полученных в результате исследования данных в конце
второй
главы
делаются
общие
выводы
по
работе.
Заключение включает в себя основные выводы по всей работе, а также
направления будущих исследований в рамках исследуемой проблемы.
В результате проведенного исследования обнаружено, что признаки,
сформулированные
на
основе
анализа
формального
представления
синтаксической структуры предложения (в рамках любой грамматики),
показывают лучшие результаты при обучении, если добавляются в систему в
качестве части вектора параметров для пар вида «антецедент-анафор».
Использование синтаксических признаков в качестве ограничительных
условий,
убирающих
несоответствующие
пары
перед
подачей
в
классификатор, показывает не слишком хорошие результаты.
Добавление
в
систему
ограничений
на
структуру
зависимостей
обеспечивает наибольший прирост к качеству работы системы по сравнению
со всеми остальными комбинациями синтаксических признаков именно при
использовании признаков в качестве части вектора параметров - 52,18% (ср.
точность работы оригинальной системы 52,04%). Ограничения в структуре
непосредственных составляющих, реализованные в системе в виде части
вектора параметров для машинного обучения, показывают уровень точности
в 52,12%. При попытке добавить те же самые условия в виде
ограничительных признаков точность работы системы ухудшается до
50,84%. Наихудший результат система показывает при добавлении на нее
ограничений в рамках обоих структур в качестве ограничительных признаков
(50,42%).
Следует также отметить тот факт, что на сегодняшний момент анализ
синтаксической структуры предложения на русском языке выполняется
более качественно в рамках грамматики зависимостей. Поэтому на данном
этапе развития исследуемой проблемы лучших результатов можно добиться
при
добавлении
в
систему
признаков,
использующих
для
анализа
анафорических отношений именно структуру зависимостей.
В данной работе мы также предложили алгоритм преобразования
структуры зависимостей в структуру непосредственных составляющих. Нами
была выполнена ручная оценка работы предложенного алгоритма. Проблемы
работы алгоритма, главным образом, связаны с ошибками в разборе
синтаксического парсера MaltParser. В предложенном нами алгоритме
используется разбор MaltParser, вследствие чего ошибки в разборе парсера
приводят к существенному ухудшению работы алгоритма.
Направления будущей деятельности, помимо расширения тренировочного
корпуса для системы, включают в себя также более детальную проработку
алгоритма разрешения местоименной анафоры, исследование возможностей
минимизации ошибок парсера MaltParser, а также разработку алгоритма для
разрешения иных видов кореференции.
Download