f - Управление данными и информационные системы

advertisement
Курсовая работа
Построение риторических деревьев текста на
основе машинного обучения в рамках задачи
автоматического реферирования
Выполнил:
Варламов Максим Игоревич
группа 427
Научный руководитель:
Майоров Владимир Дмитриевич
Задача реферирования
• Реферирование - составление краткого изложения
материала одного или нескольких информационных
источников
• В данной работе
– источники и реферат – текстовые документы
– только один источник
– рассматриваются общие рефераты
• не имеют специализированного назначения
• в равной степени покрывают содержание исходных документов
Риторическая структура
•
•
•
•
Rhetorical Structure Theory (Mann, Thompson, 1988)
Текст – иерархия риторических отношений
В листьях обычно клаузы
Два вида отношений:
– симметричные (многоядерные)
– асимметричные (ядро – спутник)
• Ядро имеет смысл без спутника, обратное неверно =>
ядровые сегменты предпочтительнее для включения в
реферат
Пример
Система автоматического реферирования
отдела Информационных систем ИСП РАН
• Синтаксический анализатор
– ABBYY Compreno
• Подсистема взвешивания –
алгоритм из статьи W. Bosma
• Свой эвристический
алгоритм построения
риторического дерева. В
основе:
– Кореферентность
– Сигнальные фразы
– Ключевые слова
Система автоматического реферирования
отдела Информационных систем ИСП РАН
• Демонстрирует неудовлетворительное качество
рефератов
Baseline – по первому предложению с каждого абзаца
Цель работы
разработка и реализация алгоритма
построения риторического дерева текста на
основе машинного обучения
Постановка задачи
• Исследовать известные подходы к построению
риторических деревьев, в том числе на основе машинного
обучения
• Реализовать подход к построению RST-деревьев на основе
машинного обучения в исходной системе
– должен обрабатывать текст за линейное от его длины время
• Сравнить качество работы ML-подхода с текущим
алгоритмом
– Качество деревьев (PARSEVAL)
– Качество рефератов (ROUGE)
Алгоритм построения RST-дерева
• Основан на работе duVerle и Predinger (2009)
• Пусть S – множество сегментов текста
– Сегмент – непрерывная последовательность клауз
– Характеризуется своим RST-поддеревом
• Два классификатора:
– Оценивает вероятность наличия риторической связи между двумя
сегментами
– Определяет тип отношения между сегментами
• Для реализации классификаторов использованы
линейные SVM
Алгоритм построения RST-дерева
Признаки
• Длины сегментов
• Сигнальные фразы
– присутствие/отсутствие в первых/последних 3 словах сегмента
• Синтаксические признаки
– части речи, синтаксические функции, …
– первые/последние 3 слова сегмента, верхние 5 слов при обходе в
ширину синтаксического дерева
• Лексические классы
• Риторическая структура
– Типы верхних отношений в сегментах
– Все предыдущие признаки для наиболее важных клауз сегментов
Обучение и тестирование
• Риторическая структура
– Discourse Relation Reference Corpus
• 65 текстов, аннотированных экспертами в соответствии с RST
• Распространяется свободно через сайт RST
– Оценка качества - PARSEVAL
• Рефераты
– Материалы конференции DUC-2001
• 311 статей с abstract-аннотациями (~100 слов)
• 147 статей с extract-аннотациями (~160 слов)
– Оценка качества – ROUGE
• ROUGE-1,2
• ROUGE-L
• ROUGE-W
Feature Selection
• Необходимо отсеять неинформативные признаки
– Ранжирование признаков с помощью статистики хи-квадрат
– Подбор оптимального порога посредством кросс-валидации
• Размерность признакового пространства после
бинаризации – 19 325 признаков
• Было отобрано 465 признаков для первого
классификатора и 72 для второго
• Наиболее информативные признаки связаны с
лексическими классами
Тестирование
• Качество деревьев
Тестирование
• Качество рефератов
Тестирование
• Время работы
Заключение
• Исследованы существующие подходы к построению
риторических деревьев на основе машинного обучения
• Реализован и встроен в исходную систему алгоритм
построения RST-деревьев на основе SVM-классификации
– Показывает линейное время работы по результатам тестов
• Проведено тестирование алгоритма
– Улучшилось как качество построения риторических деревьев, так и
качество рефератов
Заключение
• Тем не менее, новый подход
– Слабо справляется с определением типов риторических
отношений
– В половине случаев работает хуже baseline-алгоритма
реферирования
Спасибо за внимание!
Вопросы?
Классификаторы
• Линейные SVM
–
–
–
–
Хорошо зарекомендовали себя в данной задаче (Reitter, duVerle)
Возможность оценки вероятности принадлежности объекта классу
Возможность мультиклассовой классификации
Хорошо справляются с большим количеством взаимосвязанных
признаков при малой размерности обучающей выборки
– Линейное время классификации
PARSEVAL
• Пусть P – множество составляющих (узлов)
сгенерированного дерева, Q – экспертного. Тогда
Хи-квадрат
• Для данных признака f и класса c
–
–
–
–
–
где A – число примеров класса c, где f =1;
B – число примеров, не принадлежащих c, где f =1;
C – число примеров класса c, где f =0;
D – число примеров, не принадлежащих c, где f =0;
m = A+B+C+D – общее число примеров
• Оценка признака f относительно всех классов
Download