Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов

advertisement
Распознавание и классификация
актантов в русском языке
Semantic Role Labeling
Илья Кузнецов
НИУ ВШЭ (Москва)
АИСТ-2013
Обзор
• Формулировка задачи
• Языковые модели и специфика SRL для
русского языка
• Архитектура
• Планы и перспективы
I. Задача
I.1 Теоретическая основа
• Предикат – лексема, в толковании которой есть
переменные.
купить: X купил Y у Z за M
• X, Y, Z, M – валентности предиката
продать: Z продал Y X-у за M
• Синтаксически в первом случае X – субъект, во втором –
непрямой объект.
• Но у них одинаковая семантическая роль («Покупатель»)
• Эту роль можно обобщить до любого получателя
дарить: X дарит Y Z-у
I.1 Теоретическая основа
• Классический инвентарь состоит из абстрактных и
универсальных ролей:
– Агенс (активный субъект)
– Пациенс (претерпевающий наибольшие изменения)
– Адресат
– Бенефициант
– Время
– Место
…
[Baker, Fillmore 1998]
I.1 Теоретическая основа
• На практике инвентари могут быть более
конкретными
– FrameNet – фреймовая организация:
одна ситуация – один набор ролей
– PropBank, ТКС – крайний случай, роли
уникальны для каждого предиката
(но сохраняются при залоговых преобразованиях)
– Узкоспециализированные словари для
прикладных систем
I.2 Задача
Поверхностный семантический анализ
•Дано:
– Предложение
– Целевой предикат
– Набор ролей для этого предиката
•Требуется:
– Определить аргументы данного предиката
– Распределить аргументы по семантическим ролям
Р. Абрамович купил за 112 млн. долларов долю в компании "Труфон"
Предикат: купить
Покупатель: Р. Абрамович
Товар: доля в компании "Труфон"
Цена: 112 млн. долларов
1.3 Приложения
• Компактное представление информации
Предложение на естественном языке
→ набор триплетов субъект-предикат-объект
•
•
•
•
Извлечение фактов
Вопросно-ответные системы
Машинный перевод
Снятие неоднозначности
1.4 Трудности
• Зависимость от предобработки:
–
–
–
–
–
Токенизация
Морфологический анализ
Синтаксический анализ
Анализ кореференции
Выделение именованных сущностей
• Опора на внешние ресурсы
– Тезаурусы
– Словари глагольного управления
– Фреймнет
1.5 Подходы
• Правиловый подход:
– Хорошо для закрытых доменов
• Легко интерпретировать и чинить
– Плохо для общей задачи
• Долго и дорого разрабатывать
• Трудно поддерживать
• Машинное обучение
– Быстрая адаптация к новым доменам
– Снижение затрат на разработку*
• Требовательность к внешним ресурсам
II. Языковые модели
II.1 Языковые модели
Какая информация нам нужна для того, чтобы
корректно распознать и классифицировать актанты?
•Информация о глагольном управлении
– Актанты vs сирконстанты
[X] купить [Y] [за Z]
Иван купил велосипед за 100 рублей в пятницу
•Информация о присвоении семантических
ролей
– Как узнать, что Иван – покупатель, велосипед –
товар, а 100 рублей – цена?
II.2 Глагольное управление
• Готовые («экспертные») ресурсы:
– Словари
– Фреймнет
– Размеченные корпуса
• Автоматическое извлечение глагольных рамок
– Актанты выражаются более регулярно, чем
сирконстанты
– Сирконстанты оформляются схожим образом для
различных предикатов (время, место…)
II.3 Присвоение ролей
«Иван купил велосипед за 100 рублей»
•Синтаксическая информация
– Иван – субъект
– Велосипед – прямой объект
– 100 рублей – предложная группа с «за»
•Лексическая информация
Мария купила автомобиль за 100000 рублей
– Мария ≈ Иван
– автомобиль ≈ велосипед
– 100000 рублей ≈ 100 рублей
•[Иван, 100 рублей, велосипед] – лексической информации
достаточно!
II.3 Присвоение ролей
• Информация о лексической близости слов
– Тезаурус
– Кластеризация
• «Деятели»: Иван, Мария, Microsoft
• «Артефакты»: велосипед, автомобиль, стол
– Матрица сочетаемости / Мягкая кластеризация
• [+ломается],[+создается],[+дарится]… →
[+покупается],[+продаётся]
II.4 Специфика русского SRL
• Мало ресурсов
– Тезаурусы в разработке
– FrameBank в разработке
(можно использовать для тестирования)
• Сильная морфология и слабый порядок слов
– Не получится перенести наборы свойств из
английского
• Синтаксис зависимостей
III. Архитектура
III. Архитектура
Предобработка
Поиск предиката
Поиск актантов
Модель глагольного
управления
Классификация
актантов
Модель лексической
близости
III. Архитектура
Предобработка
Токенизация
Морфологический анализ
Синтаксический анализ
Распознавание именованных сущностей
Поиск предиката
Поиск актантов
Модель глагольного
управления
Классификация
актантов
Модель лексической
близости
III. Архитектура
Предобработка
Поиск предиката
Поиск актантов
Модель глагольного
управления
Классификация
актантов
Модель лексической
близости
III. Архитектура
Предобработка
Поиск предиката
Поиск актантов
Модель глагольного
управления
Классификация
актантов
Модель лексической
близости
III. Архитектура
Предобработка
Поиск предиката
Поиск актантов
Модель глагольного
управления
Классификация
актантов
Модель лексической
близости
IV. Планы и перспективы
IV. Планы и перспективы
• Уже сделано:
– Разработана предварительная методология
– Собран модуль предобработки
• Токенизация и разбивка на предложения – nltk
• Морфологический анализ – CST Lemma
• Синтаксический анализ – Russian Malt Parser
– Собран корпус на 20 млн. слов
• В процессе:
– Поиск большого корпуса
– Эксперименты по моделированию лексической
близости
– Эксперименты по извлечению глагольных рамок
IV. Планы и перспективы
• В перспективе:
– Полноценный SRL на упрощённых данных
• Только простые предложения
• Только финитные формы глаголов
– Расширение на более сложные случаи
•
•
•
•
Кореференция
Сложные предложения
Залоговые преобразования
Номинализации
Спасибо!
Download