МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА

advertisement
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА
ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ
КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ
Дипломная работа
Извлечение именованных сущностей
с использованием Википедии
Выполнила:
Астахова Дарья, 528 гр.
Научные руководители:
к.ф.-м.н. Турдаков Д.Ю.,
м.н.с. ИСП РАН Андрианов И.А.
Москва, 2015
Введение
Задача извлечения именованных сущностей
состоит в распознавании в тексте именованных
сущностей (которыми являются слова и
словосочетания) и их классификации по
предопределенным категориям, например,
личности, организации, географические объекты
и другие.
Пример:
Космонавт [Личность Михаил Корниенко]
поздравил ветеранов [Событие ВОВ] и всех
жителей [Страна СССР], одолевших фашизм, с
годовщиной [Событие Победы ].
Введение
Извлечение
именованных
сущностей
применяется, к примеру, в
- информационном поиске,
- вопросно-ответных системах,
- автоматизированном сборе новостей.
Постановка задачи
• Исследовать существующие методы извлечения
именованных сущностей;
• Разработать метод извлечения именованных
сущностей, который использует полученную из
Википедии информацию;
• Выполнить программную реализацию
разработанного метода, интегрируемую в систему
обработки текстов Texterra;
• Подготовить тестовый корпус, состоящий из
новостных статей на русском языке;
• Провести тестирование качества разработанного
метода.
Рассматривать следует русский язык.
Схема работы системы извлечения
именованных сущностей
Входной документ
Разбиение на предложения, слова
Для каждого слова
Составление признакового описания слова
Классификация слова по типам именованных
сущностей
Аннотированный типами именованных сущностей документ
Пример признакового описания
слова
Слово, для которого составляется признаковое описание
Космонавт Михаил Корниенко поздравил
ветеранов ВОВ и всех жителей СССР,
одолевших фашизм, с годовщиной Победы.
Признаковое описание:
(Суффикс = ил,
С заглавной буквы = Да,
В начале предложения = Нет,
Часть речи = имя существительное,
…)
Схема построенного решения
Снимок содержимого Википедии
Классификация статей Википедии
по типам именованных сущностей
Сбор статистики по
классифицированной Википедии
Фильтрация и нормализация
статистики
Статистика
«Слово – тип сущности – частота»
Схема построенного решения
Статистика
«Слово – тип сущности – частота»
Коллекция документов
Новые признаки на
основе статистики
Система извлечения
именованных сущностей
Коллекция аннотированных именованными
сущностями документов
Правила сбора статистики для
заголовка статьи и категории
Заголовок статьи
Название категории
Статистика, собираемая по классифицированной Википедии
россия
Страна
1
страны
Страна
1
балтийского
Страна
1
моря
Страна
1
Правила сбора статистики для
секции
Заголовок секции
Ссылка в тексте секции
Статистика, собираемая по классифицированной Википедии
перестройка
Страна
1
распад
Страна
1
ссср
Страна
1
михаил
Личность
1
горбачев
Личность
1
Пример дополнительных признаков
Слово, для которого составляется признаковое описание
Космонавт Михаил Корниенко поздравил ветеранов ВОВ…
Статистика, собранная по Википедии
михаил
Личность
0,65
михаил
Искусство
0,23
михаил
Здание
0,12
Признаковое описание:
(…,
михаил как Личность = 0,65 ,
михаил как Искусство = 0,23,
михаил как Здание = 0,12)
Тестирование качества
• Корпус из 100 новостных статей на русском языке, содержащий
около 38 000 слов и 4 900 именованных сущностей
• 22 типа именованных сущностей
• 10 запусков для каждой системы и каждого порога
Базовая
система
Улучшенная
система
Порог
Точность
Полнота
F-мера
нет
75,32
[74,96; 75,68]
66,24
[65,77; 66,71]
70,45
[70,07; 70,83]
нет
75,69
[75,35; 76,03]
67,34
[67,13; 67,55]
71,22
[70.98; 71.46]
5
76,08
[75,77; 76.39]
67,25
[66,91; 67,59]
71,32
[71,05; 71,59]
10
75,99
[75,51; 76,47]
67,23
[66,93; 67,57]
71,31
[70.99; 71,69]
Заключение
• Исследованы существующие методы извлечения
именованных сущностей;
• Предложен метод извлечения именованных
сущностей, который использует полученную из
Википедии информацию;
• Выполнена программная реализация
разработанного метода, интегрируемая в систему
обработки текстов Texterra;
• Подготовлен корпус на русском языке из новостных
статей;
• Проведено сравнительное тестирование качества
разработанного метода.
Благодарю за внимание!
Download