423_Виолентов

advertisement
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 4.2 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ (АВТОМАТИЗАЦИЯ ПРОЕКТИРОВАНИЯ)
И.А. ВИОЛЕНТОВ (магистрант)
(Нижегородский государственный технический университет им.Р.Е.Алексеева)
АНАЛИЗ ПОДХОДОВ И ИНСТРУМЕНТОВ ДЛЯ ИЗВЛЕЧЕНИЯ
ИМЕНОВАННЫХ СУЩНОСТЕЙ
Введение
Для поиска интересующего документа пользователю необходимо сформировать максимально информативный запрос, который должен в значительной мере характеризовать релевантный документ. Имея ключевые слова и словосочетания, соответствующие определенным документам (из которых они были извлечены), возможно оптимизировать инвертированный индекс,
тем самым повысив эффективность и скорость поиска. Генерация запросов на естественном языке
является актуальной задачей на сегодняшний день из-за стремительного увеличения количества
неструктурированной информации. Проблема заключается в том, что генерация всех запросов является трудоемким процессом, а для больших коллекций документов невыполнимой задачей. Соответственно, необходимо выполнить генерацию только приоритетных запросов на основании
метрики документов. Под метрикой документов будем подразумевать функцию p , заданную на
множестве документов D , определяющую расстояние между элементами этого множества. Метрика позволяет сделать вывод о том, насколько документы близки по содержанию. Таким образом,
расстояние p можно интерпретировать как меру пересечения нескольких документов:
p( d1 , d 2 ) 
E1  E 2
E1  E 2
(1)
где d1 и d 2 документы, произвольно выбранные из заданного множества документов. E1 и E2
множества извлеченных сущностей из документов d1 и d 2 соответственно. Примером близости
документов может быть отношение, с извлеченными сущностями E1 = {Олимп, Сочи, 2014,
Фишт} и E2 = {Олимп, Греция, Зевс}. Размер множества | E1 | = 4, | E2 | = 3. Пересечением
E1  E2 является множество именованных сущностей {Олимп}, размером 1. Объединением
E1  E2 является множество именованных сущностей {Олимп, Сочи,2014,Фишт, Греция, Зевс}
размером 6. Подставляя полученные данные в формулу 1, имеем коэффициент схожести
1
p(d1 , d 2 )   0,1666 . При равнозначных размерах множеств именованных сущностей всех доку6
ментов, значение меры сходства стремится к показателю 0,5. Чем ближе коэффициент сходства,
тем более схожими являются выбранные документы. Запрос, сгенерированный из нескольких документов и находящийся в их пересечении (формула 1), является приоритетным.
Извлекать именованные сущности из текста можно следующими способами:
- Используя онтологии (структуры, в которых описываются понятия и объекты, отношения между
ними, их характеристики)
- Используя машинное обучение
- Используя правила и шаблоны (контексты)
Первый способ обеспечивает высокую точность извлечения сущностей и снятие омонимии.
Основными проблемами данного метода являются сложность обновления и полнота онтологии,
пропорциональная размеру тезауруса (поскольку извлекается только то, что имеется в онтологии).
423
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 4.2 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ (АВТОМАТИЗАЦИЯ ПРОЕКТИРОВАНИЯ)
Достоинством машинного обучения является отсутствие необходимости составления
большого количества правил, так как они имеют более общий вид, а так же возможность автоматического извлечения правил. Однако для этого способа необходим полностью и правильно размеченный большой корпус.
Метод, основанный на контекстах, использует морфологический и синтаксический анализ.
С помощью шаблонов (контекстно-свободных грамматик) можно задать отношения между разными сущностями. Кроме того, шаблоны могут содержать слова, обозначающие связь между объектами. КС-грамматики составляются вручную лингвистами, что требует большого объема ручного
труда.
Исследовательская часть
Несмотря на то, что задача извлечения фактов из текста приобрела популярность не так
давно, компании, специализирующиеся на информационном поиске, добились значительных результатов в данной области.
В данном исследовании были проанализированы различные инструменты, предназначенные для извлечения именованных сущностей и отношений: Томита-парсер (Yandex), Pullenti SDK,
FreeLing, Stanford NER, GATE, ReVerb.
Основной критерий выбора инструмента:
- Метод извлечения (средства, при помощи которых происходит извлечение сущностей, а также
оценка сложности использования данных средств)
Дополнительные критерии:
- Реализация
- Поддерживаемые языки
- Поддерживаемые платформы
Сравним ряд инструментов и произведем их оценку.
Томита-парсер. Инструмент основан на алгоритме GLR анализатора. Извлечение фактов
происходит при помощи КС-грамматик и словарей ключевых слов. Написан на языке C++. Приложение распространяется в виде бинарного файла, не требует наличия каких-либо установленных
библиотек. Имеет поддержку русского языка. Поддерживаемые платформы: GNU/Linux, Microsoft
Windows, Mac OS X.
Pullenti SDK. Выделение сущностей основано на правилах, однако для некоторых типов
сущностей можно использовать онтологии. Написан на C# .NET. Реализовано выделение сущностей определенного типа. Имеет поддержку русского языка. Поддерживаемые платформы:
GNU/Linux, Microsoft Windows.
FreeLing. Содержит два модуля для извлечения именованных сущностей. Bio-модуль, основанный на машинном обучении, обеспечивает более высокую точность извлечения (свыше 90%),
однако работает медленнее, чем basic-модуль. Используется как библиотека, написанная на C/C++.
Для работы FreeLing требуется наличие нескольких установленных внешних библиотек. Поддерживает русский и английский языки. Поддерживаемые платформы: GNU/Linux.
Stanford NER. Инструмент основан на машинном обучении (реализованы общие модели
Conditional Random Field с условным распределением). Написан на Java. Так же существуют интерфейсы для работы с инструментом, написанные на следующих языках программирования: Python, Ruby, Perl, F#/ C#/ .NET. Поддерживает английский язык. Поддерживаемые платформы:
GNU/Linux, Microsoft Windows, Mac OS X.
424
Международная научно-техническая конференция «Информационные системы и технологии»
ИСТ-2014
СЕКЦИЯ 4.2 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ (АВТОМАТИЗАЦИЯ ПРОЕКТИРОВАНИЯ)
ReVerb. основан на машинном обучении. На вход приложение принимает простой текст, а
результатом работы являются тройки вида: аргумент1, связывающая фраза, аргумент2. Написан на
языке Java. Приложение использует OpenNLP для разметки по частям речи (part of speech tagging)
и выделения именных групп (noun phrase chunking). Поддерживает английский язык. Поддерживаемые платформы: GNU/Linux, Microsoft Windows.
GATE. Извлечение сущностей основано на шаблонах, написанных на языке JAPE (Java
Annotation Patterns Engine). JAPE грамматики состоят из набора фаз (phases), в каждой из которых
находится определенный набор правил. Код приложения написан на языке Java, распространяется
в виде встроенного пакета. Приложение включает в себя структуру для написания NLP (Natural
Language Processing) приложений. Поддерживает русский и английский языки. Поддерживаемые
платформы: GNU/Linux, Microsoft Windows.
Сравнительный анализ инструментов показал, что наиболее подходящим средством для
выполнения поставленной задачи является Томита-парсер, разработанный и поддерживаемый
компанией Yandex. Томита-парсер, использующий алгоритм GLR-анализатора, является эффективным инструментом для извлечения фактов из текста на естественном языке при помощи контекстно-свободных грамматик и словарей ключевых слов. Анализатор состоит из трех стандартных лингвистических компонент: токенизатора, выполняющего функцию разбиения текста на
слова; сегментатора, извлекающего из текста предложения; морфологического анализатора, который необходим для получения морфологической информации каждого слова. Особо стоит отметить, что Томита-парсер позволяет выполнять фрагментарный анализ. Это означает, что факт
группируется из фраз, стоящих в разных частях предложения. Следовательно, необходимо задать
множество КС-грамматик, описывающих синтаксическую структуру извлекаемых фактов, и словарь ключевых слов, которые используются в процессе анализа КС-грамматиками. Каждая отдельная статья в словаре – это группа ключевых слов с общими свойствами. Пример простейшего
правила, которое извлекает из текста все существительные: S -> Noun. Разбирая по такому правилу, анализатор выделит из предложения «Труд облагораживает человека» слова «труд» и «человек».
Выводы
Результаты исследований могут использоваться как для моделирования приоритетных запросов на основе метрики документов, так и для других целей в области информационного поиска
(написания аннотаций к новостям, автоматической подборки событий с заполнением характеристик (где, когда и т.д.). Используя Томита-парсер, проектируемая система, моделирующая запросы, исключает необходимость применения поиска по небольшим коллекциям документов. Данная
задача труднорешаема для больших коллекций с помощью описанных инструментов, так как анализатор запускается отдельно для каждого документа. Это является недостатком, поскольку в совокупности отдельные запуски занимают много времени для анализа больших коллекций.
425
Download