autoreferat_pronoza_2014 - Факультет искусств

advertisement
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ
УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ФАКУЛЬТЕТ ИСКУССТВ
Направление 230700 «Прикладная информатика»
Магистерская программа «Инженерия гуманитарных знаний»
Проноза Екатерина Валерьевна
АВТОРЕФЕРАТ
ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ И МНЕНИЙ ДЛЯ РЕКОМЕНДАТЕЛЬНЫХ
СИСТЕМ И АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ
ВЫПУСКНАЯ КВАЛИФИКАЦИОНАЯ РАБОТА
магистра прикладной информатики
Научный руководитель:
Ягунова Елена Викторовна
д. ф. н., профессор кафедры информационных систем в
искусстве и гуманитарных науках
Рецензент:
Клышинский Эдуард Станиславович
к. т. н., доцент кафедры информационных технологий и
автоматизированных систем МИЭМ НИУ ВШЭ
Санкт-Петербург
2014
В реферируемой магистерской диссертации разработан и реализован метод
извлечения информации и мнений для рекомендательной системы на
русском языке. Разрабатываемая? рекомендательная система предлагает
пользователям рестораны на основе их предпочтений, которые выражены в
текстовой форме: в виде отзывов о заведениях. Такие отзывы обычно
представляют собой очень слабо структурированные тексты разговорного
стиля
и
часто
характеризуются
наличием
орфографических
и/или
пунктуационных ошибок, что создает дополнительные сложности при
автоматической обработке подобных текстов.
Целью исследования является разработка метода извлечения информации
и мнений для систем автоматического понимания слабо структурируемых
текстов на примере модулей извлечения информации из отзывов о
ресторанах для рекомендательной системы.
Для достижения указанной цели поставлены следующие задачи:
•
показать, что использование лингвистической информации и, в
частности, проведение анализа коллекций текстов предметной области,
способствует
улучшению
производительности
системы
извлечения
информации и мнений;
•
провести исследование признаков и классификаторов, применяемых в
машинном обучении в задачах извлечения мнений;
•
провести сравнение применимости методов, основанных на правилах и
на машинном обучении, к задаче извлечения информации и мнений о
ресторанах.
При этом предполагается решение таких подзадач, как
•
предварительная обработка коллекции отзывов о ресторанах;
•
построение
словарей
номинаций
и
предикативно-атрибутивных
словарей и оценка их полноты;
•
построение шаблонов именных групп и оценка их полноты;
•
построение прочих словарей, включая словарь тональностей, и их
разметка;
•
разработка правил для извлечения информации и мнений о ресторанах;
•
выделение тех параметров ресторанов, для извлечения которых может
быть применено машинное обучение (на основе распределения значений
параметров в размеченном подкорпусе);
•
выбор
моделей,
выделение
признаков
и
применение
методов
машинного обучения для извлечения информации о соответствующих
параметрах ресторанов;
•
тестирование методов на основе правил и с использованием машинного
обучения и выбор оптимального метода для каждого из параметров
ресторана;
•
программная реализация модуля извлечения информации и мнений из
отзывов о заведениях общественного питания для рекомендательной
системы.
Объектом
исследования
является
сравнение
методов
извлечения
информации и мнений из неструктурированных текстов разговорного стиля.
Предметом исследования являются неструктурированные тексты отзывов
о ресторанах, а также признаки и классификаторы, используемые в задаче
извлечения мнений из подобных текстов.
Для существующих рекомендательных систем практика применения
лингвистических методов и знаний для извлечения информации или мнений
из неструктурированных текстов отнюдь не является распространенной.
Более того, описанные три задачи (создание рекомендательной системы,
извлечение информации и извлечение мнений) обычно рассматриваются
отдельно, как не связанные друг с другом. Данная работа, напротив,
представляет собой совершенно иной подход, когда комплексное извлечение
информации и мнений может стать частью рекомендательной системы.
Кроме того, в работе уделяется большое внимание анализу корпуса отзывов,
и
показано,
что
использование
созданных
на
основе
корпуса
лингвистических ресурсов позволяет улучшить работу системы извлечения
информации и мнений (а следовательно, и всей рекомендательной системы).
Этим и обусловлена научная новизна работы.
Актуальность работы заключается в недостаточной проработанности
проблемы
извлечения
фактов
и
мнений
для
существующих
рекомендательных систем из неструктурированных текстов вообще, особую
актуальность это имеет для русского сегмента интернета.
Практическая значимость исследования состоит в том, что описанные
методы и полученные результаты (которые реализованы в виде модуля
конкретной рекомендательной системы) могут быть использованы при
разработке систем автоматического понимания текста вообще и в системах
электронной коммерции в частности.
Данное
исследование
является
частью
проекта
по
разработке
рекомендательной системы в области ресторанов, но предложенные методы,
без сомнения, могут применяться в рекомендательных системах других
предметных областей (например, для туристических рекомендательных
систем) и для других информационных ресурсов, помимо коллекций отзывов
пользователей, где текстовые данные слабо структурированы и принадлежат
разговорному стилю.
Достоверность результатов обеспечивается проведением всестороннего
оценивания и сравнения эффективности различных методов, в том числе с
помощью кросс-валидации и статистических тестов.
Реферируемая магистерская диссертация состоит из введения, трех
основных глав и заключения.
Введение содержит описание общей проблематики, темы, цели и задачи
исследования.
В
качестве
отдельного
параграфа
представлен
обзор
существующих подходов к проблемам извлечения информации и мнений
(Information Extraction, Opinion Mining and Sentimental Analysis) в контексте
обработки корпусов отзывов и рекомендательных систем, а также обзор
методов автоматической обработки текстов в целом. В данном разделе
приведено исследование существующих признаков и классификаторов,
которые используются в решении задач извлечений мнений методами
машинного обучения.
Первая глава «Данные, методы и инструменты» включает в себя
описание исходных данных (т.е. коллекции отзывов пользователей о
ресторанах и списка параметров ресторанов, которые необходимо будет
извлекать автоматически – например, таких как качество кухни, качество
обслуживания, уровень цен, наличие детской комнаты и т.д.), выбранных
методов, а также инструментов, используемых в программной реализации
системы. Особое внимание уделяется решению задач построения, разметки и
оценки словарей номинаций и предикативно-атрибутивных словарей, а
главное – словаря тональности. В этой главе показано, что выбор
методологии
исследования
продиктован
дефицитом
доступных
лингвистических ресурсов для русского языка (необходимых для решаемых
задач), и, следовательно, стремлением извлечь максимум данных из
имеющейся текстовой коллекции.
Вторая
глава
«Результаты.
Обсуждение
результатов»
содержит
описание того, как решались поставленные в работе задачи, а также
рассматриваются полученные результаты и их анализ. Она состоит из
нескольких логических частей, каждая из которых соответствует одной из
задач.
Первый параграф «Анализ корпуса» полностью посвящен анализу корпуса
отзывов, начиная с токенизации и лемматизации и заканчивая построением и
оценкой словарей и шаблонов, автоматически и полуавтоматически
собранных на основе корпуса.
Во втором параграфе «Разработка правил для извлечения параметров
ресторанов» рассматриваются наиболее надежные методы построения
правил, используемые в данном исследовании для извлечения информации и
мнений о ресторанах.
Третий параграф «Применение методов машинного обучения» посвящен
сопоставительному анализу возможностей применения методов машинного
обучения при решении задач извлечении информации и мнений из отзывов о
ресторанах.
используются
На
основе
в
проведенного
подобных
задачах,
изучения
моделей,
формулируется
которые
множество
классификаторов, а также множество наборов признаков. Для каждой
комбинации классификатора и набора признаков по каждому из параметров
ресторана проводится кросс-валидация, и затем для каждого параметра
ресторана выбирается оптимальная комбинация с точки зрения качества
работы и вычислительной сложности. Выбор осуществляется путем
применения итеративной процедуры проверки статистических гипотез.
В четвертом параграфе «Оценка эффективности методов на основе правил
и методов машинного обучения» приводится сравнение эффективности
методов на основе правил и на основе машинного обучения для извлечения
информации и мнений о ресторанах. При этом используются правила,
описанные во втором параграфе второй главы, и модели, выбранные в
качестве оптимальных в третьем параграфе второй главы. Сравнение
проводится с целью выбрать лучший метод извлечения информации и
мнений
для
основных
параметров
ресторана
(т.е.
наиболее
часто
встречающихся в отзывах). Показано, что на данном этапе (т.е. с имеющимся
размеченным корпусом) методы, основанные на правилах, являются
предпочтительными почти для всех параметров ресторанов.
Третья глава «Структура программного комплекса» посвящена описанию
программной реализации извлечения информации и мнений о ресторанах.
Она содержит описание архитектуры рекомендательной системы и того
места, которое занимает в ней реализованный программный комплекс. Кроме
того, приведена архитектура и алгоритм работы непосредственно системы
извлечения информации и мнений.
Заключение включает в себя основные выводы и направления будущей
работы.
Так, в результате проведенного исследования показано, что с помощью
данных, полученных на основе анализа корпуса, может быть повышена
эффективность работы системы в отношении некоторых параметров
ресторанов. Например, использование размеченного словаря тональностей,
словарей номинаций, предикативно-атрибутивных словарей и словаря
модификаторов приводит к повышению точности и средней взвешенной F1меры при извлечении мнений о качестве еды и обслуживания.
Что касается экспериментов с машинным обучением, в работе показано,
какие из классификаторов являются наиболее эффективными для извлечения
информации и мнений о ресторанах. Для большинства характеристик
ресторанов логистическая регрессия и линейный метод опорных векторов
оказываются
оптимальными
методами
классификации
отзывов
на
релевантные и нерелевантные относительно исследуемой характеристики.
Что касается классификации отзывов на категории по отношению к
исследуемой
характеристике,
ресторанов
наиболее
здесь
эффективным
для
большинства
становится
характеристик
мультиномиальный
наивный байесовский классификатор. Такие модели, как дерево решений и
случайный
лес,
напротив,
демонстрируют
худшие
показатели
для
большинства параметров ресторана в обеих задачах.
Направления будущей деятельности, помимо расширения размеченного
корпуса, включают в себя более детальную проработку возможностей
построения и использования семантических ресурсов, в частности, словаря
тональностей.
Основные результаты магистерской работы прошли апробацию на «2nd
Workshop on Social and Algorithmic Issues in Business Support: “Knowledge
Hidden in Text”» в рамках международной конференции «Language &
Technology Conference: Human Language Technologies as a Challenge for
Computer Science and Linguistics» (г. Познань, Польша, 2013 г.) и отражены в
следующей публикации автора:
Pronoza E., Yagunova E., Lyashin A. Restaurant Information Extraction for the
Recommendation System // Proceedings of the 6th Language Technology Conference: Human
Language Technologies as a Challenge for Computer Science and Linguistics, 2nd Workshop on
Social and Algorithmic Issues in Business Support: “Knowledge Hidden in Text”, 2013.
Дополнительные
исследования
возможных
методик
извлечения
информации прошли апробацию на международной конференции Mexican
International Conference on Artificial Intelligence (г. Мехико Сити, Мексика,
2013) и представлено следующей публикацией:
Pronoza E., Yagunova E. Business-Media Analysis for Information Extraction // Proceedings
of the 12th Mexican International Conference on Artificial Intelligence, 2013.
Download