Анализ тональности сообщений социальной сети TWITTER

МИНОБРНАУКИ РОССИИ ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Факультет информатики Кафедра теоретических основ информатики УДК 681.03 ДОПУСТИТЬ К ЗАЩИТЕ В ГАК Зав.кафедрой, доцент, к.т.н. А.Л.Фукс » 2013 г. « БАКАЛАВРСКАЯ РАБОТА АНАЛИЗ ТОНАЛЬНОСТИ СООБЩЕНИЙ СОЦИАЛЬНОЙ СЕТИ TWITTER по основной образовательной программе подготовки бакалавров 010400 — Информационные технологии Цветков Алексей Дмитриевич Руководитель ВКР М.С.Пожидаев « » 2013 г. Автор работы студент группы №1491 А.Д.Цветков Электронная версия бакалаврской работы помещена в электронную библиотеку. Файл Томск 2013 Реферат Выпускная квалификационная работа 31 с., 9 рис., источников 32. АНАЛИЗ ТОНАЛЬНОСТИ, МАШИННОЕ ОБУЧЕНИЕ, СОЦИАЛЬНЫЕ СЕТИ, TWITTER, PYTHON, DJANGO Объект исследования — методы автоматического определения тональности текста в сегменте микроблогов. Цель работы — исследование применимости методов машинного обучения к определению тональности в социальной сети Twitter. Результаты работы — реализованы алгоритмы классификации и представления данных, проанализированы результаты работы алгоритмов, реализован прототип вебприложения для поиска и анализа мнений. Дальнейшие исследования — поддержка русского языка, работа над дальнейшим улучшением качества работы, поддержка определения субъективности в тексте. 2 Оглавление Введение 4 1 Обзор предметной области 1.1 Терминология . . . . . . . . . . . . . . . . . . . . . . . 1.2 Задачи анализа тональности . . . . . . . . . . . . . . . 1.3 Проблемы автоматического определения тональности 1.4 Методы автоматического определения тональности . . . . . . . . . . . . . . . . . . 2 Определение тональности с помощью методов машинного 2.1 Задача классификации при обучении с учителем . . . . . . . 2.1.1 Представление данных . . . . . . . . . . . . . . . . . . 2.1.2 Определение качества работы классификатора . . . . 2.2 Алгоритмы классификации . . . . . . . . . . . . . . . . . . . . 2.2.1 Наивный Байесовский классификатор . . . . . . . . . 2.2.2 Классификация методом максимальной энтропии . . . 2.3 Оценка качества работы алгоритмов . . . . . . . . . . . . . . 2.3.1 Нормализация данных . . . . . . . . . . . . . . . . . . 2.3.2 Тестирование . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Улучшение точности работы алгоритмов . . . . . . . . . . . . 2.4.1 Выбор признаков . . . . . . . . . . . . . . . . . . . . . 2.4.2 Использование комбинированных моделей . . . . . . . 2.4.3 Использование дополнительных признаков . . . . . . . 3 Программная реализация 3.1 Структура пакетов . . . . . . . 3.2 Пакет Сlassifiers . . . . . . . . 3.2.1 Классификаторы . . . . 3.2.2 Выделители признаков 3.2.3 Предобработчики . . . 3.3 Пакет Twitter_API_Wrapper . 3.4 Веб-приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . обучения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 9 . . . . . . . . . . . . . 11 11 11 12 13 13 14 15 16 16 17 17 18 19 . . . . . . . 20 20 20 20 23 25 26 26 Заключение 29 Список литературы 30 3 Введение “Анализ тональности” (Sentiment Analysis) — класс методов анализа содержимого, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов по отношению к объектам, речь о которых идёт в тексте [1]. Мнения других людей влияли на наш процесс принятия решений ещё до распространения интернета. Однако, если раньше было возможным узнать мнение лишь у ограниченного числа знакомых, то в последнее десятилетие, в связи с ростом популярности сети интернет, всё большее значение приобретают отзывы, оставляемые пользователями в интернет-магазинах, блогах, социальных сетях, а также специализированных ресурсах (“Яндекс.Маркет”, “Кинопоиск”). Согласно опросу, проведённому компанией Dimensional Research [2], 88% опрошенных считают, что чтение положительных или отрицательных отзывов в интернете влияет на их решение при покупке товаров (что согласуется с данными, полученными при проведении аналогичного опроса в АиФ России [3]). Отзывы на качество обслуживания также непосредственно влияют на продажи: продажи интернет-магазинов с рейтингом “5 звёзд” на “Яндекс.Маркете” на 55% больше магазинов с рейтингом “4 звезды” [4]. Всё чаще пользователи оставляют отзывы не на специализированных сайтах отзывов, а в социальных сетях. Отзывы в социальных сетях оставляет на 10% большее число покупателей, чем на специализированных сайтах-агрегаторах [2]. Так как социальные сети содержат не только отзывы, а объём сообщений слишком велик для ручной обработки, актуальной является задача автоматического поиска и классификации отзывов. “Твиттер” (Twitter ) — одна из самых популярных социальных сетей. Число активных пользователей превышает 200 миллионов, и они оставляют более 400 миллионов сообщений в день [5]. Ограничение на длину сообщения (140 символов), большой набор используемой лексики, сленга и грамматических ошибок делают автоматический поиск и анализ мнений нетривиальной задачей. Методы машинного обучения применяются в задачах определения тональности уже долгое время [6], однако их применение в сегменте микроблогов началось сравнительно недавно [7]. Целью данной работы является исследование методов автоматического определения тональности на основе методов машинного обучения в социальной сети Twitter. Для достижения поставленной цели требуется: 1. Дать обзор существующим исследованиям в области анализа тональности. 2. Изучить и реализовать основные алгоритмы машинного обучения, используемые для решения задачи автоматического определения тональности. 3. Исследовать качество работы алгоритмов, выявить их достоинства и недостатки. 4. Создать веб-приложение для практического использования автоматического определения тональности в социальной сети Twitter. 4 1 Обзор предметной области 1.1 Терминология В рамках данной работы используются терминология предметной области, которую необходимо пояснить. “Анализ тональности” (sentiment analysis), “анализ мнений”(opinion mining) — названия предметной области. Объектом анализа тональности может являться любая сущность, относительно которой выражается мнение. Например, это может быть продукт, сервис, организация или событие. Объект может обладать множеством компонентов (составных частей) и атрибутов (свойств), вместе составляющих множество аспектов (features) [8]. Конкретная модель телефона — объект. Он состоит из компонентов (экран, аккумулятор, камера) и обладает набором атрибутов (качество передачи голоса, размер), которые вместе составляют множество аспектов. Мнение может быть выражено, как о самом объекте, так и о любом из его аспектов. В сообщении “Мне так нравится новый iPhone. Качество экрана просто потрясающее!” первое предложение выражает положительное мнение о самом объекте “iPhone”, а второе — о его аспекте “экран”. Автор мнения (opinion holder ) — человек или организация, которые выражают это мнение. Тональность мнения (opinion orientation) — эмоциональная оценка, даваемая автором мнения объекту и/или любому из его аспектов, например положительная или отрицательная . Строго говоря, тональность может принимать большее число значений, однако чаще всего используются именно эти классы. Часто в литературе можно встретить использование значения нейтральной тональности, однако его интерпретация неоднозначна. В некоторых работах [6] нейтральная тональность определяется, как промежуточное значение между положительной и отрицательной, а в некоторых, как отсутствие субъективной оценки. В данной работе автор работы придерживается последней интерпретации из-за трудности формализации промежуточного значения. Например, в высказывании “посредственный экран” оценка, даваемая автором мнения аспекту “экран”, является скорее негативной, несмотря на то, что слово “посредственный” определяется в словаре, как “ заурядный, средний” [9]. Моделью объекта 𝑜 называется конечное множество аспектов 𝐹 = {𝑓1 , 𝑓2 , . . . , 𝑓𝑛 }, которое включает в себя сам объект в качестве особого аспекта. Мнения делятся на два типа [8]: 1. Простое мнение (direct opinion). Простое мнение формально определяется, как кортеж ⟨𝐴, 𝑜, 𝑓, 𝑜𝑜, 𝑡, 𝑑⟩, где в документе 𝑑 автором мнения 𝐴 аспекту 𝑓 объекта 𝑜 дана оценка 𝑜𝑜 в момент времени 𝑡. Например, в высказывании “В Ubuntu очень красивый интерфейс” автор мнения дал положительную оценку “красивый” аспекту “интерфейс” объекта “Ubuntu”. 5 2. Сравнительное мнение(comparative opinion). Сравнительное мнение характеризуется тем, что автор 𝐴 предпочёл одному или нескольким объектам из множества 𝑂1 один или несколько объектов из множества 𝑂2 , давая сравнительную оценку 𝑜𝑜 их аспекту 𝑓 . Например, в высказывании “ Интерфейс Ubuntu проще Windows 8” автор мнения предпочёл объект “Ubuntu” объекту “Windows 8”, дав аспекту “интерфейс” сравнительную оценку “проще”. В работе также используется терминология, специфичная для Twitter. Микроблог (microblog) — аналог обычного веб-блога (интернет-дневника), с ограничением на длину сообщения (в Твиттере она составляет 140 символов). Твит (tweet) — сообщение пользователя в Твиттере. Может включать в себя текст, упоминание другого пользователя, гиперссылки и хештэги. Ретвит (retweet) — возможность скопировать сообщение другого пользователя в свою ленту (с сохранением авторства). Существует, две разновидности — нативный (предоставляемый платформой) и текстовый ( сообщение, начинающееся с “RT @имя_автора:”). Хештэг (hashtag) — это слово или фраза, которым предшествует символ #. Пользователи могут объединять группу сообщений по теме или типу с использованием хэштегов — слов или фраз, начинающихся с #. В Twitter в хештэгах можно использовать латинские и кириллические буквы, цифры и знаки подчёркивания, однако часто пользователи не используют знаки подчёркивания (“#отличныйдень”вместо “#отличный_день”). Упоминание (mention) — ссылка на другого пользователя. Начинается с символа @, после чего идёт никнейм другого пользователя, состоящий из символов латинского алфавита, цифр и знаков подчёркивания. Пользователям приходят уведомления, когда их кто-то упомянул. Иногда используется вместо хештэгов для группировки сообщений по темам (например, вместо “#microsoft” используется “@microsoft”). 1.2 Задачи анализа тональности Основные задачи, решаемые в области анализа тональности, включают в себя [6]: 1. Задача определения документов или частей документа, которые содержат в себе мнение (subjectivity detection). Для документов эта задача сводится к задаче бинарной текстовой классификации на классы субъективных ( содержащих мнение) и объективных (содержащих факты) документов. 2. Задача определения тональности. Чаще всего встречается определение тональности на уровне документа (document-level sentiment classification). Формально задача определяется так: из множества 𝐷 документов, содержащих мнения, для каждого 𝑑 ∈ 𝐷, который содержит высказывание об объекте 𝑜, необходимо определить тональность 𝑜𝑜 аспекта 𝑓 [10]. Также, определение тональности может быть осуществлено на уровне предложения (sentence-level sentiment classification) или аспекта ( feature-level sentiment classification). Существующие решения делают следующиее допущение: документ 𝑑, содержащий мнение, выражает мнение об одном объекте 𝑜, от одного автора 𝐴. В общем случае 6 автор документа может выражать мнение относительно нескольких объектов, однако в случае отзывов (и особенно в контексте Twitter) в большинстве случаев это допущение справедливо для простых (не сравнительных) мнений. Учитывая допущение, эта задача сводится к бинарной текстовой классификации на классы положительных (позитивных) и отрицательных (негативных) документов. 3. Наконец, необходимо представить информацию о мнениях в некоторой краткой сводке. Это может быть: ∙ Агрегация пользовательских оценок. ∙ Идентификация групп авторов, имеющих схожие мнения. ∙ Выявление пунктов согласия и противоречия. ∙ Статистическое или текстовое обобщение документов. Задачи 1 и 2 можно рассматривать, как задачи текстовой классификации. Решение этих задач можно получить с помощью иерархической бинарной классификации ( сначала документ классифицируется, как объективный или субъективный, затем субъективные документы — как положительные или отрицательные) или с помощью классификации документа по трём классам {положительный, нейтральный, отрицательный}. Задача определения тональности встречается чаще всего, поэтому далее в работе будет подразумеваться именно она. 1.3 Проблемы автоматического определения тональности Проблемы, возникающие при автоматическом определении тональности, можно разделить на общие и специфичные для микроблогов. Среди общих проблем можно выделить следующие: 1. Зависимость значения тональности от предметной области. Так, в области фильмов слово “непредсказуемый” может иметь положительный оттенок, однако в области клиентского обслуживания это не так. При использовании методов обучения с учителем, алгоритм классификации ( например, наивный Байесовский классификатор) сам формирует значения тональности из обучающей выборки, поэтому для правильной классификации достаточно, чтобы обучающая и тестовые выборки имели общую предметную область. На практике запросы пользователей не обязательно ограничены какой-либо одной областью, поэтому возможна категоризацая текста в два прохода: сначала осуществляется тематическая классификация документа, затем классификация тональности. 7 2. Использование отрицания может изменить тональность остальной части высказывания на обратную. Например, в высказывании “Раньше мне очень нравились смартфоны Nokia. Качество сборки в Lumia 800, действительно, на высоте. Однако, Windows Phone 7 всё портит”. В первом и втором предложении автор высказывает положительное мнение, но из-за использования отрицания в третьем предложении общая тональность относительно объекта “Nokia” отрицательная. Для методов машинного обучения, использующих модель типа “набор слов” (bag-ofwords), в качестве простой эвристики можно искусственно добавлять частицу “не” к соседним словам (к примеру, для высказывания “Мне не очень нравится камера iPhone” получится строка “Мне не не_очень не_нравится камера iPhone”), однако это не очень точное моделирование отрицания (кроме того, отрицание может быть выражено неявно). Исследования в данной области находятся на очень ранней стадии [11]. 3. Использование сарказма плохо поддаётся автоматическому определению. Высказывания, содержащие сарказм могут иметь общую тональность, обратную тональности отдельных слов (“Отличная книга для страдающих бессонницей!”), или выражать мнение в скрытой форме (вопрос “Где я?” в обзоре GPS-навигатора). В этом случае, сарказм может с трудом распознаваться даже людьми. В одной из последних работ в данной области авторам удалось добиться точности на уровне 78% на коллекции отзывов на товары, используя метод частичного обучения (semi-supervised learning) [12]. 4. Значение тональности зависит от того, кому необходимо провести анализ. Так, для компании Samsung высказывание “У Samsung показывает отличные продажи :)” несёт положительное значение тональности, а для компании Nokia — наоборот. К специфичным для Твиттера проблемам относятся: 1. Большой словарь употребимых слов. Как показывают исследования [13] , 93% встречающихся слов употребляются менее, чем 10 раз (78% на корпусе рецензий фильмов из IMDB). Это объясняется частым использованием сленга, намеренным и ненамеренным искажением написания слов, использованием разных регистров при написании одного и того же слова. 2. Малое количество слов в каждом сообщении. Из-за ограничения на длину сообщения, средняя длина сообщения на английском составляет 14 слов или 78 символов [7]. 3. Большие объёмы данных. Пользователи публикуют более 400 миллионов сообщений в день, 1% сообщений доступны всем желающим, 50% сообщений доступны для компаний-партнёров [14]. Даже 1% — это более 40 миллионов сообщений в день, что является достаточно большим объёмом для обработки локально. Так как все сообщения можно сначала обработать независимо, а затем агрегировать результаты, разумным может быть применение распределённых вычислений, к примеру, использование парадигмы MapReduce [15, 16]. 8 1.4 Методы автоматического определения тональности Основные подходы к определению тональности можно разделить на следующие категории [17]: 1. Подход, основанный на правилах (rule-based approach), заключается в применении набора правил, выявленного экпертами на основе анализа предметной области. Пример такого правила: Если высказывание содержит один или несколько положительных прилагательных из набора {“хороший”, “качественный”, “свежий” . . . } и не содержит прилагательных из набора {“бездарный”, “ужасный”, “жуткий” . . . }, то значение тональности “положительное”. Достоинства подхода: ∙ Может показывать хорошие результаты при большом наборе правил. Недостатки подхода: ∙ Создание большого набора достаточно трудозатрано. ∙ Применение этого подхода для микроблогов может быть проблематично из-за “зашумленности” данных. Более подробно определение тональности с помощью подходов, основанных на правилах, описано в [18, 19]. 2. Подход, основанный на использовании словарей оценочной лексики (affective lexicons). Для каждого слова, встречаемого в документе, из словаря получают значение тональности. Чтобы получить итоговую тональность необходимо взять среднее арифметическое или вычислить сумму значений тональности всех слов из документа. Достоинства подхода: ∙ Простота использования. Недостатки подхода: ∙ Не универсальность: для каждой предметной области требуется свой словарь. ∙ Создание такого словаря может быть проблематичным. Для английского языка в качестве SentiWordNet [20] или ANEW [21]. такого словаря можно использовать 3. Подходы, основанные на обучении с учителем (supervised learning). Обучение с учителем — один из разделов машинного обучения. Алгоритм классификации тренируется 9 на основе обучающей выборке (корпусе), состоящей из документов, классы которых заранее известны. Достоинства подхода: ∙ Хорошая точность при определении тональности. ∙ На основе обучающей выборки классификатор самостоятельно выделяет признаки, влияющие на тональность. Таким образом, проблема зависимости от предметной области решается с помощью использования обучающей выборки из той же области. ∙ Существует множество способов улучшить точность. Недостатки подхода: ∙ Требуется размеченная обучающая выборка. ∙ Результаты могут сильно зависеть от выбранного алгоритма, его параметров, обучающей выборки. 4. Подходы, основанные на обучении без учителя (unsupervised learning). Обучение без учителя является ещё одним из разделов машинного обучения. Отличие состоит в том, что в этом случае для тренировки алгоритма используется обучающая выборка, состоящей из документов, классы которых заранее неизвестны (или известны, но эта информация не используется алгоритмом). Достоинства подхода: ∙ Для обучения не требуется размеченная выборка. Недостатки подхода: ∙ Точность обычно значительно ниже, чем у алгоритмов, основанных на обучении с учителем. Так как подходы, основанные на обучении с учителем, показывают хорошие результаты при анализе традиционных блогов и сайтов рецензий, далее в работе даётся их подробное описание, описываются способы представления данных и улучшения точности работы алгоритмов, а также результаты работы в области микроблогов. 10 2 Определение тональности с помощью методов машинного обучения 2.1 Задача классификации при обучении с учителем В общем виде задача текстовой классификации определяется следующим образом [22]. Пусть существует описание документа 𝑑 ∈ X, где X — векторное пространство документов, и фиксированный набор классов C = {𝑐1 , 𝑐2 , . . . , 𝑐𝑚 }. Из обучающей выборки (множества документов с заранее известными классами) D = {⟨𝑑, 𝑐⟩ | ⟨𝑑, 𝑐⟩ ∈ X × C} с помощью метода обучения Γ необходимо получить классифицирующую функцию (или классификатор) Γ(D) = 𝛾, которая отображает документы в классы 𝛾 : X → C. В задаче определения тональности множество C состоит из двух элементов {положительный, отрицательный}. 2.1.1 Представление данных Все документы из обучающей и тестовой выборки представляют собой 𝑛-мерные признаковые векторы (англоязычное название feature vector, однако не стоит путать признаки с аспектами). В задачах обработки текста на естественном языке популярно представление документов в виде 𝑛-грамм, где 𝑛-граммы — последовательности слов длины 𝑛. Для 𝑛 = 1 такая последовательность состоит из одного слова и называется юниграммой (модель, которая использует представление в виде юниграмм называется “набор слов” (bag-of-words), так как слова рассматриваются независимо друг от друга). Для 𝑛 = 2 такая последовательность называется биграммой, и т.д. Например, для высказывания “Сегодня отличный день!” множество юниграмм будет состоять из элементов {“Сегодня”, “отличный”, “день!”}, а множество биграмм {“Сегодня_отличный”, “отличный_день!”}. Стоит отметить, что с ростом 𝑛, 𝑛-граммы всё точнее отражают оригинальный текст, а потому их ценность для моделирования произвольного текста падает (в задачах текстовой классификации редко используется 𝑛 > 3). Теоретически, использование биграмм даёт возможность моделировать значение тональности более точно: если рассматривать словосочетание “не нравится”, как набор независимых слов, то он содержит одно слово с отрицательной тональностью и одно с положительной, поэтому классификатор может посчитать, что общая тональность будет близка к нулевой. С другой стороны, маловероятно, что биграмма “не_нравится” будет использована в положительном контексте. Таким образом документ определяется как вектор 𝑑 = (𝑤1 , 𝑤2 , . . . , 𝑤|V| ), где V — множество всех уникальных термов из обучающей выборки. 𝑤𝑖 — вес i-го терма. Популярные способы взвешивания [23]: 1. Булевский вес — 𝑤𝑖 = 1 если терм присутствует в документе, иначе 0. 2. Количество вхождений i-го терма в 𝑑 𝑤𝑖 = 𝑛𝑖 11 (1) 3. Частота терма (TF — term frequency) — отношение числа вхождений i-го терма к общему количеству термов документа. 𝑛𝑖 𝑤𝑖 = 𝑡𝑓 (𝑡𝑖 , 𝑑) = ∑︀ 𝑛𝑘 (2) 4. TF-IDF (IDF — inverse document frequency, обратная частота документа) 𝑖𝑑𝑓 (𝑡, D) = log |D| |(𝑑𝑖 ⊃ 𝑡𝑖 )| 𝑤𝑖 = 𝑡𝑓 𝑖𝑑𝑓 (𝑡𝑖 , 𝑑, D) = 𝑡𝑓 (𝑡𝑖 , 𝑑) × 𝑖𝑑𝑓 (𝑡, D) (3) (4) где |D| — количество документов в корпусе, |(𝑑𝑖 ⊃ 𝑡𝑖 )| — количество документов, в которых встречается 𝑡𝑖 . 2.1.2 Определение качества работы классификатора Чтобы сравнивать алгоритмы классификации необходимо ввести меру оценки качества работы. Для этого необходима тестовая выборка с заранее известными классами. По результату работы обученного классификатора на тестовой выборке для каждого класса считаются следующие значения [24]: ∙ 𝑇 𝑃 — количество истинно-положительных результатов. ∙ 𝑇 𝑁 — количество истинно-отрицательных результатов. ∙ 𝐹 𝑃 — количество ложно-положительных результатов. ∙ 𝐹 𝑁 — количество ложно-отрицательных результатов. На основе этих значений считаются меры точности (precision) и полноты (recall ): 𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 (5) 𝑇𝑃 (6) 𝑇𝑃 + 𝐹𝑁 Их смысл в следующем: точность — доля результатов, которая действительно принадлежит данному классу, а полнота — процент найденных результатов от их общего числа. Так как при стремлении любой из этих величин к нулю, ценность классификатора падает, то для усреднения обоих значений определяется 𝐹1 -мера, как гармоническое среднее точности и полноты: 𝑅𝑒𝑐𝑎𝑙𝑙 = 2(𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙) (7) 𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑅𝑒𝑐𝑎𝑙𝑙 В отличии от среднего арифметического в случае, если 𝑃 𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 0, а 𝑅𝑒𝑐𝑎𝑙𝑙 = 1 (или наоборот), среднее будет равняться нулю, а не 12 . 𝐹1 = 12 Для того, чтобы избежать проблемы переобучения (overfitting), когда модель слишком хорошо работает на примерах, но плохо на реальных данных, для проверки модели используется метод перекрёстной проверки (cross-validation). Вся обучающая выборка делится на 𝑘-частей, затем ∀𝑖 ∈ {1, 2, . . . , 𝑘} алгоритм классификации обучается на на всей обучающей выборке, кроме части i, а тестируется на 𝑖-й части. Результатом работы считается среднее арифметическое по всем проходам. Часто значение 𝑘 принимают равным 5 или 10. 2.2 Алгоритмы классификации В рамках работы были реализованы два алгоритма классификации: наивный Байесовский классификатор и метод максимальной энтропии. Выбор алгоритмов обусловлен следующими факторами: ∙ Наивный Байесовский классификатор является одним из самых простых для реализации алгоритмов, который к тому же обладает высокой вычислительной эффективностью, как при обучении, так и при классификации. Однако, во многих случаях отмечается неоптимальность НБК на реальных задачах. ∙ Метод максимальной энтропии более сложен в реализации и вычислении, но теоретически может показывать лучшие результаты по качеству классификации. 2.2.1 Наивный Байесовский классификатор Наивный Байесовский классификатор основан на теореме Байеса [25]: 𝑃 (𝑐|𝑑) = 𝑃 (𝑑|𝑐)𝑃 (𝑐) 𝑃 (𝑑) (8) где ∙ 𝑃 (𝑐|𝑑) — апостериорная вероятность того, что документ 𝑑 принадлежит классу 𝑐. ∙ 𝑃 (𝑑|𝑐) — правдоподобие, вероятность встретить документ 𝑑 среди всех документов класса 𝑐. ∙ 𝑃 (𝑐) — априорная вероятность класса 𝑐. ∙ 𝑃 (𝑑) — априорная вероятность документа 𝑑. В качестве результирующего выбирается класс с максимальной апостериорной вероятностью: 𝑐 = argmax𝑃 (𝑐|𝑑) (9) 𝑐∈C Так как плотности распределения чаще всего неизвестны, производится их оценка по обучающей выборке. При этом оценка вероятности документа в обучающей выборке 𝑃 (𝑑) = 𝑐𝑜𝑛𝑠𝑡, а следовательно не влияет на классификацию. 𝑐 = argmax𝑃 (𝑑|𝑐)𝑃 (𝑐) 𝑐∈C 13 (10) Наивный Байесовский классификатор основан на дополнительном предположении о том, что классифицирующие признаки являются независимыми, поэтому условная вероятность документа 𝑃 (𝑑|𝑐) ≈ 𝑃 (𝑤1 |𝑐)𝑃 (𝑤2 |𝑐) . . . 𝑃 (𝑤|V| |𝑐), где 𝑤𝑖 ∈ 𝑑. 𝑃 (𝑐|𝑑) ≈ 𝑃 (𝑐) ∏︁|V| 𝑖=1 𝑃 (𝑤𝑖 |𝑐) (11) Для того, чтобы избежать переполнения снизу, обычно произведение логарифмируется (это изменяет численные значения вероятностных оценок, однако значение, при котором достигается максимум, сохраняется). 𝑃 (𝑐|𝑑) ∝ log 𝑃 (𝑐) + ∑︁|V| 𝑖=1 log 𝑃 (𝑤𝑖 |𝑐) (12) Вероятностные оценки определяются следующим образом: 𝑃 (𝑐) = D𝑐 |D| 𝑊𝑖𝑐 𝑃 (𝑤𝑖 |𝑐) = ∑︀|V| 𝑗=1 𝑊𝑗𝑐 (13) (14) где ∙ 𝑊𝑖𝑐 — количество раз сколько i-й терм встречается в документах класса c. ∙ D𝑐 — количество документов 𝑑 ∈ D класса c. Достоинства наивного Байесовского классификатора: ∙ Простота реализации. ∙ Быстрый процесс обучения. Вычислительная трудоёмкость обучения 𝑂(|D||V|). ∙ Несмотря на то, что предположение о независимости классификационных признаков не является верным в естественном языке (значение слова зависят от контекста), НБК часто показывает хорошие результаты при текстовой классификации [26]. Недостатки: ∙ Значения, возвращаемые при классификации, нельзя трактовать, как вероятности. Таким образом нельзя ответить на вопрос, с какой долей уверенности получился результирующий класс. ∙ Так как в естественном языке слова не являются независимыми, НБК не является оптимальным. 2.2.2 Классификация методом максимальной энтропии Для каждого признака 𝑤𝑖 и каждого класса 𝑐𝑖 ∈ C определим функцию {︃ 𝐹𝑖,𝑐𝑖 (𝑑, 𝑐) = 1 𝑤 𝑖 > 0 ∧ 𝑐 = 𝑐𝑖 0 𝑤𝑖 ≤ 0 ∨ 𝑐 ̸= 𝑐𝑖 14 (15) Оценка вероятности 𝑃 (𝑐|𝑑) определяется следующим образом: 𝑃 (𝑐|𝑑, 𝜆) = ∑︁ 1 exp 𝜆𝑖′ 𝐹𝑖′ ,𝑐 𝑍(𝑑) ′ 𝑖 (16) где 𝑍(𝑑) — функция нормировки: 𝑍(𝑑) = ∑︁ exp 𝑐′ ∈C ∑︁ 𝜆𝑖′ 𝐹𝑖′ ,𝑐′ (17) 𝑖′ 𝜆𝑖′ — вес i-го признака. Так как, в отличии от наивного Байеса, метод максимальной энтропии не делает никаких предположений об условной независимости признаков, то 𝜆𝑖′ необходимо восстанавливать из обучающей выборки. Это можно сделать, максимизировав функцию логарифмического правдоподобия: ∑︁ 𝐿(D, 𝜆) = log 𝑃 (𝑐|𝑑, 𝜆) (18) ⟨𝑑,𝑐⟩∈D Так как все значения 𝑃 (𝑐|𝑑, 𝜆) нормированы по единице, а логарифм является выпуклой функцией, то для максимизации можно воспользоваться методом градиентного подъёма. Достоинства метода: ∙ Из-за отсутствия предположений об условной независимости признаков теоретически может показывать лучшую производительность, чем НБК. Недостатки метода: ∙ Сложная реализация. Необходимо реализовать градиентный подъём, определить критерий сходимости, параметр шага. ∙ Обучение медленнее, чем в случае НБК. 2.3 Оценка качества работы алгоритмов Оценка алгоритмов в задаче определения тональности проводилась на основе тестирования на двух англоязычных размеченных корпусах: Sanders [27] и SemEval-2013 [28], из которых были удалены нейтральные твиты. Первый корпус содержит сообщения из области брендов, второй — из смешанных областей. Таблица 1 — Числовые характеристики корпусов. Корпус Полож. Отриц. Sanders 502 547 SemEval 3742 1565 Всего Юниграммы 1049 5425 5307 25538 15 Биграммы 12119 70775 2.3.1 Нормализация данных Перед проверкой алгоритмов необходимо нормализовать данные для уменьшение размерности и уменьшения “зашумленности” данных. В качестве способов нормализации использовались: 1. Приведение всех букв к нижнему регистру. 2. Замена всех гиперссылок на токен “URL”. 3. Замена всех упоминаний пользователей на токен “MENTION”. 4. Замена всех смайликов на токен “POSITIVE_SMILEY” или “NEGATIVE_SMILEY” в зависимости от тональности. Замена производилась с помощью регулярных выражений, список смайликов взят из Википедии [29]. 5. Удаление всех хештэгов. 6. Так как в современном английском не употребляются слова, в которых подряд идут три и более одинаковых символов, то все такие вхождения заменялись на два символа (“gooood” и “goood” заменяются на “good”). 7. Удаление символов пунктуации и замена непечатных символов (табуляции, перевода строки) на пробел. Таблица 2 — Количество n-грамм после нормализации. Корпус 𝑛 = 1 𝑛 = 2 Sanders 2871 9842 SemEval 12241 58486 2.3.2 Тестирование Тестирование проходило с помощью 10-кратной перекрёстной проверки путём усреднения результатов итераций и затем усреднения результатов по классам. Для сравнения был также использован словарный метод (использовался словарь [30], содержащий 6800 слов). Все алгоритмы были реализованы на языке программирования Python с применением библиотеки Numpy для быстрых векторных операций. Для градиентного подъёма в методе максимальной энтропии были вручную подобраны параметры для приемлемого соотношения между временем сходимости и качеством работы. Из-за времени занимаемого на каждую итерацию (более получаса) метод максимальной энтропии не был протестирован на корпусе SemEval. На корпусе Sanders наивный Байесовский классификатор показал значительное превосходство и над словарным методом, и над методом максимальной энтропии. ММЭ показал 16 Таблица 3 — Результаты тестирования. Классификатор Алгоритм N-грамм NaiveBayes MaxEnt Dictionry 1 2 1+2 1 2 1+2 Корпус Вес Count Count Count Boolean Boolean Boolean Sanders SemEval Precision Recall 𝐹1 Precision Recall 𝐹1 0.799 0.756 0.751 0.401 0.499 0.413 0.709 0.698 0.695 0.768 0.545 0.508 0.795 0.765 0.762 0.719 0.509 0.436 0.680 0.630 0.609 0.686 0.679 0.678 0.689 0.637 0.617 0.714 0.675 0.651 0.758 0.697 0.714 результаты на уровне словарного метода, при этом время его работы занимало существенно большее время. В целом, наилучшие результаты были достигнуты при использовании юниграмм и биграмм в качестве признаков и наивного Байеса в качестве классификатора. На корпусе SemEval Байесовский классификатор показал немного большую точность, однако значение полноты и 𝐹1 оказалось на целых 20% ниже, чем у словарного метода. Возможно это связано с тем, что сообщения в обучающей выборке сильно смещены в сторону положительного класса. Также стоит заметить, что если первый корпус состоит из сообщений одной области (бренды), то второй состоит из сообщений разных областей, поэтому свою роль могла сыграть зависимость от домена. 2.4 Улучшение точности работы алгоритмов Существует несколько способов улучшить качество работы алгоритмов машинного обучения. 2.4.1 Выбор признаков Выбор признаков (feature selection) в первую очередь используется для уменьшения размерности признакового пространства. Но так как в данных присутствует “шум” (очень редкие или наоборот очень частые слова, которые встречаются во всех классах), то уменьшение размерности может улучшить качество и скорость работы алгоритмов. Выбор признаков можно осуществлять с помощью следующих способов citewseas2005: 1. На основе частоты встречаемости слова. Самый простой метод: исключаем из признакового пространства все слова, которые встречались в обучающей выборке менее 𝑚 раз. Число 𝑚 подбирается экспериментально. 2. На основе взаимной информации (mutual information) [32]. Значение взаимной информации показывает взаимосвязь признака и класса. Для каждого класса берётся 𝑚 признаков с наибольшими значениями. 17 Для того, чтобы посчитать значение взаимной информации необходимо рассчитать следующие значения для каждого слова 𝑤𝑜𝑟𝑑 и для каждого класса 𝑐: ∙ 𝑁1,1 — сколько раз 𝑤𝑜𝑟𝑑 встречается в документах класса 𝑐. ∙ 𝑁0,1 — сколько раз другие слова встречаются в документах класса 𝑐. ∙ 𝑁1,0 — сколько раз 𝑤𝑜𝑟𝑑 встречается в документах других классов. ∙ 𝑁0,0 — сколько раз другие слова встречаются в документах других классов. ∙ 𝑁 = 𝑁1,1 + 𝑁0,1 + 𝑁1,0 + 𝑁0,0 Тогда значение взаимной информации считается по формуле: 𝑀𝑤𝑜𝑟𝑑,𝑐 = 𝑁1,1 𝑁 𝑁1,1 𝑁0,1 𝑁 𝑁0,1 𝑁1,0 𝑁 𝑁1,0 𝑁0,0 𝑁 𝑁0,0 log + log + log + log (19) 𝑁 𝑁1,. 𝑁.,1 𝑁 𝑁0,. 𝑁.,1 𝑁 𝑁1,. 𝑁.,0 𝑁 𝑁0,. 𝑁.,0 Индекс с точкой означает, что берётся сумма по значениям 0 и 1 вместо точки (𝑁1,. = 𝑁1,1 + 𝑁1,0 ). 3. На основе метрики Delta-Idf. Значение Delta-Idf следующим образом: 𝑉𝑡,𝑑 = log |𝑃 | |𝑁 | − log 𝑃𝑡 𝑁𝑡 (20) где ∙ 𝑃 — множество документов из обучающей выборки, класс которых положительный. ∙ 𝑃𝑡 — количество документов из 𝑃 , в которых встречается терм 𝑡. ∙ 𝑁 — множество документов из обучающей выборки, класс которых отрицательный. ∙ 𝑁𝑡 — количество документов из 𝑁 , в которых встречается терм 𝑡. В целом все методы показывают примерно одинаковые результаты. На корпусе SemEval при использовании наивного Байесовского классификатора с выбором 1000 признаков с максимальным значением Delta-Idf значение 𝐹1 составило 0.683, что лишь немногим хуже результата словарного метода. 2.4.2 Использование комбинированных моделей Идея использования комбинированных моделей (композиция классификаторов) состоит в том, что несколько более простых моделей могут давать более точные результаты, чем одна сложная модель. Один из популярных способов (bagging) заключается в том, что на частях обучающей выборки тренируется множество моделей, затем при классификации их результаты усредняются или берётся самый популярный результат. При усреднении для классификаторов могут использоваться разные веса. 18 2.4.3 Использование дополнительных признаков В качестве классификационных признаков можно так же использовать: ∙ Информацию о частях речи (так называемые, part-of-speech-теги (POS)-теги). ∙ Другие языковые модели (не n-граммы). ∙ Информацию из хештэгов. 19 3 Программная реализация 3.1 Структура пакетов Рисунок 1 — Диаграмма пакетов Весь проект реализован с использованием языка программирования Python. Программная реализация состоит из трёх частей: 1. Пакет Classifiers содержит классы и функции для работы с алгоритмами классификации, для выбора признаков, перекрёстной проверки, а также для работы с корпусами данных. 2. Пакет Twitter_API_Wrapper содержит класс-обёртку для доступа Twitter API. Использует библиотеку python-oauth2. 3. Веб-приложение Sentiment_WEB служит для поиска мнений в социальной сети Twitter. 3.2 3.2.1 Пакет Сlassifiers Классификаторы Все классификаторы наследуются от базового класса ClassifierBase. Он имеет ссылки на экземпляры подклассов PreprocessorBase (предобработчики) и FeatureExtractorBase (выделители признаков и выборщики признаков). Это удобно, так как для сохранения классификатора на диск (и для последующей загрузки) достаточно сериализовать один объект (сериализация осуществляется с помощью стандартной библиотеки pickle). В классе ClassifierBase определены следующие методы: learn(documents, labels) Процедура обучения. Принимает на вход массив документов обучающей выборки и массив соответствующих документам классов (классами могут быть как строки, так и числа). Определяется в наследниках. 20 classify_one(document) Функция классификации одного документа. Принимает на вход документ (строку), возвращает класс, предсказанный в соответствии с моделью. Возвращает класс с максимальным значением функции get_conditional_probability(document, class). classify_batch(documents) Функция классификации множества документов. Принимает на вход массив строк, возвращает массив классов. get_conditional_probability(document, class) Возвращает вероятность того, что документ принадлежит классу в соответствии с параметрами модели. Определяется в наследниках. get_encoded_labels(labels) Кодирует классы обучающей выборки в диапазон числами от 0 до 𝑛 − 1 (𝑛 — число уникальных классов). В классе ClassifierBase определены следующие поля: preprocessor Предобработчик нормализует документ. feature_extractor Выделитель признаков преобразует строку в признаковый вектор). class_index Ассоциативный массив. Ключ — оригинальный класс, значение — индекс от 0 до 𝑛 − 1. classes Массив уникальных классов. 21 Рисунок 2 — Диаграмма классов классификаторов 22 3.2.2 Выделители признаков Классификаторы работают с векторным представлением документа. Подклассы класса FeatureExtractorBase преобразовывают текстовый документ в признаковый вектор (массив). В нём определены следующие методы: learn(documents, labels) Процедура обучения. Определяется в потомках. extract(document) Функция извлечения признаков. Принимает на вход строку, возвращает признаковый вектор (массив). get_feature_count() Возвращает размер признакового вектора. Выбор признаков осуществляется с помощью подкласса FeatureSelectorBase, который является декоратором FeatureExtractorBase. Таким образом, очень просто добавить или убрать отбор признаков (классификатор не знает, с чем он работает). Извлечение n-грамм осуществляется с помощью подкласса NgrammFeatureExtractor. В конструкторе ему передаётся массив требуемых n (можно использовать 1-граммы, 2граммы и т.д. вместе или по-отдельности). Подклассы NgrammFeatureExtractorBoolean и NgrammFeatureExtractorCount отличаются способом определения веса у признаков. 23 Рисунок 3 — Диаграмма классов для выделителей признаков 24 3.2.3 Предобработчики Предобработчики выполняют нормализацию текста. Во всех подклассах PreprocessorBase определён метод preprocess, который получает на вход строку, применяет к ней нормализующее действие, и возвращает нормализованную строку. Для возможности гибкого изменения порядка нормализации все атомарные действия реализованны отдельными классами, которые объединяются с помощью компоновщика CombinedPreprocessor. Рисунок 4 — Диаграмма классов для предобработчиков 25 3.3 Пакет Twitter_API_Wrapper Рисунок 5 — Диаграмма классов клиента для Twitter 3.4 Веб-приложение Веб-приложение было разработано при помощи веб-фреймворка Django. Интерфейс разработан с помощи css-фреймворка ZURB Foundation. На главной странице пользователь может ввести название сущности, интересующей его. Рисунок 6 — Главная страница приложения После того, как пользователь кликнул на кнопку поиска, происходит ajax-запрос к серверу. Сервер возвращает уже классифицированные сообщения в формате JSON. По умолчанию показываются последние 400 сообщений. 26 Рисунок 7 — Вкладка сообщений. Сообщения, имеющие отрицательную тональность подсвечены красным, положительную — зелёным, нейтральную — тёмно-синим. На вкладке “Statistics” (статистика) отображается количество сообщений каждой категории, а также круговая диаграмма для того, чтобы быстро оценить общее мнение об объекте поиска. Рисунок 8 — Вкладка статистики 27 На вкладке “Summary” (сводка) отображаются два облака слов — положительное (популярные слова, употребляющиеся в позитивном контексте) и отрицательное. Размер слова пропорционален логарифму частоты употребления. Рисунок 9 — Вкладка сводки 28 Заключение В рамках данной работы достигнуты следующие результаты: 1. Была изучена предметная область анализа тональности, был дан обзор современным исследованиям и задачам этой области, а также существующим методам решения. 2. Было реализовано несколько популярных алгоритмов машинного обучения для определения тональности текста. Проведено исследование их работы в области микроблогов, проанализированы их достоинства и недостатки. В целом, наивный Байесовский классификатор при совместном использовании юниграмм и биграмм в качестве классификационных признаков показал лучшие результаты, чем словарный метод определения тональности. 3. Автором разработано веб-приложения для поиска и анализа мнений в социальной сети Twitter. Приложение может использоваться для повышения эффективности при анализе мнений в социальных медиа (например, при проведении социологических опросов или маркетинговых исследований). 4. Был получен опыт работы с Twitter API. Были выявлены следующие возможности для дальнейшей работы: 1. Добавление поддержки русского языка. Для этого необходимо собрать размеченную обучающую выборку (никаких изменений в код вносить не придётся). 2. Исследование использования ансамблей моделей для определения тональности. 3. Исследование обнаружения субъективности в тексте. Так как не все сообщения содержат субъективную оценку, то просто классификация всех сообщений на положительные и отрицательные будет давать неверные результаты. Просто текстовая классификация на основе n-грамм работает с высокой точностью, но низкой полнотой. 4. Использование информации из хештегов может дать дополнительный прирост качества (в настоящий момент они удаляются, чтобы не создавать “шум”). Для этого необходимо научиться корректно разбивать хештеги на слова. 5. Автоматическая коррекция ошибок в написании слов может улучшить результаты классификации и уменьшить размерность. 29 Список литературы 1. Википедия. Анализ тональности текста. — http://ru.wikipedia.org/wiki/анализ_тональности_текста 2. The Impact Of Customer Service On Customer Lifetime Value. — http://www.zendesk. com/resources/customer-service-and-lifetime-customer-value 3. Любителей покупать в интернете не отвадить обманом. — http://www.aif.ru/mymoney/ article/54692 4. Как отзывы на Яндекс.Маркет влияют на продажи. — http://www.medianation.ru/ blog/kak-otzyvy-na-yandeks-market-vliyayut-na-prodazhi.php 5. Аудитория Twitter выросла на 60 миллионов человек за год. — http://lenta.ru/news/ 2013/03/21/twohundred/ 6. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval, v.2 n.1-2, January, 2008 - pp.1-135. 7. Go A., Bhayani R., Huang L. Twitter Sentiment Classification using Distant Supervision // Processing , 2009, pp.1-6 . 8. Bing Liu. Sentiment Analysis: A Multi-Faceted Problem // IEEE Intelligent Systems, 2010 9. Викисловарь. Посредственный — http://ru.wiktionary.org/wiki/посредственный 10. Bing Liu. Sentiment Analysis and Subjectivity // Handbook of Natural Language Processing, 2010 11. Wiegand M., Balahur A., Roth B., Klakow D., Montoyo. A. A Survey on the Role of Negation in Sentiment Analysis // Workshop on Negation and Speculation in Natural Language Processing, 2010 12. Oren T., Dmitry D., Ari R. ICWSM – A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews // AAAI Conference on Artificial Intelligence, 2010 13. Saif H., He Y., Alani H. Alleviating Data Sparsity for Twitter Sentiment Analysis // Workshop on Making Sense of Microposts, 2012 14. Twitter Streaming API — https://dev.twitter.com/docs/streaming-apis 15. Lin J., Kolcz A. Large-Scale Machine Learning at Twitter // ACM SIGMOD International Conference on Management of Data, New York, 2012 16. Basic sentiment analysis using MapReduce — http://www.alex-hanna.com/tworkshops/ lesson-6-basic-sentiment-analysis/ 17. Обучаем компьютер чувствам (sentiment analysis по-русски) — http://habrahabr.ru/ post/149605/ 30 18. Kan D. Rule-based approach to sentiment analysis // Sentiment Analysis Track at ROMIP, 2011 19. Паничева П. Сиcтема cентиментного анализа ATEX, оcнованная на правилах, при обработке текcтов различных тематик // Sentiment Analysis Track at ROMIP, 2012 20. SentiWordNet — http://sentiwordnet.isti.cnr.it/ 21. Affective Norms for English Words (ANEW) — http://csea.phhp.ufl.edu/media/ anewmessage.html 22. Manning D., Raghavan P., Schütze H. Introduction to Information Retrieval // Cambridge University Press, 2008 23. Википедия. Векторная модель — http://ru.wikipedia.org/wiki/Векторная_модель 24. Оценка классификатора (точность, полнота, F-мера) — http://bazhenov.me/blog/ 2012/07/21/classification-performance-evaluation.html 25. Наивный байесовский классификатор — http://bazhenov.me/blog/2012/06/11/ naive-bayes.html 26. Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques // ACL-02 conference on Empirical methods in natural language processing, 2002, v. 10, pp. 79-86 27. Twitter Sentiment Corpus — http://www.sananalytics.com/lab/twitter-sentiment/ 28. SemEval-2013 — http://www.cs.york.ac.uk/SemEval2013-2013/task2/ 29. Wikipedia. List of emoticons — http://en.wikipedia.org/wiki/List_of_emoticons 30. Opinion Lexicon — http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html# lexicon 31. Ikonomakis M., Kotsiantis S., Tampakas V. Text Classification Using Machine Learning Techniques // WSEAS TRANSACTIONS on COMPUTERS, Iss. 8, Vol. 4, 2005, pp. 966974 32. Взаимная информация feature-selection.html — http://bazhenov.me/blog/2012/12/10/ 31

Анализ тональности сообщений социальной сети TWITTER

Products

Support

Анализ тональности сообщений социальной сети TWITTER

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib