Linis-crowd.org: лексический ресурс для анализа тональности

advertisement
Компьютерная лингвистика и вычислительные онтологии
25
Linis-crowd.org: лексический ресурс для анализа
тональности социально-политических текстов
на русском языке
С. В. Алексеева, С. Н. Кольцов,
О. Ю. Кольцова
Национальный исследовательский университет «Высшая школа
экономики»- Санкт-Петербург
{salexeeva, skoltsov, ekoltsova}@hse.ru
Аннотация
Автоматическая оценка тональности больших массивов текстов
является важной задачей для социальных наук. В статье описываются
методика и промежуточные результаты создания инструментов для
такого анализа, а именно: общедоступного тонального словаря,
общедоступной тестовой коллекции с разметкой и краудсорсингового
веб-ресурса для разметки.
Словарь создавался в два этапа. Сначала был сформирован прототип
словаря эмоционально окрашенных слов, предназначенный для
дальнейшей разметки добровольцами. Различные лингвистические
источники и техники, использованные для этого, описываюстя в данной
работе. Второй этап был посвящен формированию выборки текстов
социально-политической направленности, относительно которых
волонтеры определяют силу эмоциональной оценки отобранных слов;
также размечаются и сами тексты. Разметка тональности
осуществляется на ресурсе http://linis-crowd.org.
Ключевые слова: Словарь тональной лексики, веб-интерфейс,
краудсорсинг тональной разметки, российская блогосфера, «Живой
журнал», размеченная коллекция, тематическое моделирование
1. Введение
Тональный анализ (Сентимент-анализ) или автоматизированный анализ
эмоциональной окрашенности текстов (плохо / хорошо, нравится / не нравится
и др.) можно отнести к области компьютерной лингвистики, однако, задачи его
применения, в основном, лежат за пределами собственно лингвистики [1]. Их
можно разделить на две обширные области: маркетинг (в первую очередь — как
анализ отзывов на товары и услуги) и социология / политология. Последняя
включает, во-первых, анализ текстов СМИ для выявления того, как те или иные
социально значимые вопросы преподносятся аудитории и, соответственно,
Сборник научных статей XVIII Объединенной конференции «Интернет и
современное общество» IMS-2015, Санкт-Петербург, 23-25 июня 2015 г.
© Университет ИТМО
26
Компьютерная лингвистика и вычислительные онтологии
какого отклика можно ожидать на них от публики. Во-вторых, это исследование
текстов социальных медиа: блогов, социальных сетей, форумов, а также другого
пользовательского контента с целью выявления общественного мнения или,
более точно, его части, представленной в интернете. Этот последний компонент
является главной целевой областью знания настоящего проекта; во вторую
очередь проект обращает внимание на анализ СМИ.
На сегодняшний день существует два основных подхода к автоматическому
определению тональности текстов: (1) словарный и (2) не использующий
словарь. Последний, применяющий различные методы автоматической
классификации на основе обучающих коллекций, удобен тогда, когда такие
коллекции доступны в избытке (напр., отзывы на товары с общей позитивной /
негативной оценкой товара). В англоязычной сфере создано большое
количество текстовых коллекций [1], среди которых особо можно выделить
Blog06
(http://ir.dcs.gla.ac.uk/test_collections/blog06info.html)
университета
Глазго, который сконцентрирован на блогах разной тематики. В русском
сегменте, насколько нам известно, в свободном доступе находится только
коллекция прямой и косвенной речи новостных текстов, созданная РОМИП
(http://romip.ru/ru/collections/index.html), но она непригодна к исследованию
эмоциональной составляющей текстов блогов. В отсутствии необходимого
количества коллекций текстов с проставленной тональной окраской мы
обратились к словарному подходу.
Для английского языка словарный подход успешно применяется в системе
SentiStrength (http://sentistrength.wlv.ac.uk/), созданной М. Фелволом в
университете Вулверхемптона (Великобритания). Данное ПО специально
предназначено для анализа социальных медиа. Кроме того, в английском
сегменте доступны обширные словари, такие как OpinionFinder
(http://mpqa.cs.pitt.edu/opinionfinder/)
и
SentiWordNet
(http://sentiwordnet.isti.cnr.it/). Для русского языка нам известен словарь
И. Четверкина
и
Н. Лукашевич
[2]
(http://www.cir.ru/SentiLexicon/ProductSentiRus.txt),
представляющий
собой
список из 5000 оценочных слов, извлеченных из коллекций отзывов в
нескольких предметных областях (фильмы, книги, игры, телефоны, камеры).
Словарь был разработан исследователями для соревнования РОМИП по
тональному анализу отзывов. Как видно из описания, он создан прежде всего
для выявления предпочтений в маркетинговых исследованиях, а не для анализа
общественного мнения в текстах социально-политической направленности.
Таким образом, целью данного исследования является разработка
тонального словаря и краудсорсингового веб-ресурса для создания
инструментов сентимент-анализа. Тональный словарь – это список слов,
каждому из которых присвоен «вес», описывающий его эмоциональную
окраску. Такие словари используются в программном обеспечении, которое
находит соответствующие слова в текстах и на основе усреднения их весов
определяет общую тональность текста. Точность (качество) работы такого ПО и
такого словаря проверяется путем сравнения его результатов с результатами
работы людей. Тогда как создаваемый веб-ресурс применим для любых видов
тональной разметки, словарь в данном проекте создается и «настраивается»
специально для анализа пользовательского интернет-контента социально-
Компьютерная лингвистика и вычислительные онтологии
27
политического содержания. Конечной целью использования такого словаря в
дальнейшем является изучение общественного мнения интернет-аудитории.
2. Разработка тонального словаря
Составление тонального словаря какого-либо языка требует вычленения
эмоционально окрашенных слов из всех слов данного языка, что в полном
объеме невыполнимо, поскольку любой развитый язык насчитывает несколько
сотен тысяч слов. Здесь возможно несколько альтернативных стратегий:
использование уже накопленных знаний о языке vs. создание собственных;
опора на мнение экспертов vs. сбор представлений о языке «простых»
носителей. В данной работе было выбрано сочетание этих стратегий: на первом
этапе собирался прототип словаря, куда «с запасом» включались потенциально
окрашенные слова; на втором этапе прототип размечался добровольцами, по
три человека на каждое слово.
2.1. Прототип словаря: потенциально окрашенные слова, без привязки к
текстам социально-политической направленности.
На первом этапе мы использовали уже имеющиеся сведения о тонально
окрашенных словах. В силу того, что оценочные значения чаще всего
выражаются в языках при помощи признаковых слов (прилагательных и
наречий), мы начали поиск потенциально окрашенных слов с частотного
словаря прилагательных, созданного Лабораторией цифрового общества
(http://digsolab.ru) на основе обширной коллекции русскоязычных текстов
Фэйсбука в рамках сотрудничества с Лаборатории интернет-исследований
(ЛИНИС) НИУ ВШЭ. Данный список содержал 14933 прилагательных,
встретившихся в коллекции не менее 1000 раз. Полученные прилагательные
были размечены тремя кодировщиками ЛИНИС с точки зрения наличия
эмоционального компонента (по 1/3 списка на каждого кодировщика). В конце
мы получили список из 3293 прилагательных, которые кодировщики посчитали
отрицательно/положительно
окрашенными
или
передающими
усиление/уменьшение эмоции.
Затем словарь прилагательных из социальной сети Фэйсбук был дополнен
следующими данными:
− 2310 наречий, полученных из прилагательных, уже содержащихся в
списке. Добавление наречий было сделано автоматически. От
прилагательных отрезалось окончание (-ий, -ый, -ой) и добавлялись
окончания наречий (-о, -е, -и). Затем полученные слова проверялись при
помощи
морфоанализатора
pymorphy2
(https://pymorphy2.readthedocs.org/en/latest/user/guide.html#id2):
если
слово присутствовало в словаре, используемом в анализаторе (т.е. было
реальным наречием), оно добавлялось в список;
− Словарь И. Четверкина и Н. Лукашевич [2]. Словарь находится в
свободном
доступе
по
адресу:
http://www.cir.ru/SentiLexicon/ProductSentiRus.txt;
− 53 междометия были взяты из Объяснительного словаря русского языка [3];
28
Компьютерная лингвистика и вычислительные онтологии
1213 слова были добавлены из словаря, составленного Ю. В. Павловой
[4] на основе перевода англоязычного словаря, поставляемого с ПО
SentiStrength (http://sentistrength.wlv.ac.uk) [5]. SentiStrength – программа
оценки силы положительных и отрицательных настроений,
ориентированная на работу с краткими интернет-сообщениями,
публикуемыми в социальных сетях (MySpace, Twitter), которые во
многих отношениях сходны с текстами блогосферы, в первую очередь с
комментариями к постам.
Таким образом, предварительный итоговый словарь потенциально
окрашенных тональных слов, составленный из различных источников состоит
из 11869 лексических единиц, включая повторяющиеся слова.
−
2.2. Тональный словарь, ориентированный на тексты социальных медиа
Данные блог-платформы "Живой Журнал".
На этом этапе была сформирована коллекция документов, посвященных
социально-политической тематике, используемая в данном проекте с тремя
целями: как источник специфичных для данной предметной области тональных
слов, как источник контекста этих слов, облегчающий разметку (особенно в
случаях полисемии), и как источник тестовой коллекции, на которой будет
проверяться качество словаря и которая будет размечаться в 2015 году на вебресурсе.
В качестве источника данных использовались записи блог-платформы
Живой Журнал. В ЛИНИС было разработано программное обеспечение
BlogMiner (http://linis.hse.ru/soft-linis), позволяющее закачивать посты и
комментарии из Живого Журнала. На протяжение года (с марта 2013 по март
2014) в Лаборатории велась постоянная еженедельная закачка постов и
комментариев 2000 самых популярных блогеров из Живого Журнала (по
рейтингу «Социальный капитал», предоставляемому ЖЖ) в реляционную базу
MS SQL server. В данной работе были использованы посты за весь год в размере
порядка 1.5 млн. единиц. Период в один год был взят для того, чтобы
компенсировать наличие узких событийно-зависимых тем, которые могли бы
служить источником слишком специализированных слов. Топовые блогеры
были взяты, поскольку из предыдущих исследований известно [6], что они не
отличаются от обычных по тематике, однако данные их блогов гораздо менее
разрежены и гораздо менее зашумлены спамом.
Тематическое моделирование.
Вычленение группы текстов социально-политической тематики для
последующего отбора специфичных для них тональных слов возможно
несколькими способами: заимствование записей из созданных кем-то рубрик,
либо по тэгам, либо с помощью ручной разметки, либо с помощью
автоматического выделения релевантных текстов – например, с помощью
кластерного анализа или вероятностных алгоритмов, включая тематическое
моделирование. Поскольку представления создателей рубрик и тэгов о границах
социально-политического не известны, автоматические методы наиболее
подходят для самостоятельного извлечения релевантных тем из больших
коллекций текстов. Мы предпочли тематическое моделирование кластерному
Компьютерная лингвистика и вычислительные онтологии
29
анализу, так как оно создает нечеткие множества текстов, которые можно
отсортировать по релевантности.
Тематическое моделирование проводилось при помощи программного
обеспечения TopicMiner (http://linis.hse.ru/soft-linis), также разработанного в
Лаборатории интернет-исследований. Суть тематической модели заключается в
следующем. В компьютерной лингвистике под темой понимается совокупность
слов, которые имеют тенденцию встречаться совместно в одних и тех же
текстах. Хотя это упрощенное понимание темы, результаты ее применения – а
именно группы сходных текстов – многократно проверялись на предмет
интерпретируемости людьми, и демонстрировали хорошее качество. Такая
интерпретация темы позволяет сформулировать лингвистическую модель
генерации контента документов коллекции, и на основании модели разработать
алгоритм вычисления распределения документов и слов по темам. На данный
момент разработано множество различных вариантов тематических моделей
(Latent Dirichlet Allocation, LDA), однако они базируются на двух основных
вариантах: 1. Вариационная модель [7]. 2. Сэмплирование Гиббса [8]. В LDA
предполагается, что существует конечное множество скрытых тем T, и
коллекция документов порождается дискретным распределением p(d,w, t), где d
- документ, w - слово, t - тема. Переменные d и w являются наблюдаемыми
переменными в коллекции документов, а переменная t — скрытой, т. е.
появление каждой пары (d, w) связано с некоторой неизвестной темой t.
Построить тематическую модель коллекции — означает найти множество
скрытых тем T, и определить условные распределения p(w| t) ≡ φ(w,t) для
каждой темы t и p(t | d) ≡ θ(t,d) для каждого документа d. Таким образом, φ(w,t)
- представляет собой матрицу, в которой набор уникальных слов имеет разные
вероятности принадлежности к темам, θ(t,d) - представляет собой матрицу в
которой набор документов имеет разные вероятности по темам. В рамках
данной работы использовалась процедура сэмплирования Гиббса [8] для
нахождения распределений документов и слов по темам по заданной коллекции
документов. Выбор этой методики обусловлен вычислительной простотой.
Существует множество различных программных средств для проведения
тематического моделирования [9]. Однако, как показывает анализ этих средств
[10], как правило в них отсутствует что-либо, кроме вычислительного ядра
(препроцессинг, интерфейс и др.), и они либо не справляются с большими
объемами, либо требуют развертывания кластера. Поэтому был выбран
программный продукт собственной разработки TopicMiner (разработчики С.Н.
Кольцов, В.Г. Филипов) [10, 11], способный работать с большими данными на
персональном компьютере и имеющий все необходимые модули: модуль
препроцессина, модуль тематического моделирования и модуль анализа
результатов.
Препроцессинг данных. Проведенный препроцессинг включил в себя
следующие процедуры: удаление html-тэгов, лемматизация (приведение всех
слов к начальной форме), удаление стоп-слов (слов, не несущих в себе смысла и
не влияющих на его тематику, для чего в ЛИНИС составлен и постоянно
корректируется список), подсчет частот слов (лемм), удаление слишком частых
и слишком редких слов, не имеющих дискриминирующей силы, конвертация
текстов в векторный формат. Последняя основана на векторной модели текста
30
Компьютерная лингвистика и вычислительные онтологии
[12] и предполагает представление текста в виде набора значений частот всех
слов коллекции, где частота – это количество раз, которое данное слово
встретилось в данном тексте.
Тематическое моделирование. Входными параметрами для сэмплирования
Гиббса являются: число тем, параметры описывающие распределения Дирихле
(α,β), число итераций сэмплирования. Результатами моделирования являются
две матрицы: (а) матрица φ(w,t) распределение слов по темам; (б) матрица θ(t,d)
- распределение документов по темам. В каждой ячейке матрицы находятся
вероятности принадлежности слов/документов к теме. Число тем было выбрано
равным 300 на основании предыдущего опыта, показавшего, что на больших
коллекциях число тем в 100 и меньше приводит к излишне укрупненным темам,
с большой долей мало релевантных текстов. Параметры распределения были
заимствованы из [8] и равны 0,1 и 0,5 соответственно. Число итераций
подбиралось экспериментально на основе графика сходимости алгоритма и
равно 300.
Отбор документов социально-политической направленности.
Таким образом, в ходе тематического моделирования нами были получены
две матрицы: матрица, содержащая распределения слов по темам, и матрица
распределений документов по темам, при этом каждый столбец матриц означает
отдельную тему. Элементы матриц в каждой теме были отсортированы по
убыванию. Поскольку величины вероятностей в каждой теме падают
достаточно быстро, нами были выделены 100 наиболее вероятностных
документов по каждой теме и 200 наиболее вероятностных слов. Эти две
матрицы были переданы трем кодировщикам, которые определяли, какие из 300
тем являются социально политическими. В результате кодирования было
отобрано 104 социально-политических темы. Тема считалась социальнополитической, если ее отобрали как минимум два из трех кодировщика.
Согласованность (Inter-Rater Agreement) между тремя кодировщиками
составляет 0.578. Расчет проводился при помощи Online calculator for inter-rater
agreement with multiple raters: https://mlnl.net/jg/software/ira/. Это довольно
низкий показатель для простых задач, но для задач вычленения тем из
пользовательского контента он редко бывает выше, поэтому и использовалось
согласие хотя бы двух кодировщиков.
Несмотря на то, что в выборе тем, относящихся к социально-политической
тематике мы использовали 100 наиболее вероятностных документов по и 200
наиболее вероятностных слов по каждой теме, для дальнейшей работы внутри
выбранных тем мы выбирали документы, чьи вероятности принадлежности к
социально-политической тематике были не меньше величины 0.1 (средняя
величина вероятности равна 0,03). Таким образом, при выбранном пороге
вероятности 0.1, из всего массива документов (1.5 миллиона документов) у нас
получилось 70710 наиболее вероятностных текстов социально-политической
направленности.
Формирование окончательного списка потенциально окрашенных слов.
В дополнение к вычленению социально-политических тем лингвистом
проекта были выделены девять тем, которые можно назвать темами,
Компьютерная лингвистика и вычислительные онтологии
31
связанными с высказыванием мнения или эмоций. Такие темы формируются
алгоритмом не вокруг предметных областей, а вокруг эмоциональной или
оценочной лексики, потому что такая лексика часто встречается в текстах
вместе; объект же, на который она направлена, может быть разным, в том числе
и политическим. Такая лексика не специфична для социально-политической
тематики, но передает эмоциональную оценку, поэтому ее было решено
включить в прототип словаря.
Таким образом, по итогам тематического моделирования мы сформировали
три следующих списка слов:
Ниже приведен пример оформления списка:
− частотный список всех слов коллекции из 70710 социальнополитической тематики, приведенных в нормализованную форму;
− список, содержащий в себе по 200 наиболее вероятностных слов из
каждой из 104 социально-политических тем; после удаления
дублирующихся слов из 20800 единиц в нем осталось 8152 слова;
− список, содержащий в себе по 200 наиболее вероятностных слов из
каждой из девяти тем, которые были признаны темами, связанными с
высказыванием мнения или эмоций (752 слова).
Далее, мы пересекли частотный список слов из коллекции социальнополитических текстов с остальными списками, чтобы найти слова для
прототипа словаря, которые присутствуют в отобранных текстах. Причем, для
каждого найденного слова было указано из какого/каких источника/источников
«пришло» слово. Т.о. для каждого слова, встречающегося хотя бы в одном из
списков, мы получили информацию о том, в каком еще списке (списках) оно
встречается. В конечный прототип словаря были сразу взяты все слова,
встречающиеся не менее чем в двух источников. Исключение было сделано для
топ-слов социально-политических тем (как специфичных для данной области):
все найденные в частотном списке слова из 200 наиболее вероятностных слов
по каждой из 104 социально-политических тем добавлялись в окончательную
версию словаря, даже если в остальных источниках они не были представлены.
Затем мы просмотрели все слова, которые содержались только в одном
источнике (за исключением слов, полученных из 200 самых вероятностных слов
к каждой теме) и вручную исключили те, которые сочли нерелевантными. В
основном это были слова из словаря И. Четверкина и Н. Лукашевич. Это
словарь был составлен на основе отзывов, поэтому в него вошли такие не
относящиеся к социально-политической сфере слова, как аккумулятор,
диагональ, панель. Помимо этого, мы просмотрели первые 3500 слов из
оставшейся части частотного списка и отобрали еще 545 потенциально
тонально окрашенных слов, а остальные, включая все, оказавшиеся за
пределами 3500, исключили. После этих операций сумма размеров всех списков
оказалась равной 12612, однако поскольку большая часть слов встречалась в
нескольких списках, дубликаты были удалены.
В итоге в окончательно версии словаря потенциально окрашенных
лексических единиц содержится 9539 единиц.
На основании списка потенциально окрашенных слов и коллекции
документов, мы сопоставили каждому слову из словаря по три разных текста
социально-политической тематики. Для этого из всех 70710 текстов, в которых
32
Компьютерная лингвистика и вычислительные онтологии
встретилось данное слово, выбирались три текста с максимальной вероятностью
принадлежности к какой-либо социально-политической теме. В финальную
коллекцию документов вошло 28617 документов и словарь в размере 9539
лексических единиц.
Для успешной разработки ПО для определения общественного мнения
необходимо
понимать,
какую
именно
эмоцию
(хорошо/плохо,
усиление/уменьшение) передают отобранные слова в текстах социальнополитической направленности. Чтобы получить тональную разметку мы
разработали веб-ресурс http://linis-crowd.org, на котором методом краудсорсинга
[13, 14] в настоящее время проводится разметка эмоциональной окрашенности
самих слов и отобранных текстов.
3. Заключение
В данной статье описана методика и промежуточный результат создания
тонального словаря, ориентированного на тексты социально-политической
направленности. Данный лингвистический ресурс даст возможность в
дальнейшем
разработать
методику
автоматического
определения
«эмоциональной заряженности» пользовательского интернет-контента. В
сочетании с автоматическим извлечением тем из таких текстов это позволит
социальным исследователям определять общественное мнение – точнее,
отношение интернет-активной части населения к разным социально значимым
вопросам.
Важность
изучения
мнения
интернет-общественности
подтверждается, среди прочего, высокой ролью социальных сетей и блогов в
прокатившейся по миру волне протестов и революций 2011-2013 годов.
Благодарности
Данная работа выполнена при финансовой поддержке РГНФ. Проект
«Разработка общедоступной базы данных и краудсорсингового веб-ресурса для
создания инструментов сентимент-анализа», № 14-04-12031.
Литература
[1] Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and trends
in information retrieval 2 (1-2), 1-135
[2] Chetviorkin I., Loukachevitch N. Extraction of Russian Sentiment Lexicon for
Product Meta-Domain // In Proceedings of COLING 2012: Technical Papers,
2012. P. 593-610.
[3] Объяснительный словарь русского языка: Структурные слова: предлоги,
союз, частицы, междометия, вводные слова, местоимения, числительные,
связанные слова // Гос. ин-т рус. яз. им. А. С. Пушкина; В. В. Морковкин, Н.
М. Луцкая, Г. Ф. Богачёва и др.; Под ред. В. В. Морковкина. -2-е изд., испр.
– М.: ООО «Издательство Астрель», 2003.
[4] Павлова Ю.В. Выявление социально значимых тем в блогах (на примере
Живого Журнала), Магистерская диссертация, Высшая Школа Экономики,
Санкт-Петербург, 2012.
Компьютерная лингвистика и вычислительные онтологии
33
[5] Thelwall, M., Buckley, K., Paltoglou, G., Cai, D., & Kappas, A. Sentiment
strength detection in short informal text. // Journal of the American Society for
Information Science and Technology, 2010, 61(12), 2544-2558. Pang B., Lee L.
Opinion mining and sentiment analysis // Foundations and trends in information
retrieval 2 (1-2), 1-135
[6] Koltsova, O., Koltcov, S., Alexeeva, S. Do ordinary bloggers really differ from
blog celebrities?, in: Proceedings of WebSci '14 ACM Web Science Conference,
Bloomington, IN, USA — June 23 - 26, 2014. NY : ACM, 2014. P. 166-170.
[7] Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine
Learning Research. 2003. Vol. 3. P. 993–1022.
[8] Steyvers M., Griffiths T. Finding scientific topics // Proceedings of the National
Academy of Sciences. 2004. Vol. 101, no. Suppl. 1. P. 5228–5235.
[9] Коршунов А., Гомзин А. Тематическое моделирование текстов на
естественном языке // Труды ИСП РАН. М., 2012.
[10] Koltsova O., Koltsov S., Nikolenko S. I. Comment-Based Discussion
Communities In The Russian Live Journal And Their Topical Coherence //
Working papers by NRU Higher School of Economics. Series SOC "Sociology".
2013.
No.
WP
BRP
33/SOC/2013.
http://www.hse.ru/data/2014/01/13/1340844763/33SOC2013.pdf.
[11] Кольцова Е.Ю., Кольцов С.Н., Николенко С.И., Мейлахс П.А., Рыков Ю.Г.,
Юденкова Д.В. Социально-политические процессы в интернете. Отчет
Лаборатории
Интернет-исследований
по
гранту
Программы
Фундаментальных Исследований Национального Исследовательского
университета Высшая Школа Экономики, 2013. Аннотация доступна по
адресу: http://www.hse.ru/org/projects/79645357.
[12] Andrews N.O, Fox E.A. Recent Developments in Document Clustering, 2007.
October 16. URL: http://eprints.cs.vt.edu/archive/00001000/01/docclust.pdf.
Foundations and trends in information retrieval 2 (1-2), 1-135
[13] Munro R., Bethard S., Kuperman V., Lai V.T., Melnick R., Potts C., Schnoebelen
T, Tily H. Crowdsourcing and language studies: the new generation of linguistic
data // Proceedings of the Workshop on Creating Speech and Language Data with
Amazon’s Mechanical Turk, 2010
[14] Bocharov V.V., Alexeeva S.V., Granovsky D.V., Protopopova E.V., Stepanova
M.E., Surikov A.V. Crowdsourcing morphological annotation // Компьютерная
лингвистика и интеллектуальные технологии: По материалам ежегодной
Международной конференции «Диалог» (Бекасово, 29 мая–2 июня 2013 г.).
Вып. 12 (19). — М.: РГГУ, 2013.
34
Компьютерная лингвистика и вычислительные онтологии
Linis-crowd.org: A lexical resource for Russian sentiment analysis
of social media
S. Alexeeva, S. Kolcov, O. Koltsova
National Research Institute Higher School of Economics, St. Petersburg
Automatic assessment of sentiment in large text corpora is an important goal in
social sciences. This paper describes a methodology and interim results of
development of a system for Russian language sentiment analysis that includes: a
publicly available sentiment lexicon, a publicly available test collection with
sentiment mark-up and a crowdsourcing website for such mark-up.
The thesaurus was developed in two stages. First, a prototype was formed that was
meant to be marked-up by volunteers. Several linguistic sources and techniques that
were used at this stage are described in this paper. At the second stage a collection of
texts devoted to public affairs was formed; volunteers define words’ sentiment against
these texts, while marking up the texts themselves as well. The mark up is being
organized at http://linis-crowd.org.
Keywords: Sentiment lexicon, web interface, crowdsourcing sentiment mark up,
Russian blogosphere, LiveJournal, test collection, topic modeling
Download