Что такое контент-анализ?

advertisement
Что такое контент-анализ?
• Английское слово ‘content’ –
содержание
• Количественный анализа текстов и
выявление числовых закономерностей,
интерпретация закономерностей.
Что можно анализировать?
• – лексика языка (слова и их
эквиваленты, например выражение
железная дорога или термин контентанализ, т.е. то, что фиксируется в
словарях)
• – грамматические показатели
(например, отрицательные частицы или
показатели таких категорий, как,
скажем, отглагольные имена).
Что можно анализировать?
• Основные темы и идеи
• Основные тезисы (утверждения)
Что проще автоматически считать в
тексте?
Проще – слова и грамматические
показатели.
А что делать, если нам нужно
посмотреть нечто более общее?
Например, понять, какие темы часто
повторяются.
• Через все выступления X-а красной нитью
проходит тема Y;
• X постоянно обращался в своей речи к проблеме
Y;
• Он не упускал ни одного случая, чтобы не лягнуть
Z-а;
• Ну, задудел в свою дуду,
• Эти выражения свидетельствуют о наличии в
информационном потоке некоторых настойчиво
повторяющихся тем.
• Именно с помощью этих выражений мы можем
автоматически найти в тексте эти настойчиво
повторяющиеся тексты.
Проблема синонимии
• Исследователь, интересующийся тем, какое
место в общественном сознании занимает
проблема преступности, обязан принимать
во внимание упоминания заказных и всяких
прочих убийств, бандитского беспредела,
«крыши», «братков», авторитетов,
власти криминала и проч.
Субъективное и объективное
• Субъективность – личное отношение
человека к чему-нибудь, суждение на
основе эмоций
• Объективность – отношение к чему-то
исходя из свойств и особенностей этого
чего-то, собственные чувства человека не
берутся в расчёт.
Примеры
• Однажды двоечник, которого учитель не
любит, взял да и написал
самостоятельно контрольную на 5.
• Какую оценку поставят ему
объективный и субъективный учителя?
Оценочное высказывание
• Высказывание, в котором содержится
положительная или отрицательная
оценка происходящего.
• Пример: «несомненный успех»,
«особенно удачно ему удалось…», …
• Противоположность: констатация факта
• Приведите пример!
ПЕРЕДЕЛАТЬ
• Основа контент-анализа – считаем
встречаемость некоторых элементов в
массиве текстов,
• Находим статистические взаимосвзяи
Задача программы
• автоматически отслеживать эмоции и
отношение к содержанию в текстах
новостей и форумов
• вычислять объективные высказывания
(vs. оценочные)
• Т.е. создать классификаторы,
отличающие субъективные
предложения от объективных.
Как мы делаем программу?
• обучающие данные – словарь слов,
свидетельствующих о субъективности
предложения, и набор субъективных и
объективных предложений;
• далее создается классификатор, который
для каждого предложения определяет
вероятность его субъективности;
• этот классификатор делают
самообучающимся, т.е. он корректируется по
мере накопления знаний;
• Классификатор помечал предложение как
• субъективное, если оно содержало 2 и более
«сильных» субъективных выражений, иначе –
никак не помечал;
• объективное, если:
- в нем не было «сильных» субъективных
выражений,
- не более чем 1 такое выражение было в
предыдущем и последующем предложениях
одновременно,
- не более 2 таких выражений одновременно
присутствовали в текущем, предыдущем и
последующем предложениях.
• РЕЗУЛЬТАТ: размеченная выборка предложений
• Субъективные объекты:
• частота его встречаемости в корпусе – не менее
5%;
• предложения, содержащие этот объект, были
субъективными не менее чем в 95% случаях.
• Объективные объекты:
• частота его встречаемости в корпусе – не менее
5%;
• предложения, содержащие этот объект, были
субъективными не более чем в 15% случаях.
• более часто встречаются однородные в
эмоциональном отношении сочинительные
словосочетания («добрый и справедливый»,
точность 92%)
• - это свойство можно использовать для поиска
слов с положительными и отрицательными
коннотациями. Берутся два исходных
размеченных списка:
• - «+»: {хороший, милый, добрый, прекрасный,
…}
• - «-»: {несчастный, плохой, нечестный, …}
• Используется статистика совместной
встречаемости слов в Интернете (вычисляется по
Altavista.com). Вид запроса: «хороший NEAR
добрый» или «плохой NEAR доброжелательный»
(NEAR - оператор).
• существительные тоже могут иметь
оценочную семантику (обожание,
забота) и группироваться вокруг осей
типа «любовь»
многие из выделяемых категорий не
связаны напрямую с эмоциями:
убыток, ум, разрушение,
справедливость
Находим рейтинг человека
• Пользователь выбирает имя и фамилию человека, мнение
о котором в конкретный период времени он хочет узнать.
• Система посылает запрос GoogleNews и выбирает 1000
отрывков из новостных сообщений, касающихся
выбранного пользователем лица и появившихся в
заданный период времени.
• Из каждой выбранной статьи программа вырезает
отрывок, содержащий слово-запрос (размер окна – 120
символов до и 120 символов после слова-запроса).
• Отрывки сортируются, дубли удаляются.
• Отобранные отрывки сопоставляются, каждому слову
присваивается оценочный класс. Слова, которые могут
одновременно входить и в «+», и в «-», из рассмотрения
удаляются.
Находим рейтинг человека
• Для слова-запроса рассчитывается
оценка (число слов, входящих в
«позитивные» классы, делится на число
слов из «негативных» классов).
• 1536/3736=0.41. Оценка негативная.
• Попробую продемонстрировать идею на
конкретном примере, взяв две одинаковых по
смыслу, но абсолютно разных по содержанию
и набору ключевых слов новости. Объекты,
фигурирующие в новости, выделены
красным, слова, определяющие
тематическое окружение - синим. Ключевые
слова с одинаковой частотой сортируются в
порядке убывания длины - это связано с тем,
что более длинные слова имеют большую
различительную силу в тексте.
•
Заголовок: Google определил Джорджа Буша в категорию “жалких
неудачников”
Текст новости:
Пользователи популярного интернет-ресурса Google столкнулись
с забавным казусом, ставшим следствием особой системы
оформления ссылок поисковой системы. Как сообщается на сайте
BBC News, при введении в строке поиска словосочетания “miserable
failure” (жалкий неудачник), первой найденной ссылкой значится
биография президента США Джорджа Буша, размещенная на
официальном сайте Белого дома.
Как утверждают эксперты, столь странный результат
объясняется тем, что Google при поиске учитывает не только
содержание интернет-страниц, но и то, как часто сайт или
конкретный персонаж упоминается в сети в связи с конкретными
словами или характеристиками. Подобная практика
“фальсификации” результатов поиска, впервые примененная в 2001
году, получила название “бомбардировка Google”. Заключается она в
том, что пользователи интернета намеренно привязывают
некоторые сайты к определенным словосочетаниям. По данным
газеты Newsday, к биографии Джорджа Буша “прилинкованы”, как
минимум, 32 интернет-страницы с уже упоминавшейся нелестной
характеристикой американского президента. Администрация США
не первый раз становится объектом таких нападок. Так, перед
началом войны в Ираке при введении в строке поиска определения
“оружие массового поражения” пользователи находили ссылку,
гласившую “Это оружие невозможно обнаружить”.
•
•
•
•
•
Заголовок: “Жалкий неудачник” в виртуальной битве
Текст новости:
Практика “Google - бомбардировки” получила толчок в тот момент, когда
интересующиеся политикой пользователи интернет осознали, что могут
влиять на результаты деятельности Google, широко известного поискового
сайта, привнеся в нее долю здоровой сатиры.
Первой жертвой стал президент Джордж Буш, который обнаружил в
прошлом году, что его биография на официальном веб-сайте Белого дома
заняла первое место в рейтинге Google. Это произошло после того, как
какой-то шутник добавил туда слова “жалкий неудачник”.
В настоящее время битва между сторонниками и оппонентами Буша
затронула биографию Джимми Картера, домашнюю страничку писателя и
кинорежиссера Майкла Мура. Они заняли, соответственно, второе и третье
места в списке “жалких неудачников”.
Онлайновая драка породила опасения, что попытки интернет пользователей исказить предоставляемую информацию могут существенно
навредить поисковому сайту. “Оружие” этих деятелей напрямую зависит от
нового способа Google собирать информацию, “прочесывая” сеть и используя
специальные алгоритмы для определения значимости той или иной
страницы.
Этот метод существенно продвинул вперед технологию поиска
информации. Однако это также означает, что если в интернете есть много
ссылок на официальный сайт Белого дома с биографией Джорджа Буша на
нем и вставкой “жалкий неудачник”, Google укажет, что наиболее значимой
является страница “жалкий неудачник” и поставит ее первой в своем
рейтинге. Самый большой плюс Google может оказаться его минусом.
Программист, подкинувший Бушу эту бомбу, сообщил вчера the New York
Times, что он не ожидал, что все окажется настолько просто. “Все дело в
том, что у нас есть очень много людей, которым это показалось забавным,
и они отсылали ссылку своим многочисленным знакомым”, - сказал Джордж
Джонсон.
Структура словарной статьи
<lexical_entry> (лексическая единица)
<part_of_speech_tag> (часть речи)
<affect_category> (категория эмоции)
<centrality> (центрированность)
<intensity> (степень эмоциональности)
Как определить показатели + и • Дать нескольким людям набор слов и
есть ожидаемое число слов в каждой
категории
• Дать нескольким людям набор слов и
попросить их сравнивать каждое слово
попарно со всеми другими случаями
• Чем могут быть плохи эти методы?
Download