Входной информацией для ЛСА является единый текст

Исследование близости политических позиций методом латентно-семантического анализа А.П.Петров1,2, Е.Д.Корнилина1 1 Институт прикладной математики им. М.В.Келдыша РАН 2 МГУ им. М.В.Ломоносова, Социологический ф-т petrov.alexander.p@yandex.ru, ekornilina@gmail.com Введение. В настоящем докладе представлена методика определения близости политических позиций, заявленных в таких текстах, как предвыборные программы партий, выступления политических деятелей, записи в блогах и пр. Основой предлагаемой методики является латентно-семантический анализ (ЛСА), разработанный группой американских ученых в 1988 году, и представляющий собой реализуемый на современных вычислительных средствах метод анализа текстов естественного языка (см., напр., [Landauer et al, 1998]). Основной сферой применения ЛСА являются задачи интеллектуального поиска. Среди других приложений отметим эпизодические исследования произведений художественной литературы [Nakov, 2001a, 2001b, 2001c]. Работы, использующие ЛСА в целях политического анализа, нам неизвестны. В качестве примеров применения предлагаемой методики проанализированы предвыборные программы политических партий, принимавших участие в выборах в Государственную Думу V созыва в 2007 году, а также политические блоги некоторых пользователей Живого Журнала. Показано, в частности, что позиции, заявленные в программах Единой России и КПРФ близки друг к другу в большей степени, чем каждая из них близка с позицией, заявленной в программе партии «Яблоко». При этом выявлено, что программах некоторых партий можно выделить относительно слабо связанные части, каждая из которых обладает высокой связностью в том смысле, что входящие в одну и ту же часть фрагменты текста близки друг к другу, а фрагменты из разных частей относительно далеки друг от друга. Политические блоги являются сравнительно новым феноменом, полностью обязанным своим появлением так называемому Web 2.0, более точно - принципу наполнения веб-сайтов самими пользователями. Возникающие при этом коммуникации несут определенные черты как межличностных, так и массовых коммуникаций. Хотя доля политизированных пользователей в Интернете не очень велика, их значение трудно переоценить. Ограничиваясь лишь самыми явными примерами, укажем на высокую роль политических блогеров, и более широко – Интернет-пользователей в президентской компании Б.Обамы (как в плане формирования дискуссии, так и в плане фандрайзинга) [Асадова, 2000], и череду непрекращающихся Твиттер-революций (начиная, вероятно, с апрельских событий 2009 года Молдавии). Как сама политическая блогосфера, так и изучающая ее область науки находятся на раннем этапе развития. В нашей работе предлагаемая методика применяется для определения близости политических позиций, высказанных в записях блогеров Живого Журнала. Показано, что, как правило, близкими (синтагматически близкими, см. далее) друг к другу являются записи блогеров, выражающих близкие в общеупотребительном смысле политические позиции. Возможные применения предлагаемой методики включают в себя, в частности, изучение такого вопроса, как изменение соотношений близости между позициями партий с течением времени. Описание методики. ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных ограничений» [Митрофанова, 2005]. Наше предположение состоит в том, что данные взаимосвязи являются различными в текстах, выражающих различные политические позиции. Так, нетрудно представить себе, что фамилия политического деятеля употребляется, как правило, в положительном контексте его сторонниками, и в негативном – противниками. Это относится не только к фамилиям и названиям партий, но также к отдельным политическим событиям, проектам и т.д. Тем самым, выражающие политические позиции тексты могут быть классифицированы путем выделения контекста, в который эти тексты погружают отдельные слова. Вероятно, возможности ЛСА еще шире – как свидетельствуют наши эксперименты, не обязательно сравнивать различные тексты, посвященные одному и тому же узкому, локализованному вопросу. Например, при сопоставлении партийных программ нет необходимости сравнивать отдельно экономические разделы программ, отдельно – армейский вопрос и т.д. Различия между партийными программами оказываются достаточно явными и при сравнении программ «в целом». Наш оптимизм основан на известных результатах [Nakov, 2001a, 2001b, 2001c], свидетельствующих о том, что ЛСА способен улавливать довольно тонкие особенности текста – например, различия между произведениями Пушкина, Гоголя и Булгакова, различия между отдельными произведениями Гоголя и пр. Контекст, в понимании ЛСА – это слова, близкие к данному слову по расположению в тексте. Более конкретно: исследуемый текст в целях проведения анализа нарезается на фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы называем синтагматической близостью. Фактически, наша основная гипотеза заключается в том, что близость политических позиций связана с синтагматической близостью текстов (фрагментов, образующих тексты), выражающих эти позиции. Остановимся более подробно на технологии ЛСА, точнее его варианта, реализованного в нашей работе. Входной информацией для ЛСА является единый текст, скомпонованный из последовательно расположенных анализируемых текстов, например – предвыборных программ политических партий. В ходе предварительной обработки из этого текста изымаются так называемые стоп-слова (местоимения, предлоги, слова «конечно», «возможно», и пр.), а также слова, встречающиеся в нем лишь один раз. После предварительной обработки текст разбивается на отдельные фрагменты, и составляется матрица «фрагмент-слово», строки которой соответствуют фрагментам, столбцы – словам, а элемент матрицы имеет смысл количества употреблений данного слова в данном фрагменте. Заметим, что в анализе данных ее, как правило, называют матрицей «документ-терм» (в ранних работах, напр. [Landauer et al, 1998] – «word by context»), однако, имея в виду политологические приложения, мы предпочитаем избегать применения слова «документ» в смысле, отличном от «партийный документ», «закон» и т.д. Типичная размерность матрицы составляет, например, при попарном анализе партийных программ, немногим более 100 строк (при разбиении на фрагменты длиной несколько десятков слов) и несколько тысяч столбцов (количество различных слов, встречающихся более одного раза в текстах программ двух партий, за вычетом стоп-слов). Матрица построчно нормируется на энтропию, и затем подвергается специальной математической процедуре, состоящей из (а) ее декомпозиции, сингулярного разложения (singular value decomposition, SVD), (б) обнуления младших сингулярных значений, (в) композиции, т.е. перемножения матриц – множителей. Результатом является новая матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы – словам исходного единого текста. Суть данной математической процедуры можно пояснить на основе информационного подхода. Содержащаяся в том или ином сигнале (например, радиосигнале) полезная информация бывает, как правило, загрязнена шумом. Очистка сигнала проводится на основе предположения о том, что этот шум существенно слабее полезной информации. Проводится разложение сигнала по базису в некотором пространстве, затем малые компоненты отождествляются с шумом и обнуляются. Оставшиеся компоненты агрегируются в сигнал, который оказывается близким к изначальному, но очищенным от шума. С точки зрения данного подхода, ЛСА рассматривает матрицу «фрагмент-слово» как сигнал, а указанную математическую процедуру – как очистку этого сигнала от шума. Таким образом, новая матрица содержит в себе связи между различными фрагментами текста (анализ «фрагмент-фрагмент»), между различными словами (анализ «словослово»), и между фрагментами и словами (анализ из «фрагмент-слово»), в значительной мере очищенные от статистического шума. Соотношение близости между фрагментами исходного текста понимается как соотношение близости между векторами – строками этой новой матрицы; при этом будем говорить о синтагматической близости фрагментов. В свою очередь, в качестве синтагматического расстояния (меры близости между векторами) мы выбрали косинус угла между ними. Изложенная методика была реализована нами в виде программного продукта; с ее помощью был исследован ряд конкретных текстов. Отметим, что анализ «фрагмент-фрагмент» не исчерпывает возможностей ЛСА в вопросе определения близости высказанных в текстах политических позиций. Представляет интерес, например, анализ «слово-слово», проведенный раздельно для различных текстов. Можно ожидать, что слова, синтагматически близкие в одном тексте, окажутся не близкими в другом (например, фамилия политического деятеля и слово «коррупция» будут близки лишь в текстах, написанных оппонентами этого политика). Результаты исследования предвыборных программ политических партий. Одним из способов представления результатов анализа являются диаграммы, подобные изображенным на Рис.1 и Рис.2. Каждому фрагменту соответствуют одна строка и один столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и 45ого столбца (так же, как ячейка 45-ой строки и 10-ого столбца) описывает степень синтагматической близости 10-ого и 45-ого фрагментов. При этом, чем более синтагматически близкими являются два фрагмента, тем более темным цветом закрашена ячейка. На Рис.1 фрагменты 1-52 принадлежат программе Единой России, фрагменты 53107 – программе партии «Яблоко». Темный квадрат, составленный из строк и столбцов 153, свидетельствует о высокой синтагматической близости этих фрагментов, и в соответствии с нашей гипотезой – о близости высказанных в этих фрагментах политических позиций. Заметим, что фрагмент 53 оказался близок не к программе Яблока (которой он принадлежит), а программе Единой России. Причина, видимо, заключается в том, что первый абзац программы Яблока – это преамбула, в которой, в целом, признаются достижения путинского периода. В том же время, текст остальных фрагментов программы Яблока выдержан в критическом духе, вследствие чего эти фрагменты оказались синтагматически далекими от фрагментов 1-53 (и близкими друг к другу). Более подробный анализ диаграммы, представленной на Рис.1, выходит за рамки настоящей работы. Рис.1 Результаты исследования записей политических блогеров. В качестве материала для исследования были выбраны записи двух активных пользователей Живого Журнала - блогеров Ш и Б, первый из которых известен как либеральный публицист, колумнист сайта Грани.Ру, а второй – как активист сотрудник аппарата Молодой гвардии Единой России. На Рис.2 подписи вида Ш1 или Б2 означают, соответственно, первую запись блогера Ш, и вторую запись блогера Б. Диаграмма показывает, что три рассмотренных записи блогера Ш синтагматически достаточно близки друг к другу. Как мы полагаем, что это связано с тем, что они выражают достаточно целостную позицию, хотя тематика этих записей была совершенно различной (сериал «Школа», Россия и мир, российская политика в отношении Украины). Записи блогера Б также посвящены различным вопросам (заседание Госсовета, отношения милиции и журналистов, блоги губернаторов), и как показывает Рис.2, синтагматически далеки друг от друга. Вероятно, они в большей степени являются «текстами на разные темы», чем «текстами с общей платформой». При этом запись Б1 оказалась синтагматически более близкой к записям блогера Ш, чем к другим записям блогера Б. Вероятно, это связано с несколько ироничным стилем записи (речь идет о выступлениях С.Митрохина, В.Жириновского и Г.Зюганова на заседании Госсовета), контрастирующей с более серьезным стилем записей Б2 и Б3. Рис.2 В целом, результаты многочисленных экспериментов показывают, что предлагаемая методика действительно позволяет выявлять близость заявленных в текстах политических позиций. При этом результаты являются тем более качественными, чем более стилистически схожими являются рассматриваемые тексты. Работа выполнена при поддержке РФФИ (проект 10-01-00332-а). Список литературы T. Landauer, P.W. Foltz, D. Laham. Introduction to Latent Semantic Analysis. Discourse Processes 25: 259–284 (1998). Nakov P. Latent Semantic Analysis for German literature investigation. // Proceedings of the 7th Fuzzy Days'01, International Conference on Computational Intelligence. B. Reusch (Ed.): LNCS 2206. pp. 834-641. Dortmund, Germany. October 1-3, 2001a. Nakov P. Latent Semantic Analysis for Bulgarian Literature. In Proceedings of the Spring Conference of Bulgarian Mathematicians Union. pp. 279-284. Borovetz, Bulgaria. 2001b. Nakov P. Latent Semantic Analysis for Russian literature investigation. In Proceedings of the Naval Scientific Forum, vol. 4 (Mechanical Engineering and Mathematics. Information Technology), pp. 292-299. Varna, Bulgaria. 2001c. Асадова Н. Обама_президент.com // F5, с.8-9, №00 (02.02.09-22.02.09), 2009. Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Международная филологическая конференция: Вып. 21. Прикладная и математическая лингвистика. СПб., 2005.

Входной информацией для ЛСА является единый текст

Related documents

Products

Support

Входной информацией для ЛСА является единый текст

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib