Сравнительное исследование предвыборных партийных

advertisement
Сравнительное исследование предвыборных партийных программ 2007 и 2011 гг.
на основе латентно-семантического анализа
А.П.Петров, Е.Д.Корнилина
Институт прикладной математики им. М.В.Келдыша РАН
petrov.alexander.p@yandex.ru, ekornilina@gmail.com
Настоящий доклад посвящен сравнительному анализу предвыборных программ
политических партий на выборах 2007 и 2011 годов в Государственную Думу, методика
которого была предложена на прошлогодней конференции по проблемам развития
экономики и общества (см. также, напр., [Kornilina and Petrov, 2010]).
Основой данной методики является латентно-семантический анализ (ЛСА),
разработанный группой американских ученых в 1988 году, и представляющий собой
реализуемый на современных вычислительных средствах метод анализа текстов
естественного языка (напр., [Landauer et al, 1998]). Основной сферой применения ЛСА
являются задачи интеллектуального поиска. Среди других приложений отметим
эпизодические исследования произведений художественной литературы [напр., Nakov,
2001].
Работы, предшествующие нашим, и использующие ЛСА в целях политического
анализа, нам неизвестны.
ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным
контекстом <...>, в которых они встречаются, существуют неявные (латентные)
взаимосвязи, обуславливающие совокупность взаимных ограничений» [Митрофанова,
2005]. Контекст, в понимании ЛСА – это слова, близкие к данному слову по расположению
в тексте. Более конкретно: исследуемый текст в целях проведения анализа нарезается на
фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным.
Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы
называем синтагматической близостью.
Фактически, наша основная гипотеза заключается в том, что близость политических
позиций связана с синтагматической близостью текстов (фрагментов, образующих
тексты), выражающих эти позиции.
Оставляя в стороне описание технологии ЛСА, перейдем к изложению результатов.
Одним из способов представления результатов анализа являются диаграммы,
подобные изображенным на Рис.1,2. Каждому фрагменту соответствуют одна строка и
один столбец диаграммы. Ячейка, находящаяся на пересечении, например, 10-ой строки и
25-ого столбца (так же, как ячейка 245-ой строки и 10-ого столбца) описывает степень
синтагматической близости
10-ого и 25-ого фрагментов. При этом, чем более
синтагматически близкими являются два фрагмента, тем более темным цветом закрашена
ячейка.
На Рис.1а фрагменты 1-15 принадлежат программе Единой России, фрагменты 16–46
– программе партии «Яблоко» на выборах 2007 года. Черный квадрат, составленный из
строк и столбцов 1-15, свидетельствует о высокой синтагматической близости этих
фрагментов, и в соответствии с нашей гипотезой – о внутренней целостности программы
ЕР. Программа Яблока является менее цельной, она состоит из двух слабо связанных
между собой (но каждая из них хорошо внутренне связна) частей: до и после фрагмента 31
(в тексте программы этот фрагмент соответствует началу «шагов по преобразованию
России»).
а)
б)
Рис.1 Диаграмма сходства программ ЕР и Яблока 2007 года (а) и 2011 года (б).
Перед дальнейшим обсуждением напомним, что в 2011 году на съезде Единой
России было принято решение считать предвыборной программой тексты выступлений
Д.Медведева и В.Путина.
Априори можно было бы предположить, что выступление Медведева, имеющего
репутацию либерала, окажется более близким программе Яблока, чем выступление
Путина. Однако латентно-семантический анализ показывает (Рис.2б), что это не так:
пересечение «медведевских» столбцов 1-10 и «яблочных» строк 37-45 является одним из
самых белых пятен на диаграмме. Среди других особенностей Рис 2. отметим некоторую
рыхлость выступления Путина, а также программы ЕР в целом (ср. с «черным квадратом»
программы ЕР 2007 года). Заметим также, что большая часть фрагментов выступления
Медведева сильно связана друг с другом (эти фрагменты посвящены изложению общей
позиции, взглядов на роль ЕР, и объяснению причин того, почему Медведев согласился
возглавить ее список); выделяется лишь фрагмент 6 (перечисление «наших восьми
целей»).
Сопоставление программ КПРФ и ЕР 2011 года показывает, в частности, что они
слабо различимы, если рассматривать программу ЕР как целое. Если же (Рис.2)
рассмотреть корреляцию строк 1-26 (КПРФ) отдельно со столбцами 27-37 (Медведев) и 3864 (Путин), то можно увидеть несходство программы КПРФ с выступлением Медведева,
высокую близость с первой частью и несходство с последней частью выступления Путина.
Рис.2. Диаграмма сходства предвыборных программ КПРФ и ЕР 2011 года
(показаны только строки, соответствующие программе КПРФ).
В заключение отметим, что на выборах 2011 года менее различимыми стали
программы не только указанных трех, но и остальных партий.
Список литературы
E. Kornilina, A. Petrov. Research of poitical blogs by means of LSA // Intellectualization of
information processing-2010 conf. proceedings – 2010 P. 508-511.
T. Landauer, P.W. Foltz, D. Laham. Introduction to Latent Semantic Analysis. Discourse
Processes 25: 259–284 (1998).
Nakov P. Latent Semantic Analysis for German literature investigation. // Proceedings of the 7th
Fuzzy Days'01, International Conference on Computational Intelligence. B. Reusch (Ed.): LNCS
2206. pp. 834-641. Dortmund, Germany. October 1-3, 2001.
Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV
Международная филологическая конференция: Вып. 21. Прикладная и математическая
лингвистика. СПб., 2005.
Download