Михеенкова М.А., Финн В.К. Интеллектуальный анализ данных

advertisement
Интеллектуальный анализ данных для проблем когнитивной социологии
М.А. Михеенкова, В.К. Финн
Социологический опрос не случайно представляется на уровне обыденного сознания
«визитной
карточкой» социологии.
Для профессионального анализа
социальной
действительности опрос является универсальным и наиболее широко практикующимся
источником получения эмпирического материала. При этом нельзя сказать, что
формальные описания тех или иных сторон исследования совершенно выпадают из поля
зрения социологов. Но поскольку для обработки полученных результатов, как правило,
используются статистические методы, эти формальные средства и определяют различного
рода статистические характеристики, вплоть до построения репрезентативной выборки.
При этом такие задачи как формулировка вопросов с целью получения наиболее
релевантных целям исследователя ответов, учет контекста опроса, уровни измерения,
выбор формата для ответов и т.п. [Татарова, 2002; Ядов, 2003] решаются почти
исключительно на основании интуитивных и эмпирических представлений исследователя.
Цель нашей работы и состоит в предложении формальных средств для представления
некоторых сторон социологического опроса, до сей поры таковых не имеющих.
Наш подход опирается на уточнение идеи “темы” (или множества “тем”) в концепции
Н. Лумана, согласно которой опросы общественного мнения должны быть представлены
как ответы на вопросы по соответствующей теме. Формализация этой концепции была
предложена в [Гусакова и др., 2001]. В указанной работе в качестве инструмента анализа
мнений рассмотрен ДСМ-метод автоматического порождения гипотез [Финн, 1999],
который останется таковым и для нас. В частности, мы будем использовать исходный
предикат X1Y: «субъект Х обладает эффектом Y», где Y – переменная для
представления действий, установок и мнений. Производные предикаты причинности
V2W и W 3V означают, что «подмножество характеристик V есть причина эффекта
поведения W» и «эффект поведения W есть следствие подмножества характеристик V»
(т.е. переменная V принимает значения на множестве возможных характеристик
субъектов данного социума).
Рассмотрим
расширение
представленной
концепции
на
случай
m-значного
социологического опроса. В данном случае m-значность опроса означает наличие, как
говорят социологи, m уровней измерения: респонденту предлагается выбрать один из m
предложенных ответов. С точки зрения предлагаемой формализации m-значные (m3)
закрытые опросы являются обобщением закрытых булевских опросов (m=2), со шкалой
оценок {0, 1}, где 0 – истинностное значение «ложь» (оценка для ответа «нет»), а 1 –
истинностное значение «истина» (оценка ответа «да»).
Пусть задана некоторая тема опроса Т, характеризующаяся утверждениями p1, …, pn,
отношение респондента к которым и устанавливается в результате опроса. Множество P =
{p1, …, pn} будем называть каркасом темы Т, а элементы p1, …, pn – корнями вопросов
(параметрами
опроса).
Логическими
средствами
формализации
m-значного
социологического опроса являются m-значные логики Jm, исчисления эквивалентных
формул ИЭФ-Jm и ИЭФ*-Jm [Финн, 2008]. Таким образом, задано множество оценок
переменных Vm = {0,
1
m 1
,…,
m2
m 1
, 1}, заданы атомарные оценки v(i)[pj] = j(i), i = 1, …, mn, j
= 1, …, n, задана функция оценки формул Jm, квазиформул и формул ИЭФ-Jm и ИЭФ*-Jm.
Каждому элементу pj (j = 1, …, n) каркаса Р соответствует вопрос ?pj – «Какова оценка 
корня вопроса pj ?», Vm, ответом на который является высказывание Jpj. Тогда ответом
респондента bi по теме Т будем называть J-максимальную конъюнкцию логики Jm Ci ≖
J ( i ) p1&...& J (i ) pn. Эта конъюнкция определяется
1
по аналогии
с максимальной
n
конъюнкцией двузначной логики, т.е. для каждой pk в Ci входит без повторений J (i ) pk
k
(k=1, …, n), а J (i ) pk и J ( i ) pk, где k(i) j(i), одновременно в Ci не входят. Такой ответ
k
j
представляет собой понимание i-м респондентом темы Т.
Множество всех возможных ответов по теме Т с каркасом Р обозначим К, К = {i | i ≖
J ( i ) p1&...& J (i ) pn, v(i)[pj] = j(i), jVm, j = 1, …, n, i = 1, …, mn}. Число элементов этого
1
n
множества |К|=mn, поскольку каждой J-максимальной конъюнкции взаимно однозначно

соответствует m-значный (n-мерный) вектор σ (i ) = 1(i), …, n(i). Заметим, что число
респондентов может превышать mn, поскольку различные респонденты могут иметь
одинаковые ответы, при этом число различных ответов может быть меньше mn.
Разумеется,
истинностные
значения
Vm
должны
быть
социологически
интерпретируемыми. Естественная интерпретация булевских оценок приведена выше, для
трехзначного опроса (m=3, V3 = {0, ½, 1}) она может быть следующей: 0 («ложь»)
соответствует ответу «нет», ½ («неопределенность») соответствует ответу «не знаю», 1
(«истина») соответствует ответу «да». Шестизначный опрос: m=6, V6 = {0, 1/5, 2/5, 3/5, 4/5, 1}.
0 – «ложь» – соответствует ответу «нет», 1/5 – «степень лжи» – ответу «скорее, нет», 2/5 –
«неопределенность» – ответу «не знаю»), 3/5 – «фактическое противоречие» – ответу «и да,
и нет», 4/5 – «степень истины» – ответу «скорее, да», 1 – «истина» – ответу «да». Иными
словами, соответствующие оценки логик Jm должны быть социологически осмысленными.
Пусть R = {b1, …, br} – множество респондентов, участвующих в опросе, R = {X |
J1,0(X1[])}, [] = { J  1 p1, ..., J  n pn}. Пусть, далее, при опросе этих респондентов
получено множество ответов КК, которое не изменяется при расширении множества
опрашиваемых R. В этом случае мы имеем дело со стабилизированным множеством
ответов, причем стабилизация эта достигается экспериментальным путем.
Итак, закрытый m–значный социологический по теме Т со шкалой оценок Vm = {0,
1
m 1
,…,
m2
m 1
, 1} характеризуется множеством утверждений, раскрывающим содержание
темы, – каркасом P = {p1, …, pn}, и множеством респондентов R = {b1, …, br},
соответствующим стабилизированному множеству ответов К. Средства логики Jm, ИЭФJm и ИЭФ*-Jm позволяют дополнить это описание еще несколькими характеристиками.
Рассмотрим множество  = {1, …, s} формул 1, …, s логик Jm, выражающих
логические зависимости между элементами каркаса Р – корнями вопросов ?p1, …, ?pn.
Множество «постулатов значения»  должно быть непротиворечивым, при этом формула
 = (1…s) не должна быть тавтологией логики Jm ( – соответствующая
конъюнкция логики Jm).
Таким образом, закрытый m-значный опрос (m3) Оm по теме Т реализуется средствами
дедуктивной m-значной логики Jm и может быть представлен в виде Оm = Jm, Р, , K, R,
причем K задается исследователем-социологом в результате эмпирического получения
стабилизированного множества ответов. Такое задание K есть один из возможных
подходов к формированию репрезентативной (в логическом, а не статистическом смысле)
выборки R.
Такое
представление
позволяет
определить
также
некоторые
численные
характеристики результатов опроса, в частности
Пусть consis({}) – метапредикат непротиворечивости множества формул ({}).
Тогда множество всех  (ответов респондентов) – J-максимальных конъюнкций логики
Jm, – не противоречащих , обозначим К+ = {|consis({})(К)}; множество ответов
, противоречащих , обозначим  = {|consis({})(К)} (здесь возможна замена
К на К – для реальных опросов). Определим следующие функции: (К, К+) =
|КК+|/|К| и (К, ) = |К|/|К|, характеризующие, соответственно, степень
непротиворечивости и степень противоречивости закрытого m–значного опроса по теме Т.
Здесь |К|, |КК+| и |К| – числа элементов множеств К, КК+ и К,
соответственно. Легко показать, что (К, К+) + (К, ) = 1, т.к. К = К+, К+ =  и
КК. Напомним, что в [Финн и др., 2002] степень непротиворечивости результатов
опроса задавалась функцией (К, ) = 1 – |К|/|К|, которая связана с новыми
функциями соотношениями (К, ) = 1 – (К, ) и (К, ) = (К, К+). Одновременное
задание функций (К, ), (К, ) и (К, К+) лишь на первый взгляд кажется избыточным
– для вычисления каждой из них могут быть предложены различные процедуры, которые
для
реальной
эмпирической
выборки
могут
оказаться
более
или
менее
предпочтительными (с точки зрения вычислительной сложности).
Для вычисления функции (К, ) в [Финн и др., 2002] был предложен метод
аналитических таблиц для логик JА4 и JА5 (4-х и 5-значных логик с аргументационной
семантикой, соответственно). В [Финн, 2008] метод аналитических таблиц был развит для
логик Jm. Пусть  – множество «постулатов значения», соответствующих теме Т, а  –
максимальная конъюнкция формул J  i pi. Тогда, если аналитическая таблица  для
множества {} замкнута, то {} – противоречиво и , где  – множество
«запрещенных» максимальных конъюнкций. Отсюда возникает простая процедура
вычисления степени непротиворечивости опроса (К, ): для каждого мнения
проверяется, входит ли оно в , и в соответствии с долей противоречивых мнений в
общем числе мнений и вычисляется функция (К, ).
Точно так же, с помощью метода аналитических таблиц для логик Jm, могут быть
вычислены функции (К, К+) и (К, ). Для вычисления первой строится завершенная
аналитическая таблица  с корнем , дизъюнкция открытых ветвей этой таблицы в ИЭФJm приводится к совершенному виду; множество, состоящее из всех J-максимальных
конъюнкций построенной совершенной формы и есть множество К+ – множество ответов,
не противоречащих . Для вычисления второй функции – степени противоречивости
результатов опроса – строится множество  = К – К+. Однако это множество может быть
также независимо построено с помощью метода аналитических таблиц. Для этого
строится завершенная таблица с корнем f(1…s), где i, i = 1, …, s. Дальнейшая
процедура совпадает с описанной: дизъюнкция открытых ветвей преобразуется в
совершенную форму, состав этой формы образует .
Указанные характеристики непротиворечивости опроса представляют собой лишь один
из трех предложенных ранее авторами критериев рациональности результатов опроса.
Рациональность рассматривается при этом вне зависимости от целеполагания субъекта (в
противоположность большинству принятых в социологии теорий рациональности
[Девятко, 2003]). Для нас рациональность – выражение отношения к теме на основе
имеющейся или предложенной исследователем аргументации, что не сводится лишь к
дедуктивному рассуждению.
Итак, для рассматриваемой социальной общности (респондентов опроса) может быть
сформировано «описание состояния рациональности» – с помощью специально
определенных предикатов Ph(К) (h = 1, 2, 3;   {0, x, 1}). Предикат Р1() для  = 0, x,
1, соответственно, определяется следующим образом: (К, ) = 0, x((К, ) = x&0<x<1),
(К, ) = 1 (К – переменная,  фиксировано, поскольку фиксировано множество ). Эти
предикаты и представляют собой 1-й критерий рациональности результатов опроса –
степень его непротиворечивости.
Предикат Р2(К) характеризует степень близости мнения респондентов к некоторому
«идеальному мнению», представленному «правильным» ответом по теме Т. Наиболее
естественно этот предикат определяется для электоральной общности – в этом случае
«идеальное мнение» сторонника некоей партии представлено принятием программных
положений партии.
Критерий «близость к идеальному мнению» определяется следующим образом.
Пусть «идеальное партийное мнение» для i-й партии (i = 1, …, s) описывается
выражением i = J  1 p1&…& J  n pn, (i)k – число респондентов, ответы которых совпадает с
идеальным мнением i в (n – k) пунктах программы, (i)0 – число респондентов с
«идеальным партийным мнением» i, (i) – число сторонников i-й партии при опросе, К =
Кi.
p(i) = (i)0n + (i)1(n – 1) + … + (i)k(n – k) + … + (i)n-11.
p (i )
Степень близости к идеальному мнению задается функцией  =
.
nβ (i )
(i)
Наконец, Р3(К) представляет согласованность (однородность) ответов респондентов
изучаемой социальной общности (в частности, и электората i-той партии). Мнения i и j
будем называть согласованными, если h((Jph iJph
j)( =   ((  )( =  
 = )))) (здесь предикат 
 интерпретируется как “ – подформула ”). Рассмотрим
~
~
~
|К|
множество К = {((, К)  (,  согласованы))}. Тогда функция ( К , К) =
| К '|
– степень согласованности результатов опроса  из К – характеризует степень «единства»
реакций респондентов на предложенные вопросы (понимания темы Т).
Описанное понимание согласованности является достаточно «мягким» (оценка  для
корня вопроса ph считается согласованной с любой другой оценкой).Если рассматривать
согласованность
ответов
как
характеристику их
сходства,
вычисление
степени
согласованности  может осуществляться следующим образом. Рассмотрим множество
респондентов, имеющих мнение j: Bj = {X| J1, 0(X 1 [j]}, j = 1 …, r, число таких
респондентов |Bj| = j, j = 1, …, r, К = 1(i) + … + r(i). Определим сходство мнений
[k][j ] = [kj], |[kj]| = mkj, такое сходство имеют kj = min (k, j) респондентов.
Определим совпадение первого мнения с остальными: 1 = 12m12 + 13m13 + … + 1jm1j +
… + 1rm1r, 2 j  r. Совпадение второго (без учета уже вошедшего в первую сумму
совпадения второго с первым) 2 = 23m23 + 24m24 + … + 2jm2j + … + 2rm2r, 3 j  r; и
т.д. Соответственно, k = k k+1mk k+1 +  k k+2m k k+2 + … + kjmkj + … + krmkr, k+1  j  r; …;
r-1 = r-1 smr-1 r . Определим величину  как сумму j (j = 1, …, r-1):
α1 n, если r  1

 r 1 r
= 
.
α jh m jh , если r  1

 j 1 h  2
Величина  характеризует реальные сходства существующих ответов респондентов,
которое отличается от максимально возможных сходств, имеющих место в случае полной
согласованности мнений (когда  = 1). Определим величину ~γ для идеального случая, для
чего нам понадобится определение соответствующих ~γ j (j = 1, …, r-1). Рассмотрим
упорядочение 1  …  r (что всегда можно сделать). Пусть 1 соответствует некий ответ
по теме 1. Минимально возможное отличие от 1 для остальных ответов (2, …, r) –
одна позиция (расхождение в ответе на один вопрос). Стало быть, максимально
возможные значения m1j (j = 2, …, r) – (n – 1), и таких элементов – (r – 1). Итак, ~γ 1 = 1 (n
– 1) (r – 1). Соответственно, идеальное 2 отличается от остальных ответов (3, …, r)
также не менее чем в одной позиции, m2j (j = 3, …, r) – (n – 1), и таких элементов – (r – 2),
r 1
т.е. ~γ 2 = 2 (n – 1) (r – 2), и т.д. Тогда в идеале ~γ j = j (n – 1) (r – j) и ~γ  max  ~γ j = (n –
j 1
r 1
α n, если r  1
1)  α j (r  j ) , * =  ~1
. Тогда степень согласованности результатов опроса
j 1
 γ , если r  1
γ
социальной общности есть  = γ* .
Нельзя
не
рациональности
сказать
о
результатов
содержательном
опроса.
различии
Степень
описанных
непротиворечивости
характеристик
есть
скорее
комплексная характеристика индивидуальных способностей респондентов различать
заложенные исследователем связи между вопросами, описывающими заданную тему, и,
разумеется, одинаковым образом вычисляется для различных по тематике опросов.
Степень согласованности характеризует близость взглядов респондентов друг другу
относительно некоторой темы, и может касаться как электорального выбора, так и любых
других тем, объединяющих респондентов в некоторую общность. Наконец, близость к
«идеальному
мнению»
–
наиболее
соответствующая
электоральным
опросам
характеристика, поскольку говорит не просто о сходстве ответов, но о сходстве их с
«единственно правильным» множеством ответов.
Вычисление указанных трех характеристик рациональности было выполнено в
результате анализа электоральных предпочтений студентов старших курсов РГГУ на
выборах в Государственную Думу 2003 и 2007 гг. [Михеенкова и др., 2005; Сидорова,
2008]. В указанном исследовании для сторонников различных партий были вычислены
значения предикатов Ph(К) (h = 1, 2, 3;   {0, x, 1}), построено множество «описаний
состояния рациональности», на этом множестве определено отношение частичного
порядка ≼ и построена диаграмма этого отношения.
Предложенное описание формальных параметров социологического опроса никак не
связано с выбранной стратегией анализа социологических данных и уточняется для
опросов, которые могут быть названы предсказательными. Речь идет об эвристической
схеме «сходство – аналогия – абдукция», которая в формализованном качественном
анализе средствами ДСМ-метода автоматического порождения гипотез [Финн, 1999]
конкретизируется
схемой
«эмпирическая
индукция
–
структурная
аналогия
–
конструктивная абдукция». Напомним, что в результате работы ДСМ-системы по
достижении стабилизации множества порождаемых гипотез исходная база фактов БФ (для
которой
и
вычисляются
описанные
характеристики)
расширяется.
Множество
респондентов, участвующих в опросе, R = {X | J1,0(X1[])}, [] = { J  1 p1, ..., J  n pn},
пополняется гипотезами о наличии у заранее не определившихся со своими мнениями
респондентов тех или иных вариантов ответов, полученными средствами ДСМ-метода, R*
= {X | J1,n(X1[])&(n0)}. При этом, возможно, меняется и такой параметр опроса
как стабилизированное множество ответов К. Соответственно, меняются значения
вычисленных характеристик рациональности.
Более
того,
процедура
абдуктивного
принятия
гипотез
в
ДСМ-методе,
предусматривающая возможность интерактивного расширения исходных данных в случае
недостаточной объясненности имеющихся фактов полученными гипотезами, также
приводит к изменению R и, соответственно, К. А это естественным образом влечет
вычисление значений критериев рациональности для новых данных с их возможным
изменением. Кроме того, расширение БФ на основании требования абдуктивного
принятия гипотез позволяет ввести еще одну численную характеристику – уровень
абдуктивной объясненности, определяемый как отношение числа объясненных с
помощью порожденных ДСМ-гипотез исходных фактов к общему числу фактов в БФ.
Если в процессе пополнения БФ этот уровень растет, можно говорить об абдуктивной
сходимости.
Таким образом, предсказательные опросы характеризуются рядом объективных
величин. Это K – стабилизированное множество ответов (новые ответы не появляются
при расширении множества респондентов), n – число шагов применения эвристической
схемы (до стабилизации множества порождаемых гипотез), введение заданного порога
абдуктивной сходимости d, который удовлетворяет исследователя. Все сказанное дает
основание говорить о реализации интеллектуального анализа социологических данных и,
более того, – о развитии принципов когнитивной социологии.
Работа выполнена при поддержке РГНФ (проект № 08-03-00145а).
Список литературы
[Гусакова и др., 2001]
Гусакова С.М., Михеенкова М.А., Финн В.К. О логических
средствах анализа мнений // НТИ, Сер. 2, 2001, № 5.
[Девятко, 2003] Девятко И.Ф. Социологические теории деятельности и практической
рациональности. – М.: АВАНТИ ПЛЮС, 2003.
[Михеенкова и др., 2005]
Михеенкова М.А., Финн В.К. Логические средства
формализации закрытых опросов и проблемы распознавания рациональности мнений //
Математическое моделирование социальных процессов, 2005, вып. 7, с. 127 – 135.
[Сидорова, 2008] Сидорова А.В. Модуль оценки рациональности в Интеллектуальной
системе анализа социологических данных // Материалы наст. Конференции
[Татарова, 2002] Татарова Г.Г. Методы анализа данных в социологии. – М.: Изд. Дом
«Стратегия», 2002.
[Финн, 1999] Финн В.К. Синтез познавательных процедур и проблема индукции // НТИ,
сер. 2, 1999, № 1.
[Финн, 2008] Финн В.К. Логика качественного анализа социологических данных. – М.,
2008 (в печати).
[Финн
и
др.,
2002]
Финн В.К.,
Михеенкова М.А.
О
логических
средствах
концептуализации анализа мнений // НТИ, Сер. 2, 2002, № 6.
[Ядов, 2003]
2003.
Ядов В.А. Стратегия социологического исследования. – М.: Добросвет,
Download