Наука, 1993 - Высшая школа экономики

advertisement
РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ
СОЦИОЛОГИИ
И.Ф.Девятко
ДИАГНОСТИЧЕСКАЯ
ПРОЦЕДУРА
В СОЦИОЛОГИИ
ОЧЕРК
ИСТОРИИ и
ТЕОРИИ
МОСКВА "НАУКА" 1993
ББК 60.5
Д 25
ПРЕДИСЛОВИЕ
Значительная часть людских забот так или иначе связана с процедурой, которую принято называть диагностической. Нормальные
люди не знают, да и не обязаны знать, что они говорят прозой и
пользуются, с переменным успехом, диагностическими приемами.
Читающему эти строки тоже приходится распознавать нечто, скрывающееся за печатными знаками. Задача, для решения которой используется диагностическая процедура, формулируется просто: кто
есть кто и что есть что? Такого рода задачи обычно решаются с лета. "Не инженер ты - хам", - диагноз, который русский интеллигент
Васиссуалий Лоханкин выставляет своему недругу мнимому инженеру Птибурдукову. Разумеется, в основе столь сурового заключения
лежит некая рационально реконструируемая секвенция от внешне
заданной видимости к скрытому смыслу: "почто жену уводишь от
меня?". Иными словами, полученное новое знание является в определенной степени обоснованным. В отличие от опростившегося интеллигента, эпистемолог думает над тем, каким образом возникает
знание о хамстве и принадлежности к профессиональной группе
инженеров.
Здесь мы погружаемся в океан неразрешимых проблем. Лишь
немногие знают, что дать окончательный ответ на вопрос "Что есть
что?" невозможно. И, тем не менее, ремесло социолога заключается
в поиске ответа на такие вопросы. А эпистемолог занят обоснованием
невозможного.
Человек - "обыденный эпистемолог", - приобретая опыт распознавания и "измерения" для решения практических задач, осваивает
технику часто нерефлексируемых диагностических заключений. Со
временем он понимает, что понимание действительности требует
умения держаться от нее на приличном расстоянии. "Глаза есть мимолетное, как бы в некотором дуновении открывшееся, изображение
души" - эта гегелевская мысль самодостаточна и не терпит идиотского вопроса: "Что есть в глазах такого, что изображает душу?"
Здесь начинается область умного видения, куда не следует входить
с инструментом научной рациональности, которая обязана расколдовывать и профанировать "высокое". В самом деле, никакая, даже
самая изощренная диагностическая процедура не может ни на йоту
продвинуть нас в решении вопроса, почему человек похож на себя.
Профессиональное призвание эпистемолога и методиста заключается в расколдовании и профанации того, что ребенок научается
делать в первые годы жизни. Если угодно, эту интеллектуальную
экспансию, превращающую жизнь в проблему, можно легко опоро-
Ответственный редактор доктор философских наук, профессор Г.С.БАТЫГИН
Рецензенты:
доктор психологических наук, профессор С.И.СЪЕДИН,
кандидат философских наук М.С.КОСОЛАПОВ
Редактор издательства Л.В.ПЕНЯЕВА
ISBN 5020082112
©И.Ф.Девятко, 1993 ©Российская академия наук,
1993
чить либо просто отвергнуть как предрассудок. Но нельзя отрицать,
что у нее есть своя история, в которой были и озарения, и разочарования, но не было иллюзий, будто проблемы решаются легко. Из
книги И.Ф.Девятко читатель узнает, как усовершенствовались измерительные инструменты в социологии и социальной психологии,
почему основатель диагностической традиции Луи Терстоун в один
прекрасный день прекратил заниматься тестированием и что имел в
виду один юный методист, изображавший на капустнике в Бюро
прикладных социальных исследований Колумбийского университета
своего шефа Пауля Лазарсфельда, когда говорил назидательно:
"Меня интересует не пол, а как он устанавливается". Вне всякого
сомнения, это история мысли, где за каждым поворотом открывается
новое, необозримое и захватывающее пространство. От читателя
требуется немало терпения, чтобы следовать за автором по методическим лабиринтам, но терпение вознаграждается: диагностическая
процедура обнаруживает свое устройство.
И.Ф.Девятко сознательно избегала мучительного философствования по поводу затруднений, постоянно возникающих в процессе социологического измерения. Тем не менее, некоторая философская
пропедевтика не помешает, во всяком случае в рамках редакторского
предисловия. Проблему диагностики лучше видно, если выйти за ее
пределы.
Прежде всего надо обсудить вопрос, как возможна диагностическая процедура. Если не сводить измерение к действию по прикладыванию линейки к предмету, измерение превращается в диагностику - переход от "видимостей" к тому, что существует "на самом
деле". При этом мы знаем, что "видимость" не имеет собственной
действительности, а светит отраженным светом "сущности". Только
при этом условии возможна диагностическая процедура. Попросту
говоря, расплющенный нос и выпученные, как у кролика, глаза Сократа являют раздражительным и высокомерным афинянам его сократовскую "чтойность". Этот переход - не просто терминологическая транспозиция "внешнего" языка на язык "внутренний", но
искусное оперирование внешними измерениями с целью вызвать
наружу дух действительности. Иногда этот дух называют "конструктом", находя основания в том, что он конструируется из данных.
Например, мы можем назвать некоторых людей "фашизоидными
личностями" только потому, что они соответствуют определенным
параметрам адорновской "Ф-шкалы". На самом деле процедура
конструирования "конструкта" не произвольна, а подчинена задаче
рациональной реконструкции типа. В этом отношении построение
шкал и диагностических методик в чем-то похоже на шаманство:
предварительное знакомство с "духом", а также тщательность и
упорство в исполнении аналитического ритуала необходимы для появления "духа". Как и всякий научный ритуал, диагностическая
процедура подчинена технической схеме и, коль скоро схема начала
работать, она перестает зависеть от субъективности исследователя.
Дух возникает сам из глубины признакового пространства, а не создается творческим воображением научного сотрудника.
Есть некоторые основания полагать, что "дух действительности"
не испытывает желания являть себя абы кому и ведет неравную игру
с диагностом, постоянно подсовывая ему подделки. Люди, разбирающиеся в том, что есть что и кто есть кто, принимают игру и иногда
выигрывают. Одним из таких - опытных - людей был Яков Иосеф,
старый раввин из Бердичева. Однажды к нему приехал в гости рабби
Менахем Мендель и люди, собравшиеся у дома, обмерли, увидев в
каком наряде он вылезает из брички. Мендель был обут в башмаки
с большими серебряными пряжками, шляпы на нем не было, а в
зубах он держал длинную трубку. По прошествии некоторого времени люди спросили Иосефа, что он думает об этом деле. "Так рабби
Мендель в куче золы заносчивости укрыл смирение духа, чтобы силы
зла не могли коснуться его", - ответил учитель. Из этой буберовской
легенды следует, что переход от "видимости" к "сущности" равнозначен овладению замыслом происходящего, замыслом, который
открывается исключительно путем "непосредственного усмотрения".
Осуществлять диагностическую процедуру можно двумя способами. Первый способ - выведение внешних признаков из "замысла" доступен лишь избранным - тем, кто обладает умением видеть идеи.
Такое знание мы можем назвать "демоническим". В знаменитом
диалоге о демоне Сократа Плутарх пишет о неком смысле, передаваемом демоном без посредства голоса. Это смысл соприкасается с
разумением воспринимающего как само обозначаемое: "В сущности,
мы воспринимаем мысли друг друга через посредство голоса и слов,
как бы на ощупь в темноте: а мысли демонов сияют своим светом
тому, кто может видеть и не нуждается в речах и именах, пользуясь
которыми как символами в своем взаимном общении, люди видят
образы и подобия мыслей, но самих мыслей не познают - за исключением тех людей, которым присущ какой-то особый, божественный, как сказано, свет... Речи демонов, разносясь повсюду,
встречают отголосок только у людей со спокойным нравом и чистой
душой; таких мы называем святыми и праведниками". Гений, соприкасающийся с предвечными сущностями, может открыть для
науки новый путь, но научная дисциплина обязана осуществлять
свое предназначение как бы на ощупь, в темноте.
Второй способ диагностической процедуры - выведение "замысла"
из внешних измерений - обречен на рутину и разочарование в возможности постичь загадку бытия. Однако эту работу можно исполнять, не рассчитывая на озарение и не связывая результат с участием в проекте какого-нибудь нового Гёте. Аллегория, рассказанная
Йоханом Галтунгом, хорошо демонстрирует безнадежность диагностических мероприятий. Предположим, что мы изучаем некий фрагмент действительности, подчиненный логической идее-схеме,
например, шахматную игру. Мы - диагносты - пока ничего не знаем
о замысле игры и не имеем никаких зацепок, чтобы установить значимые для понимания игры измерения в хаосе самых разных признаков. Путем изнурительных наблюдений мы можем установить,
что движение фигуры, похожей на лошадь, подчинено одной и той
же Г-образной схеме; один из игроков впадает в грустное
расположение духа; большую часть времени люди сидят, о чем-то
раздумывая - из всех этих наблюдаемых регулярностей требуется
вывести правила игры. Но, не зная правил, нельзя понять действия
"актеров". Шахматист, знающий теорию игры, конечно, увидит все,
что необходимо для диагноза. Учебник "дебютов" и "эндшпилей" книгу жизни - не удалось почитать еще никому из смертных. И, тем
не менее, герменевтический круг разрывается обнаружением статистических "регулярностей", отображающих правила игры. Мы не
можем установить смысловую связь внешнего "измерения" с латентной переменной в каждом единичном случае, но вариация статистических распределений указывает на неслучайные (при определенной степени вероятности) соотношения. Пунктуальный человек
может опоздать на поезд, но "опоздания" с высокой степенью вероятности показывают "рассеянность". Таким образом, если "дух
действительности" вызывается шаманством, то это шаманство - не
что иное, как математико-статистическое исполнение процедуры.
Как преодолевается смысловая дистанция от внешнего "измерения" до аутентичного признака объекта? В зависимости от того, как
это делается, можно выделить три типа диагностики.
Первый тип основан на редукции измеряемого качества к операциональной переменной - шаг, в немалой степени обусловленный
"натуральным" происхождением измерителя, высокой точностью и
устойчивостью наблюдений. Возраст редуцируется к ответу на вопрос: "Сколько Вам лет?", образование - к свидетельству об образовании, а национальность - к "национальности". Здесь работают
мощные культурно-эпистемические "паттерны", принуждая социологов к натурализации измерений, хотя нетрудно показать, что некоторые люди задерживаются в возрасте подростка до сорока лет и
более, свидетельство о высшем образовании вовсе не означает умения писать без грамматических ошибок, а многие евреи оказываются русскими. Первый тип диагностической процедуры порождает ясные и отчетливые суждения о действительности и, в то же время,
не позволяет забыть их немножко искусственное происхождение.
Второй тип диагностической процедуры предполагает сохранение
дистанции между операциональными конструкциями языка наблюдения и "истинными" параметрами объекта. В данном случае наблюдения квалифицируются как симптомы некоего латентного качества,
которое может обнаруживать себя и иным образом. Изменение цвета
лакмусовой бумажки означает наличие кислоты или щелочи в растворе; скорость оседания эритроцитов - симптом воспалительного
процесса в организме; количество публикаций - показатель продуктивности ученого; двери коттеджа, открывающиеся наружу, - признак того, что хозяева дружат с соседями, чей дом находится на противоположной стороне улицы, - все эти соотношения имеют вероятностный характер и, даже в том случае, когда симптом практически
безошибочно позволяет предсказывать определенное значение латентного признака (например, РОЭ - воспалительный процесс), элементы этого бинарного отношения сохраняют свою смысловую автономию и не редуцируются друг к другу. Более того,
латентная переменная отображается множеством операциональных
измерений, каждое из которых обладает некоей мерой близости к
порождающей смысловой модели. Это обстоятельство дает возможность строить диагностическую процедуру на "батареях" шкал и тем
самым добиваться высокой надежности итоговых измерений. Соотношение симптома и латентной переменной может трактоваться в
терминах логического следования и тогда мы скажем, что это соотношение объяснимо. Проживание обследуемого в районе Золотого
берега не вызывало у чикагских социологов сомнений в том, что данный человек имеет высокий социальный статус - в этом районе могут нанимать жилье только очень состоятельные люди. Однако в социологии и социальной психологии встречаются такие пары, чье
избирательное сродство не то чтобы непонятно, но вызывает изумление: в 30-е годы Пауль Лазарсфельд показал, что пролетариат
любит сладкое. Зная, что любовь к сладкому - симптом пролетарской
принадлежности, можно пренебречь логическими фигурами. Сказанного достаточно. Таким образом, связь явных и латентных измерений
может основываться исключительно на статистических контингенциях - это не делает их менее полноценными, чем логически обоснованные пары.
Третий тип диагностической процедуры характеризуется удивительным и причудливым возникновением "истинного" качества из
факторизации переменных. Фактор, объединяющий некоторое количество взаимосвязанных признаков, требует "осмысления", и "конструкт" возникает как "Deus ex machina". Аналогичные явления
конструктов присущи также анализу латентных структур и всему
комплексу техник, известных под наименованием "структурные
уравнения с латентной переменной".
Следует остановиться также на том, что подлежит диагностике.
Обычно эту процедуру связывают с измерением личностных качеств.
Методики личностного тестирования можно найти в десятках психологических журналов. Измерение установки - как раз та область, где
диагностическая процедура чувствует себя дома. Несколько обособленную область ее применения образуют групповые качества - "дух"
групповой сплоченности явлен, например, нормированной суммой
позитивных выборов в социометрической матрице. Аристотелевская
"филия" таким измерителем не располагает. Предметом диагностики
могут быть и социальные институции - геополитические образования, национальные, религиозные и тому подобные сообщества. Как
правило, здесь используются самые незатейливые измерения. Например, одни общества довольно уверенно называются тоталитарными, а другие - демократическими. Достаточно проницательные люди,
Л.Фейхтвангер, Т.Драйзер, Р.Роллан, надо полагать, искренне засвидетельствовали демократизм сталинского режима - они восприняли торжество новой юности как значимое измерение и пренебрегли
отсутствием в Советском Союзе многопартийности.
Здесь, в предисловии к книге, посвященной вопросам социологического измерения, небесполезно заметить, что диагностическая
процедура начинается чуть раньше, чем нужно, - сначала формиру-
ется "пространство признаков", которое Луи Гуттман очень точно
определил как "вселенную". Измерения, образующие пространство,
должны обладать удивительным свойством значимости для представления смыслов, положенных в действительности, короче говоря, они
должны быть "релевантными". Этот термин возвращает нас к вопросу о том, как возможна диагностика.
Если бы релевантность определялась только как некоторая смысловая дистанция между измеряемым и измерителем, было бы полбеды. Беда в том, что релевантность-значимость устанавливается в
контексте теории, - затруднение, известное в литературе как тезис
Куна-Фейерабенда. Неизбежность фактов, не сумев совладать с этим
открытием, в очередной раз уступила место в науке воле и представлению. Опять "тематизировался" выбор между двумя интеллектуальными манерами: принять ли процессуальный кодекс дисциплинарно организованного знания (так принимаются к исполнению
процессуальные нормы при установлении квалифицирующих признаков вины) или избрать жанр интеллектуальных бесчинств и
принять участие в массированной атаке на теоретический дискурс и
"кумулятивистскую" традицию в науке. Вызов, именующий себя
постмодернистским, декларирует отказ от диктата "Закона", находя
новую эпистемическую перспективу в "порождении реальности". В
основе порождающих структур, лишившихся безыскусной поддержки фактов, обнаруживаются "Идеальная игра", "Деконструкция
дискурса" и "Совращение". Если говорить о подобном отношении к
реальности как о традиции, то дело почти исчерпывается сартровской
"Тошнотой". Немаловажно и то обстоятельство, что тематический
репертуар и сама интонация постмодерна явно рассчитаны на удовлетворение вполне определенного вкуса читающего бомонда. Это
вкус эпатажа и "деконструкции" сексуальных эпизодов, часто не
вполне удачных. В русской литературе периода либерализации
постмодерн проявляет себя более прямолинейно в деконструкции
тривиального матерщинного дискурса. В любом случае нельзя отрицать зависимости рассматриваемого жанра от публики, не имеющей
специальной профессиональной подготовки, хотя правила жанра
исполняются виртуозно. "Это теоретическая фантастика (Theoryfiction), которая не похожа ни на что появлявшееся ранее", - так
оценила газета "Либерасьон" книгу влиятельного социолога Жана
Бодрийяра "Совращение" (1979). Теоретик постмодерна исходит из
того, что человечество вступает в эру финальных решений, когда
снимаются различия меяоду явным и латентным дискурсами: поверхностный дискурс выпускает наружу глубинный порядок, подменяющий очарование и иллюзию видимостей, чтобы лишить его силы.
Видимости в конечном счете оказываются не пустяками, а удобными
случаями для игры и ее ставок, а (также страсти к девиации совращению самих знаков, а это более существенно, чем возникновение самой истины. Достоверное знание здесь утрачивает смысл.
Под влиянием постмодерна происходят существенные изменения
в тематическом репертуаре социологической методологии. При этом
речь идет не только об образовании новых периферийных областей
8
знания, например, "софт-методологии", но, скорее, о тотальной экспансии в корпус науки и создании некоей разновидности жанра паразитической критики с гуманитарных позиций. Это происходит на
фоне ламентаций о репрессивной роли научного знания как формы власти. "Совращение" к тому же сопровождается претензиями
на чудесное постижение повседневности без использования занудных техник шкалирования. Социологическая профессия не в силах
противодействовать столь жесткой экспансии мягких методов, но
вполне возможно предотвратить смешение разнородных субстанций,
смешение, от которого обычно болит голова. В книге И.Ф.Де-вятко
показано, что социология занимается не "финальными", а предпоследними истинами, критерием которых является правильная процедура.
Доктор философских наук Г.С.Батыгин
Глава первая
ИЗМЕРЕНИЕ УСТАНОВОК В АМЕРИКАНСКОЙ СОЦИОЛОГИИ
И СОЦИАЛЬНОЙ ПСИХОЛОГИИ: ЗАРОЖДЕНИЕ СОЦИОЛОГИЧЕСКОЙ ПАРАДИГМЫ
1. Становление основных подходов к измерению установок (1920-е - 1930-е годы)
Ранний период развития эмпирических социальных исследований - от восходящей к XVIII в. политической арифметики до переписей и статистических обследований конца XIX в. - заложил существенные предпосылки развития социологических методов. Однако
между этим ранним периодом и "зрелой" эмпирической социологией,
о которой пойдет речь в этой книге, существует принципиально важный качественный разрыв. Те исследователи, которым социологическая наука более всего обязана возникновением специальных процедур для получения эмпирического знания о социальном мире, в большинстве случаев не считали себя социологами и видели смысл своей
исследовательской работы не в проверке "больших" социологических
теорий классического периода, а в получении достоверного фактического знания об условиях и уровне жизни в городах, бедности, социальных последствиях индустриализации и т.п. Социальные обследования второй половины XIX - начала XX веков были явно и неявно
связаны с общественными дискуссиями и социальными реформами
своего времени. Разумеется, и для британских социальных статистиков Х1Хв., и для участников первых американских крупномасштабных социальных обследований начала нашего столетия первостепенное значение имела идея объективности и надежности сведений - "социальных фактов", - добываемых с помощью прямого наблюдения.
Данные переписей, обследований и статистических описаний, собранные таким образом, рассматривались как твердый фактический фундамент для социальной политики и административных реформ. При
этом обоснованность убеждения в объективном характере социальной
статистики не ставилась под сомнение, не "проблематизировалась".
Задача выработки и последовательного обоснования собственно научных методов социального исследования была вполне осознана лишь
к концу первой трети нашего века в США, где академическая социология впервые получила автономную и прочную институциональную поддержку и стала нуждаться в собственном идеале "объективной
науки", отличном от прежнего идеала "реформистской науки". Неудивительно, что упадок движения социальных обследований в Америке совпал по времени с возникновением эмпирической социологии
и ростом интереса к методическим и процедурным проблемам [103 ].
Таким образом, к началу 30-х годов социальные обследования, возникшие первоначально как некоторое "научное обоснование" социальных реформ, столкнулись с необходимостью выработки более стротах критериев собственной научности. Появилась потребность пере-
хода от эклектической практики сбора эмпирических данных о мнениях, намерениях и поведении людей с использованием муниципальной статистики, опросов экспертов и представителей "элиты" и наблюдения условий жизни к прямым и стандартным способам измерения "субъективных показателей". Вообще говоря, в американских общенациональных обследованиях 20-х - 30-х годов в ряде случаев использовались опросные процедуры, нацеленные на выявление мнений
и установок о профессиональных планах молодежи, причинах миграции и т.п. Однако неразработанность проблем выборки и измерения
и отсутствие четкой концептуализации понятий "установка" и "мнение" делала эти первые попытки весьма уязвимыми для критики. Эта
критика исходила, прежде всего, со стороны академической науки,
не имевшей практики столь широкомасштабных исследований "реальной жизни", но обладавшей сложившимися канонами эмпирического обоснования научного вывода. Весьма показательна позиция,
сформулированная в 1926 г. на собрании научного общества экспериментальной психологии: "Решено, что это собрание осуждает возрастающую практику сбора административных или мнимо научных
данных посредством вопросников, и что собрание в особенности порицает практику, когда аспиранты предпринимают исследования,
рассылая вопросники профессиональным психологам" ( [206 ], цит. по:
{109. С.54]).
Разумеется, критика "академических пуристов" не могла положить конец традиции обследований и опросов, которая в начале 30-х
годов имела и сложившийся "социальный заказ", и разветвленную
систему финансовой поддержки (зачастую более основательную, чем
академическая наука) . Поборники социальных обследований продолжали использовать любые доступные данные индивидуального уровня
(установки, мнения, факты поведения) , при этом теоретическая интерпретация фокусировалась на понятии "установка". Именно к началу 30-х годов нашего столетия стала складываться собственно социологическая традиция измерения субъективных переменных, отличная от традиции психологического измерения, хотя и испытавшая
Со стороны последней очень большое влияние. При этом первой областью дифференциации социологической и психологической парадигм измерения стали исследования установки.
Если оставить в стороне раннюю предысторию понятия установки
в психологии (например, "моторная установка" Н..Ланге и Т.Рибо,
''установка сознания" в работах психологов вюрцбургской школы),
то появление в социальной психологии и социологии термина "установка" (аттитюд) в значении, близком к современному, связано с именем У.Томаса, который в совместной с Ф.3нанецким| работе "Польский крестьянин в Польше и в Америке" (1918-1920) ввел общее понятие установки как состояния сознания, выражающегося в потенциальной активности по отношению к ценностным объектам. Вокруг
Точной дефиниции этого понятия уже в 20-е и 30-е годы развернулась
бурная полемика, освещение которой не входит в нашу задачу1 . За11
1
Детальный обзор подходов к определению понятия "установка" можно найти, например, в [4; 70;
178].
метим лишь, что если в социальной психологии большое значение
придавалось поведенческим и познавательным компонентам установки, то в социологических дефинициях основным чаще оказывался
эмоционально-оценочный компонент (примером может служить определение установки у Терстоуна, понимавшего ее как уровень
напряженности позитивных или негативных чувств, связанных с
объектом установки [233 ]). Основным, однако, было не различие в
дефинициях, а различие в исследовательских подходах и процедурах. Психологи, изучавшие установки, были наследниками экспериментальной традиции и, оставаясь чрезвычайно требовательными к
соблюдению ее норм, вместе с тем мало заботили, а о подобии мира
лаборатории реальному социальному контексту. Социологи же, особенно те из них, кто работал вне университетских кампусов, были
весьма нечувствительны к достоинствам экспериментального метода
и ощущали, что, невзирая на все недостатки, массовые опросы позволяют получать данные о группах, субкультурах и их влиянии на
личность. На внешнем, процедурном уровне различие проявлялось
в технике измерения, выборе респондентов и условий проведения
исследования, а также в предпочтении индикаторов.
Отличительными особенностями психологического подхода к измерению установок в 20-е - 30-е годы было использование данных
вопросников, допускающих квантификацию, студентов-испытуемых
в приближенных к лабораторным условиям классной комнаты и
декларируемых мнений в качестве индикаторов установок. Социологи больше были ориентированы на использование интервью и методов "анализа случая", поиск различий между субкультурными группами (а не индивидами), проведение полевых исследований различных реальных общностей (а не студенческих групп в аудитории) и
учет поведенческих индикаторов установки наряду с вербальными.
В психологии в этот период появилось огромное количество работ
по измерению установок. Их авторы стремились, с одной стороны,
ввести квантификацию в исследование субъективных смыслов и таким
образом создать серьезную альтернативу радикальному бихевиоризму, а с другой - расширить сферу применения психометрического подхода и теории тестов. Испытуемыми обычно оказывались студенты.
В обзоре Г.Мерфи, Л.Мерфи и Т.Ньюкома, опубликованном в 1931г.,
из 55 исследований установок лишь 5 были проведены вне колледжа
со взрослыми испытуемыми, а в 45 исследователи имели дело исключительно со студентами [186 ]. В классическом обзоре 1935 г. Гордон
Олпорт [70 ] даже не упоминает, что основная часть анализируемых
им исследований проводилась на студентах или школьниках. При этом
студенты рассматривались не как специфическая группа, а как представители "людей вообще". Среди причин этого положения вещей для
нас наиболее существенны следующие: 1) психологи обычно использовали более сложные инструменты измерения и более точные гипотезы в условиях, близких к лабораторному эксперименту по степени
контроля; 2) это, в свою очередь, требовало стандартных процедур и
высокой готовности к сотрудничеству со стороны исследуемых. Так
как описание результатов должно было соответствовать канонам экс12
периментальной традиции и включать сведения о надежности и валидности, испытуемые должны были быть досягаемы для повторных
процедур и обладать достаточно высокой грамотностью, компетентностью и навыками саморефлексии. Кроме того, существенным фактором была и "дешевизна" экспериментов со студентами.
Хотя многоуровневость структуры установок и нелинейность
связи установок и мнений осознавалась достаточно отчетливо, психологи в меньшей мере, чем социологи, склонны были сомневаться
и в валидности своего измерительного инструмента, и в онтологическом статусе самого измеряемого конструкта, т.е. установки2 .
Своеобразие социологического подхода к измерению определялось
не только теоретическими представлениями о предмете и методах социологии, но и конкретными особенностями профессионального сообщества и сложившимися в первой трети века типами исследовательской практики. Прежде всего, в подготовке профессиональных
.социологов количественные методы и основы математической статистики часто играли роль факультативных элементов. "Количественной" стороной" американской академической социологии занимались
преимущественно демографы и отдельные специалисты в области статистики. Экспериментальная традиция с ее "культом" квантификации в социологии (в отличие от психологии) отсутствовала. Как от
мечает Дж.Конверс, "большинство социологов, начавших интересоваться установками, еще недостаточно владели количественными тех
никами. Они склонны были работать интуитивно с неструктурированными интервью, без стандартных опросников или бланков, используя жизнеописания (письменные или устные), дневники, письма и
другие личные документы о качественных сторонах жизни" [109.
Р.59-60 ]. Некоторые социологи стремились интегрировать качественные и количественные методы исследования, полагая, что основанные
на качественных данных гипотезы могут быть подкреплены строгой
статистической проверкой на более обширном материале (Э.Бёрджесс, У.Огберн, Ст.Райс). Однако препятствием здесь зачастую являлась сама природа данных, доступных социологу в то время: проблема выборки до середины 30-х годов не имела даже строгого теоретического решения (строгое обоснование основ современного выбо-'
рочного метода в социологии было дано Ежи Нейманом лишь в работе
1934 года (см.: [74])), а в практику социологических исследований
идеи вероятностной выборки и стратификации прочно вошли лишь в
40-е годы3.
13
2
Наиболее последовательной критике исследования индивидуальных мнений и установок в
эмпирической социологии были подвергнуты представителями критической социологии.
Однако произошло это позднее, в 50-е годы [66; 198].
3
Огромную роль в распространении идей репрезентативной выборки и количественных методов сыграла группа социологов, многие из которых учились в Колумбийском университете у
Ф.Педдингса (в Колумбии курс дескриптивной статистики был введен в 1890-егоды [193]).
Влияние колумбийской социологической школы вплоть до 1920-х . гг. было чрезвычайно
велико. Однако оформление количественной, " строгой" ориентации происходило лишь постепенно. Как показал недавно С.Тернер, многие ориентированные на статистические методы социологи " колумбийской семьи" были тесно связаны с реформаторскими социальными обследованиями и не стремились к немед-
Социологи, и особенно те из них, кто разделял методологические
представления Чикагской школы, стремились к исследованию естественных групп и общностей в условиях "реального мира". Это делало невозможным механическое заимствование идей экспериментального контроля, стандартизации и квантификации из других
поведенческих наук. Названные идеи в этот ранний период могли
быть воплощены лишь при условии отказа от изучения естественных групп и общностей, субкультур, проблематики культурной детерминации личности. Социологов же интересовали именно "труднодоступные" общности и носители установок - эмигранты, бродяги, делинквенты и т.п. В силу этой заинтересованности основными
методами сбора данных были включенное наблюдение, нестандартизованное интервью, не подразумевавшие детальной регламентации
процедуры и строгого следования нормам "опытной науки". Так,
Р.Лапьер, изучавший расовые установки французов и англичан, путешествовал, завязывая разговоры с попутчиками в вагонах первого, второго или третьего класса, с посетителями ресторанов. При
этом различия между респондентами были настолько сильны, что
немыслимо было задать англичанину тот же "стандартный" вопрос,
что и французу, - пригласит ли он негра в свой дом. Приходилось
жертвовать стандартизацией условий и сопоставимостью (а значит
и возможностью классификации, табулирования и др.) и спрашивать, допустимо ли, когда черные и белые дети играют вместе.
В целом, к концу 20-х годов социологи были склонны использовать разные типы индикаторов установок: данные личных наблюдений за естественным поведением (как в полевых исследованиях Чикагской школы); статистический анализ объективных "нереактивных" показателей поведения - данных голосования, публикаций в
прессе и т.п. (пионером здесь был Стюарт Раис [202]); методы
"анализа случая" и данные личных документов (Э.Богардус, Ф.Знанецкий и др.); и, наконец, шкалирование установок. Именно в
области измерения установок начала оформляться специфическая
традиция социологического измерения, отличная от подходов, оформившихся в психологии или эконометрике. Однако эти отличия были
следствием не изолированного и недоступного "внешним" влияниям
развития, а логически вытекали из переосмысления и творческого
заимствования концепций и методов измерения, развивавшихся
демографами, экономистами и особенно психологами. История разработки первых шкал установок (Ф.Олпорт и Э.Богардус) позволяет
понять причины, по которым шкалирование приняло разные формы
в социологии и психологии [109. Р.62 ].
В 1924г., когда психолог Флойд Г.Олпорт призвал социологов отказаться от преувеличения роли "группового сознания" и попытаться объяснить феноменологию группы с позиций социальной
психологии личности, социоло Эмори С.Богардус в том же номере
"Американского социологического журнала" высказал весьма существенные возражения против такого подхода [68 ]. Если возможно
ленному отказу от идеалов социальной статистики в пользу академической "чистой
науки" [236].
14
«групповое» заблуждение, то в такой же мере возможно и "индивидуальное", и весьма рискованно измерение индивидуальных свойств,
Изолированное от группового контекста. Сами установки индивида,
его ценностные ориентации и даже личностная идентичность произЦрдны от интерсубъективных отношений в группе, от "интерсоциной стимуляции" друг друга членами группы4. Однако эта конкретная
дискуссия еще не содержала сколь-нибудь детализированного исания
различия в проведении исследований. Различие стало очевидным позднее, когда вскоре каждый из ученых опубликовал шкалу
измерения установок. Как убедительно показала Дж.Конверс, это
событие очень иллюстративно для понимания того, как различия в
методологических подходах отразились в исследовательской практике "родственных" дисциплин [109. Р.62-68].
2. Шкалы социальной дистанции и традиция измерения
в Чикагской школе
Э.Богардус, защитивший докторскую диссертацию по психологии
Чикагском университете по влиянию утомления на производственный травматизм и позднее работавший в университете Южной Калифорнии, испытал сильное влияние Чикагской школы СОЦИОЛОГЕ, и
особенно У.Томаса. Всю свою продуктивную профессиональную
деятельность он посвятил социологии.
Богардус изобрел "шкалу социальной дистанции", опираясь на
вдеи Р.Парка [195 ]. Хотя шкала была основана на прямых самоотчетах о предполагаемом поведении, т.е. респонденты должны были
:ообщить, как бы они себя повели, а не выразить свои политические
убеждения или оценку чьих-то действий, по замыслу автора, она
должна была измерять установки по отношению к группам и способствовать анализу структурных отношений, приспособления и конфликтов. Богардус не стремился соотнести установки с личностными
чертами (в отличие от Олпорта) и, более того - не считал количественное измерение установок с помощью шкалы сколь-нибудь надежным и самодостаточным. Здесь, как отмечает Дж.Конверс [109.Р.63 ],
эн явно следовал традиции Чикагской школы. Измерения расовых
установок с помощью шкалы он дополнял личными интервью с
эеспондентами, чтобы убедиться, что "шкальные" оценки действигельно совпадают с мнениями, высказываемыми в более неформальной беседе [93]. И хотя, строя шкалу, Богардус основывался на достаточно отчетливых представлениях о кумулятивности, он не стал
)азвивать непосредственно следующие отсюда идеи об определении
положения респондента на одномерном континууме латентных качеств (что было сделано позднее Л.Гутманом, принадлежавшим уже
к "количественной" традиции в социологии). В редактировавшемся
4
Интересно отметить, что самая радикальная критика попытки Олпорта представить
группу как воображаемый, номинальный " ярлык" и признать " реальными фактами"
лишь суждения, касающиеся отдельного индивидуума, содержится в "Основаниях
социологии" Дж.Ландберга (именно в той работе, где излагается последовательно операционалистский подход к социологическому измерению) [173. Р.164-165].
Богардусом журнале "Sociology and Social Research" (первоначально
"Journal of APPlied Sociology") публиковались статьи по мерам социальной дистанции различных групп (расовых, религиозных, профессиональных, возрастных), но, как отмечает Дж.Конверс, "изрядная часть опубликованных здесь работ была свободной от данных,
импрессионистской или концептуальной..." [109.Р.65]. И этот "эссеизм" был связан не столько с неприязнью к измерению вообще или
недостаточной подготовкой в области статистических методов (долгая жизнь шкалы социальной дистанции явно свидетельствует о высокой методической культуре их создателя), сколько с различием
интеллектуальных традиций социологии Чикагской школы и экспериментальной психометрии.
Работы Э.Богардуса и Ф.Олпорта, знаменовавшие собой ранний
этап измерения установок, обострили уже существовавшие в социологии противопоставление качественных "case studies" и статистически, т.е. количественно, ориентированных исследований5.
Работы Богардуса могли рассматриваться как вклад в "Чикагскую
традицию квантификации", "но сам он, видимо, не имел таких
устремлений" [109. Р.67]. По сути "психологически-ориентированные" работы Олпорта оказались в тот момент более значимы для
развития идей шкалирования, так как именно они послужили непосредственным толчком к созданию шкалы Л.Л.Терстоуна.
Однако, прежде чем обратиться к анализу "психологической
ориентации" в шкалировании (Ф.Олпорт, Л.Терстоун и РЛикерт),
нам предстоит рассмотреть более широкий контекст, в котором идеи
Э.Богардуса не только формировались, но и интерпретировались
современниками. Этим контекстом, как уже говорилось, были взгляды социологов Чикагской школы на соотношение "количественного"
и "качественного" в методологии социальных наук. Обозначенная
таким образом проблема неоднократно анализировалась историками
социологии, однако в последнее десятилетие устоявшиеся ее трактовки подверглись радикальному пересмотру. Поводом для этого
стали некоторые работы М.Балмера (и, позднее, Л.Харви), посвященные "количественной традиции Чикагской школы". Обычно Чикагская социология описывалась как ориентированная на этнографические, т.е. "качественные", методы и враждебная "статистике"
и "позитивизму". В определенной мере этот взгляд был связан со
стремлением историков социологии сконструировать согласованный
и отчетливый образ Школы как некоторой интерпретативной, феноменологической альтернативы преобладавшему в американской социологии количественному, помологическому подходу. Как это нередко случается в истории науки, столь непротиворечивая и ясная
интерпретация оставила "за кадром" слишком много фактов и обстоятельств, существенных для дотошного историка. Традиционная
интерпретация в значительной мере опиралась на общеизвестные
а факты: нелюбовь Р.Парка к статистике, обоснование У.Томасом
5
Своего рода "промежуточную" позицию занимал С.А.Райс, также исследовавший
в конце 20-х годов измерение установок. Он хотя и испытывал влияние работы Ф.Олпорта и Д .Хартмана, но пытался найти" нелабораторные" и объективные меры установок, отличные от мнений (например, результаты выборов).
превосходства личных документов и автобиографий над другими
источниками социологических данных, критика Г.Блумером анализа
переменных и непопулярность аналитико-статистических методов в
среде чикагских исследователей.
Бесспорно, ведущие социологи "Чикагской" ориентации весьма
скептически оценивали попытки создать "научную социологию",
основанную на принципах репрезентативной выборки, операционализации теоретических понятий и статистической проверки гипотез.
Однако даже столь радикальный защитник субъектно-ориентированяых биографических методов, как У.Томас, совсем не склонен был
Is считать методы статистического причинного вывода неким опасным
я бесплодным соблазном эмпирической социологии. Вернее будет
сказать, что У.Томас выступал против излишней стандартизации и
сверх-рационализации методов исследования, против "методологической ортодоксии", препятствующей диалогической включенности
социолога в исследуемую ситуацию и подменяющей содержательную
проблематику процедурными и техническими задачами. В 20-е - 30-е
годы У.Томас во все большей мере склонен был принять возможность
использования количественных методов при условии их применимости к определенному биографическому материалу [143. Р.76 ]. В ряде
диссертаций, защищенных в Чикаго в начале 30-х годов, анализировались сравнительные преимущества стандартизированных методов измерения установок и биографического подхода (Стауффер,
Браун). Дискуссии о качественных и количественных методах не
привели к формированию жесткой "антистатистической" позиции и,
судя по воспоминаниям участников событий, скорее послужили
толчком к интеграции двух подходов [143. Р.77-78]. Общая для американской социологии 30-х годов тенденция к смещению центра "методологического диспута" с проблемы применимости статистики к
проблеме измерения и операционализации теоретических понятий
была характерна и для чикагских социологов.
Хотя ведущие представители школы (наиболее очевидный пример
- Г.Блумер) чаще всего отрицали дефинитивную природу теоретических понятий в социологии и, следовательно, возможность их
операционализации, они не стремились к выработке абсолютно
неповторимой и самобытной "Чикагской" позиции в методологии.
Иными словами, есть основания говорить о раннем "методологическом плюрализме" чикагцев, стремившихся гибко использовать и
качественные, и количественные методы в зависимости от обстоятельств и исследовательской ситуации. Даже позиция Р.Парка не
была столь "антистатистической", как иногда считают. Для Парка,
как и для У.Томаса, характерен был крайний антинатурализм.
Однако он не отрицал полезности статистических данных и социальных обследований. Последние, кстати, были темой курса, который
он читал в 20-е годы (с 1917 г. - совместно с Бёрджессом), уделяя
особое внимание практическим способам анализа и представления
данных "полевых исследований" [143. Р.79-80]. Большинство чикагских социологов, и в первую очередь А.Смолл и Э.Бёрджесс, считали,
2 И.Ф.Девятко
17
что студенты-социологи нуждаются в полноценных курсах по статистике и методам исследования. И Смолл, и Бёрджесс предприняли
все возможное, чтобы "заполучить" У.Огберна, в 1927 г. пришедшего
из Колумбийского университета в Чикагский. Огберн, чья репутация
в области статистики и количественной методологии уже сложилась
к моменту переезда в Чикаго, принял самое активное участие во
многих междисциплинарных проектах, в том числе осуществлявшихся на муниципальном уровне и связанных с проблемами города. Его
преподавательская деятельность повлияла на многих чикагских студентов и лекторов, увеличив их интерес к возможностям и ограничениям квантификации в социологии. Когда в 1929 г. было торжественно открыто новое здание для исследовательских лабораторий
общественно-научных факультетов, именно Огберн убедил коллег в
том, что вход в здание лучше всего украсит афоризм лорда Кельвина:
"Когда ты не умеешь измерять, твое знание скудно и неудовлетворительно".
По мнению Л.Харви, наиболее симптоматичной была позиция
Э.Бёрджесса, которого он даже называет " барометром методологических тенденций" [143. Р.87 ] Чикагской школы. Бёрджесс активно
участвовал в ранних социальных обследованиях и анализе данных
переписей (в 20-е годы он даже возглавлял Чикагскую комиссию по
переписи). Позднее он широко использовал корреляционный анализ,
занимаясь прогностическими исследованиями устойчивости брака. В
этой области он сотрудничал с Огберном - одним из пионеров использования методов частной и множественной корреляции в социологии. Он также считал плодотворным сочетание качественных и
количественных методов социологического анализа, когда открываемые в качественном анализе проблемы исследуются формальными количественными методами.
Заметное влияние на сотрудников и студентов социологического
факультета оказывали и работы экономистов и психологов, преподававших в Чикагском университете и интенсивно использовавших
статистику и количественные методы анализа. Так, прежде чем
Огберн стал читать курсы по статистике и методам исследования,
студенты и аспиранты-социологи посещали курс по статистике, читавшийся Л.Терстоуном на факультете психологии [143. Р.80]. И
Огберн, и учившийся у него С.Стауффер, сотрудничали с политологами и статистиками Чикагского университета уже в 20-е - 30-е годы
проводившими массовые социальные обследования и опросы.
Все сказанное позволяет, по меньшей мере, сделать вывод о том,
что единой и консолидированной Чикагской "антицифровой" позиции не существовало. Более того, несмотря на критику со стороны
интеракционизма и сдержанно-скептическое отношение Блумера,
Томаса и Парка к статистике, массовым опросам и - шире - к возможностям помологического подхода, уже в первой трети века в Чикаго существовала достаточно развитая и интересная традиция
квантификации, повлиявшая на становление методологии социологических исследований.
18
3. Психологическая ориентация:
Ф.Олпорт, Л.Л.Терстоун, Р.Ликерт
Использованный в заголовке термин "психологичекая ориентация" достаточно условен, но уместен здесь для того, чтобы охарактеризовать работы, связанные с психологией не столько институционально, сколько сходством в формулировке проблем и методологии.
Ф.Олпорт учился в Гарварде и получил основательную подготовку
в экспериментальной психологии. Работая в Сиракьюзском университете, он занимался социальной психологией и исследованиями
установок. Уже ранние его работы привлекли к себе внимание в среде
психологов и социологов, заинтересованных в проблемах измерения (например, С.А.Райс, ученик Ф.Гиддингса, как и многие его
ученики, испытывавший интерес к проблемам квантификации и
немало сделавший для утверждения количественных методов в социологии, в монографии 1928 г., посвященной количественным методам в политологии [202], уделяет основное внимание проблемам
измерения установок и многократно ссылается на близкую к его
собственному подходу статью Ф.Олпорта [69 ], а также на личную
переписку с ним по проблемам распределения мнений). Именно
Ф.Олпорт часто считается одним из основателей "научной", т.е.
объективной и эмпирически ориентированной социальной психологии.
Шкала Ф.Олпорта (разработанная в сотрудничестве с Д.Хартманом) была куда менее проста, чем шкалы социальной дистанции, и
предполагала весьма высокую осведомленность в политике со стороны респондентов [69]. В отличие от Э.Богардуса, считавшего, что
едва ли может быть надежным измерение, основанное на рефлексии
респондентов по поводу своих мыслей, установок и поступков, и довольно настороженно относившегося к прямому измерению "внутренних состояний", Олпорт не только пытался измерить установки
через мнения, но и соотнести их с личностными особенностями.
Испытуемыми Олпорта были студенты колледжа (и здесь он ориентировался на экспериментальную традицию, в отличие от чикагских
социологов, стремившихся изучать естественные группы и ситуации
"реального мира"). Высказывания шкалы относились к семи "объектам установки", включая Лигу наций, Ку-клукс-клан и "сухой
закон". Очень важной новацией Олпорта было введение экспертной
процедуры. Этот прием сыграл значительную роль в возникновении
терстоуновского подхода к шкалированию. Судьи (преподаватели
колледжа) должны были отобрать и упорядочить от одной крайней
позиции к другой высказывания из письменных сочинений шестидесяти студентов, содержавших их личные мнения. Отдельные шкалы
отличались числом градаций и сложностью. Некоторые формулировки были просты ("Кулидж прекрасно подходит для президентского
поста" в шкале установок по отношению к президенту Кулиджу),
некоторые - весьма сложны и пространны (например, высказывания
шкалы установок по отношению к распределению богатств). Студенты должны были каждый раз выбрать одно высказывание, лучше
19
всего представляющее их мнение (т.е. конструкция шкалы не предполагала кумулятивности). Кроме того, непосредственно оценить
степень определенности и уровень интенсивности, с которой они
придерживаются своего мнения (было доказано, что это в действительности одно и то же). Проанализировав распределение мнений и
интенсивностей, Олпорт и Хартман заключили, что "атипичные"
группы на концах распределения мнений более категоричны в своих
суждениях, чем те, что находятся в середине, и что личностные
черты представителей "крайних" групп более сходны, чем у представителей "центра". Последнее соображение близко к более поздней
идее авторитарности (ср. [154]).
Работая над шкалой, Ф.Олпорт обратился к Л.Л.Терстоуну, психологу из Чикагского университета, специализировавшемуся в области психофизики, за консультацией по проблемам психологического
измерения. Терстоун занимался проблемами абсолютных и дифференциальных порогов ощущения и, остро чувствуя кризисное состояние классической психофизики, пытался найти новые подходы к
измерению сенсорного континуума. Позднее он оценивал пионерские
исследования Олпорта как прямой стимул для своих собственных
работ по шкалированию [149 ]. Заинтересованный идеями Олпорта,
Терстоун решил применить к социальным установкам какое-нибудь
из новейших средств психофизического арсенала. Задача заключалась в том, чтобы найти "имманентную" метрику установочного
континуума, шкалу с равными градациями.
В арсенале психофизики, уже более полувека занимавшейся сопряжением физического ряда стимулов и сенсорного ряда субъективных восприятий, были достаточно сильные средства косвенного
шкалирования. Одно из лучших и новейших средств - метод парных
сравнений (стимулы попарно сравниваются друг с другом и дисперсия различения служит критерием размещения стимулов по градациям сенсорного ряда).
Метод парных сравнений был усовершенствован Терстоуном и
восходил к классическому методу "постоянного стимула", использовавшемуся еще Г.Т.Фехнером, который, с точки зрения идеи парных
сравнений, оказывался частным случаем с фиксированным уровнем
одного из стимулов пары [17 ]. Особенный интерес здесь представляет
то обстоятельство, что, судя по автобиографии ЛЛ.Терстоуна [149.
Р.306-307 ], субъективной целью его первых экспериментов, начатых
в Чикаго в 1924 г., была не разработка нового подхода к построению
сенсорных шкал, а желание найти "более интересные стимулы" для
психофизического эксперимента. Как пишет Терстоун: "Основной
проблемой старомодной психофизики была проблема определения
порога... Едва ли можно было беспокоиться о чем-нибудь более тривиальном. Кого заботит точное определение чьего-то порога при
взвешивании грузов? Преподавая этот предмет, я чувствовал, что
мы должны что-то сделать с этим абсурдом, вводя более интересные
стимулы" [128; 149. Р.307]. Терстоун использовал в первых своих
экспериментах с парными сравнениями два типа стимулов, действительно нетривиальных для традиционной психофизики - преступле-
ния, сравнивавшиеся по степени их серьезности, и список пар различных национальностей [226; 227 ]. В последнем случае испытуемому предлагалось решить, с представителем какой национальности из двух он бы предпочел быть в дружеских отношениях. Сама
природа полученных Терстоуном данных стимулировала формулировку определенной теории парных сравнений, что предполагало наличие некоторых содержательных представлений о субъективной метрике и субъективных единицах измерения. Принципиальной особенностью выведенного Терстоуном закона сравнительного суждения была возможность установления субъективной метрики даже при отсутствии физической величины у сравнивавшихся стимулов. Закон Э.Г.Вебера, послуживший основой для
закона Фехнера, в явной форме вообще не включал в себя субъективных значений стимула, но без предположений о субъективной
метрике не мог быть проверен. Идеи Терстоуна были действительно
новаторскими, как и использованный им экспериментальный метод.
Возвращаясь к просьбе Ф.Олпорта, можно сказать, что круг интересов Терстоуна к тому времени отчетливо сфокусировался на
проблемах субъективной метрики и измерения "социальных ценностей". Предложение Олпорта вызвало у Терстоуна двоякий интерес.
Во-первых, это был еще один шанс "вдохнуть немного жизни и интереса в психофизику, в которой длительное время доминировали
тривиальные проблемы поднятия весов и определения порогов". Вовторых, "распространение психофизических методов на измерение
социальных ценностей стало особенно соблазнительным, когда оказалось, что закон сравнительного суждения полностью независим от
физических величин стимулов" [149. Р.310]. В этих обстоятельствах, как пишет Терстоун, он в 1928 г. опубликовал статью
"Установки могут быть измерены" [229], вызвавшую, вместо ожидаемого одобрения, "бурю критики и споров". К моменту публикации этой статьи в психометрической лаборатории Терстоуна уже
велись работы по конструированию установочных шкал, исходным
материалом которых служили шкалы Ф.Олпорта. В статье "Установки могут быть измерены" Терстоун, описав в общих чертах процедуру построения интервальной шкалы социальных ценностей с помощью метода парных сравнений, отмечает, что кроме такой "рациональной шкалы" существует более простая процедура построения
установочной шкалы, позволяющей измерять индивидуальные установки, и описывает общую логику этой процедуры. Первая публикация конкретной шкалы установок по отношению к "сухому закону", суждения которой были взяты из шкалы Олпорта, относится к
тому же 1928 г. [228 ], но использованные в экспериментальной
процедуре ранги суждений здесь были преобразованы в данные
парных сравнений и шкала строилась на основании закона сравнительного суждения.
В проведенном Терстоуном совместно с Чейвом исследовании,
посвященном конструированию шкалы установок по отношению к
церкви, результаты которого были опубликованы в работе "Измере-
20
21
ние установок", вышедшей в 1929 г. [233], использовалась уже
упрощенная процедура "равнокажущихся интервалов". Причина
заключалась в 1ромадной трудоемкости метода парных сравнений.
Если бы, например, Терстоун и Чейв применили его к имевшемуся
у них списку из 130 высказываний о церкви, то каждому из 301
экспертов пришлось бы вынести 8385 отдельных суждений. При
использовании метода равнокажущихся интервалов эксперты сортировали карточки с суждениями по одиннадцати стопкам - от резко
негативных по отношению к объекту установки (например, к церкви
или "сухому закону") до крайне благожелательных. При этом
непосредственно в инструкции было отражено очень сильное допущение, касающееся субъективной метрики шкалы, - допущение
перцептивного равенства интервалов (фактически процедура сортировки по субъективно равноудаленным градациям, с точки зрения
предполагаемой способности испытуемого осуществлять прямую
оценку воспринимаемых различий стимулов, очень близка к разработанным позднее Стивенсом методам прямого шкалирования в
психофизике). Наименования давались лишь крайним и средней
(нейтральной) градациям. После выявления двойственных (с большим разбросом относительно медианы) и иррелевантных (т.е. не
измеряющих предполагаемую установку) суждений, оставшиеся
получали числовое значение по шкале на основании усредненных
оценок экспертов. Результирующая шкала (в случае установок по
отношению к церкви она состояла из 45 суждений) была, конечно,
не интервальной в строгом смысле слова, но вместе с тем превосходила ординальный уровень измерения и в среднем диапазоне могла
считаться шкалой разностей. Удаление или прибавление пункта
шкалы не меняло значений других пунктов.
Терстоун и его сотрудники (Ю.Чейв, Х.Смит, Д.Дроба и др.)
выполнили в конце 20-х - начале 30-х годов целую серию исследований, посвященных измерению установок. В своей "Автобиографии" Л.Л.Терстоун отмечает в качестве лучшей работы этого периода серию исследований, посвященных влиянию кинофильмов на
динамику установок и предвосхитивших многие более поздние работы по изучению эффективности пропаганды [230; 231 ].
Однако вскоре (в конце 1931 - начале 1932 г.) все работы по измерению установок в лаборатории Терстоуна были прекращены.
Мотивируя это решение, Терстоун позднее писал: "Была куча переписки с людьми, заинтересованными в измерении установок, но
они были заинтересованы в основном отбором установочных шкал
по конкретным вопросам для использования на конкретных группах
людей. Это представляло очень маленький интерес с точки зрения
развития теории (установок). Создание все новых и новых шкал
казалось непродуктивным и я решил прекратить любые дальнейшие
работы в этом направлении. Незавершенные материалы для еще
дюжины шкал установок были выброшены в корзину, и я объявил
нежелательной любую дальнейшую работу такого рода в моей лаборатории. Я хотел расчистить место для работ по развитию многофакторного анализа" [149. Р.311-312]. И в "Автобиографии",
22
и во введении к соответствующей части вышедшего уже после смерти
Терстоуна сборника ранних статей [234. Р.213-214] говорится, что
основная неудовлетворенность была связана с сиюминутным и слишком "прикладным" характером интереса социологов и социальных
психологов к шкалам установок. Терстоуну же любая "актуальность" и ангажированность ученого казалась несовместимой с ценностями науки. Поэтому он, подводя итог периоду своего интереса
к проблемам измерения в социальных науках, весьма пессимистически оценивает будущее социальной психологии (и социологии) как
рациональной и количественной науки: "Следует поставить вопрос,
в какой мере развитие молодой науки должно находиться под давлением сиюминутных ведущих проблем. Возможно, главная причина
очень низкого престижа социальной психологии состоит в том, что
многие авторы в этой области явно преследуют личные цели. Сомнительно, чтобы можно было быть пропагандистом и ученым в одной и той же области в одно и то же время. Сходные комментарии
могут быть сделаны применительно ко многим социальным исследованиям. Часто оговаривают, что социальные явления столь сложны,
что сравнительно простые методы наук постарше неприложимы. Этот
аргумент, вероятно, ложен... Принципиальная трудность состоит в
том, что эксперты в этой области часто враждебны науке. Они пытаются описать тотальность ситуации и часто ориентируются, на
рынок или предстоящие на следующей неделе выборы. Они не понимают захватывающего интереса открытия некоторого рода инвариантности, которая никогда не покрывает всю целостность любой
ситуации" [149. Р.312].
Помимо явно выраженного мотива, вероятно, присутствовал и
еще один, с которым было связано раздражение Терстоуна против
подчеркивания "особой сложности" социальных явлений и невозможности понять целое. Терстоун воспринимал как неконструктивную и бесплодную ту манеру критической аргументации, в которой
велись споры о возможности измерение установок. В небольшом
комментарии к статье Нетлера и Голдинга о валидации шкал
установок методом "известных групп", написанном пятнадцать лет
спустя, он затронет тему бурных дискуссий по поводу данного им
определения установки и возможности и целесообразности измерения ее эмоционального компонента, которые были вызваны его
первыми же работами в этой области: "Я пытался избежать спора
(уточняя свою позицию), тогда как лучше было бы игнорировать
его" [234. Р.321 ]6.
Метод Терстоуна оказал громадное влияние на социологию и социальную психологию. В конце 20-х и начале 30-х годов начался
настоящий бум конструирования шкал в терстоуновском стиле (особенно шкал равнокажущихся интервалов) по таким темам, как
6
Какую-то роль в решении Терстоуна прекратить разработку шкал, видимо, играла и
ситуация в психофизике - проблема постоянных ошибок при использовании метода
равных сенсорных расстояний в. 30-е годы была уже осознана, а основоположник прямого шкалирования С.Стивенс уже с середины 30-х годов подвергал критике идею
отождествления единицы измерения с различающей способностью (равенства " равно
часто замечаемых различий") [48].
война расовые отношения, закон, Бог, профессиональная подготовка
социальных работников, "сухой закон", немцы, американская Конституция, смертная казнь, патриотизм, цензура, коммунизм, контроль рождаемости, посещение воскресной службы и многие другие
[122 ]. Сам Терстоун не считал, что установки должны измеряться
только через вербальные индикаторы (мнения) и полагал, что реконструированная из декларируемых мнений шкала выражает лишь
определенный аспект установки. Он отмечал, что мнения могут расходиться с реальным поведением. Вместе с тем, измеряя установки, отражающие то, как респондент хотел бы "подать" себя, мы тоже можем получить достаточно полезную информацию [233. Р.9]. Кроме
того, поведение может точно так же служить "фальсификации" истинных установок, как и мнения.
"Терстоуновский бум" не способствовал, с одной стороны, критическому осознанию внутренних ограничений, присущих новому
подходу (что и вызывало недовольство самого Терстоуна - носителя
высокой экспериментальной культуры, сложившейся в психофизике), и, с другой стороны, препятствовал осознанию того, что эти
ограничения связаны не столько с несовершенством самого измерения, сколько с тем способом .концептуализации, который ему предшествует. Что влияет на выбор определенного суждения: "Я-образ"
или "Я-концепция" испытуемого? Измеряем ли мы стереотипную
«социальную самопрезентацию» или "внутреннюю" субъективную
характеристику, предопределяющую потенциальное поведение? Насколько и в каких ситуациях декларируемое отношение будет совпадать с "истинным", регулирующим поведение? И будет ли это
совпадение связано со стремлением сохранить когнитивный баланс
(согласовать высказывания и поступки) или с существованием единой "внутренней" установки, относительно которой вербальные и
поведенческие индикаторы являются синонимами?
Таким образом уже первые шаги социологического измерения
были осложнены недостаточным осознанием связи между концептуализацией и измерением, "стихийностью" измерительных процедур,
которым не предшествовала детальная формулировка принимаемых
допущений, без которой невозможна даже косвенная проверка их
обоснованности.
Критические оценки терстоуновского подхода высказывались, как
уже говорилось, не только Терстоуном. Однако сводились они преимущественно к подчеркиванию квазиэкспериментального характера процедуры (вербальные стимулы - реакция выбора) и особого характера отбора респондентов, ограничивавшего возможность обобщения.
Уже упоминавшийся С.Райс, в 20-е годы много занимавшийся
изучением установок (динамика, влияние интервьюера, перцептивная стереотипизация под влиянием ключевых визуальных признаков), отмечал, что по мере перехода от организованных тесно взаимодействующих групп с селекцией (студенты колледжа, члены дискуссионного клуба) к естественным и более многочисленным,
трудно рассчитывать на возможность контролируемого измерения
("...трудно вообразить надежные сравнительные суждения, или
удовлетворительные измерения по готовой шкале, получаемые
от каменщиков, бизнесменов, итало-американцев, монахов,
грузчиков или швей" [203. Р.190]). Сомнительна, с точки
зрения Раиса, и валидность шкалы при отсутствии случайного
отбора экспертов, и возможность ее использования для испытуемых со слишком низким и слишком высоким образовательным
уровнем.
С.Стауффер, диссертация которого (1930 г.) была посвящена
сравнению результатов использования терстоуновских шкал и качественных методов (анализ свободных высказываний), продемонстрировал сходство получаемых оценок, но вместе с тем считал, что
качественный анализ автобиографических высказываний незаменим
и для исходной формулировки шкальных высказываний, и для интерпретации получаемых количественных результатов [220 ]. Сам же
Терстоун, с неудовольствием наблюдавший "шкальный" ажиотаж в
социологии начала 30-х, как уже говорилось, прекратил в своей лаборатории все работы в данном направлении. Несмотря на скептическое отношение Терстоуна, перешедшего к занятиям факторным
анализом, его шкалы установок стали классикой, упоминаемой
практически в любом учебнике по социологическому измерений).
Следующим шагом в измерении установок явились сумматорные
шкалы Ликерта. В своей диссертации 1932 г. Рэнсис Ликерт
предложил альтернативу терстоуновской шкале, исключавшую использование экспертных оценок. В методе "суммированных рангов"
первоначально использовались разные форматы вопросов: от простых альтернативных, априорно упорядоченных между полюсами
установки, до измеряющих степень согласия с отдельным высказыванием (с равным числом градаций) [169 ]. Около двух сотен исходных вопросов были затем распределены по тематически различным
шкалам (расовая сегрегация, национальные референдумы, отношение к воинской повинности и т.д.). Дальнейший отбор пунктов проводился апостериорно, по критерию внутренней согласованности.
Этот подход к эмпирической валидации применялся в психометрике и ранее. Ликерт не использовал вычислительно трудоемкую
процедуру коррелирования с суммарным баллом (репрезентирующим "общий фактор" теста), а проанализировал "дискриминативность" пунктов для "крайних групп", выделенных по суммарному
баллу. Ликерт обнаружил высокую корреляцию оценок по своей и
терстоуновской шкале, при большей надежности первой для малого
числа пунктов. Изначально Ликерт использовал P-оценки для сравнения разноформатных вопросов, но затем перешел к единой пятибалльной системе оценок, так как результаты оказались практически
идентичны. Шкала Ликерта, также восходившая к психометрической
традиции, основывалась на еще менее ясных теоретических предпосылках, чем шкала Терстоуна, но была значительно удобнее в
24
25
массовых обследованиях. Поэтому, хотя дискуссии о сравнительных
достоинствах двух методов продолжались [126; 129], она стала
широко использоваться и также приобрела "классический" статус7 .
Ликертовская шкала стала частью проекта Г.Мерфи, нацеленного
на преодоление разрыва между количественными и качественными
методами [187], но и здесь, как отмечает Дж.Конверс, "материалом" для проведения многочасовых тестов и источниками написанных в свободной форме "автобиографий" были те же студенты-добровольцы [109. Р.74], участвовавшие в повторных почтовых опросах и после окончания колледжа. В реализации проекта Ликерт
и Мерфи столкнулись с большим количеством "измерительных"
проблем. Как измерять "контекстуальные" переменные, оказывающие наибольшее влияние на установку (особенности родительской
семьи, "круг чтения", о которых респонденты упоминали в свободных "автобиографиях"), как разделить "эффект созревания" и
влияние макросоциальных изменений (повлияла ли на уменьшение
политического радикализма бывших студентов Великая Депрессия
или дело в приобретении жизненного опыта и новой ролевой идентичности)? В написанной по результатам исследования книге [187 ]
этим и другим проблемам планирования неэкспериментальных исследований и измерения было уделено значительное внимание.
Проблемы сбора данных, сравнительных достоинств полевых и
аудиторных исследований, личного интервью и заполняемого респондентом опросника, учета влияния личности интервьюера в начале
30-х годов привлекли внимание и многих других исследователей,
преимущественно ориентированных на прикладную науку (промышленная психология и социология). Содержательные же проблемы
измерения в этот период воспринимались скорее как "кабинетные"
тонкости, учет которых обходится дорого и не обещает быстрых результатов. Развитие новых подходов к измерению в социологии тормозилось академическими, университетскими рамками исследований
установок. Отсутствие фондов и доступа к большим выборкам ограничивало объект исследования "населением колледжей" и не позволяло проводить крупномасштабные эксперименты для совершенствования методики измерения. Поэтому неудивительно, что
основные результаты в области измерения установок в 30-е годы относились к "психологической" ориентации. Вместе с тем эти годы
стали периодом становления крупномасштабных выборочных социальных обследований, возникновения института опросов общественного мнения и все большей заинтересованности практически ориентированных социологов и политологов в квантификации (при наличии сложившейся системы финансовой поддержки этих исследований
со стороны правительственных и неправительственных организаций
[103; 142 ]). Этим двум традициям предстояло слиться, и последствия
этого слияния оказали существенное и весьма неоднозначное воздействие на подходы к социологическому измерению.
26
4. Традиция Гутмана-Лазарсфельда
в измерении установки и формирование концепции
качественного измерения
В 1940-е годы перед социологами открылась новая область широкомасштабных количественных исследований установок - военные
заказы, финансировавшиеся преимущественно правительством. Возник новый тип коллективного междисциплинарного исследовательского проекта. Эмпирические данные были ближе к "реальному
миру", чем к лабораторному эксперименту или вторичному анализу
официальной статистики, и представляли собой источник новых
; фактов, __ допускавших более широкие обобщения при проверке
социологических теорий (см.: [109. Р. 131-185]). Кроме того, представители академической науки, перешедшие на время войны в правительственные организации, получили возможность более прямых
и тесных контактов друг с другом и с пришедшими из сферы бизнеса
полстерами, уже до войны проводившими национальные опросы
общественного мнения (в том числе с такими значительными фигурами, как Э.Роупер и Дж.Гэллап). И это сотрудничество было полезным для разработки новых подходов по всем проблемам эмпирической социологии - от выборки до измерения и интерпретации.
Хотя военный опыт и не привел к возникновению каких-либо принципиально новых теоретических подходов, он дал существенные инновации и в области методов, инструментария и планирования исследований, и в становлении новых форм профессиональной организации и коммуникации в эмпирической социологии.
Одной из важнейших новаций в области измерения в этот период
стали шкалы Л.Гутмана. Гутмановские шкалы достаточно трудоемки
в конструировании, однако их очевидное для современников преимущество заключалось в том, что такая шкала, после соответствующего
перетестирования, могла быть сокращена до 5-6 пунктов и, следовательно, была идеально приспособлена к объему анкет, а кроме того,
позволяла упорядочить индивидов на одномерном континууме или,
по меньшей мере, добиться хорошей аппроксимации такого упорядочения. Идеальная модель шкалограммного анализа предполагает
"одномерность" пунктов, т.е. их независимость от любых других латентных переменных, кроме интересующего исследователя одномерного континуума. Это допущение само по себе нуждается в
проверке, критерием и результатом которой и является шкала.
Теоретически обосновать это допущение едва ли возможно, так как
трудно предположить существование набора столь специфических и
изолированных вопросов, которые были бы обращены лишь к одной
установке - "мишени". Однако на практике в некоторых, не столь
уж малочисленных, случаях можно найти множество пунктов, связь
которых с интересующим исследователя теоретическим конструктом
значительно выше, чем с другими конструктами. Более надежным и
экономным способом нахождения "шкалируемых установочных областей" был бы аналитический подход к измерению, позволяющий
построить теоретическую модель измерения, допущения которой
27
7
Именно шкалы Ликерта применялись, например, в работе Т.Адорно и соавт. [67].
будут проверены до сбора данных и конструирования шкалы (иногда,
скажем, просто через вторичный анализ уже имеющихся результатов), а условия, при которых "возмущениями" одномерности можно
пренебречь, будут специфицированы заранее (более детальное обсуждение этой проблемы требует анализа формальных аспектов
шкалирования установок). Однако в 40-е годы, да и значительно
позднее, аналитический подход к измерению еще не сформировался,
и Л.Гутману пришлось идти путем эмпирического (и стихийного)
выявления областей, пригодных для шкалограммного анализа.
Кумулятивная ранговая шкала Гутмана имеет некоторое сходство
со шкалами социальной дистанции Богардуса. Однако Богардус присваивал ранги различным пунктам априорно (позднее, под влиянием работ Терстоуна, он применил экспертную процедуру для
определения числа градаций шкалы), а Гутман устанавливал шкальные значения частично на основании их явного содержания, частично - по результатам эмпирических наблюдений, отбирая образующие
шкалу вопросы.
Для совершенной гутмановской шкалы - и при совпадении логики
ответов всех респондентов с логикой, заложенной в шкалу исследователем, - знание положения (ранга) индивида на шкале позволяет
однозначно воссоздать паттерн его ответов, а общий паттерн ответов
выглядит как параллелограмм.
Порядок пунктов в совершенной шкале определяется их "популярностью" среди респондентов.
Возможность построить удовлетворительную шкалу в разработанной Гутманом процедуре сильно зависела от двух условий: семантической близости формулировок вопросов при возможности манипулирования перегруппировкой категорий ответов. Этот выбор "точек
сечения", в результате которого пункт "скорее хорошо" (или "скорее
доволен") мог попасть как в позитивную, так и в негативную часть
континуума, был достаточно спорен, если не имел под собой очевидного содержательного основания. Для облегчения работы по построению шкалограммы использовалась специальная "шкалограммная
доска", которая имела углубления в 100 горизонтальных рядах для
индивидов и 100 вертикальных колонок для категорий ответа. Распределение металлических дробинок в лунках доски соответствовало
ответам респондентов, а возможность манипулирования - положением респондента и "точками сечения" (т.е. перегруппировкой категорий ответа) - позволяла обнаружить шкальный паттерн с минимальным числом "ошибок". В целом шкалограммная техника имела
несомненные преимущества экономии времени и усилий [222. Р.91121].
В рамках шкалограммного анализа был разработан еще один методический подход, целью которого было получение устойчивого
разбиения выборки массового опроса на "сторонников" и "противников" определенного мнения. Практика опросов общественного
мнения показывала, что доля респондентов на позитивном и негативном полюсе установочного континуума менялась даже при незначительном изменении словесной формулировки вопроса. Необходимо
было найти способ выделения "полярных" групп, не зависящий от
изменений словесной формулировки. Общая идея предложенного
Гутманом подхода восходила еще к шкалам Олпорта-Хартмана и,
более непосредственно, к статье Дэниела Катца (ученика Ф.Олпорта), опубликованной в 1944 г. [154]. Из этих работ было известно,
что более крайним позициям на континууме политических мнений
соответствует большая интенсивность, сила убеждений, чем среднему диапазону.
Гутман и Сачмэн для каждого содержательного вопроса шкалы
включали в вопросник еще один, направленный на измерение интенсивности. Например: "Насколько сильно Вы это ощущаете?", "В
какой мере Вы с этим согласны?" (с 3-5 вариантами ответа). Строя
совместные распределения ответов типа "содержательный вопрос вопрос об интенсивности", они получали U-образные или J-образные
кривые, отражавшие возрастание интенсивности на полюсах содержательных ответов, т.е. позитивных/негативных реакций на определенное содержание. Разные совокупности вопросов, т.е. по-разному сформулированные и с разным способом дихотомизации, давали
приблизительно одинаковые кривые. Самая низкорасположенная
точка кривой определяла "нулевую точку" или "область безразличия". Респонденты, оказывавшиеся с одной стороны "области .безразличия", рассматривались как настроенные благожелательно, л с
другой - неблагожелательно (что и позволяло получить устойчивую
оценку доли "сторонников" и "противников" определенного мнения) . Так как использование такой процедуры в многотемном масштабном опросе затруднительно, сотрудники армейского Исследовательского сектора считали, что она может оказаться полезной для
отбора 2-3 вопросов по каждой конкретной проблеме. Однако эта
процедура оценки доли "сторонников" и "противников" имела существенный недостаток, так как была чувствительна лишь к общим,
а не специфическим установкам. "Какова ценность утверждения о
том, что определенная доля населения "за" обязательный призыв
или сокращение расходов, если не ясно, какое специфическое содержание и при каких условиях подразумевается под "призывом" или
"сокращением" [109. Р.193]. Поэтому возможности шкалограммного
анализа оказались не слишком привлекательны для полстеров-практиков. Вместе с тем, они представляли интерес для сторонников количественного подхода внутри академической науки. Как отмечает
Дж.Конверс, количество статей в ведущих научных журналах, посвященных применению и модификации шкал Л.Гутмана, в первое
послевоенное десятилетие было достаточно велико. Большая часть
этих работ выполнялась на студенческих и других малых группах,
но в некоторых статьях и двух книгах (Э.Кэмпбелл, Дж.Гурин,
У.Миллер, 1954; С.Стауффер, 1955) речь идет о крупномасштабных
исследованиях.
Гутмановские процедуры использовались не только для шкалирования установок, но и для физиологических симптомов невроза,
уровней информированности, "коллективных" шкал группового поведения.
28
29
В то же послевоенное десятилетие появились работы, критически
оценивающие применимость гутмановской процедуры шкалирования в измерении при проведении массовых опросов. Л.Фестингер
указывал на негативное влияние монотонного повторения сходных
по смыслу вопросов на качество ответов респондента. Было показано,
Что несколько пунктов, отобранных для упрощения процедуры из
более длинной шкалы, могут давать иное ранжирование респондентов [130]. Л.Гутман и сам осознавал ограничения, присущие его
методу, - невозможность прямого переноса шкал с одной популяции
на другую (или в новую ситуацию) и невозможность построения кумулятивных шкал в очень многих интересных для исследователей
случаях.
В силу всех этих ограничений гутмановский подход не получил
широкого распространения в эмпирической социологии и практике
опросов общественного мнения.
В конце войны П.Лазарсфельд, позднее других включившийся в
работу Исследовательского сектора, развил основные положения латентно-структурного анализа. Лазарсфельдовская модель впервые
была опубликована в том же четвертом томе серии "Американский
солдат", вышедшем в 1950 г. [222]. Лазарсфельд стремился использовать идеологию факторного анализа (выведение латентных переменных-черт из эмпирического распределения манифестных переменных, т.е. ответов на совокупность вопросов) таким образом,
чтобы этот подход мог применяться при низких уровнях измерения
наблюдаемых переменных. Общая идеология метода достаточно известна, поэтому мы можем опустить ее изложение. Отметим лишь,
что латентно-структурный анализ был очень существенным шагом в
теории шкалирования, но из-за вычислительных сложностей довольно долго оставался вне сферы активного применения8. В конкретных
социологических исследованиях по-прежнему использовались прямые вопросы или (значительно реже) гутмановские или ликертовские шкалы.
К 1930-м - 1940-м годам относится возникновение еще одной
важной для социологического измерения традиции, более общей, чем
измерение установок. Речь идет об общем подходе к измерению
субъективных переменных, начало которому положили предвоенные
работы П.Лазарсфельда.
Интерес П.Лазарсфельда к измерению латентных, опосредующих
психологических переменных восходит к раннему периоду его профессиональной деятельности. Защитив в 1925 г. диссертацию по прикладной математике в Венском университете, Лазарсфельд сочетал
преподавание в гимназии с исследовательской работой в Психологическом институте Венского университета под руководством Шарлотты
Бюлер, изучавшей фазы жизненного цикла. К этому времени относится его работа о занятости молодежи.
В ранних статьях американского периода Лазарсфельд, активно
включившийся в широкомасштабные исследования рынка и массо30
В конце 60-х и в 70-е - 80-е годы появились новаторские подходы к его применению и
модификации (см., например: [136]).
8
вые опросы, часто обращается к анализу мотивов поведения, внут-
ренних переменных, определяющих поведение потребителя, используя теоретические концепции "глубинной психологии" - фрейдовскую репрессию, адлеровский "комплекс неполноценности", юнговскую интроверсию/экстраверсию. Этот интерес к анализу мотивов
человеческого поведения, соединенный с интересом к квантификации
(оба эти интереса имели "венские" корни), породили уникальный талант к сочетанию качественного и количественного подходов, углубленной психологической интерпретации и аналитических ме- тодов
(см., в частности: [162]).
Лазарсфельда особенно интересовала проблема валидности субъективного измерения. В 30-е годы, когда влияние бихевиоризма было
весьма ощутимо даже в прикладной социологии и психологии, любые
субъективные, интроспективные измерения требовали очень серьезного обоснования. Попытки интроспективного измерения "мотивов"
часто подвергались нападкам сторонников "объективного" измерения наблюдаемых поведенческих актов, а попытки выяснить "что
люди думают (о том), что они думают" расценивались как едва ли
не отступление от научных норм. Лазарсфельд стремился доказать,
что измерение субъективных переменных возможно и целесообразно,
что люди способны объяснять мотивы своего поведения и мотивы
предпочтений, если возможные смысловые оси такого объяснения
отчетливо идентифицированы исследователем заранее.
Рассматривая проблему сравнимости субъективных измерений,
Лазарсфельд высказывает очень оригинальную трактовку проблемы
общности/идентичности показателей (статья "Искусство спрашивать: "Почему ?", 1935 г. [161]): для того, чтобы обеспечить идентичность интерпретации респондентами вопроса, нужно стремиться
не к жесткой фиксации словесной формулировки ("стандартному
стимулу"), а к более свободному способу коммуникации интервьюера и респондента, обеспечивающей удовлетворительное понимание и единство личностного смысла вопроса для респондентов. Проблему поиска идентичных показателей в сравнительных исследованиях нельзя считать решенной и сегодня, но сама постановка ее
Лазарсфельдом чрезвычайно интересна. В 30-е - 40-е годы идея
гибкой формулировки вопросов, позволяющей фиксировать определенный личностный смысл, не могла приобрести популярность среди
ученых, проводивших широкомасштабные опросы общественного
мнения и уделявших основное внимание полной стандартизации
процедур, но она дала толчок к дальнейшей разработке методов фокусированного интервьюирования.
Эта идея повлияла на разработку ПЛазарсфельдом классификационных схем для тематического анализа "сырых" ответов, получаемых при личной беседе или через открытые вопросы. Четыре
правила классификации, изложенные в [161 ] и позднее, в 1951 г.,
воспроизведенные в [167], гласят:
А. Общие категории кодирования должны быть разделены на
специфические категории ("артикуляция").
31
ми, с помощью разных показателей - наличие собственного дома или
Б. Эти категории должны быть исчерпывающими и взаимоисключающими ("логическая правильность").
В Кодирование должно выделять некоторую органическую структуру, схватывая логику ситуации или исследуемого процесса.
Г. Оно должно отражать собственную точку зрения респондента
или его субъективное определение ситуации.
К этому же периоду (вторая половина 30-х годов) относятся
первые попытки применения аналитических типологий для классификации данных из монографических "анализов случая" с последующим созданием новых переменных, а также использования четырехклеточных таблиц сопряженности для анализа категориальных
переменных. Основная схема причинного анализа, детально разработанная Лазарсфельдом в более поздних работах и основанная на
создании новых качественных переменных через типологическую
редукцию и на проверке их статистической связи с помощью четырехклеточных таблиц, была впервые использована в проведенном
ПЛазарсфельдом и С.Стауффером исследовании американской
семьи в период депрессии (1937 г.). Сама идея построения четырехклеточных таблиц принадлежала С.Стауфферу (LaParsfeld oral
history interview // Oral History Collection / Butler Library Columbia
University. P.145, цит. по: [109. P.139-140])9.
В предвоенные годы ПЛазарсфельд и его сотрудники вели обширную работу по систематизации существующих и конструированию
новых индексов. В книге "Радио и печатная страница" [164] обсуждаются самые разные индексы - индекс "стандарта чтения" (Лазарсфельд), три индекса установок по отношению к радио (Сэйр), конструирование индексов из монографических "анализов случая" (Лазарсфельд и Робинсон), шкала рейтинга популярных песен и другие. Например, сводный индекс "стандарта чтения" был сконструирован Лазарсфельдом как операциональный эквивалент неизмеряемой переменной "читательская способность". Лазарсфельд дихотомизировал четыре переменные - образование, экономический статус, количество чтения (количество читаемых журналов) и уровень
чтения (чтение книг в течение последнего месяца) - и суммировал
знаки " +" этих переменных, получая шкалу со значениями от О
до 4. Эта процедура была, безусловно, весьма огрубленной и никак
не учитывала явно существующие причинные отношения между переменными. Однако нельзя не оценить усилия, предпринятые для
квантификации и косвенного измерения существенных переменных
теории.
В 1939 г. Лазарсфельд еще раз обращается к проблеме идентичных
индикаторов (статья "Взаимозаменяемость в измерении экономических влияний" [163]). Речь здесь идет о том, что переменная
" экономический статус" может быть измерена разными способа32
автомобиля, род занятий, уровень доходов и т.п. При этом каждый
этих показателей будет давать, в определенных пределах, одинаковый паттерн связей с другими "психологическими" переменными. В подтверждение этого тезиса Лазарсфельд приводит
некоторые опросные данные (относительная стабильность числа голосующих за республиканцев среди "высоких" по экономическому
статусу групп, выделенных с использованием различных индикаторов). Хотя Лазасфельд и оговаривает, что нужны дальнейшие проверки взаимозаменяемости переменных, здесь уже прослеживается важнейший источник теоретической модели латентноструктурного анализа. Это - представление о вероятностных отношениях манифестных индикаторов и лежащих в их основе неизмеряемых латентных осей.
Как отмечает Дж.Конверс, ПЛазарсфельд и его сотрудники,
публиковавшиеся в "Journal of APPlied Psychology", постоянно ощущали недостаток данных и показателей и обращались к самым
разным источникам - опросам книжных клубов, данным опросов
общественного мнения, проводившихся фирмами Дж.Гэллапа и
Э.Роупера, к оценкам размеров аудитории газет и журналов и панелям студентов-радиослушателей. "Можно образно представить
себе Лазарсфельда и его группу как компанию предприимчивых
старьевщиков, ищущих данные всех форм и размеров и приносящих
их в свой оффис в коробках, корзинах, ящиках и кувшинах, чтобы
потом подвергнуть их анализу" [109. Р.142].
Мотивом здесь было убеждение в возможности найти теоретические рамки для любых данных и с помощью простых статистических
и концептуальных процедур (прежде всего, связывающих показатель
с косвенно измеряемой теоретической переменной) внести смысл в
хаос эмпирии. Дж.Конверс, остроумно перефразируя популярную
песню, говорит: "Когда у Лазарсфельда не было под рукой тех
данных, которые он любил, он любил те данные, которые были под
рукой" [109. Р.142 ]. Эти усилия были продуктивны, так как открывали перед социологией новые перспективы косвенного измерения,
пробуждая обоснованный оптимизм сторонников квантификации в
социальных науках. И в то же время они подталкивали социологов
к атеоретическому способу измерения, когда значения показателей
вкупе с элементарными статистическими процедурами становились
"волшебной машинкой", с помощью которой давалась апостериорная
интерпретация полученной " простой структуры" эмпирических показателей с помощью ad hoc изобретаемых понятий.
Однако сам Лазарсфельд не ограничивался моделью косвенного
измерения с помощью доступных и относительно прямо измеряемых
показателей типа данных переписи и социальной статистики. Он
упорно стремился к обоснованию прав субъективного измерения в
социальных науках, считая, что субъективные, но имеющие смысловое отношение к теоретически существенному конструкту, показатели предпочтительнее любых самых объективных "коррелятов",
3 И.Ф.Девятко
9
По мнению Дж.Платт, С.Стауффер мог, в свою очередь, позаимствовать идею использования четырехклеточных таблиц у Дж.Юла. В 1931-32 гг. он проходил стажировку по статистике в Великобритании и тесно сотрудничал с Р.Фишером, К. и
Э.Пирсонами, А.Баули [197.Р.344].
33
которые связаны с этим конструктом лишь очень опосредованным
образом.
Это сочетание интереса к косвенному и многоиндикаторному измерению с предпочтением субъективных индикаторов промежуточных переменных на первый взгляд кажется парадоксальным
(зачем обращаться к интроспекциям и самоотчетам, если "все во
всем" и можно найти пусть очень косвенный, но "объективный" показатель типа доходов, расходов и бюджета времени?). По сути же
влияние психологии (и в том числе "симптомологии" психоанализа)
предопределило чуткость Лазарсфельда к проблемам "понимающей"
интерпретации и обусловило уникальность его таланта, о чем говорилось выше. Дж.Конверс отмечает, что для американской профессиональной карьеры Лазарсфельда как социолога, его интерес к психологии оказался значительно более влиятельной частью "венского
наследства", чем даже его социалистические убеждения [109. Р.
143].
Анализ ранних работ Лазарсфельда позволяет понять суть и основное содержание выдвинутой им позднее, в начале 50-х годов,
концепции качественного измерения (наиболее ясно изложенной в
работах [32; 167]). Фактически идея качественного измерения лишь
подытоживает те взгляды, которые П.Лазарсфельд развивал в предвоенные и военные годы, и тот опыт, который он получил в работе
над "Американским солдатом".
Заинтересованность ПЛазарсфельда в качественном измерении
была связана, с одной стороны, с преобладанием в рассматриваемый период проблемно-ориентированных, "заказных" конкретных
социологических исследований, в которых постановка проблемы и
возможности получения определенного типа эмпирических данных
были первичны по отношению к теоретической концептуализации и
построению модели измерения. С другой стороны, методические
проблемы агрегирования, использования множественных индикаторов и оценки качества измерения были еще недостаточно разработаны. П.Лазарсфельд формулировал эту проблему, как проблему
несоответствия между постулируемой из теоретических соображений
метрикой теоретического конструкта и метрикой доступного индикатора. В качестве общей он рассматривал следующую тактику качественного измерения: сегментация сложного теоретического понятия
и уточнение (спецификация) отдельных его аспектов; нахождение
индикаторов, соответствующих выделенным аспектам; построение
сводного показателя, суммирующего значения отдельных индикаторов, исходя из содержательных теоретических соображений10.
В работе 1951 г. П.Лазарсфельд подчеркивал, что измерение в общественных науках может проводиться самыми разными средствами,
"которые менее точны, чем строго количественное измерение, но тем
не менее много лучше беспомощного индивидуального
34
10
Фактически используемые Лазарсфельдом процедуры - прообраз формальной модели аддитивного (одновременного) совместного измерения, основанного на эмпирическом отношении упорядочения зависимой переменной, получаемого из разных комбинаций нескольких независимых переменных [112. Р.25-26].
суждения". И далее:"... существует прямая логическая линия движения от качественной классификации к самым строгим формам
измерения через промежуточное использование систематических
оценок, ранговых шкал, многомерных классификаций, типологий и
количественных индексов" [167. Р.155]. Представления ПЛазарсфельда о качественном измерении и предложенные им конкретные
эвристические приемы построения типологий и задания пространства
признаков сыграли важную роль в решении многих теоретико-методологических и прикладных проблем социологии (см. также: [8 ]) и
расширили существовавшие представления о возможностях внефизического измерения.
5. Формальные модели шкалирования установок
и классификации шкал
Описывая историю становления различных подходов к измерению
установок в эмпирической социологии, мы не рассматривали скольнибудь детально формальные модели шкалирования установочных
переменных (хотя и останавливались на некоторых особенностях
процедуры). В принципе, анализу этих формальных моделей и проблемам конструирования шкал посвящено очень большое количество работ зарубежных и отечественных исследователей (отметим,
в частности, [21; 26; 30; 49; 63; 76; 98; ПО; 210; 237]). Задача
данного раздела заключается в том, чтобы на основе существующих
работ дать некоторое общее представление о связи конкретных
процедур с логикой и формальными основаниями различных моделей
шкалирования, обобщить различные классификации шкал и указать,
какое место в этих классификациях занимают описанные нами
подходы к шкалированию 11.
При всем многообразии существующих теоретических подходов
к определению понятия "установка" в социологии и социальной
психологии практически общепринятым является выделение трех
компонентов (аспектов) аттитюдов - когнитивного, аффективного и
поведенческого (конативного). Трем компонентам социальной установки соответствуют три класса явлений - 1) осознание объекта
установки, связанное с наличием определенной информации о нем;
2) реальное, предполагаемое или предпочитаемое поведение по отношению к объекту; 3) эмоционально-аффективная оценка, выявление чувства симпатии или антипатии по отношению к объекту
установки.
Исходя из некоторого недетализированного представления о
наличии структурного взаимодействия между перечисленными
35
11
Необходимо оговорить, что мы не будем рассматривать проблемы многомерного
шкалирования установок, так как с нашей точки зрения эти подходы относятся к иной
традиции, не получившей достаточного внимания в эмпирической социологии и оказавшей на последнюю лишь незначительное влияние. Эта традиция - реконструкция
субъективных семантических пространств (или систем значений) - была заложена
прежде всего работами психологов Джорджа Келли и Чарльза Осгуда [156; 194] и составила основу современной психосемантики (см., например: [58; 59]).
компонентами, рассмотрим общие подходы к измерению когнитивных, аффективных и поведенческих переменных социальной
установки.
Рассматривая понятие "переменная" как конструкт, отражающий
некоторое качество (свойство), в разной мере присущее всем членам
наблюдаемой совокупности, определим здесь измерение как систематическое приписывание чисел совокупности наблюдений, отражающее положение каждого члена совокупности на континууме переменного качества. Для наших целей шкалу можно определить как
множество элементов. Каждый элемент шкалы состоит из трех компонентов - а) эмпирическое событие-"стимул"; б) действительное
число; в) правило, или совокупность правил, связывающих событие
с числом. Такое определение восходит к общему определению измерения, данному С.Стивенсом [47. С. 19-20; 218. Р.19-24]12. Получаемая в результате приписывания чисел объектам числовая система
становится моделью эмпирической системы. При конструировании
шкалы исследователь специфицирует переменную-свойство, в терминах которой могут быть описаны события из множества наблюдаемых событий. Далее он формулирует правила "отображения", разметки, согласно которым события могут различаться по их положению на оси переменной, и, наконец, представляет числами эти различия событий. В результате исследователь может считать измеренной с помощью шкалы переменную-свойство в той мере, в какой она
проявляется в конкретной совокупности наблюдений. Как будет показано далее, общность правил отображения и числовой системы
определяет возможность переноса шкалы за пределы исходной совокупности наблюдений.
Определим понятие "инструмент измерения" как совокупность
средств, с помощью которых эмпирические события отображаются в
числовую систему. Т.е. инструмент измерения - это вся совокупность
операций разметки, с помощью которых конструируется шкала.
Так, если значение переменной оценивается через усреднение оценок экспертов, то инструмент измерения может быть описан как совокупность повторяющихся оценочных суждений.
Вслед за Г.Апшоу, введем в качестве первой характеристики инструмента измерения требование функционального единства.
Функциональное единство инструмента измерения - это степень согласованности, консистентности различных операций разметки в
определении шкального значения конкретного стимула [237. Р.65 ].
В понятии функционального единства подразумевается существование какой-то статистической зависимости между операциями, характер которой, однако, будет меняться в соответствии с теоретическими
представлениями о природе измеряемой переменной13. В области
измерения установок составляющие инструмент операции могут
быть воплощены как в субъектах-судьях, так и в пунктах (воп-
36
12
Более строгий подход к определению шкалы изложен, например, в [30; 42; 49].
Требование функционального единства частично совпадает с определением одномоментной надежности, но в силу более общего характера оно оказывается весьма удобным для анализа формальных моделей шкалирования установок.
13
росах) шкалы. Соответственно требование функционального единства будет определяться через взаимоотношение судей либо пунк тов. Помимо функционального единства выделяют еще две характеристики измерительного инструмента - надежность и валидность.
Однако так как эти две характеристики качества измерения являются предметом рассмотрения в следующей главе книги, здесь мы
не будем на них останавливаться.
Рассмотрим вкратце проблему обобщения шкальных значений.
Постольку, поскольку исследователь заинтересован в представлении
отдельных эмпирических событий в абстрактной модели интересующей его области, он склонен считать каждое индивидуальное событие
выборкой из универсума наблюдений, любой член которого может
заменить текущее наблюдение. Различные переменные, представляющие аспекты данного универсума наблюдений и влияющие на
результат измерения, - это то, что Л.Гутман обозначил как "фасеты", грани отдельного гипотетического универсума, по отношению
к совокупности которых реальные наблюдения должны рассматриваться как выборка [138 ]. Собственно измерению, таким образом,
предшествует спецификация его объекта с точки зрения интересующих исследователя аспектов ("фасет"). Эта спецификация объекта
(предметной сферы) зависит от предполагаемой генерализации численных приписываний. Исследователь, таким образом, должен заранее определить желаемый способ генерализации шкальных значений
измеряемой переменной и обеспечить условия для генерализации
при планировании исследования. Так как любой универсум наблюдений заведомо многогранен и для некоторых "фасет", видимо,
нельзя задать конечное множество условий, то принимаемое допущение о случайном характере выборки из гипотетического универсума едва ли может быть строго обосновано. Здесь для наших целей
достаточно будет считать выборку наблюдений случайной, если
элементы этой выборки могут рассматриваться как репликации друг
друга. Для любой модели шкалирования обязательна какая-то форма
требования случайного воспроизведения, так как без этого невозможно обобщение "численного приписывания". В сущности, обобщение здесь выступает как форма предсказания. Т.е. исследователь
полагает, что сделанное конкретное наблюдение может быть воспроизведено при наблюдении любой другой выборки из универсума
наблюдений, определенного на стадии спецификации. В случае неадекватного описания универсума наблюдении обобщение окажется
необоснованным.
Наконец, определим, что подразумевается под моделью шкалирования. Модель шкалирования определяет способ выведения баллов, уровень полученного измерения (тип шкалы) и выбор способов
оценки функционального единства полученного инструмента измерения (ср. [26. С.129]).
Г.Апшоу, основываясь на трехкомпонентной теории установок и
классификации шкал по Торгерсону [235. Р.45-48 ], ввел классификацию шкал установок [237. Р.69-72 ]. Так как эта классификация
очень удобна при обсуждении различных подходов к шкалированию
37
установок, мы дадим ее краткое описание. Первое различение шкал
проводится по типу установочных переменных. При этом переменная, как уже говорилось, это свойство, по которому упорядочивается
совокупности наблюдений. Так как связанные с установкой явления могут быть когнитивными, поведенческими и аффективными, то
выделяется три общих типа шкал - когнитивные, поведенческие и
аффективные шкалы. Каждому из этих общих типов шкал соответствует тип базисного наблюдения, на котором основано построение
шкалы. Внутри общих типов шкал конкретные типы (классы) выделяются в зависимости от того, как обозначен класс наблюдений, которым собственно и приписываются численные значения. В самом общем случае численные значения могут приписываться субъектам
установки, возможным содержаниям установки, либо различным
объектам установки (см. также [213. Р. 122-123 ]. Получаемая классификация шкал установки схематически изображена в табл. 1.1.
Когнитивные шкалы. Когнитивная переменная относится к знанию (или информации) субъекта об объекте установки. Базисным
наблюдением для конструирования когнитивной шкалы является
выражение субъектом мнения о характеристиках объекта установки.
Это мнение может быть подвергнуто верификации по правилам, которые, однако, могут быть различны для разных людей (прямая
проверка, религиозное откровение или что-либо еще). В любом
случае мнение может быть оценено как верное или ошибочное.
Можно привести следующие примеры когнитивных установочных
переменных: субъективно воспринимаемая степень выраженности у
объекта установки какой-либо черты, дифференциальная значимость различных черт объекта, уверенность, с которой субъекты
приписывают черты объекту. Так как любое мнение имеет три компонента - разделяющий его субъект, содержание мнения и объект, к которому оно относится, - то при измерении когнитивной переменной шкальные значения могут приписываться наблюдениям,
соответствующим каждому из этих трех компонентов. Приведем
примеры получающихся типов шкал14, давая описание измеряемой
переменной:
I. Когнитивно-субъектная - степень, в которой типичный
американец, швед, немец воспринимает французов как жизнерадостных.
II. Когнитивно-содержательная - степень, в которой типичный
американец воспринимает французов как жизнерадостных, расчетливых, предприимчивых и т.д.
III. Когнитивно-объектная - степень, в которой типичный американец воспринимает французов, англичан, немцев как жизнерадостных.
Поведенческие шкалы. Поведенческий аспект установки относится к действиям, которые личность совершает, защищает или поддерживает. Фактически речь идет о принятии решений и выборе
38
14
Подчеркнуты шкалируемые наблюдения.
Таблица 1.1 Классификация шкал установки (по Г.Апшоу)
Класс наблюдений,
для которого устанавливаются численные значения
Субъекты
Содержание
Объекты
Общие типы шкал
Когнитивные
Поведенческие
Аффективные
I
IV
VII
Когнитивносубъектные
шкалы
Поведенческосубьектные
шкалы
Аффективносубъектные
шкалы
II
V
—
Когнитивно-содержательные
шкалы
Шкалы содержания поведения
III
Когнитивнообъектные
шкалы
VI
Поведенческообъектные шкалы
VIII
Аффективнообъектные
шкалы
способа действий в проблемных ситуациях, связанных с
объектом установки. Разумеется, поведенческая готовность тесно
связана с когнитивным и аффективным аспектами установки. Более
того, поведенческие переменные установки могут выступать предикторами когнитивных и аффективных переменных. Однако разделение этих переменных и, соответственно, шкал полезно не только с
аналитической точки зрения, так как возможно рассогласование
компонентов установки (например, "феномен Лапьера"). Поведенческая установочная переменная связана с готовностью человека
совершать действие, соглашаться с его свершением или поддерживать
его. Базисным наблюдением для построения шкалы является принятие или отвержение субъектом действия, направленного на объект.
По классу наблюдений, получающих численные значения по шкале,
можно выделить следующие типы поведенческих шкал - поведенческо-субъектные, шкалы содержания поведения и поведенческо-объектные шкалы. Приведем примеры:
IV. Поведенческо-субъектные шкалы - насколько типичный белый профессионал, независимый предприниматель, наемный рабочий-китаец считает приемлемым вступление в брак с черным американцем.
V. Шкалы содержания поведения - насколько типичный атеист
считает приемлемым наказывать торговлю наркотиками смертной
казнью, высылкой из страны, пожизненным заключением и т.д.
VI. Поведенческо-объектные шкалы - степень, в которой типичный американский студент колледжа считает возможным вступление
в брак с француженкой, негритянкой, японкой.
39
Аффективные шкалы. Аффективный (или эмоционально-оценочный)
компонент установки обычно выражается через степень предпочтительности или благожелательности к объекту установки. "Фермер и игрок в гольф могут в одинаковой мере ожидать дождя в
определенный день, но это общее мнение может вызывать у них
противоположные чувства" [237. Р.72]. Т.е. игрок в гольф может
иметь неблагожелательную установку по отношению к дождю, а
фермер - благожелательную. Базисным наблюдением для конструирования аффективной шкалы является проявление субъектом по
отношению к объекту установки ориентации "за - против". Эмпирическими событиями, которым приписываются числа, могут выступать субъекты либо объекты установки. Соответственно результатом
будут аффективно-субъектные либо аффективно-объектные шкалы.
Так как аффект логически может быть определен как унитарное
понятие, для аффективных переменных нельзя построить шкалу
содержания установок, т.е. для одномерной шкалы аффективной
установочной переменной принимается предположение, что один
человек испытывает одну, и только одну степень аффекта по отношению к объекту установки (хотя он при этом может приписывать
единичному объекту любое количество черт или принимать любое
количество способов действий по отношению к одному объекту). На
первый взгляд, логика этого рассуждения может быть подвергнута
критике с точки зрения понятия "амбивалентного аффекта" ("двойственного отношения" в обыденном языке). Однако для того, чтобы
определить амбивалентную эмоциональную оценку как переменную,
необходимо либо принять, что один респондент имеет несколько
"точек расположения" на шкале, либо трактовать объект установки
как имеющий несколько стимульных значений. В принципе эта
задача при некоторых условиях разрешима для многомерного шкалирования. Однако наш анализ общих моделей для измерения
установочных переменных связан с более ранней традицией измерения установок в социологии. Поэтому здесь речь будет идти об
измерении унивалентного аффекта. Таким образом, вслед за Г.Апшоу, мы будем говорить лишь о двух классах аффективных шкал,
примеры которых приведены ниже:
VII. Аффективно-субъектные шкалы - степень, в которой
подросткам, пенсионерам, армейским офицерам нравятся фильмы
о Рэмбо.
VIII. Аффективно-объектные шкалы - насколько типичному белому жителю американского маленького города нравятся Дж.Буш,
С.Хусейн, М.Горбачеъ и т.д.
Теперь мы можем перейти к рассмотрению общих моделей, используемых при измерении установочных переменных, и анализу
сложившихся преимущественно в 30-е - 40-е годы подходов к измерению установок (описанных в предыдущем параграфе) с точки
зрения этих общих моделей. Для каждой из общих моделей будет
рассмотрена природа ее базисных данных, правила приписывания
численных значений эмпирическим событиям и требования функционального единства, а также возможность использования модели
для только что описанных восьми классов шкал установок.
Как уже отмечалось, эмпирический " субстрат" для конструирования различных шкал установок практически одинаков. Респондент сообщает исследователю, что он думает, чувствует относительно
какого-то объекта или как он собирается поступать по отношению к
нему. Различие заключается в том, что исследователь определяет
как базисное эмпирическое событие, которое должно быть отражено
в числовой системе с отношениями. При этом особую сложность
представляют субъектные шкалы, так как задача здесь заключается
в том, чтобы получаемая шкала могла служить надежным основанием для межиндивидуальных сравнений, быть нечувствительной к
таким источникам вариации, как индивидуальные речевые привычки
или стандарты оценивания. Именно для построения аффективносубъектных шкал и были предназначены модели Гутмана, Терстоуна
и Ликерта15.
Существенным для дальнейшего изложения является еще одно
различение - между прямым и косвенным (непрямым) шкалированием, введенное Г.Экманом, Л.Сьобергом и Т.Кюннапасом [60 ].
Различие между названными двумя подходами, в сущности, заключается в принятии или отвержении предположения о способности
респондента или испытуемого давать прямые численные оценки на
более высоком, чем номинальный, уровне измерения. При использовании моделей прямого шкалирования в измерении установок
задача респондента состоит в том, чтобы численно оценить, какая
из множества альтернатив наилучшим образом отражает его установку. Прямое конструирование номинальной шкалы обычно рассматривается как безусловно обоснованная процедура. Другие же
модели прямого шкалирования в измерении установок нередко вызывали споры о наличии у респондентов способностей к квантификации.
Прямое ординальное шкалирование
Этой модели соответствует ситуация, когда задачей респондента
является ранговое упорядочение совокупности стимулов по некоторому свойству. Формальной моделью этой ситуации является коэффициент конкордации М.Кендэлла. Коэффициент Кендэлла позволяет оценить согласованность рангов. Он равен 1 при полном согласии респондентов и 0 при полном несогласии [10. С.116-123].
Примером реконструирования шкалы при конкордантной модели
может служить ранжирование 10 респондентами 8 способов действия
по применимости к конкретной ситуации. Результатом будет шкала
"содержания поведения" (behavioral-content). Предполагаемая этой
моделью шкальная гипотеза - консистентность суждений 10 респондентов. В случае ее неотвержения полученное ранжирование может
41
40
15
Здесь, как уже говорилось, мы не будем рассматривать подходы к построению субъектных шкал, развивавшиеся в психосемантике, в частности "семантический дифференциал" , репертуарный тест и т.п.
быть обобщено для всей популяции, выборкой из которой являются 10 респондентов. Коэффициент конкордантности является
здесь средством оценки степени согласованности ранжировок. Если
каждый респондент давал бы идентичные данные, то общее ранжирование могло бы быть обобщено до универсума наблюдений.
Если согласованность ранговых данных, по гипотезе представляющих случайные репликации, неабсолютна, то исследователь
должен предположить либо наличие ошибок респондентов (неправильно понятая инструкция, намеренное искажение, утомление и
т.д.), либо неучет других важных аспектов, либо ошибочность
своей теоретической концепции, т.е. отсутствие в универсуме наблюдений единичной одномерной ординальной шкалы данной переменной.
Трудно установить единый критерий для выбора интерпретации
неполной конкордантности. В любом случае здесь должна учитываться численная величина полученного коэффициента. Низкие
значения скорее свидетельствуют об ошибочности шкальной гипотезы, чем о влиянии ошибок респондентов. Умеренные - о неадекватной "разметке" релевантных признаков универсума наблюдений [237. Р. 75].
Если исследователь склонен принять предположение о наличии
"ошибок ответа", то он либо исключит ошибающихся респондентов
(если сможет их идентифицировать), либо воспользуется усредненными оценками для получения ранга каждого стимула и обобщит
полученное ранжирование на универсум наблюдений.
Прямое интервальное шкалирование:
категориальные шкалы
Эта процедура является очень типичной для измерения установок
и позволяет получить категориальную шкалу. Процедурой шкалирования в этом случае является метод равнокажущихся интервалов.
Оценочные суждения осуществляются как приписывание чисел объектам через отнесение к категориям, границы которых равнорасположены по отношению к количеству определенного свойства (переменной). Модель поведения респондента, предполагаемая этой процедурой, заключается в следующем: респондент принимает решение,
что стимул имеет больше данного свойства, чем нижняя граница категории, и меньше, чем верхняя граница. В модели прямого шкалирования категориальную шкалу должен сконструировать сам респондент. Начало шкалы соотносится со стимулом (возможно, гипотетическим), который должен быть отнесен к категории 0. Единица
шкалы обозначает то количество шкалируемого свойства, которое
определяет ширину категории ответа. Еще одним предположением
модели прямого шкалирования является инвариантность параметров
шкалы при повторении (для новой выборки респондентов или тех же
респондентов): численные значения для каждого стимула могут быть
усреднены.
Чтобы совокупность чисел могла рассматриваться как численные
значения свойства на интервальной шкале, они должны быть инва42
риантны в пределах линейного преобразования формы у = а + bх,
где коэффициент Ъ отражает различие в единицах шкалы, а коэффициент а - различие в начале отсчета. Если результаты репликаций
удовлетворяют этому требованию, то усредненные числовые значения стимулов образуют новую шкалу, начальная точка и единица
которой являются усреднением значений этих параметров по всем
индивидуальным репликациям (при простом усреднении компоненты-репликации будут взвешиваться в прямом соответствии с их дисперсиями: больший "вес" получат те репликации, в которых границы категорий уже и, соответственно, единицы измерения меньше, а
дисперсии шкальных значений стимулов - больше). Содержательная
интерпретация единицы и начальной точки шкалы потребовала бы
введения предположения об их инвариантности при воспроизведениях и введения более сильных ограничений, чем соответствующие интервальному уровню измерения.
Рассматривая повторные процедуры вынесения суждений как
измерительный инструмент [237. Р.65], т.е. средство, с помощью
которого множество стимулов отображается на числовую систем'
степень согласованности между различными операциями, составляющими в совокупности этот инструмент, можно определить как
функциональное единство инструмента. В модели прямого интервального шкалирования требование функционального единства предполагает линейные отношения между всеми парами предполагаемых
повторений. При выполнении этого требования несистематический
разброс в численных значениях, который не относится к линейному
отношению, может рассматриваться как устанавливающий перцептивную ошибку респондента либо по отношению к положению отдельного стимула, либо по отношению к численным значениям границ категорий. При предположении, что такие несистематические
ошибки будут взаимоуничтожаться при усреднении, оценкой истинного значения будет усреднение численных оценок респондентов по
каждому стимулу. Однако наличие линейной связи между парами
репликаций, необходимое для выполнения требования функционального единства, недостаточно для доказательства того, что полученная
шкала обладает инвариантностью интервального типа шкал. Оно
лишь доказывает сходство категориальных суждений респондентов.
Интервальный же уровень измерения требует еще и постоянства
единицы шкал. Так как последняя проблема возникает и при использовании закона категориального суждения, мы обратимся к ее
детальному анализу ниже.
Допущение о равенстве различительных дисперсий, делающее
возможным их использование в качестве единиц измерения на психофизической шкале, явилось предметом концептуальной критики со
стороны С.Стивенса, предложившего альтернативную парадигму
прямого шкалирования отношений в психофизике [48 ]. Работы
С.Стивенса и его последователей показали, что для прототетических
психологических континуумов прямое шкалирование отношений
является обоснованной и дающей согласованные результаты процедурой (что было подтверждено экспериментами с кросс-модальной
43
валидацией и сменой стимульного контекста). В основании прямого
шкалирования лежит модель прямой оценки субъектом величины
стимула. Хотя кросс-модальная валидация неприменима к не имеющим физической измеримости стимулам, Стивенсу удалось получить некоторые непрямые доказательства существования степенного закона для ряда социальных переменных, измеряющих аффективный компонент установки (см.: [48]). Однако методы прямого конструирования шкал отношений, резко изменившие облик психофизики в 40-е - 50-е годы, не оказали заметного воздействия на
складывавшиеся в социологии подходы к измерению установок. В
60-е годы появились немногочисленные, но крайне интересные работы в этой области, обзор которых можно найти в [140].
Косвенное интервальное шкалирование и шкалы,
основанные на законе категориального суждения
Общая форма закона категориального суждения была описана
У.Торгерсоном [235 ]. Исходным для развития процедур шкалирования, основанных на этом законе, был метод последовательных интервалов, предложенный в 1937 г. М.Сэффиром [207]. Различные
процедуры для получения шкальных оценок и границ категорий
описаны М.Сэффиром, А.Эдвардсом и другими16.
При конструировании шкал, основанных на законе категориального суждения, перед респондентом ставится задача отнесения объекта в наиболее подходящую категорию на континууме предпочитаемости.
В отличие от модели прямого шкалирования, предположение о
способности респондента устанавливать равноотстоящие категории
здесь не вводится, но шкальный порядок категорий должен быть известен и явно задан наименованиями категорий. Границы между
категориями ответа рассматриваются как стандартные стимулы: как
и в законе сравнительного суждения, величина процесса различения,
вызываемого каждым стимулом и каждой границей категории, предполагается нормально распределенной. Выводя закон категориального
суждения, Торгерсон фактически предполагает, что процедура вынесения категориального суждения здесь основана на неявном парном
сравнении "стимул - граница категории".
Закон категориального суждения может быть представлен следующим образом:
S i  C j  z ij  i2   2j  2rij i  j (1.1)
где S i - среднее гипотетического распределения перцептивного
процесса для стимула i ;
Сj - среднее гипотетического распределения перцептивного процесса для j-ой категориальной границы;
Pij - нормированное отклонение, соответствующее наблюдаемой
доле суждений " i > j”;
σ i и σ j - различительные дисперсии стимула
стимулом i .
Очевидно, что закон категориального суждения аналогичен закону сравнительного суждения, однако второй из сравниваемых стимулов здесь заменен на границу категории. Поэтому для решения
основного уравнения вводится аналогичная совокупность допущений. Среди обсуждаемых Торгерсоном допущений, нужных для
нахождения решений, содержатся следующие три:
1. Различительные дисперсии всех стимулов равны.
2. Различительные дисперсии всех категориальных границ равны.
3. Все коэффициенты корреляции между стимулами и границами
категорий равны.
При принятии этих допущений, закон категориального суждения
может быть приведен к:
S i  C j  z ij k1  k 2  k 3  z ij k (1.2)
Особая совокупность допущений используется при применении
предложенного М.Сэффиром метода последовательных интервалов:
различительные дисперсии всех границ категорий принимаются равными, а корреляция между положением на шкале любого стимула и
любой границей категории равна нулю [237. Р.87 ]. Тогда уравнение
принимает вид:
S i  C j  z ij k   2j (1.3)
Третья из анализируемых Торгерсоном возможностей решения
аналогична второй: различительные дисперсии всех стимулов равны,
а корреляции между стимулами и границами категорий равны нулю
(процедура подробно описана в [21. Р.257-261 ]). Тогда закон категориального суждения принимает вид:
S i  C j  z ij  i2  k (1.4)
При анализе данных согласно закону категориального суждения
строится матрица Р, элемент которой р ij - частота помещения
стимула i ниже границы категории j . Так, стимул, помещенный
в категорию 2, содержит меньшее количество предполагаемого качества, чем граница между категориями 2 и 3, граница между категориями 3 и 4 и так далее. Матрица P получается при представлении
всех р.. в единицах единичного нормального отклонения (табл. 1.2).
45
Подробное обсуждение содержится, например, в [21; 30; 237].
и границы
категории j;
r ij - коэффициент корреляции между границей категории j и
44
16
i
Таблица 1.2а. Матрица Р. Накопленные частоты суждений
"стимул / меньше границы категории f
Стимулы
Границы категорий
1
2
3
i
m
1
2
P11
Р 12
P21
P22
P31
P 32
P i1
P i2
P m1
P m2
…
3
Р13
P23
P 33
P i3
P m3
…
…
…
.
….
….
.
j
Р1j
…
P2j
Р 3j
n
…
1.00
…
1 00
…
…
P ij
Р mj
…
1.00
1.00
1 00
Таблица 1.26. Матрица P. Единичные нормальные отклонения, соответствующие Р..
Стимулы
Границы категорий
1
2
3
i
m
1
2
Z11
Z 12
Z 13
Z22
Z23
Z21
Z31
Z i1
Zm1
Z 32
Z i2
Z m2
…
3
Z 33
Z i3
Z m3
…
…
…
.
….
….
.
j
Z1j
Z2j
Z 3j
Z ij
Z mj
…
n
…
1.00
…
1 00
…
…
…
1.00
1.00
1 00
m1
Каждая z ij предполагается выраженной в единицах, зависящих от
используемой формы закона категориального суждения. Для
уравнения (1.2) различные единицы предполагаются равными, а
для уравнений (1.3) и (1.4) равными предполагаются единицы
для каждого ряда и каждого столбца соответственно. Описание вычислительных процедур для получения шкальных оценок стимулов и границ категорий дано Торгерсоном [235], Эдвард-сом
[125] и др.
Эдварде и Терстоун предложили вычислять разницу между подсчитанными из параметров модели долями рц и наблюдаемыми
долями [21. С.258]. Эта процедура может рассматриваться как
критерий функционального единства шкалы. Гилфорд предложил
использовать хи-квадрат Мостеллера для оценки статистической
значимости величины расхождений [237. Р.89]. Однако Торгерсон
отметил, что для любого из стимулов доля случаев, когда он будет
оцениваться как больший, чем какая-то из границ категории, не
будет независимой от доли случаев, когда он будет оценен как
больший, чем любая другая граница категории. Появляющаяся в
результате зависимость противоречит предположениям, лежащим в
основе теста хи-квадрат.
Отрицательный результат проверки внутренней согласованности
свидетельствует о необоснованности по крайней мере одного из сделанных допущений. В этом случае можно либо попытаться использовать новую совокупность предположений, либо отвергнуть
гипотезу об одномерности и обратиться к процедурам многомерного
шкалирования.
Существуют некоторые эмпирические доказательства инвариантности шкальных значений, полученных на одной выборке. П.Джоунс [153 ] предлагал двум выборкам респондентов (из одной совокупности) оценивать один и тот же набор стимулов по 6- и 9-балльной
шкале соответственно. Полученные шкалы, относившиеся к классу
"аффективно-объектных", оказались линейно связаны. Более того,
различительная дисперсия стимулов, оцененная для двух групп, оказалась одинаковой. Кроме того, были найдены доказательства инвариантности измеренной широты категорий.
Основным критическим аргументом, относящимся к категориальным шкалам и методам, основанным на законе категориального суждения, является указание на влияние специфических черт "судейской
группы" на выносимые суждения. В исследованиях Э.Хинкли,
П.Ферпосона и других (см.: [21. С.262-264]) доказывалось отсутствие влияния установок судей на результирующую шкалу. Однако и
эти исследования были подвергнуты критике за специфическую процедуру исключения "легкомысленных" судей. В любом случае, оценивая шкалы, основанные на атрибутировании стимула к категории,
нельзя забывать об известных из психосемантики и психофизики закономерностях, в частности о зависимости " экстремальности" оценок от субъективной значимости стимулов. Этих недостатков в значительной мере лишен метод парных сравнений, однако он труднее в
применении. В целом накопленные доказательства свидетельствуют о
том, что прямое интервальное шкалирование и, соответственно, метод
равнокажущихся интервалов не дают интервальной шкалы, позволяя
говорить лишь об ординальном уровне, тогда как методы, основанные
на законе категориального суждения, имеют некоторые преимущества. Это, во-первых, возможность проверки шкальных гипотез, т.е.
принимаемой совокупности допущений, и, во-вторых, линейная связь
шкальных значений, полученных по этой модели, со значениями,
полученными в соответствии с законом сравнительного суждения.
Таким образом, модели, основанные на законе категориального суждения, могут обеспечивать интервальный уровень измерения17.
Описанные нами прямые и косвенные процедуры построения
шкал непосредственно предназначены для измерения объектов и содержания установок. Однако основной интерес для нас представляют
шкалы, измеряющие различия между субъектами установок, т.е. между людьми, придерживающимися определенных мнений, имеющих определенные "готовности к действию" и аффективные ориентации. Именно к этому типу шкал установок относятся шкалы Терстоуна, Ликерта, Гутмана, история возникновения которых опи47
46
17
Другая точка зрения обосновывается в [30. С.8О].
сана в первом разделе данной главы. Поэтому мы вкратце рассмотрим особенности этих шкал с точки зрения лежащих в их основе
моделей измерения установок.
С данной точки зрения, шкала Терстоуна представляет собой
двухшаговую процедуру построения аффективно-субъектной шкалы.
В принципе она может применяться и для построения когнитивносубъектной и поведенческо-субъектной шкал. Первый шаг этой
процедуры соответствует модели прямого интервального шкалирования (см. выше) - каждое суждение получает значение на "аффективном" континууме в зависимости от эмоционального отношения к
объекту установки. На втором шаге суждения шкалы предъявляются
выборке респондентов, чье аффективное отношение к объекту установки должно быть измерено. Респондент соглашается либо не соглашается с отдельными суждениями. Окончательный балл респондента - это усредненное значение (средняя или медиана) баллов
всех одобренных им суждений. В результате респонденты оказываются размещенными на той же шкале "за - против", что и предъявлявшиеся им суждения. Т.е. субъектам "присваиваются значения
так, как если бы они были объектами в когнитивно-объектной
шкале" [237. Р.91 ].
При конструировании терстоуновской шкалы установок важно
соблюсти ряд требований, которые были сформулированы преимущественно самим Терстоуном [233]. В исходном наборе суждений
должны быть представлены суждения, соответствующие всем градациям предполагаемого аффективного отношения, а аффективная
"нагрузка" суждений должна быть достаточно очевидной. Терстоун
также считал существенным, чтобы суждения выражали эмоциональное переживание, а не некоторый факт, отношение к которому
может определяться чем-то, помимо установок респондента ("В
США преобладают представители христианских конфессий"). Для
окончательного отбора суждений в шкалу Терстоун использовал
следующие критерии: 1) совокупность суждений должна "покрывать" весь предполагаемый континуум аффективного отношения,
будучи достаточно равномерно распределена по нему; 2) отобранные
суждения не должны быть двусмысленными и неясными, т.е. разброс
суждений судей должен быть невелик (в качестве объективного
критерия использовался межквартильный размах оценок, который
для суждений в оригинальной шкале установок по отношению к
церкви в среднем был равен 1,75; 3) должны быть исключены все
иррелевантные суждения. При этом объективный критерий иррелевантности включал в себя процедуру определения индекса сходства
для всех пар суждений, основанного на наблюденной совместной
вероятности одобрения пары суждений. Релевантными считались те
суждения, которые имеют высокий индекс сходства для близких по
шкальному значению суждений, и низкий - для "далеких". Иррелевантными оказывались суждения, имевшие противоположный паттерн отношений. На рис.1 схематически показаны паттерны разброса
индексов сходства для вымышленных релевантного и иррелевантного
суждений (конкретные примеры приведены в книге Л.Л.Терстоуна
48
Рис. 1. Разброс индексов сходства для релевантных и иррелевантных суждений шкалы
Терстоуна.
и Э.Чейва [233. Р.45-55]). Очевидно, что для применения критерия
иррелевантности нужна еще одна выборка, т.е. группа респондентов,
не участвовавших в "судейской" процедуре. Критерий иррелевантности сравнительно редко применялся при конструировании шкал
такого типа. Не вполне ясно, насколько этот критерий, явно нацеленный на исключение суждений, "загрязненных" другими коннотациями, помимо собственно аффективной оценки объекта, важен
для измерения установок. Однако заслуживает внимания аргумент
Г.Апшоу: систематическое исключение суждений по такому критерию иррелевантности может ввести систематическое выборочное
смещение в отбор из гипотетического универсума недвусмысленно
эмоционально-положительных ("за") и эмоционально-отрицательных ("против") суждений [237. Р.93].
Как уже говорилось выше, терстоуновская модель категориальной
шкалы не дает интервального уровня измерения. Вероятно, Терстоун
в 30-е годы был очень близок к формулировке закона категориального суждения и соответствующей модели шкалирования, однако
описанные нами ранее (см. раздел 3 данной главы) обстоятельства
привели к отказу от дальнейшей работы в этом направлении.
Что же касается требования функционального единства, то в
данном случае оно подразумевает линейную связь категориальных
суждений любой пары судей. Многочисленные исследования, связанные с возможностью переноса шкальных значений, полученных на
"судейской" выборке, на более широкие совокупности, подтвердили,
что это требование удовлетворяется [21. С.262-264; 237. Р.94].
Как уже говорилось выше, данная процедура построения шкалы
может применяться и для создания когнитивно-субъектных и поведенческо-субъектных шкал установок. Полученные шкалы будут
отражать соответственно степень готовности приписывать характеристики объекту установки или склонность предпринимать определенные действия по отношению к нему.
Предложенный Р.Ликертом метод суммарных рангов, позволяющий получать аффективно-субъектные шкалы, как уже отмечалось,
в отличие от терстоуновской процедуры не требует проведения отдельной экспертной процедуры, хотя также предполагает составление исходного "банка" суждений, касающихся объекта установки.
49
Так как первоначальный вариант метода описан нами ранее, остановимся лишь на общих чертах его применения. Исключение "несогласованных" суждений осуществляется по результатам применения исходного полного списка в группе респондентов, которая используется здесь как некий аналог "выборки стандартизации". Для
отбора применяются критерии, типичные для психометрического
"анализа пунктов", - корреляция с суммарным баллом и выявление
вопросов, статистически значимо различающих респондентов "высокой" и "низкой" групп (отобранных по суммарному баллу).
При измерении аффективного компонента установки респонденты обычно получают инструкцию выбрать для каждого суждения
одну из пяти категорий ответа: от "совершенно согласен" до "совершенно не согласен". Веса категорий отражают интенсивность согласия с суждением, выражающим благоприятную установку, или несогласия с суждением, отражающим неблагоприятную установку.
Т.е. вес "5" может быть приписан категории, выражающей максимальное согласие с "за"-суждением, а вес "О" - категории, выражающей максимальное несогласие с этим суждением. В результате
каждый респондент получит балл, соответствующий сумме численных значений своих ответов.
Особые и требующие специальных предосторожностей черты ликертовской процедуры являются побочным следствием ее простоты и
экономичности. Во-первых, предполагается, что баллы, получаемые
респондентами на основании согласия или несогласия с суждениями,
представительны по отношению к гипотетической популяции всех
благоприятных и неблагоприятных суждений. Однако ликертов-ская
процедура не содержит никаких специальных средств, обеспечивающих репрезентативный отбор суждений из этой популяции.
Так, здесь нет никакой "судейской" оценки, позволяющей, как в
терстоуновской процедуре, оценить "аффективную нагрузку" и двусмысленность вопросов шкалы. Во-вторых, пункты, отобранные в
результате анализа внутренней согласованности, это те, на которые
респонденты исходной выборки реагировали согласованно. Т.е. отбор
пунктов ведет к повышению функционального единства окончательного инструмента. Однако степень функционального единства зависит от сходства, гомогенности критериев, которые используют респонденты, входящие в конкретную выборку, при принятии или отвержении суждений. Функциональное единство, обеспечиваемое
данной процедурой "анализа пунктов", предполагает, что респонденты пользуются качественно одним и тем же критерием принятия
решения, отличающим респондентов друг от друга лишь по степени.
Т.е. вопрос о том, сохраняется ли функциональное единство инструмента при переносе на другую выборку респондентов, оказывается
связанным с общностью используемого респондентами критерия
принятия или отвержения суждений (ср. [241. Р.116]). В-третьих,
баллы, приписываемые категориям реакции в модели Ликерта, отражают интенсивность согласия-несогласия с суждением. Но если
предположить, что каждое суждение имеет собственную "аффективную нагрузку" по отношению к объекту установки, то можно
50
предположить существование функции "весов" суждений и "весов"
категорий ответа (возможно, неаддитивной), которая задавала бы
точное значение аффективной ориентации каждого респондента по
отношению к объекту установки. Однако в ликертовской процедуре
пункты суждения принимаются равными по предполагаемой "эффективности". Т.е. сама процедура оказывается основанной на предположении, что "эффективность" одинакова для всех суждений в
данной совокупности. Это допущение является необходимым, так как
в противном случае интерпретация результатов становится неопределенной. Предположим, что одно из суждений выражэет крайнюю
благожелательность по отношению к объекту установки, а другое скорее нейтральное отношение. Чтобы суммирование по этим двум
пунктам поддавалось осмысленной интерпретации, вес, приписываемый категории "совершенно согласен" для "нейтрального" суждения, должен был бы совпадать приблизительно с серединой ряда значений, присваиваемых категориям ответа по первому, "аффективному" суждению. Однако модель Ликерта не предполагает какойлибо оценки суждений, помимо оценки их обобщенной благожелательности - неблагожелательности по отношению к объекту установки. Г.Апшоу, критикуя эту модель, ссылается на данные Л.Ферпосона, показавшего, что процедура "анализа пунктов", применяемая
при конструировании шкалы Ликерта, ведет к исключению суждений, которые не выражают крайние полюса эмоциональной оценки
объекта установки. Фергюсон исследовании 1941 г. предъявлял уже
прошедшие отбор суждения ликертовской шкалы судейской группе,
члены которой ранжировали их по степени подразумеваемого аффекта (т.е. аналогично процедуре Терстоуна). Для четырех из пяти
объектов установки суждения ликертовской шкалы сгруппировались
у полюсов континуума "за" - "против" [129].
Сам Г.Апшоу продемонстрировал зависимость "выживания" суждений при отборе от их экстремальности следующим образом: исходная совокупность суждений была получена от репрезентативной
выборки респондентов, которых просили описать позиции, соответствующие крайним градациям шкалы "за - против". Из описаний и
был составлен список из 18 суждений. Семнадцать из этих суждений
при использовании на других выборках из той же популяции оказались дискриминативными для высоких и низких баллов на 5-процентном уровне.
Как справедливо указывает Б.Грин, математическая модель, подразумеваемая техникой присвоения баллов респонденту по методу
Ликерта, - это модель единого общего фактора [21. С.265-267].
Внутренняя корреляция пунктов - результат действия единого общего фактора. При фиксированном уровне этого фактора (аффективного компонента установки) пункты окажутся независимыми. Это,
по сути, та же модель, с которой работают факторный и латентноструктурный анализ. Идеальная линейная корреляция между общим
баллом и латентным общим фактором достигается, когда "длина"
списка суждений стремится к бесконечности. Самым прямым способом верификации модели общего фактора является, видимо, фак4*
51
торный анализ пунктов шкалы18. Основные источники по проблеме
"взвешивания" пунктов перечислены в статье Б.Грина [21 ], однако
мы здесь не будем останавливаться на их анализе, так как они
принадлежат преимущественно к психометрической традиции и не
оказали заметного влияния на конструирование ликертовских шкал
в социологии. В случае следования ликертовской технике присвоения
баллов может быть получен ординальный уровень измерения. По
мнению Б.Грина, шкала ликертовского типа имеет метрику в том
смысле, что для данной совокупности пунктов можно получить
распределение баллов в генеральной совокупности. Различие между
баллами будет отражать пропорции людей, имеющих соответствующие оценки [21. С.267].
Шкалограммный анализ Гутмана, как уже говорилось при описании истории его разработки (см. раздел 4), применялся к измерению когнитивно-, поведенческо- и аффективно-субъектных переменных. Результирующая шкала является ординальной. Основания
шкалограммного анализа изложены Гутманом в работе [222. Р.6090 ]. Конструирование шкалы начинается со спецификации "универсума признаков" ("universe of attributes" по Гутману). Спецификация заключается в отборе тех манифестаций когнитивной, аффективной или поведенческой переменной, которые можно считать основными, решающими при предполагаемом обобщении шкальных
значений. Если пункты шкалы можно считать случайной выборкой
из популяции пунктов, воплощающих самые существенные аспекты
универсума признаков, а респонденты представляют собой случайную выборку из известной совокупности, то реакция выборки респондентов по отношению к выборке пунктов может быть обобщена
для обеих совокупностей. Если, как и в случае с ликертовской
шкалой, предположить, что каждый индивидуум имеет внутренний
критерий, в соответствии с которым он принимает или отвергает
какое-то суждение (выражающее мнение, предполагаемый способ
действия или эмоциональную оценку), то совокупность респондентов
и совокупность суждений могут быть совместно логически упорядочены на шкале Гутмана тогда, когда все респонденты используют
одно критериальное качество (количественно варьирующее), принимая решение согласиться или не согласиться с каждым пунктом
опросника. Г.Апшоу приводит пример с вопросом о целесообразности
вмешательства американских вооруженных сил в конфликт на азиатском континенте. Респондент может оценивать этот вопрос с точки
зрения последствий этого для геополитической позиции США. Другой же респондент, выбирая между "да" и "нет", может оценивать
суждение с точки зрения принесения человеческих жертв ради политических целей. Когда же оба респондента руководствуются одним и тем же свойством суждения, они могут отличаться с точки
зрения "нагруженное™" данного суждения этим качеством, которая
требуется, чтобы каждый из них согласился с суждением.
52
Модель шкалограммного анализа предполагает, что суждения выражены в форме, которая логически позволяет определить вероятность принятия суждения как монотонно возрастающую или монотонно убывающую функцию шкальной позиции респондента. Т. е.
речь идет о шкалировании монотонных признаков в терминологии
К.Кумбса (Терстоун говорил в этой связи о шкалах возрастающей
вероятности, которым противостоят шкалы максимальной вероятности [233 ]; Стауффер - о кумулятивных шкалах, отличающихся от
дифференциальных [222. Р. 3-45]). Как уже отмечалось, сама идея
шкалирования кумулятивных признаков явно присутствовала уже в
шкалах социальной дистанции Боргадуса. Однако формальный метод шкалирования был разработан впервые Гутманом. Согласно модели шкалограммного анализа, признаки-пункты могут быть расположены вдоль континуума переменного качества.
Исходным и самым простым случаем для модели является дихотомический признак-пункт (высказывания, имеющие несколько категорий ответа, можно рассматривать как совокупность нескольких
высказываний-категорий). Упорядочение пунктов на кумулятивной
шкале таково, что респондент, позитивно прореагировавший на
некий пункт, будет также позитивно реагировать на все пункты,
имеющие более низкий ранг. Соответственно респонденты располагаются в зависимости от ранга избранных ими пунктов. Проиллюстрируем это с помощью гипотетической гутмановской шкалы для
шести респондентов и пяти пунктов-суждений, которая изображена
на рис.2.
Возрастание
R1
I1
переменной = свойства
R2
I2
Следует при этом помнить, что факторный анализ не доказывает аксиому локальной независимости, а подразумевает ее выполнение.
I3
R4
I4
R5
I5
Рис.2. Гипотетическая шкала Гутмана для 5 пунктов и 6 респондентов.
Пять дихотомических пунктов (т.е. суждений с двумя возможными категориями ответа) обозначены точками /j , /2 ... 1$. Шесть респондентов, соответственно, представлены точками RI , R2 ... R,. Расположение каждой точки соответствует количеству переменнойсвойства (эмоциональной установки, соматоневротической симптоматики и т.д.). Количество шкалируемого свойства, соответствующее
локализации данного пункта /„, - это граница между двумя категориями ответа по данному пункту. Таким образом, положительный
ответ определяет некоторую область с одной стороны шкального
расположения пункта, а отрицательный - область с другой стороны.
Локализация респондента зависит от той величины переменнойсвойства, которая соответствует его критерию принятия решения о
согласии или несогласии с суждением. Образно говоря, критерий
"резонирует" на некоторое минимальное или максимальное пороговое значение вербализуемой в вопросе установки. Так, в ситуации,
изображенной на рис.2, респондент будет соглашаться с любым
пунктом-суждением, имеющим меньшее количество заданного свойства, чем его требует его критерий, и отвергать остальные. Следова53
18
R3
------ »-
тельно, число принятых респондентом пунктов-суждений действительно будет функцией его положения на шкале: респондент jRt не
согласится ни с одним пунктом, а респондент R, одобрит все пять.
Связь между гутмановской шкалой и шкалограммной матрицей
может быть прояснена с помощью табл. 1.3, которая эквивалентна
Рис.2:
Таблица 1.3. Шкалограммная матрица, иллюстрирующая паттерн ответов
для гипотетической шкалы на рис.2
Возрастание переменной-свойства
Пункты и респонденты представлены соответственно столбцами
и строками шкалограммной матрицы. Пункты расположены от максимальной до минимальной степени выраженности свойства. Респонденты расположены сверху вниз по убыванию рангового порядка
критерия. Знаки "+" соответствуют согласию респондента с пунктом-суждением, знаки "—" - несогласию. Очевидно, что популярность пункта является обратной функцией его положения на
шкале. Положение респондента на шкале зависит от частоты положительных ответов для данного набора пунктов-суждений. На
практике приближение к идеальной шкалограмме, представленной таблицей 1.3, может быть достигнуто упорядочением пунктов
по их популярности (частоте положительной реакции) и упорядочением респондентов по частоте позитивных реакций для шкал,
близких к абсолютной. Для шкал, близких к абсолютной, число положительных ответов может быть использовано как балл респондента, так как обычно оно хорошо коррелирует с результатами
применения более сложных методов присуждения баллов [21.
С.272 ]. В общем же случае при неабсолютной шкале респондент получает балл того шкального типа, который ближе всего к его паттерну ответов. Различные вычислительные процедуры включают перестановку строк и столбцов, комбинирование категорий ответа
и, иногда, "переворачивание" направления шкалы для некоторых
пунктов-суждений. Целью здесь является максимальное приближение к паттерну ответов, соответствующему шкальной гипотезе.
Сопоставление шкальной гипотезы и случайной гипотезы о независимости пунктов имеет следующее обоснование. Существование
54
абсолютной (совершенной) гутмановской школы предполагает наличие взаимосвязи между пунктами-суждениями шкалы. Условная
вероятность события "респондент согласится с пунктом Im ", если
он
согласился с пунктом, имеющим более высокое положение по шкале,
например / , равна единице. Для реальных данных, из-за ошибок измерения и/или неполного соответствия модели, рассчитанные
значения этой условной вероятности будут меньше единицы. Возможна и ситуация, когда не выполняется предположение об одномерности, и респонденты реагируют на суждения шкалы, исходя из
каких-то других свойств (критериев). (Самый яркий пример приведен в работе [241. Р. 109-114], содержащей достаточно типичную
критику гутмановского подхода и понятия "ошибки": некто может
ответить отрицательно на все вопросы шкалы социальной дистанции,
но вместе с тем - дать позитивный ответ на вопрос: "Согласны ли
Вы, чтобы Ваша дочь вышла замуж за негра?", не потому, что он
"ошибся", а потому, что он равно не выносит негров и собственную
дочь.) В любом случае, если считать, что пункты и респонденты не
могут быть упорядочены на единой шкале, нужно принять альтернативную гипотезу о том, что пункты - статистически независимы
и совместное принятие любых двух пунктов может быть приписано
случаю. Т.е. условная вероятность принятия пункта Im при принятии
пункта Im+1 равна просто вероятности принятия Im.
Согласно шкальной гипотезе, для дихотомических пунктов наибольшее возможное число наблюденных паттернов ответа будет на
единицу больше числа пунктов. Согласно гипотезе о независимости,
максимальное число паттернов ответа для п дихотомических пунктов
будет 2". В общем, следуя шкальной гипотезе, можно ожидать, что
знание числа пунктов, на которые данный респондент дал позитивный ответ, позволит полностью предсказать паттерн его ответов. Это
следствие шкальной гипотезы обозначается понятием "воспроизводимость". Как уже говорилось, получение абсолютной гутмановской
шкалы на реальных данных маловероятно. Поэтому на практике
балл присуждается посредством приписывания индивида к шкальному типу (входящему в паттерны ответов идеальной шкалы) таким
образом, чтобы ошибка воспроизводимости была минимальной. Т.е.
шкальный тип - это группа респондентов, дающая паттерны ответов,
предсказываемые идеальной шкалой. Скажем, для опросника из
четырех пунктов имеет место следующая ситуация: + + + +;
- + + +; - - + +; - - - + ; - - - - . Нешкальный паттерн
+ - - - может быть отнесен к шкальному типу - - - - с одной
ошибкой (по шкальной гипотезе один позитивный ответ предполагает паттерн - - - + , однако при отнесении в этот шкальный тип
ошибок воспроизводимости было бы две). Общей мерой соответствия
шкальной модели данным служит коэффициент воспроизводимости
(ReP), равный:
ReP = 1 — число ошибок воспроизводимости
/общее число ответов
55
В качестве основного критерия для определения приемлемости
набора пунктов как шкалы Гутман предложил использовать величину коэффициента воспроизводимости не ниже 0.90. Т.е. ответы,
классифицированные как "ошибка", должны составить не более
десяти процентов наблюдений. Однако этот критерий сам по себе
недостаточен, так как еще сам Гутман показал, что коэффициент
воспроизводимости для небольшого набора пунктов, которые статистически независимы, может быть очень высоким [222. Р.277-311].
Поэтому если пункты дихотомические, их должно быть не меньше
десяти. Кроме того, манипулируя матрицей ответов при конструировании шкалы, исследователь в определенном смысле увеличивает
шансы шкальной гипотезы. Поэтому возникает необходимость в
дополнительных критериях: значительный разброс в маргиналах
пунктов, минимизация ошибки для каждой категории ответа, не
слишком высокая частота нешкальных паттернов ответа. Учитывая
неоднозначность этих критериев, некоторые авторы предложили
собственные алгоритмы "осторожного" конструирования шкалы. Так
Г.Апшоу предлагает следующую процедуру определения того, формирует ли конкретная совокупность данных гутмановскую шкалу
[237. Р.104-105]: наряду с реальной шкалограммой, где минимизированы ошибки воспроизводимости и известна популярность каждого
пункта, построить гипотетическую матрицу данных, основываясь на
гипотезе независимости пунктов (для определения ответов гипотетических респондентов предлагается пользоваться таблицей двузначных случайных чисел). Далее по тем же правилам, что и для реальных данных, осуществить необходимые перестановки в гипотетической матрице, чтобы минимизировать ошибки воспроизводимости. После этого следует сравнить оценки гутмановских шкал для
реальных и гипотетических данных. Для этого реальные и гипотетические респонденты разбиваются на категории в зависимости от
числа ошибок (респонденты с одной, двумя ошибками и т.д.). К получаемой таблице сопряженности можно применить тест хи-квадрат, чтобы проверить случайную гипотезу для совокупности реальных данных. Однако, строго говоря, эта процедура позволяет проверить лишь конкурирующую гипотезу о том, что между пунктами нет
никакой систематической взаимосвязи, тогда как гутмановская гипотеза утверждает, что эта взаимосвязь почти абсолютна. Поэтому
строгое и однозначное решение этой процедурой не гарантируется.
Фактически критерии подтверждения шкальной гипотезы, следующей из модели Гутмана, это критерии функционального единства,
основанные на внутренней согласованности реальных данных. Как
уже говорилось, эти критерии никак не связаны с правилами приписывания баллов. Чаще всего респонденты получают баллы, соответствующие числу положительных ответов для "своего" шкального
типа, что отражает их положение на ординальной шкале латентного
свойства-переменной. Сходным образом пункты (точнее, границы
между категориями ответа) получают баллы в зависимости от их
ранга в шкалограммной матрице. Сам Гутман предложил аналитическую процедуру присвоения баллов, основанную на критерии
максимальной дисперсии баллов. По мнению Б.Грина [21. С.276277 ], метод максимальной дисперсии баллов не играет большой роли
в шкалограммном анализе, однако получаемые несколько ортогональных систем баллов (главные компоненты) могут представлять
интерес с формально-математической точки зрения. Гутман показал,
что для абсолютной шкалы - если оценки различных систем баллов
появляются как функции первоначальных шкальных баллов - первая
главная компонента является монотонной функцией шкальных баллов и, таким образом, может быть использована как метрика системы.
Вторую главную компоненту, имеющую одну точку перегиба,
Гутман отождествлял с также {/-образной функцией интенсивности
установки (см. с.29), хотя основания для этого отождествления не
вполне ясны.
Модель Гутмана равно применима к аффективно-, когнитивно- и
поведенческо-субъектным шкалам, единственное различие между
которыми будет заключаться в содержании вопросов.
В данном разделе, как уже говорилось, мы не стремились дать
полный обзор существующих моделей шкалирования. Кроме того,
детальный анализ классических моделей измерения установок содержится в ряде работ, в том числе упоминавшихся нами (см. также: [111; 112; 117]). Однако нам необходимо остановиться на некоторых особенностях классического подхода к шкалированию установок и его позднейших модификаций, которые особенно существенны
для понимания той критики, которой подвергся этот подход и его
"общепринятые истины" в результате появления причинных моделей измерения (и ошибки измерения), к рассмотрению которых мы
перейдем в последующих главах.
Прежде всего, " классический" подход к шкалированию уделяет
лишь незначительное внимание содержательной разработке понятия
ошибки измерения. Точнее, этот подход довольствуется статистическими понятиями ошибки и истинного значения, унаследованными
от традиционной психометрии, т.е. от родительской дисциплины.
Безусловно, сама психометрическая парадигма шкалирования не
остается неизменной. В последние десятилетия большую популярность (но не практическое значение) приобрели стохастические и
эксплораторные модели шкалирования. В стохастических моделях
(одно- и многомерных) наличие ошибки измерения явно постулирется в противовес детерминистским моделям. Кроме того, модель
шкалирования в этом случае обычно используется не как техника,
а как критерий оценки валидности, лежащей в ее основании модели
измерения [112. Р.32]. В последнем случае оценки параметров
модели, полу-ченные при вычислениях меры соответствия модели
данным, могут быть использованы как числовые значения объектов
на шкале, т.е. измерение оказывается дополнительным "подарком
валидной модели" [219. Р.8]. Под эксплораторными шкальными
моделями понимаются модели, полученные в результате применения
специальных процедур для выявления внутренней структуры данных. Строго говоря, эксплораторными (т.е. "исследующими", "раз-
56
57
ведочными") являются не модели, а эти процедуры анализа данных,
позволяющие для данного набора показателей (индикаторов будущей
шкалы) выяснить, есть ли у него структура и может ли эта структура
быть представлена в виде одно- или многомерной шкалы. (Позднее
мы еще вернемся к идеологии эксплораторного анализа данных и
поиска моделей измерения.)
Кроме того, для "ранних" процедур шкалирования была характерна еще одна особенность. Процедуры приписывания баллов субъектам или суждениям не были основаны на каких-то явных эмпирически наблюдаемых отношениях доминантности/эквивалентности
между объектами оценивания. Следовательно, для таких шкал оказывались неприменимы постулаты репрезентационной теории измерения, так как отношения числовых значений шкалы не соответствовали каким-то наблюдаемым отношениям в эмпирической системе.
Т.е., приписывание числовых значений не отражало (не репрезентировало) отношения между эмпирическими объектами. Как мы уже
говорили, обсуждая шкалы категориальных оценок (например, шкалы Терстоуна и Ликерта), приписывание чисел здесь в значительной
мере произвольно. На этом основании построена часто применяемая
классификация шкал, разделяющая их по типу измерения [117].
Шкалы оценок основаны на индексном измерении, когда числовое
приписывание осуществляется более или менее произвольно. Шкальные процедуры, в которых приписывание числовых значений объектам соотнесено с эмпирически наблюдаемыми отношениями между
объектами, называют репрезентсщионными. Однако даже стохастические эксплораторные модели шкалирования, разработанные в
рамках психометрического подхода, отчасти основываются на тех же
принимаемых произвольным решением (by fiat) предположениях,
что и ранние шкалы установок. Эти предположения не подвергаются
проверке сами по себе, как некоторые содержательные гипотезы о
"механизмах" реального мира, порождающих социологические данные. Они представляют собой своеобразную "обратную проекцию"
в реальность ряда нерефлексируемых особенностей сложившегося на
более ранних этапах развития психометрики "образа человека".
Чтобы проиллюстрировать сказанное, мы вкратце остановимся лишь
на одном характерном примере. Стохастическая одномерная модель
шкалирования, разработанная Р.Моккеном [182 ], основана на отношениях доминантности между объектами из различных множеств и
может использоваться для построения шкал установок (в последнем
случае два множества объектов - это субъекты и высказывания, как
и в случае с только что рассмотренной шкальной моделью Гутмана).
Модель позволяет получить ординальное упорядочение субъектов и
высказываний (пунктов) шкалы. Из нее также можно вывести ряд
ограничений на возможные ответы и, соответственно, проверить
соответствие модели данным. В модели вводится понятие трудности
высказывания (пункта), содержательная интерпретация которого
предполагает существование некоторого порогового значения латентной установки, позволяющего респонденту положительно ответить
на шкальный вопрос или согласиться с высказыванием. Очевидно,
58
трудность высказывания в этой модели совершенно аналогична по
смыслу трудности вопроса в общей теории тестов и восходит к представлению о трудности теста в тестировании способностей. Функция, показывающая вероятность положительной реакции на данное
высказывание в зависимости от значения латентной установки, называется графиком данного высказывания (либо характеристической
кривой вопроса, как в общей теории тестов). Модель налагает ограничения на графики высказываний-пунктов. В частности, вероятность положительного ответа должна монотонно возрастать с ростом
значения латентной установки, графики отдельных пунктов (вопросов, высказываний) шкалы не должны пересекаться (трудность пункта должна определяться однозначно) и т.п. В случае, когда ошибка
измерения отсутствует или ею можно пренебречь, кумулятивная
стохастическая модель одномерной шкалы превращается в детерминистскую, т.е. в идеальную модель, предполагаемую шкалограммным анализом по Гутману. Достоинством стохастической модели
'Р.Моккена является возможность вывести из самой модели некоторые ограничения на данные, позволяющие проверить модель. Т.е.
решение о "шкалируемости" данной совокупности высказываний
или вопросов здесь, в отличие от гутмановской модели, уже не основано на достаточно произвольных оценках процента допустимых
"ошибок", а приписывание балла индивиду не является результатом
грубой аппроксимации к "шкальному типу". (Пример построения и
использования стохастической кумулятивной шкалы политических
установок, наряду с подробным описанием шкальной модели, можно
найти в [219].) Однако и в этой стохастической эксплораторной модели присутствуют те принимаемые без проверки (хотя, возможно, в
ряде случаев верные) предположения классической психометрики.
Это, во-первых, требование локальной независимости высказываний (пунктов) шкалы и, во-вторых, модель латентной черты (установки, способности), являющейся причиной ответов или реакций
опрошенных. Локальная стохастическая независимость предполагает, что позитивный ответ данного респондента на некий вопрос
шкалы статистически независим от ответов, данных на другие вопросы. Обоснованность и даже необходимость этого ограничения очевидна, когда речь идет, скажем, о совокупности арифметических задач, предназначенных для измерения одной и только одной способности. Однако, зная о различных типах систематической ошибки
измерения, характерной для личностных и установочных шкал (позиционная тактика ответов, артефакты "социальной желательности"
и др., о чем будет подробнее говориться в главе II), реалистично ли
предполагать, например, что человек, согласившийся с утверждением о несущественности его личного участия в выборах, согласится с
тем, что ему не следует голосовать, с той же вероятностью, что и
другой человек, не согласившийся с первым утверждением [219.
Р.12]? .
Что же касается предположения о латентном континууме свойства-установки, являющейся причиной явных ответов-индикаторов, то
оно восходит к идеям Ф.Гальтона и Ч.Спирмена и отражает попу59
лярные в начале века представления о едином конституциональном
факторе, определяющем многообразие поведенческих проявлений. В
главе III, рассматривая различные модели измерения, мы убедимся,
что латентная черта (свойство, фактор) далеко не всегда являются
причиной своих индикаторов. Сейчас же отметим, что модель латентной черты чрезвычайно удобна для исследования соотношений генотипа и фенотипических проявлений организма в биологии или
при изучении некоторых специальных способностей, имеющих высокую степень наследственной обусловленности. Однако применимость модели одномерного континуума латентного свойства в шкалировании установок требует куда более веских обоснований, помимо соображений удобства.
Глава вторая
ПРОБЛЕМА КАЧЕСТВА ИЗМЕРЕНИЯ В СОЦИОЛОГИИ:
ОТ КОНСТРУКТА К ИНДИКАТОРУ И ОБРАТНО
1. Надежность, валидность и ошибка измерения:
кризис классической теории тестов
Ключевые понятия оценки качества измерения - надежность и
валидность - пришли в социологию из классической теории тестов и
психометрики одновременно с появлением первых шкал установок.
В нашу задачу не входит исчерпывающий анализ концепций надежности и валидности в теории тестов 1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и результаты
"классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологического измерения и вызвавшие возникновение новых представлений
и методов оценки качества измерения в социальных науках.
Общее теоретическое определение надежности в психометрике
связано с понятием устойчивости процедуры относительно объектов
измерения [36. С.74-75 ]. В общем виде надежность относится к тому,
"в какой мере измерения повторяемы - для одних и тех же индивидов
при использовании различных мер одного и того же свойства или для
различных лиц при использовании одной меры свойства" [191.
Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком,
надежна, то при использовании разных конкретных индикантов
(графических шкал, вербальных самоотчетов и т.д.) на одной и той
же группе исследователь будет получать идентичные результаты. И,
с другой стороны, повторные замеры будут давать тот же уровень
удовлетворенности браком. Надежность-устойчивость (ретестовая,
диахроническая надежность) характеризует точность измерения при
проведении повторных тестирований. Надежность-согласованность
(одномоментная надежность) связана с внутренней согласованностью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при измерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность измерительной процедуры, таким образом, находится в обратной связи
с количеством случайных ошибок в процессе измерения. Случайные
ошибки при повторном выполнении тестовых заданий могут быть и
результатом неконтролируемых изменений условий тестирования, и
следствием "моментальных" изменений в состоянии самого испытуемого. Итак, ретестовая надежность говорит о репрезентативности
результатов теста для различных случаев его применения [2. С. 104 ].
Применимость ретестовой надежности как оценки качества измерения ограничена содержательными соображениями, теоретически61
1
Такой анализ в значительной мере осуществлен в отечественной литературе (например
[1:36]).
ми представлениями об исследуемом свойстве (отсутствие эффектов
"памяти", "научения", ограничение временными интервалами предполагаемой стабильности исследуемого свойства). Поэтому даже в
психологическом тестировании повторное тестирование применяется
прежде всего для оценки надежности элементарных психомоторных
и сенсорных тестов [2. С.106]. Надежность-согласованность имеет
другую содержательную природу и оценивается обычно через коррелирование либо взаимозаменяемых форм теста, либо частей одного
теста.
Валидностъ измерения в самом общем смысле характеризует
соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе
говоря, валидность процедуры (инструмента) измерения состоит в
однозначности и правильности получаемых результатов относительно измеряемого свойства объектов, т.е. относительно предмета измерения [36. С.74 ]. Надежность является необходимым, но не достаточным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превышать
надежность. Уже на интуитивном уровне очевидно, что надежный
инструмент может измерять нечто другое вместо подразумеваемого
конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория
тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валидности и,
фактически, сводит ее лишь к критериальной оценке (отсюда
"надежность теста - это, собственно, его валидность по отношению к
параллельному тесту" [172. Р.63]).
Нужно отметить, что самостоятельное осмысление проблем качества измерения в социологии долго тормозилось сравнительно меньшим к ним интересом. Собственно специально-методические исследования проблем валидности показателей вплоть до середины 60-х 70-х годов не были распространены в американской эмпирической
социологии. Единственным исключением, достаточно серьезным по
масштабам и результатам, было так называемое Денверское исследование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мнения
(NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного
С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г.,
сопоставлялись данные ответов респондентов на фактографические
вопросы с данными официальной местной статистики (регистрация
и голосование, взносы в местную казну, наличие водительских прав
и читательского билета библиотеки и т.п.). Сопоставляя данные
официальной статистики, принимаемые за истинное значение, с
ответами респондентов, исследователи обнаружили, что данные самоотчетов часто существенно от них отклонялись. Величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса. Изучалось также влияние интервьюера. Данные этого исследования критериальной валидности пред62
ставляют значительный интерес и сейчас (см., в частности: [199]).
И все же, оценивая роль критериально-ориентированного подхода в
валидизации данных, полученных в массовых опросах, следует
помнить об ограничениях, присущих этому подходу: объективный
критерий, используемый как "эталон", нередко нуждается в столь
же строгой оценке своих измерительных качеств. Здесь нам представляется вполне справедливой точка зрения Дж.Конверс: "(Действительно) Проводящие опросы исследователи редко выходят за
пределы самоотчетов. Исследования валидности не только дорогостоящи, но и чрезвычайно сложны. Существует возможность сравнивать
"субъективные" самоотчеты с "объективными" данными официальных документов, но большая часть документов, к которым обращаются для валидизации обследований, также построена на самоотчетах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может
оказаться лучше официальных данных: выборки часто точнее, чем
переписи, и современная машинная обработка данных может
успешнее устранять ошибки, чем системы "бумага-и-карандаш", до
сих пор доминирующие в официальных записях" [109. Р.415].
Интерес к качеству измерения стал ведущей ориентацией в том
"возрождении" проблематики измерения в социологии, которое произошло в середине шестидесятых годов, после приблизительно пятнадцатилетнего периода снижения популярности работ в данной
области [177. Р.1].
Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности
традиционного подхода к оценке надежности и валидности эмпирических измерений, содержащих случайную ошибку, специалисты по
социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер,
Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточность и ограниченность психометрического подхода к оценке качества социологического измерения.
Для того чтобы убедиться в обоснованности этой оценки, рассмотрим некоторые основные положения психометрического подхода. Так
как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:
X = Т + е.
(2.1)
Далее обычно делаются некоторые предположения об ошибке
измерения [172. Р.36]:
1)
отрицательные и положительные величины ошибок взаимопо-гашаются, т.е.
E(e) =0
2) истинные баллы и ошибки не скоррелированы:
ρ (t,e)= 0;
63
3) корреляция между значением ошибок по одному измерению и
истинным значением по другому равна нулю:
р
(e1, t2) = 0;
4) корреляция ошибок различных измерений равна нулю
Р (e1, е2) = 0.
Из этих предположений следует:
Е(Х) = Е(Т).
Отсюда:
 2   t2   e2
Отсюда следует определение надежности как доли дисперсии
истинного компонента измерения от общей дисперсии теста:
т.е. корреляция параллельных тестов (пунктов) равна дисперсии
истинного компонента, деленной на дисперсию измеренных значений. Формула (2.5) позволяет выразить дисперсию истинного балла
через наблюдаемые величины:
 t2   x2 pxx
   (t  e)
2
x
 x2   t2   e2  2 te следует:
2
Так как ковариация истинных баллов и ошибок (по определению)
равна нулю, т.е.
т.е. через произведение дисперсии измеренных значений и корреляции параллельных форм. Подстановка этого выражения в формулу
(2.4) дает:
 te  0
p xt2 
то из формулы
Надежность =
 t2
p  2
x
2
xt
Если вся дисперсия измеренных баллов связана с ошибкой измерения (по определению случайной), то надежность равна 0. Если бы
никакие ошибки не влияли на измерение, то надежность теста была
бы равна 1.
Так как из формулы (2.4) на практике нельзя произвести оценку
надежности (дисперсия истинных баллов неизвестна), то для оценки
надежности вводится представление о параллельных (собственно
параллельных или тау-эквивалентных) формах теста. Для нас достаточно рассмотреть случай параллельных тестовых измерений, для
которых вводится предположение о равенстве истинных компонентов
и дисперсий ошибочных компонентов, что можно выразить следующим образом:
X=T
где
и
 e2 =  e2
X = T +e
и
(2.6)
'
2
 t2  x pxx

 p xx
 x2
 x2
'
(2.7)
'
дисперсий измеренных баллов; 3) равенство корреляций параллельных форм с другими переменными; 4) равенство попарных интеркорреляций нескольких параллельных форм. Из всей совокупности
Предполагается, что параллельные формы имеют ряд важных
свойств: 1) равенство средних измеряемых значений; 2) равенство
Т.е. оценка надежности - это корреляция параллельных форм.
В классической теории тестов валидность определяется как корреляция измерения X и измерения Y [172. Р.61 Г]2;
Валидность =
pxy 
 xy
 x y
(2.8)
Если X и Y - параллельны в вышеуказанном смысле, то:
=о
Х - Т Y=T
В результате для валидности
щую формулу:
T=T
64
 xy 
 xy
2
 t2
 x y  x
.
получают cледую(2.9)
Отсюда очевидно концептуальное тождество критериальной валидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "...
по определению
О других подходах к теоретико-эмпирической валидизации мы будем говорить
далее.
Но валидность теста по отношению к какому-то иному тесту не может превосходить
квадратного корня его надежности [172. Р.72].
2
3
65
классическая теория тестов применима тогда и только тогда, когда
ошибка измерения является полностью случайной. Попросту говоря,
в классической теории тестов предполагается, что вся ошибка измерения случайна" [242. Р. 11]. Конечно, в социологическом опросе
или даже в исследовании, использующем агрегированные данные
переписи, существует много источников случайной, несистематической ошибки измерения. Например, ошибки кодирования или простого подсчета могут носить случайный характер. Если респондент с
равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить
несистематический характер. Однако как только эта ошибка теряет
случайный характер, "это уже не проблема надежности, а скорее
проблема валидности" [225. Р.13]. Как только ошибка измерения
становится неслучайной, часть вариации в индикаторах оказывается
связанной с каким-то иным конструктом, отличным от того, который
исследователь стремится измерить. Т.е. систематический компонент
дисперсии надежного индикатора может относиться только к теоретически специфицированному конструкту, что обеспечит валидность
индикатора. Невалидная же, но надежная мера, может полностью
или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить,
что введенное в психометрике в 50-х годах понятие конструктной
валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструктам,
однако процедуры оценки конструктной валидности не могли быть
разработаны в рамках традиционного подхода. Для оценки конструктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна
лишь в результате возникновения в американской социологии моделирующего подхода к измерению и широкой трактовки измерения
как "теоретически-нагруженного" процесса, связывающего концепты теории с эмпирическими индикаторами (вторая половина 60-х 70-е годы). Анализу этих новых подходов к измерению, причинных
моделей и "вспомогательных теорий измерения" посвящена третья
глава этой книги. Здесь же нам важно зафиксировать, что инновации
в концептуализации надежности и валидности, как и появление
новых методов оценивания качества социологического измерения,
были вызваны, прежде всего, той трактовкой измерения, которая
первоначально была предложена в работах Х.Блейлока5 .
Близки к идее конструктной валидности и процедуры конвергентнодискриминантной валидации [106]. О роли последних для возникновения моделей с множественными индикаторами, а также присущих им ограничениях будет
сказано позднее (в послед-нем параграфе этой главы).
5 Самой существенной в данном контексте чертой предложенного Х.Блейлоком
подхода явился отказ от узкого понимания измерения как" присваивания численных значений объектам или событиям в соответствии с правилами", предложенного С.Стивенсон в 40-х годах, и переход к пониманию измерения как процесса связывания абстрактных понятий теории с наблюдаемыми эмпирическими
индикаторами.
4
66
Конкретные причины, вызвавшие неудовлетворенность социологов, занимавшихся проблемами измерения, механическим переносом
традиционной психометрической "парадигмы" оценки качества измерения, очень отчетливо сформулированы в книге Р.Зеллера и
Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной
природе всей ошибки измерения, приемлемое в психологическом
эксперименте, чаще всего необоснованно, когда речь идет о выборочном обследовании, опросе и т.п. Измерение, основанное на таком
типе данных, обычно включает и случайный, и неслучайный
ошибочный компонент. Характерными примерами являются эффекты "памяти", социальной желательности, установки на позитивный
или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического
контроля (применительно к обоснованности научного вывода в неэкспериментальных исследованиях эта проблема была впервые сформулирована в [212], см. также: [168]). Еще более существенным
является то обстоятельство, что систематическая ошибка измерения
имеет место и тогда, когда "совокупность индикантов измеряет не
только подразумеваемый теоретический концепт или даже репрезентирует совершенно иной концепт" [242. Р.11]. По определению такого рода ошибки не обладают, по крайней мере, некоторыми
из статистических свойств, приписываемых собственно случайной
ошибке измерения. Т.е. имеет место как минимум одно из следующих обстоятельств:
E (e)  0,  te  0,  e1t 2   e1e2  0
Р.Зеллер и Э.Карминес приводят пример утвердительной и отрицательной тактик ответа со стороны респондента. В этом случае
сформулированные в одном "направлении" пункты, даже если они
никак не связаны сами по себе, оказываются скоррелированными. И
уже нельзя говорить о равенстве нулю корреляции между ошибками
измерения по отдельным пунктам-индикантам.
Вторым недостатком классической теории тестов является, с
точки зрения этих авторов, отсутствие адекватной концептуализации валидности и отношений между валидностью и надежностью,
т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом,
Р.Зеллер и Э.Карминес утверждают, что простое знание того, что
валидность измерения (как корреляция с другой переменной) не
может быть выше квадратного корня его надежности, не решает
никаких проблем. Это соотношение, как отметил Дж.Борнстед [95.
Р.97 ], не дает никакого прямого знания о валидности как о степени
соответствия индикаторов предполагаемой цели измерения. Более
того, сама оценка валидности оказывается "побочным продуктом"
оценки надежности [242. Р. 12].
Осознание двух названных принципиальных ограничений, присущих психометрическому подходу к оценке качества измерения в
социологии (игнорирования систематической ошибки и неудовлетворительной теоретической дифференциации надежности и валидности), привело к возникновению новых идей и ориентации. В после67
дующих двух разделах мы проанализируем два близких подхода к
валидности и надежности измерения, очень характерных, на наш
взгляд, для происходивших в 60-е - 70-е годы изменений.
2. Надежность и валидность эмпирическх моделей
Первый из этих подходов полнее всего изложен в уже упоминавшейся книге Р.Зеллера и Э.Карминеса [242 ].
Р.Зеллер и Э.Карминес предложили переформулировку
определений валидности и надежности, а также критерии и
практические методы их оценки. Предложенная ими концептуализация надежности и валидности (как и другие ориентации в
моделирующем подходе к измерению) базируется на том, что
наблюдаемые значения измеряемой переменной (X) равны сумме истинных значений (Г), систематической ошибки измерения
(S) и случайной ошибки измерения (R)6. Т.е.:
X = Т + S + R.
(2.10)
Тогда для генерального среднего измеренных баллов можно
записать:
Е(Х) = Е(T) +E(S),
(2.11)
так как для случайной ошибки действительны прежние предположения. Для конечной выборки наблюдений среднее измеренное значение переменной становится несмещенной оценкой
"истинного балла", к которой прибавлена средняя систематической ошибки [242. Р.12].
В присутствии и случайной, и систематической ошибок для
ожидаемой дисперсии можно из:
σ2x = σ2( t + s + r )
вывести, что
σ2x = σ2 t + σ2 s + σ2 r + 2σ ts
(2.12)
(Так как по определению σ tr = σ sr = 0.) Здесь существенно,
что так как Т и S могут быть скоррелированы, суммирование
дисперсий Т, S и R не обязательно дает дисперсию X. Причем
ковариация Т и S может быть и больше, и меньше нуля. Можно
оценить дисперсию случайной ошибки и наблюдаемых значений. Однако невозможно ничего сказать о дисперсии истинного
компонента, систематической ошибки и ковариации TS, не сделав каких-то дополнительных содержательных предположений
("не существует чисто механической процедуры для идентификации латентных переменных с гарантированной теоретической
валидностью" [146. Р.9]).
В этом контексте можно ввести следующие различения для
надежности и валидности: "Надежность - это доля неслучайной
6
Хотя это и не является предметом нашего обсуждения, укажем, что сходный в некоторых чертах анализ погрешностей измерения был проделан в отечественной литературе [23].
68
дисперсии; валидность - та доля дисперсии наблюденных значений,
которая относится к истинному компоненту" [242. Р.13]. Т.е.:
Надежность 
Валидность 
 t2   s2  2 ts  x2   r2

 x2
 x2
 t2
 x2
Такое определение согласуется с данными выше содержательными определениями валидности и надежности. Кроме того, из
него становится ясным, что различие валидности и надежности
индикатора зависит от присутствия систематической ошибки измерения. Если совокупность индикаторов измеряет только заданный теоретический конструкт с точностью до случайных погрешностей, то валидность будет равна надежности. Чем больше доля
систематического ошибочного компонента, тем больше надежность
будет превосходить валидность.
Наконец, в гипотетическом случае, когда вся наблюденная дисперсия индикатора будет обусловлена систематической ошибкой
(скажем, из-за неправильной спецификации теоретической модели), валидность будет нулевой, а надежность - абсолютной.
Все изложенные представления, как уже говорилось, в принципе были достаточно осознаны и в психометрической традиции (по
крайней мере, к середине 60-х годов). Однако близкая к контролируемому эксперименту ситуация тестирования позволяла, в
принципе, находить " паллиативные" средства конструктной валидации.
Скажем, необходимость учета содержательных представлений о
тестируемом свойстве в области образовательного тестирования
могла реализовываться в конкретных процедурах оценки репрезентативности тестового материала (по объему и содержанию) относительно заранее известной учебной программы. Идею совпадения
теоретической модели "поведения" изучаемого свойства с реальностью легко было осуществить, например, через оценку его возрастной динамики в "естественном эксперименте" (если тест X измеряет вербальный интеллект, то показатели для детей должны
расти с каждым годом) [2. С.141 ].
В социальных же науках, где экспериментальный контроль
практически недостижим, где целью является не тестирование или
дифференциальная диагностика, а измерение переменных на микро-и макро-уровне, и где систематическая ошибка весьма типична,
неудовлетворенность таким подходом к качеству измерения была
значительно острей. Это и вызвало появление новых подходов в
данной области.
Если принять предложенную формулировку надежности и валидности, то можно выделить два обобщенных критерия их
оценки: 1) внутренняя ассоциация как паттерн взаимоотношений
между
69
индикантами, предназначенными для измерения одного теоретического конструкта, и 2) внешняя ассоциация как паттерн отношений
между индикантами данного конструкта и другими переменными
[242. Р.151
Критерий внутренней ассоциации предполагает, что существуют позитивные интеркорреляции между индикаторами, что соответствует содержательному пониманию надежности как согласованности. Наиболее популярной техникой оценки внутренней согласованности пунктов (совокупности индикаторов, субтестов шкалы) является факторный анализ. Сторонники факторного анализа
как средства оценки качества измерения иногда склонны полагать,
что именно факторный анализ, выявляющий эмпирическую многомерную структуру матрицы корреляций между пунктами, может использоваться для полной оценки конструктной валид-ности отдельных индикаторов:"Каждый тест может быть охарактеризован посредством основных факторов, определяющих его показатели, весом,
или нагрузкой, каждого фактора и корреляцией теста с каждым из
них. Такая корреляция именуется факторной валидностью теста"
[2. С.143]. Однако такая точка зрения переоценивает роль факторного анализа в оценке качества измерения, хотя бы в силу того,
что не принимает во внимание проблему интерпретации факторов. Сама по себе интерпретация фактора как релевантного определенному теоретическому конструкту (или, наоборот, представляющего другой конструкт либо артефакт метода) невозможна без принятия каких-то предположений о валидности измерения (за исключением случая, когда систематическая ошибка отсутствует).
Нам кажется более обоснованным использование факторного
анализа как средства оценки систематических компонентов наблюденной дисперсии, т.е. "доли наблюденной дисперсии, представленной истинными значениями и неслучайными или систематическими
ошибками" [242. Р.15]. Исходя из этого, Р.Зеллер и Э.Карминес
предложили процедуру использования факторного анализа для эмпирической оценки надежности, создания новых факторных переменных (шкал) и построения исходной модели измерения, адекватность и параметры которой подлежат дальнейшей комплексной
оценке.
Наиболее эффективным подходом, с точки зрения этих авторов,
является одновременная оценка надежности и валидности измерения.
При этом для оценки надежности (и как воспроизводимости, и как
согласованности) часто применимы методы классической теории тестов, сравнительные достоинства которых авторы анализируют в [242.
Р.48-76 ]. Оценка надежности связана со случайной ошибкой измерения (чем выше надежность, тем ниже случайная ошибка и наоборот).
Точные оценки надежности измерения могут быть получены при использовании моделей факторного анализа. Причина заключается в
том, что наиболее общий метод оценки надежности для линейных
сводных показателей (суммирующих оценки для отдельных индикаторов-субтестов) - "альфа" Кронбаха - равна надежности лишь
когда все индикаторы (пункты) строго параллельны или тау-эквивалентны19, т.е. она устанавливает нижнюю границу надежности
[242. Р.59] (см. также: [1. С.123; 36. С.70]).
С практической точки зрения, условия, когда "альфа" Кронбаха
не дает хорошей оценки надежности, весьма существенны для социологического измерения. Это происходит, когда "пункты измеряют один концепт в неравной мере, или измеряют более одного
концепта, равно или неравно" [242. Р.60]. Существенна здесь и типичная для социологии ситуация невозможности подобрать большое
число индикаторов-пунктов для одного теоретического концепта20.
Уже сами условия, ограничивающие полезность коэффициента
Кронбаха, предполагают применимость и релевантность оценки
надежности, основанной на факторном анализе. В этом контексте
становится понятной популярность двух коэффициентов надежности, основанных на факторном анализе - "тега" и "омега". Общее
обоснование использования факторного анализа в оценке надежности достаточно полно и лаконично изложено в отечественной работе
[1. С.127-129], где, в частности, отмечается, что так как для заданного числа пунктов в тесте (шкале) большей корреляции между
пунктами соответствует большая надежность, а высокая корреляция
также является условием выделения небольшого числа значимых
факторов, то надежность теста может быть связана с результатами
его факторизации. "Факторизация гомогенного теста должна давать
один главный фактор, на котором эти (входящие в тест) высказывания имели бы заметные нагрузки... Использование факторного анализа для определения надежности гетерогенного теста сводится, по
существу, к процессу гомогенизации посредством факторного расчленения высказываний теста. При этом каждый выделенный фактор
объединяет в себе предложения одного гомогенного теста" [1. С.127128].
Коэффициент "тега" основан на модели анализа главных компонент и может быть содержательно интерпретирован с учетом того,
что основная задача в ней заключается не в объяснении корреляции
между признаками, а в объяснении максимальной доли дисперсии
наблюдений [52. С. 15]. Надежность гомогенного теста (шкалы), образованного пунктами, вошедшими в первую компоненту:

N
1
(1  )
N 1
1
где N - число пунктов, a A i - наибольшее (т.е. первое) собственное
число. (В случае гетерогенного теста можно подвергнуть повторному
анализу каждую полученную подсовокупность пунктов-высказы-
70
71
Т.е. имеют идентичные истинные значения, либо попарно отличающиеся на
аддитивную константу.
20 В психологическом тестировании, особенно образовательном, обычно возможно
составить достаточно длинный тест из гомогенных субтестов.
19
ваний.) "Тета" может рассматриваться как максимизированное значение альфа-коэффициента.
Р.Зеллер и Э.Карминес рассматривают и другой коэффициент
надежности - "омега", основанный на модели общих факторов и
предложенный Д.Хейсом и Дж.Борнстедом в 1970 г. Приведем его
упрощенную формулу для корреляций между пунктами:
  1
a   hi2
a  2b
где а - число пунктов, Ь - сумма корреляций между пунктами, hi общность P-ro пункта.
При этом отмечается, что так как общности в модели общих
факторов оцениваются, существует доля неопределенности при вычислении "омеги" (но не "теты"). Все три коэффициента ("альфа",
"омега" и "тега") будут равны, если корреляции между пунктами
равны (при равенстве дисперсий пунктов). Для тау-эквивалентных
пунктов а < в < Q [242. Р.63]. Различия между коэффициентами
"альфа" и "тега" либо "омега" будут существенны, когда высказывания теста (шкалы) имеют очень гетерогенные интеркорреляции
(однако эти различия можно уменьшить, исключив "слабые" пункты). Процедура, предложенная Р.Зеллером и Э.Карминесом для
оценки надежности [242. Р.67-75 ], включает в себя факторизацию,
построение и эмпирическую оценку параметров причинной модели
измерения, коррекцию на аттенюацию корреляций между неизмеряемыми конструктами в модели (если в исследовании ставилась
задача оценить взаимосвязь различных конструктов, измерявшихся
разными совокупностями индикаторов) , оценку надежности сводных
показателей, анализ матрицы корреляций после резидуализации
(чтобы убедиться, что она содержит только случайную ошибку). Обсуждаются также критерии, указывающие на присутствие только
случайной ошибки [242. Р.71-75]. После выполнения всех шагов
этой процедуры исследователь имеет основания утверждать, что
"причинная модель содержит всю надежную дисперсию" [242. Р.76 ].
Однако абсолютная надежность, как уже говорилось, не гарантирует валидности эмпирических показателей. В принципе, очень
надежная мера может быть совершенно невалидной, если все индиканты отражают лишь систематическую ошибку. Источником этой
систематической ошибки может быть и артефакт метода (самый
простой и распространенный случай - позиционный стиль ответа,
response set), и другой теоретический конструкт, неучтенный в
модели. На многочисленных примерах Р.Зеллер и Э.Карминес показывают, что задача оценки валидности значительно сложнее, чем в
случае оценки надежности (именно в силу возможного присутствия
систематической ошибки). Конечно, если в процессе измерения
имеют место лишь случайные ошибки, валидность будет равна
надежности, однако "при измерении большинства теоретических
концептов, используемых в социальных науках, измерение, по всей
вероятности, содержит и случайную, и систематическую ошибку"
72
[242, Р. 159 ]. Оценка же систематической ошибки (и, таким образом,
валидности) в значительно большей степени является теоретической
проблемой, чем сугубо статистической. Здесь не может существовать
чисто механической процедуры. Стратегия, предложенная Р.Зеллером и Э.Карминесом, основана на теоретических импликациях
процедур эмпирического измерения. Исходя из теоретической концепции, делаются предсказания о возможных отношениях валидизируемых показателей к другим (внешним) переменным. Т.е. предполагается, что валидная мера имеет такой паттерн связей с теоретически релевантными внешними переменными, который согласован
с ожидаемым на основании теоретических предположений. При этом
уверенность исследователя в валидности эмпирического измерения
тем выше, чем больше таких проверок конструктной валидности,
основанных на критерии внешней ассоциации, удалось успешно
провести. Наиболее эффектной является стратегия одновременного
оценивания надежности и валидности, так как эмпирические показатели должны обладать и статистическими свойствами надежности,
и концептуальной валидностью при измерении сложных и высокоабстрактных понятий социологической теории.
Так как предложенный Р.Зеллером и Э.Карминесом подход в
значительной мере зависит от конкретного теоретического контекста
и причинной модели измерения, т.е. от содержательных соображений, его эффективность проще всего продемонстрировать на какомто примере. Таким примером может служить, в частности, проведенный ими анализ предложенной У.Шутцем концепции межличностного поведения и соответствующей модели измерения. Эта концепция "Фундаментальной ориентации межличностных отношений в
поведении" (FIRO-B) постулирует, что лишь удовлетворительные
отношения с другими людьми могут удовлетворить потребности, мотивирующие поведение в сфере общения [46; 209 ]. Безуспешность
попыток установить такие отношения ведет к фрустрации потребности и, следовательно, к возрастанию тревожности. Существует три
фундаментальных межличностных потребности - включенность,
контроль и расположение (любовь). Кроме того, поведение, относящееся к каждой из межличностных потребностей, описывается
в двух ортогональных измерениях: поведение самого субъекта по
отношению к другим и желаемое им поведение со стороны
других. В соответствии с этими теоретическими представлениями
был создан опросник, состоящий из шести шкал, измеряющих ортогональные, независимые (по гипотезе Шутца) теоретические концепты: 1) выражаемая субъектом межличностная потребность во
включенности, 2) "желаемая" потребность во включенности (т.е.
связанная с ожидаемым поведением других людей, 3) выражаемая в
поведении субъекта потребность в контроле, 4) желаемый контроль
со стороны других людей, 5) выражаемая потребность в проявлении
расположения, 6) желаемое расположение со стороны других.
Опросник FIRO-B состоит из 54 пунктов, т.е. из 9 высказываний
для каждой из 6 шкал концептуального пространства межличностного поведения размерности 3x2.
73
Р.Зеллер и Э.Карминес провели факторный анализ опросника в целом и каждой из шести шкал, проверку конструктной валидности по
критерию внешней ассоциации, а также оценку надежности
суммарных баллов по каждой шкале после исключения "слабых"
пунктов [242. Р.123-136, 155-158 ]. Одновременная оценка надежности и валидности показала, что высказывания FIRO-B измеряют в
действительности четыре теоретически специфицированных концепта:
включенность, контроль и два аспекта расположения - "Близкое и
личностное" и "Холодное и дистантное". Проведенный анализ не
дает оснований для предложенного Шутцем разведения желаемого и
ожидаемого поведения в сфере межличностных отношений. При
этом, в частности, выяснилось, что полученное при исходной факторизации расщепление "контрольных" пунктов на два фактора
отражает не наличие двух измерений контроля, а существование
общего фактора контроля и артефакта метода - позиционного стиля с
гветов у части испытуемых. Т.е. формулировка исходных вопросов
вела к систематической ошибке измерения для части выборки.
Применение критерия внешней ассоциации и Q-техники факторизации (объединение респондентов в группы-факторы) позволило отделить влияние "позиционных" ответов от истинного влияния фактора
контроля. Для иллюстрации этого результата приведем оцененную
модель измерения для шкалы контроля опросника FIRO-B (рис.3).
Однако, как отмечает Р.Зеллер и Э.Карминес, артефакты метода не
всегда могут быть обнаружены. В случае шкалы контроля из опросника FIRO-B, выявление не связанной с содержанием шкалы доли
систематической вариации ответов, зависящей от формы представления высказываний, было облегчено тем, что часть пунктов была негативной (по отношению к измеряемому свойству). Если же влияние
артефактов метода на все индикаторы имеет одно направление, то
задача оценки модели измерения становится практически невыполнимой без привлечения дополнительных теоретических соображений
для повторной конструктной валидации и дополнительных показателей для расширения модели измерения. Традиционный подход, основанный прежде всего на чисто статистической оценке надежности,
здесь неэффективен. В этом примере он привел бы к получению "завышенной" надежности при низкой валидности. Конечно, некоторые
приемы выявления артефактов метода, разработанные в психометрике, могут быть применены в социологическом измерении - например,
использование "прямых" и "обратных" пунктов. Однако в большинстве случаев эти простые средства неэффективны и едва ли применимы. Едва ли возможно разрабатывать "шкалы лжи" для каждого
социологического опроса или вводить в анкету многочисленные вопросы - дубли или "экзотические" вопросы для выявления случайной
тактики ответов респондента.
Конкретный подход к оценке качества измерения, предложенный
Р.Зеллером и Э.Карминесом, не стал окончательным решением
черченных проблем. В этом подходе недостаточно разработаны
проблемы измерения, возникающие при неправильной спецификации
теоретической модели. Удовлетворительное решение этих проблем
74
Рис. 3. Модель измерения
для шкалы кош-роля опросника FIRO-B.21
Контроль
П
о
з
и
ц
и
о
н
н
ы
й
о
т
в
е
т
(
R
e
s
P
o
n
se
set )
возможно лишь при соотнесении понятия "валидность" со "вспомогательной теорией измерения", о чем будет идти речь в главе III данной работы. Однако в этом подходе достаточно ясно выражено
стремление перейти от понимания измерения как "числового
приписывания" к его трактовке как процесса связывания понятий
теории с языком наблюдения и, следовательно, к комплексной оценке
качества измерения с учетом и статистических свойств, и содержательной адекватности. Безусловную ценность представляют и
содержащиеся в этом подходе эвристические приемы, позволяющие
установить зависимость качества эмпирических индикаторов от влияния неслучайных ошибок измерения - артефактов метода и ошибок
теоретической спецификации, искажающих параметры модели измерения. Однако прежде чем давать оценку новым, самостоятельным
подходам к измерению, оказавшим существенное влияние на
американскую эмпирическую социологию 60-х - 70-х годов,
рассмотрим в общих чертах еще один такой подход, использующий
иную стратегию оценки качества показателей.
3. Множественные индикаторы
в оценке качества измерения
Подход, основанный на использовании множественных индикаторов и путевого анализа, был предложен в статье Герберта Костнера, вышедшей в 1969 г. [113]. Однако сама идея использования
75
Отношения между " контролем" и артефактом измерения для 15 высказываний шкалы
контроля. Коэффициенты соответствуют факторным нагрузкам после вращения. Источник- [242. Р. 134].
21
многих показателей для оценки надежности и валидности
социологического измерения была достаточно популярна уже в
первой половине 60-х годов. Сам Г.Костнер в указанной статье
подчеркивает, что первую общую формулировку многоиндикаторного подхода можно найти в работах Х.Блейлока (1964) [81],
Р.Кёртиса и Э.Джексона (1962) [116], а также в книге Ю.Уэбба и
соавт., посвященной нереактивному измерению в общественных
науках [238 ]. На наш взгляд, еще более прямой является связь
многоиндикаторного подхода и процедуры конвергентной-дискриминантной валидизации с использованием многометодной матрицы свойств (черт), или "ДО-М"- матрицы. Эта процедура была
предложена Д.Кэмпбеллом и Д.Фиске в статье 1959 г. [106] и
рассматривается в психометрической литературе как эффективный
подход к комбинированной оценке конструктной валидности. Использование причинных моделей со множественными индикаторами
позволило определить границы обоснованности такой оценки, о чем
пойдет речь далее, однако до изложения основных идей многоиндикаторного подхода целесообразно просто зафиксировать наличие
такой связи.
Многоиндикаторный подход позволяет одновременно проводить
оценку конструктной валидности индикаторов, эмпирическую
проверку принятой исследователем причинной модели измерения
и надежности индикаторов для сравнительно простых моделей измерения. Прежде всего, рассмотрим проблему оценки надежности, так как именно она позволяет понять тесную связь данного
подхода со спецификой планирования исследования и сбора
данных в социологии. В принципе, обычные методы оценки надежности (как внутренней согласованности и как повторяемости), принятые в теории тестов, вполне эффективны, когда речь идет о сравнительно стабильных свойствах, состоящих из многих высказываний тестах и сравнительной легкости доступа к источникам
данных.
В социологии же (и других общественных науках) единицей
анализа часто является не индивидуум, а какой-то макроуровневый социальный объект - определенного типа группа, регион,
культура и т.п. Возможности повторного тестирования в небольшом временном интервале, как и возможности использования многих
индикаторов ("пунктов"), нацеленных на измерение одного и того
же свойства, обычно крайне ограничены. С одной стороны, при использовании агрегированных данных официальной статистики социолог заранее ограничен существованием больших интервалов
между переписями, так как за такой срок может меняться сам
уровень интересующего его свойства (в [225. Р.29] приводится
пример медианного уровня дохода как показателя экономических
ресурсов штата). В результате, нельзя использовать оценку ретестовой надежности. С другой стороны, чаще всего попросту невозможно подобрать более двух-трех индикаторов интересующего исследователя свойства. И даже когда это возможно (преимущественно, при изучении установок), в реальный социологический ин76
струмент (анкету, план интервью) редко удается включить достаточно большой список высказываний, связанных с единственным
свойством22. Однако исследователю все же необходима какая-то
процедура для оценки качества измерения и внесения поправок на
ошибку измерения в статистические оценки корреляций между изучаемыми свойствами23.
В условиях, когда имеется лишь один индикатор для каждой из исследуемых переменных и отсутствует возможность повторных замеров, нельзя оценить надежность этого индикатора (которая, в терминах путевого анализа, равна квадрату эпистемической корреляции,
т.е. корреляции измеряемого свойства и индикатора). Причинная модель измерения становится непроверяемой, если не принять нереалистическое предположение об абсолютной надежности индикатора
(эпистемические корреляции равны 1) или пренебрежимо малой
ошибке измерения [113. Р.245]. Ситуация меняется уже с введением двух индикаторов для каждой переменной. На рисунке 4 X и Yэто исследовательские переменные, о связи между которыми говорит
теоретическая гипотеза, с - структурный коэффициент, представляющий связь между X и Y в совокупности. Далее х1 и х2 -это индикаторы теоретической переменной X, которая сама по себе неизмеряема,
так как является теоретическим конструктом24. Соответственно, у1 и у2
- индикаторы Y, a a, b, d и е - это так называемые эпистемические корреляции, связывающие индикатор с соответствующей неизмеряемой
переменной. Принимается, что все переменные стандартизованы и,
соответственно, а, b, с, d и е - это путевые коэффициенты, т.е. стандартизованные значения структурных коэффициентов (см.: [53. С.
177]). Правила путевого анализа позволяют выразить наблюдаемые
значения корреляций (в нашем случае, r x1x2 , r x1у1 , r x1у2 , r x2у1 ,
r x2y2 , r y1y2 ) 25 через последовательность коэффициентов причинной диаграммы (о путевом анализе см., например, [53]).
На рис.4 изображены также возмущения или ошибки еi для которых принимаются допущения о случайном характере (они не скоррелированы друг с другом и их генеральное среднее равно нулю), и,
кроме того, члены-концептуальные ошибки - ui , представляющие все
неизвестные причины концептуальных переменных (X и У) в многоиндикаторных моделях. Для последних принимается, что они случайны по отношению друг к другу, к возмущениям в индикаторах
77
Причины здесь могут заключаться и в обычно присущем социологическому исследованию
многоцелевом характере, и, вероятно, в некотором различии мотивов к сотрудничеству у опрашиваемого в ситуациях социологического опроса и тестирования.
23
Уже в работе 1968 г. П.Зигель и Р.Ходж использовали причинные модели для изучения
влияния ошибки измерения на корреляцию между переменными [179].
24
Подробнее об этом будет говориться в главе Ш.
25
Для упрощения изложения, как это нередко делается в литературе, мы не будем пока
подчеркивать различие между выборочными оценками и параметрами совокупности,
т.е. будем рассматривать выборочную корреляцию г как эквивалент параметра сово
купности/)^ .
*"
22
Корреляции r xiyj могут быть получены из данных для всех индикаторов, т.е. это известные величины. В системе из шести уравнений
содержатся и пять неизвестных (путевых коэффициентов). Следовательно, мы можем получить оценку любого из пяти коэффициентов: и корреляции истинных значений с, и эпистемические корреляции a,b,d и е, квадрат которых равен надежности индикатора.
Однако модель, изображенная на рис.4, переопределена (шесть
уравнений, пять неизвестных). Идея, предложенная Г.Костнером,
как раз и заключалась в том, чтобы использовать избыточную информацию для оценки согласованности (несогласованности) получаемых
значений коэффициентов и, соответственно, проверки обоснованности
предположений, включенных в модель, в частности, предположения об
отсутствии определенного рода неслучайной ошибки измерения. Для рассматриваемой нами модели на рис.4 из уравнений 2.15 и 2.18 мы получаем:
rx1 y1 ry2 x2  abc 2 de
( ei) и по отношению к другим, точно указанным причинам каждой концептуальной переменной26.
Итак, используя правила путевого анализа, можно записать
следующие уравнения, выражающие корреляции между индикаторами на рис. 4, через путевые коэффициенты:
rx1x2  ab
rx1 y1  acd
(2.14)
(2.15)
78
26
В нашем обсуждении возмущения, в силу принятых предположений, не будут играть большой роли.
Аналогично, из уравнений 2.16 и 2.17 получаем:
rx1 y2 ry1x2  abc 2 de
Следовательно,
rx1 y1 ry2 x2  rx1 y2 ry1x2
(2.20)
Г.Костнер обозначил уравнение 2.20 как критерий согласованности. Если данные действительно порождены причинной моделью, изображенной на рис.4, то критерий согласованности должен
соблюдаться для наблюдаемых корреляций как необходимое
условие. Однако, если модель ошибочна, то критерий не соблюдается, так как присутствует неслучайная ошибка измерения
(Г.Костнер обозначил исследовавшиеся им типы ошибок как
"дифференциальное смещение" или "дифференциальную постоянную ошибку", так как она будет постоянна для повторных измерений одного случая, но варьировать для разных случаев, будучи скоррелированной с другим индикатором в модели [113.
Р.248]). Эта неслучайная ошибка будет присутствовать, если
хотя бы один индикатор детерминируется
79
внешней переменной помимо концептуальной переменной, которую он представляет, и собственной случайной ошибки измерения. Г.Костнер, как уже говорилось, показал, что критерий
согласованности для модели с двумя индикаторами каждой переменной является необходимым, но не достаточным условием, и рассмотрел случаи, когда уравнение 2.20 выполняется (в
пределах ошибки выборки) при наличии неслучайной ошибки
измерения. Один из таких случаев показан на рис.5А, другой на рис.5Б.
Диаграмма на рис.5А отражает ситуацию неслучайной
ошибки при измерении индикаторов одной переменной
(например,y1 и у2 - смежные вопросы анкеты, измеряющие
одно качество). В случае такой модели изменится лишь
уравнение 2.19 из системы, которое не использовалось
при получении критерия 2.20. На рис.5Б изображена ситуация, когда один индикатор детерминируется двумя неизмеряемыми переменными, что вполне возможно, когда между переменными существует тесная взаимосвязь и они трудно
разделимы теоретически (например, это социальный и экономический престиж соответственно). Для этой модели в
нашей первоначальной системе уравнений 2.14 -2.19 нужно
переписать два:
Однако и в этом случае критерий согласованности будет выпол-
rx1 y1 ry 2 x 2  rx1 y 2 ry1 x 2
няться, т.е.
так как : (а с d + аf) (Ь с е) = (асe) (b с d + bf) .
Кроме того, в некоторых случаях (например, при наличии
неслучайной ошибки измерения между индикаторами разных
концептуальных переменных) различия между левой и правой
частями критерия согласованности будут очень малы и
неотличимы от ошибки выборки, так как будут выражены через произведение многих путевых коэффициентов, каждый
из которых меньше единицы.
Как показал Х.Блейлок [83] , предложенный Г.Костнером
подход, может быть распространен на все рекурсивные модели
(определение рекурсивных причинных систем см.: [53. С.139-141]
) , т.е. для любого числа концептуальных переменных. Так, для
двухиндикаторной модели с тремя переменными будут существовать три критерия согласованности. Однако добавление новых переменных будет вести к резкому возрастанию вычислительных сложностей и числа оценок для каждого коэффициента,
что порождает проблемы оценивания. Поэтому для сложных
моделей со многими переменными и многими индикаторами,
которые, однако, не очень типичны для обычной практики, используют факторно-аналитические процедуры, основанные на
методе максимального правдоподобия.
80
Г.Костнер также показал, что уже для моделей, содержащих три
индикатора каждой переменной, можно выявить некоторые типы
систематических ошибок, т.е. не просто обнаружить наличие
систематической ошибки, но и "локализовать" невалидный индикатор и исключить его. Для откорректированной модели измерения, где ошибки измерения случайны, из соответствующих путевых коэффициентов можно получить оценки надежности. Для модели с тремя индикаторами для каждой из двух переменных существует девять критериев согласованности (Костнер рассматривал ее
как совокупность девяти двухиндикаторных моделей) [113; 225.
Р.38-39]:
Приведем пример. Пусть в действительности имеет место
ситуация, изображенная на рисунке 6. Исследователь же
исходит из предположения, что присутствуют лишь случайные
ошибки измерения, т.е. у индикаторов х 3 и у, нет общего источника вариации.
Так как для каждой переменной используются три индикатора, то, рассматривая, какие из критериев 2.20-2.28 не выполняются, можно обнаружить источник неслучайной ошибки в модели. В
данном случае не будут удовлетворены условия 2.21, 2.22,
2.27 и 2.28, включающие корреляцию r x3y1 , тогда как в
остальных случаях равенство будет удовлетворено. Таким образом, исследователь может исключить из модели два невалидных индикатора (х 3 и у 1 ) и далее получить множественные оценки остальных параметров, в частности, оценить
надежность остальных индикаторов, как в случае модели с двумя
индикаторами.
Следует, однако, помнить о том, что при увеличении числа индикаторов в модели число получаемых оценок будет возрастать в
6 И.Ф.Девятко
81
Таблица 2.1. Матрица корреляций для двух свойств и двух методов [225. Р.48]
Рис. 6. Модель Костнера с
двумя переменными и шестью индикаторами (с выявляемой неслучайной ошибкой).
Рис. 7. Причинная модель измерения для двух свойств и двух методов.
геометрической прогрессии [242.
Р. 173]. Поэтому обычно модели с
тремя индикаторами используют для выявления невалидных
индикаторов (систематической ошибки измерения), а для оценки параметров возвращаются к модели с двумя индикаторами,
не порождающей серьезных проблем, если число концептуальных переменных невелико [225. Р.40].
В начале данного раздела речь шла об определенном сходстве многоиндикаторного подхода с процедурой конвергентнодискрими-нантной валидизации, предложенной Д.Кэмпбеллом и
Д.Фиске. При этом мы оговорили, что построение причинных
моделей измерения со множественными индикаторами позволило показать, что использование многометодной матрицы
свойств далеко не всегда является эффективным средством проверки конструктной валидности. Так как процедура Д.Кэмпбелла
и Д.Фиске неоднократно описана в литературе (например, [2. С.
144-146]), укажем лишь, что суть процедуры заключается в
применении разных методов измерения - заполняемый респондентом опросник, структурированное интервью, наблюдение и
т.п. - к оценке двух или более свойств. В результате получается матрица "свойства/методы", элементами которой являются
коэффициенты корреляции, включающие в себя и коэффициенты надежности (на главной диагонали), и коэффициенты валидности. В работах Р.Алтаузера и соавт. [72; 73] содержится
анализ "М-М"-матриц с помощью причинных моделей измерения. Проиллюстрируем выводы, полученные в этих работах, на
простейшем примере двух свойств (концептуальных переменных X и Y) и двух методов. Матрица для этого примера показана в таблице 2.1.
Не считая оценок надежности (заключенных в скобки), в
матрице содержится шесть наблюдаемых коэффициентов
корреляции для
82
четырех различных индикаторов (два метода для каждого из двух
свойств). Вариация каждого ин- дикатора имеет два независимых
источника - свойство, т.е. концептуальная переменная, и метод измерения. Представим эти отношения с помощью причинной модели
измерения на рисунке 7.
Здесь X и Y - значения двух свойств, М{ и М2 представляют влияние
двух используемых методов. Существует какая-то корреляция между истинными значениями двух свойств (S), и между влияниями
двух методов. Последнее предположение весьма правдоподобно
если допустить существование сходных факторов, воздействующих
на реакцию респондента - социальной желательности, тематики самопрезентации или просто сходства способа измерения. Модель на
рис.7 не доопределена (шесть измеряемых коэффициентов и десять
параметров, подлежащих оцениванию).
Однако, следуя правилам путевого анализа, можно выразить все
корреляции через путевые коэффициенты, что позволяет оценить
четыре основанных на этих корреляциях критерия валидности,
предложенных Кэмпбеллом и Фиске (что и было сделано в работах
[72; 73], см. также: [225. Р.47-55]).
Таким образом, получаем для коэффициентов валидности (одно
rx1x2  ab  lpR
ry1 y2  cd  mkR
свойство, разные методы):
(2.29) (2.30)
Для корреляций между различными свойствами, измеренными
разными методами:
rx1 y2  adS  lkR
rx2 y1  bcS  pmR
(2.31) (2.32)
83Для корреляций разных свойств, измеренных одним методом:
rx1 y1  acS  lm
Третий критерий предполагает, что корреляция двух измерений
(разными методами) одной переменной будет выше, чем корреляция
двух черт, измеренных одним методом. Например,
rx1x2  rx1 y1  0
т.е.
(а b + I P R) — (а с S + I т)
или
rx2 y2  bdS  pk
(2.33) (2.34)
Первый критерий Кэмпбелла и Фиске требует, чтобы коэффициенты валидности г и ry1y2 были высоки и статистически значимы. Однако из уравнений 2.29 и 2.30 очевидно, что это требование будет выполняться либо из-за высоких значений эпистемических корреляций а, b, с, d, либо из-за того, что влияние метода
измерения велико (/, т, p и k) и методы скор-релированы (ср. обсуждение в предыдущем разделе). Следовательно, даже прямая оценка
валидности будет корректной лишь если предположить, что методы
совершенно не скоррелированы. Но такое предположение может выглядеть правдоподобным лишь в очень редких ситуациях.
Второй критерий предполагает сравнение между коэффициентами валидности и корреляциями между разными свойствами, измеренными разными же методами (стоящими в той же ко-
ry1 y2  rx2 y1  0
лонке и столбце). Корреляции между методами при измерении одного свойства должны быть выше, чем при измерении разных
свойств, т.е., например:
Для рассматриваемого коэффициента валидности это равнозначно:
cd + mkR-(bcS + PmR)>0.
Перегруппируем слагаемые, чтобы разделить компоненты, связанные с концептуальной переменной и с методом:
(с d - b с S) + (k -P) т R > 0 .
(2.35)
Обсуждаемый критерий предполагает, что большое различие
этих корреляций должно указывать на то, что два измерения
У должны быть связаны сильнее, чем измерение Y и измерение
второго свойства. Действительно, если d и b приблизительно равны,
величина первого компонента будет функцией от (1 - S). Но для
этого нужно предположить, что второй компонент должен быть
близок к нулю. Это возможно либо когда влияния метода невелики
(либо корреляция между двумя методами равна нулю), либо
эфекты метода велики и приблизительно равны (k = P). В последнем
случае критерий будет удовлетворен при наличии сильных артефактов метода.
Следовательно, осмысленное применение критерия дискриминантной валидности возможно лишь при принятии допущения об
отсутствии сильных эффектов метода (что, как уже говорилось,
далеко не всегда может быть оправдано).
(а b — а с S) + I (P R — т) > 0.
По аналогии с предыдущим критерием, если предположить, что
эпистемические корреляции b и с приблизительно равны, первый
компонент будет функцией от (1 — 5) и его величина будет зависеть
от корреляции между X и Y. Во втором компоненте присутствует
разность между произведением двух путевых коэффициентов - р и
R - и одним коэффициентом т. Так как величины путевых коэффициентов меньше единицы, то второй компонент, вероятно, будет
меньше 0. Если эффекты метода сильны, то значение второго компонента будет сравнительно большим и отрицательным, а интересующее нас различие между корреляциями - маленьким. Т.е., .если
дисперсия метода больше дисперсии свойства, то критерий будет не
удовлетворен, что согласуется с идеей Д.Кэмпбелла и Д.Фиске.
Однако, чтобы дисперсия, связанная с методами, была заметна, связь
между свойствами (S) должна быть невелика или первый компонент
должен иметь сравнительно небольшое значение. Если же свойства
высоко коррелируют, то величина первого компонента будет небольшой и результирующая разность корреляций r x1x2 и r x1y1 окажется маленькой даже тогда, когда второй компонент будет также
невелик. Т.е. в этом случае влияние артефактов метода будет переоцениваться. Таким образом, третий критерий адекватен лишь для
случая, когда заранее можно предположить отсутствие значительной
корреляции между свойствами.
Четвертый критерий, предложенный Д.Кэмпбеллом и Д.Фиске,
предполагает сравнение паттернов корреляций внутри блоков, относящихся к одному методу (внутри пунктирных прямоугольников,
подобных выделенному в таблице 2.1) . Отношения между свойствами
должны сохраняться вне зависимости от используемого метода. Для
того, чтобы проверить этот критерий, "М-М"-матрица должна быть
расширена хотя бы до трех свойств. Мы не будем приводить здесь
выкладки, так как ход рассуждений аналогичен вышеизложенным.
Можно показать, что критерий будет удовлетворен даже при наличии
существенных эффектов метода, если соответствующие пути будут
приблизительно равны бсак это было показано при анализе второго
критерия валидности) 27 . В таком случае применение четвертого
85
84
27
См., например: [225. Р.51-53].
критерия ограничено ситуациями, коща можно заранее принять
предположение о том, что каждый метод имеет отличное по величине
влияние для каждого свойства, т.е. выраженность артефактов данного метода зависит от того, какое свойство измеряется. Это предположение нельзя назвать очевидным, так как оно само нуждается
в проверке.
Таким образом, анализ критериев конвергентно-дискриминантной валидности с позиций причинных моделей измерения с множественными индикаторами показал, что по крайней мере три из предложенных критериев в действительности требуют очень сильных допущений, которые достаточно нечасто могут быть приняты даже для
простых ситуаций. Введение же даже небольших усложнений в модель, приближающее ее к реальности (например, предположения о
воздействии измерения первого индикатора каждой черты на последующие измерения других индикаторов [225. Р.53-54 ]), делает применение кэмпбелловского подхода к валидности практически невозможным. Работы Р.Алтаузера, Т.Хеберлейна и Р.Скотта, осуществивших анализ возможностей и ограничений использования
"М-М"-матриц для оценки валидности измерения, содержали и некоторые подходы к выявлению влияния метода измерения для простейших моделей с двумя свойствами и двумя методами. Более общим, однако, представляется подход, связанный с увеличением числа свойств или числа используемых индикаторов. Переопределенными
будут уже модели с четырьмя методами измерения для двух свойств
(либо модели, содержащие четыре измеряемых свойства и два метода измерения). В этом случае появляется возможность оценки всех
релевантных параметров. Однако, как уже говорилось, этот подход
ведет к появлению множественных оценок каждого параметра.
Очень плодотворным оказалось применение многоиндикаторных
моделей измерения и для двух других классов задач - анализа сравнимости индикаторов [89] и оценки ретестовой надежности и истинной стабильности измеряемого свойства. Как отмечалось в
предыдущем разделе, оценка ретестовой надежности в рамках традиционного психометрического подхода осложнена проблемой стабильности измеряемого свойства и применима к достаточно узкому
диапазону ситуаций. Без явного задания модели измерения и при
наличии лишь двух замеров она может основываться лишь на непроверяемом предположении об отсутствии истинных изменений в
концептуальной переменной. Априорное принятие такого допущения
может считаться оправданным применительно к конституционально
обусловленным психофизиологическим характеристикам индивида
(например, скорости моторной реакции), но совершенно неприемлемо, когда речь идет о динамических социальных процессах. Даже
при очень небольших временных интервалах мнения и установки
могут достаточно радикально меняться.
Д.Хейс (1971 г.) показал, что существует возможность получения
отдельных оценок надежности и стабильности при введении в панель
третьей волны [145]. Однако и здесь все еще требуются некоторые
86
сильные допущения (в частности, о постоянстве эпистемических
корреляций, т.е. фактически коэффициентов одномоментной надежности) . Д.Уайли и Дж.Уайли показали, что это допущение не всегда
обосновано и предложили способ оценки модели с тремя волнами и
одним индикатором без стандартизации.Единственным априорным
предположением в этом случае является постоянство дисперсии
ошибок индикатора [240 ]. Еще одно спорное допущение, присутствующее в панельных моделях, - это нескоррелированность возмущений концептуальной переменной (концептуальных ошибок и. ) в
последовательные моменты времени. Как и в случае скоррелированных ошибок измерения, прибавление дополнительных волн не дает
возможности оценить параметры. Однако Д.Хейс показал, что прибавление четвертой волны позволяет проверить гипотезу о нескоррелированности возмущений, так как в этом случае может быть
выведен критерий согласованности.
Х.Блейлок предложил альтернативный подход для панельных
моделей с использованием множественных индикаторов в двух или
более временных точках [85 ]. Получающиеся в результате модели
аналогичны ранее обсуждавшимся моделям с двумя переменными и
множественными индикаторами (только здесь вместо двух концептуальных переменных имеется одна, измеренная дважды). Преимущества использования множественных индикаторов в данном
случае - это достаточность двух волн данных, отсутствие ограничений на устойчивость коэффициентов одномоментной надежности,
возможность проверки допущений о скоррелированности ошибок
индикаторов с помощью уже описанных критериев согласованности.
Однако и здесь возникает проблема множественных оценок параметров, о которой мы неоднократно упоминали и на которой вкратце
остановимся немного ниже после обсуждения проблемы значимости
выводов, получаемых при проверке модели.
Как было показано ранее, переопределенные модели со множественными индикаторами, дающие несколько оценок для каждого параметра, позволяют сформулировать критерии согласованности.
Критерий согласованности - это средство проверки валидности для
каждого из индикаторов и для модели в целом. И при изложении
комбинированного подхода к оценке качества измерения в предыдущем разделе, и при анализе многоиндикаторного подхода мы неоднократно подчеркивали, что наиболее адекватной стратегией оценки
валидности является построение и проверка модели измерения, а не
валидизация отдельного индикатора. Однако любой критерий согласованности в моделях со множественными индикаторами предполагает, что при корректности модели левая и правая части критерия
должны быть равны. Если же их разность больше нуля, то возникает
проблема оценки значимости этого различия. Обсуждая критерии
согласованности и соответствующие модели, мы не уделяли внимания этой проблеме, т.е. не подчеркивали, что любое нарушение равенства может быть связано и с выборочной природой данных. В
действительности существует необходимость проверки гипотезы о
вероятности выполнения равенства в совокупности при данной ве87
личине отклонения от точного равенства в выборке. Следовательно,
необходимо решить статистическую задачу проверки значимости.
Такой тест значимости был создан за несколько десятилетий до появления первых моделей со множественными индикаторами
Ч.Спирменом и К.Хользингером (1924 г.) при разработке простой
модели факторного анализа [225. Р.70-72]. Предложенная этими
авторами величина "тетрадической разности" сходна с критерием
согласованности Костнера, поэтому оценка стандартной ошибки этой
величины вполне подходит для аналогичной оценки различия между
левой и правой частями критерия согласованности.
Тетрадическая (или тетрадная) разность (t d) для модели с двумя
переменными и четырьмя индикаторами определяется как:
td  rx1 y1 rx2 y 2  rx1 y 2 rx2 y1
Для оценки стандартной ошибки (S.E.) используется формула
[225. Р.71]:
S.E.  (k1  2k 2  4k 3 ) / N  k 4 / N 2
(2.38)
где:
N - размер выборки
k1  rx21 y2  rx22 y1  rx22 y2
k 2  rx1x2 rx1 y1 ry1 y2  rx1x2 rx1 y2 rx2 y2  rx1 y1 rx1 y2 ry1 y2  ry1x2 ry2 x2 ry1 y2
k 3  rx1x2 rx1 y1 rx2 y2 ry1 y2
k 4  (1  rx21 y1 ) 2 (1  rx22 y2 ) 2  (1  rx22 y1 ) 2 (1  rx21 y2 ) 2
Так как данная формула предполагает довольно громоздкие
вычисления, то на практике используют ее значительно более
простое приближение:
(2.39)
S .E.  2r (1  r ) / N
- где г - среднее четырех корреляций, входящих в критерий.
Эта более простая формула может использоваться во всех случаях, кроме тех, когда и N, и эмпирические корреляции малы. Используя эту формулу для оценки стандартной ошибки, можно применить простой ^-критерий для оценки значимости отличия полученной величины td от нуля [225. Р.71 ]. Значение будет равно отношению:
t = td
S.E.
88
Далее с помощью стандартной таблицы t -распределения определяют
уровень значимости (для N - 1 степеней свободы).
Существует, однако, еще одна проблема, возникающая при использовании критерия согласованности. Если наблюдаемые корреляции очень малы, то даже ошибочная модель может пройти проверку
значимости, так как разность между двумя парами таких корреляций
заведомо будет очень мала. Поэтому обычно предлагается не использовать критерий согласованности, когда корреляции между индикаторами меньше или равны 0,3 [73; 225 ]. Для проверки корректности
модели в этом случае рекомендуется сравнить между собой различные оценки каждого параметра. В случае, если эти оценки очень
близки по величине, можно считать модель верной. Существуют и
другие, более сложные тесты значимости для моделей со множественными индикаторами (см.: [176]).
Значительно более сложной проблемой является наличие нескольких различающихся оценок для каждого параметра. Это "цена", которую приходится платить за переопределенность (которая, в свою
очередь, необходима для проверки согласованности). Как уже говорилось, в модели с двумя переменными и четырьмя индикаторами для
каждого параметра имеется две оценки, в модели с тремя индикаторами для каждой переменной оценок будет уже девять и т.д. Даже
если модель успешно прошла проверку по критерию согласованности,
эти оценки могут заметно расходиться. Возникает проблема выбора
между этими оценками эпистемических корреляций (т.е. надежности
индикаторов) или корреляций между переменными с поправкой на
надежность. Для решения этой проблемы предлагались разные способы: простое усреднение оценок для каждого параметра, усреднение
оценочных уравнений для получения одного значения и т.д. [225.
Р.73 ]. В принципе любая из этих процедур дает несмещенную оценку,
так как правильно определенная модель является теоретически несмещенной. Однако в статистическом оценивании, помимо несмещенности, требуется и эффективность оценки, т.е. выборочное распределение оценок должно обладать сравнительно небольшой дисперсией.
Так как обсуждение собственно статистических проблем несколько
выходит за рамки нашего изложения, ограничимся лишь двумя замечаниями. Во-первых, отсутствие окончательного решения проблемы "наилучшей" оценки служило поводом для критики многоиндикаторного подхода [242. Р.173 ]. Во-вторых, так как в переопределенной модели эффективной оценкой может быть лишь взвешенная средняя, где "веса" отражают вариативность исходных оценок, простое
усреднение дает лишь несмещенную оценку. Конечно, для элементарных моделей с небольшим количеством оценок каждого параметра
эта проблема не очень существенна, любое взвешивание дает результат, не слишком отличающийся от простого усреднения. Однако по
мере усложнения модели измерения (и увеличения числа оценок) возникает необходимость перехода от простых методов путевого анализа
к методам максимального правдоподобия.
Отметим, однако, что любые более сложные подходы к оценке
параметров могут применяться лишь к конкретной теоретически
89
специфицированной модели измерения с несколькими индикаторами. Описанный нами подход со множественными индикаторами, как
и подход к оценке качества измерения, обсуждавшийся в предыдущем разделе, важен именно для понимания содержательных аспектов измерения и роли модели измерения в комплексной оценке
надежности и валидности. Понимание этой содержательной стороны
проблемы позволяет оценить вклад социологов в традиционные психометрические представления о надежности и валидности.
Оценивая роль рассмотренных подходов к реконцептуализации понятия качества измерения в социологии, отметим, во-первых, что
возникновение этих подходов было бы невозможным без принципиально новой и возникшей собственно в социологии трактовки измерения как основанного на содержательных теоретических представлениях процесса соотнесения высокоабстрактных понятий теории с
данными наблюдений, в " снятой" форме представленного в модели
измерения. Во-вторых, сами новые подходы к оценке качества
измерения, ориентированные на проверку гипотез об адекватности
принятой модели измерения (а не на оценку качества отдельных
показателей), послужили толчком к дальнейшему углублению именно
тех представлений об измерении, которые первоначально инициировали их появление28. Т.е. понимание сложной и носящей обоюдный характер взаимосвязи теоретически заданного предмета измерения, его метода и конкретных эмпирических показателей, к
которому подводила рассмотренная концепция качества измерения,
способствовало отказу от узко инструментальной трактовки функций
измерения. Новое, более широкое определение функций измерения
очень точно, на наш взгляд, передано в следующем тезисе: "Их
(измерительных операций) неизменная функция коренится во взаимосвязях между их концептуальными и операциональными аспектами, в семантически целесообразном и эмпирически реализуемом
соответствии числовым операциям и в надлежащей спецификации,
которая соотнесена с природой объекта измерения, с используемыми
измерительными инструментами, применяемым способом измерения..." [9. С.31 ].
Рассмотренные подходы к оценке валидности и надежности измерения в силу своей относительной простоты не могут быть использованы в ситуациях, когда модель измерения очень сложна. Для
оценки параметров очень сложных моделей в последнее время используются значительно более изощренные статистические процедуры (например, анализ ковариационных структур). Однако применение таких процедур осмысленно лишь тогда, когда исследователь
имеет серьезные основания подозревать наличие конкретных типов
неслучайной ошибки в своих данных и способен отчетливо сформулировать проверяемую модель. В то же время достоинства сравнительно простых подходов тесно связаны с их недостатками, т.е. с существованием ограничений на сложность модели. Прежде всего,
необходимость заранее сформулировать все допущения, касающиеся
структуры модели, заставляет исследователя эксплицировать, явно задавать все
имеющиеся у него представления о природе и взаимосвязи переменных, возможных влияниях метода измерения на его
результат. Тем самым возникают определенные гарантии против опаснейшей иллюзии эмпирической социологии - иллюзии "самоочевидной интерпретируемости
результатов измерения" (см.: [7; 35]), не
зависящей от теоретических представлений. С другой стороны, преодолевается
противоположный соблазн строить в
принципе непроверяемые теории, где все
связано со всем, в надежде, что хороший
методист должен найти способ устранить
ошибки измерения и откорректировать инструмент (оценить ретестовую надежность
отдельного индикатора, указать корреляцию с суммарным баллом и т.п.). Конечно, тема зависимости измерения от теории не исчерпывается проблемами определения валидности и надежности (ряд
других проблем будет анализироваться в
следующей главе), однако анализируя
эволюцию взглядов на качество измерения в американской социологии 60-х 70-х годов, нельзя не признать, что этот
процесс характеризовался растущим пониманием специфики целей, задач и методов собственно социологического исследования, все большей "автономизацией" подходов и отказом от некритического копирования отдельных приемов психометрики. не исключавшим, впрочем,
принятия конструктивных идей.
90
28
О том, как развивались эти общие методологические представления о природе измерения
и о его связи с социологической теорией, будет идти речь в последующих главах
Глава третья
КОНЦЕПТУАЛИЗАЦИЯ, ИЗМЕРЕНИЕ, МОДЕЛИРОВАНИЕ:
НОВАЯ ТРАКТОВКА ДИАГНОСТИЧЕСКОЙ ПРОЦЕДУРЫ В СОЦИОЛОГИИ
1. Концептуализация и косвенное измерение
как предмет "вспомогательных теорий измерения"
(исходные предпосылки)
Впервые понятие "вспомогательной теории измерения" было
введено Х.М.Блейлоком в статье 1968 г.29 В этой статье, названной
"Проблема измерения: разрыв между языками теории и исследования" [82], Блейлоку удается принципиально реорганизовать сам
"гештальт" традиционных споров о соотношении теоретического и
эмпирического в социологическом анализе. В сущности, ни одно из
используемых в статье понятий (теоретический конструкт, эмпирический операциональный индикатор, измерение как приписывание
числовых значений объектам "по правилам", валидность) не несет в
себе принципиально нового содержания. Новизна заключается в
том, что Блейлок определяет в качестве действительно проблематичного. Этим "действительно проблематичным" и теоретически нагруженным пунктом оказывается сам процесс измерения, обычно рассматривавшийся как скорее рутинная и собственно техническая
манипуляция, обосновываемая если не на сугубо эмпирическом
уровне, то с помощью какой-то "общей теории измерения", не
имеющей ничего общего с содержательной (substantive) теорией,
подвергаемой эмпирической проверке. В результате такой смысловой
реорганизации принципиальной методологической проблемой в социологии оказывается для Х.Блейлока не "охватывающий" закон и
не "аксиоматико-дедуктивная система" (хотя влияние этого круга
позитивистских идеалов ощущалось в ранних работах Блейлока и
справедливо критиковалось - см.: [183; 241]), а связь между содержательной социологической теорией и открытой по отношению к
этой содержательной теории концепцией измерения, чаще всего
остающейся имплицитной и "замаскированной" какими-то утилитарными или ad hoc обоснованиями выбора эмпирических показателей тех или иных теоретических переменных. В дальнейшем Блейлоку удалось более систематически проанализировать связи между
концептуализацией и измерением и его более поздние работы содержат детальный анализ возможностей учета в причинных теориях
измерения мультикаузальности, неразделимости содержательных и
"измерительных" эффектов, принципиальной ограниченности доступных нам данных и возможностей сравнения и, более того,
попытки определить круг "эмпирически безнадежных" ситуаций,
когда теоретические споры и уточняющие эмпирические исследования заведомо бесплодны [84; 86; 88; 90]. Исходной точкой роста,
92
постоянным центром кристаллизации этого круга идей служит тема
"вспомогательной теории измерения", позволяющая удерживать определенную теоретическую высоту даже в дебрях технических проблем, скажем, константности параметров структурных уравнений
(при обосновании сравнимости измерений) или нелинейной связи
неизмеряемой переменной и переменной индикатора. Поэтому нам
представляется полезным, прежде чем перейти к обсуждению более
поздних взглядов Х.Блейлока, вкратце изложить идеи, развиваемые
в вышеупомянутой статье 1968 г.
Отмечая существование разрыва между социологической теорией
и реальными эмпирическими исследованиями, Блейлок подчеркивает, что если этот разрыв и нельзя полностью закрыть в силу ограниченности самого научного метода, то и попытки его игнорировать
всякий раз обнаруживаются в "эмпирических" на первый взгляд
проблемах - результаты исследований оказываются несопоставимыми, в планировании исследования внимательный критик
находит огрехи (например, не были проконтролированы смешивающие факторы или взяты "не те" индикаторы), а выводы всегда можно
оспорить, так как для проверки всех возможных альтернативных
гипотез всегда не достает нужных данных. С точки зрения Блейлока,
неоценимую роль в прояснении проблематичности соотношения
теоретического и эмпирического, и прежде всего - отношения процесса измерения к процессу конструирования теории, сыграла полемика вокруг операционализма, которая в социологии достигла максимума в 30-40-е годы. Операционализм и крайний эмпиризм свершили благое дело уже тем, что они "постоянно подчеркивали, что
проблема измерения является ключевой для прогресса любой науки"
[82. Р.6]. Ведь даже самая красноречивая теория без адекватного
измерения обречена остаться непроверяемой, так как всегда существуют не менее красноречивые альтернативные теории.
Проанализировав взгляды П.У.Бриджмена, А.С.Эддиштона и защищавшего операционалистский подход в социологии Дж.ЭЛандберга, Блейлок отмечает, что общей и не лишенной смысла посылкой
здесь является утверждение, что понятия эмпирически могут быть
соотнесены не в терминах "внутренне присущих качеств" (например, масса как количество материи), а в терминах действительных
эмпирических операций (показаний стрелки весов).
Это утверждение, с точки зрения Блейлока, обосновано постольку, поскольку обнажает и подчеркивает принципиальное различие
языков теории и эмпирического исследования. Блейлок особо отмечает, что Бриджмен, в ответ на критику, признал что операции являются необходимым, но не достаточным условием введения понятий (т.е. смысл понятия может быть шире его операционального
смысла), и более того - расширил круг возможных операций, чтобы
включить в их число и нефизические. Наиболее существенными
Блейлок считает следующие антиоперационалистские аргументы:
операциональные определения недоступны для конструктивной критики; препятствуют прогрессу науки, так как не позволяют работать
с новыми ситуациями и еще не измеряемыми понятиями (ср. [65 ]),
93
Некоторые основные положения концепции Блейлока были обоснованы в более ранних
работах [80; 81].
29
а кроме того, в силу своей финальности и ригидности препятствуют
дальнейшим попыткам усовершенствовать измерение и классификацию. И самое существенное, с точки зрения Блейлока, - неясным
остается, как приходят к операциональным понятиям. Именно этот
вопрос, будь он поставлен в операционализме, сделал бы возможным
анализ проблем концептуализации и измерения и, вероятно, избавил
бы операционалистский подход от крайних упрощений и некоторой
карикатурности. Но, с другой стороны, сама по себе артикулированная постановка этого вопроса во многом стала возможна именно в
результате бурных дискуссий вокруг операционализма.
Блейлок считает, что прежде чем практически решать проблему
соотнесения высокоабстрактных понятий социологической теории с
набором переменных, имеющихся в распоряжении социолога-эмпирика, ее нужно корректно сформулировать на некотором метауровне,
т.е. на уровне философии науки (отметим здесь, что для более
поздних взглядов Блейлока вообще не характерно стремление обосновать свой анализ дилеммы концептуализации и измерения отсылками к общим логико-философским или историческим концепциям
науки, позитивистским или каким-нибудь иным, за исключением
предметного обсуждения или критики отдельных аргументов). В
качестве возможной конструктивной альтернативы операционалистскому подходу Х.Блейлок рассматривает подход, изложенный
Ф.Нортропом в работе 1947 г. [190]. Нортроп различает два типа
понятий (и два языка науки) - 1) понятия, задаваемые интуитивно,
означивающие что-то, что может быть непосредственно воспринято
[190. Р.36], и 2) понятия, задаваемые через постулирование, т.е.
понятия, значение которых полностью или частично определяется
постулатами дедуктивной теории, в которую они введены. Эти два
вида понятий определяют два языка, преобладающих на последовательных стадиях развития науки - естественноисторической стадии,
характеризуемой ведущей ролью метода прямого наблюдения, классификации и дескриптивного анализа, и более продвинутой стадии
формулирования дедуктивной теории. Однако существенными для
собственной концепции Блейлока оказываются не эти взгляды на
генезис научных понятий и стадии созревания науки, а то, как
Нортроп определяет характер соотнесения интуитивных понятии с
понятиями, заданными через постулирование.
Отношением, соединяющим язык теории с обсервационным языком, является эпистемическая корреляция - "отношение, соединяющее ненаблюдаемый компонент чего-либо, обозначенного через
постулируемое понятие, с его ("чего-либо") прямо наблюдаемым
компонентом, обозначаемым интуитивным понятием" [190. Р.119].
Т.е. эпистемическая корреляция соединяет вещь, известную одним
способом, с той же по сути вещью, известной другим способом (делая
возможным, например, переход от массы как количества материи к
массе как "показанию стрелки"). Блейлок довольно детально анализирует обоснованность введения двух разных языков, отмечая, что
смешивание понятий теории и интуитивных понятий в одном языке
привело бы к появлению бессмысленных утверждений, скажем, о
94
цвете электрона30. Рассматривается здесь и проблема изоморфного
"отражения" понятий теории в понятия наблюдения, при этом
Блейлок вслед за Нортропом делает вывод о невозможности их однозначного соединения и неизбежности существования "остатка" теоретически определенных понятий, не имеющих операционального индикатора. Самым же существенным в обсуждении нортроповской концепции эпистемических корреляций для дальнейших рассуждений Блейлока оказывается следующее - 1) не существует
строго логического обоснования перехода от постулируемых понятий
к интуитивным; 2) эпистемические корреляции непосредственно не
наблюдаемы и принимаются учеными "по общему согласию" как
априорно (до наблюдения и эксперимента) устанавливаемая взаимосвязь между постулируемыми сущностями и непосредственно
наблюдаемыми фактами; и, как следствие предыдущих рассуждений,
3) никакая дедуктивно сформулированная теория не является "прямо проверяемой" [82. Р.10-11 ]. И хотя в дальнейшем первая и вторая
из перечисленных констатации превращаются для Блейлока собственно в проблему, а для устранения или, по крайней мере, осознания
всех логических следствий этой проблемы будут разрабатываться
причинные модели измерения, эти рассуждения оказываются очень
важны для становления концепции теоретического обоснования измерения в социологии. Они помогают осознать, во-первых, произвольный, т.е. связанный с выбором (не всегда эксплицирующим свои
основания), характер соотнесения теоретических переменных с эмпирическими индикаторами и, во-вторых, вытекающую отсюда необходимость разработки общей модели концептуализации измерения
в причинных терминах. Последнее в общем случае означает постулирование определенных причинных отношений между неизмеряемой переменной и ее индикаторами. Причем каждое из таких постулируемых отношений должно быть заранее и развернуто обоснованно через совокупность допущений. Эти допущения вытекают
из содержательных соображений теории, относящихся к процессам "реального мира", связывающим индикатор и неизмеряемую
переменную.
Прежде чем перейти к детальному анализу проблем концептуализации, косвенного измерения и "вспомогательных теорий измерения" в данной статье и более поздних работах Х.Блейлока, нам
необходимо сделать небольшое отступление и вкратце ответить на
естественно возникающий вопрос: в чем все же состоит принципиальная новизна подхода Блейлока к проблеме измерения в социологии? Ведь и представление о латентной переменной, и концепция
теоретической валидности были введены ранее, и именно как реакция на существование "пропасти" между теоретическими конструктами и операционально определенными индикаторами. Отчасти на
этот вопрос ответил и сам Х.Блейлок в книге " Концептуализация и
95
30
Сам этот ход рассуждения довольно любопытен с точки зрения влияния " адаптированных" сюжетов философии науки на ранние взгляды Блейлока и др. эмпирически ориентированных
социологов 60-х годов. В основание этого рассуждения уже встроена посылка, что утверждения или
гипотезу получают, комбинируя " всеми возможными способами" исходные понятия.
измерение", вышедшей в 1982 г. Отмечая тесную, но не всегда
получающую должное внимание со стороны исследователей взаимосвязь между теоретической концептуализацией и решением сугубо
технических или формальных проблем измерения, он пишет:
"... забота о концептуализации часто мотивирует или помогает
рационализировать многие из более специальных дискуссий, нацеленных на разработку формальных или аксиоматических оснований
выбора модели измерения. Многие обсуждения проблем шкалирования, как и посвященные шкалированию учебные курсы, имеют дело
с процедурными вопросами "болтов и гаек", так что философскими
и теоретическими основаниями часто пренебрегают или, по меньшей мере, не доводят до достаточного уровня осознания явную заботу
о теории. Однако те, кто внес самый активный вклад в создание этих
техник <измерения> - Л.Л.Терстоун, Пол Лазарсфельд, Луи Гутман,
Клайд Кумбс, Роджер Шепард, Патрик Суппес, Р.Льюс, Амос
Тверски и Дэйвид Кранц,- также были очень заинтересованы в
проблеме сцепления между теоретически определенными конструктами и операциональными процедурами, хотя, возможно, они определяли проблему другими способами. Так, Гутман (1944) представлял проблему в выборочных терминах, т.е. через отбор пунктов
из содержательного универсума. Терстоун (1947), разрабатывая
обоснование для вращения осей в факторном анализе, сосредоточил
внимание на критерии экономности, стремясь прежде всего к "простой структуре". Лазарсфельд [1954) понимал эту проблему в терминах латентных классов, внутри которых паттерны ответов в
сущности случайны..." [89. Р.43 ]. Х.Блейлок здесь вводит, хотя и не
заостряет, очень существенное различение между своим подходом и
взглядами предшественников. И заключается оно в принятии детерминистских представлений о связи между неизмеряемой (в том
числе, латентной) переменной и переменной-индикатором. Хотя в
отдельном случае окончательно определить или количественно оценить эту связь часто невозможно, ее надо отчетливо и заранее
специфицировать в модели измерения, как и все другие причинные
связи31 . В противном случае нельзя отличить ошибки субстантивной
теории от ошибок, связанных с теоретическим обоснованием измерения, а зачастую - и заподозрить их существование (т.е. детерминизм здесь выступает как норма исследовательского подхода, а не
как онтологический постулат о том, "как обстоят дела на самом
деле"). На первый взгляд, различие взглядов Х.Блейлока и, например, П.Лазарсфельда, наиболее последовательно развивавшего представления о вероятностной природе отношений теоретической переменной и ее индикатора, не так уж велико, а идея спецификации
всех причинных связей в модели измерения, когда заведомо известно, что некоторые из них вообще не могут быть оценены численно,
кажется не вполне обоснованной. Не проще ли принять вероятностную парадигму отношения индикатора к латентной переменной, чем
96
Предположение о причинной связи между неизмеряемой переменной и эмпирическим
индикатором может быть истолковано как исключительно методологический принцип, о
чем будет говориться далее в этой же главе.
31
строить гипотезы о характере причинных связей, которые в некоторых случаях в принципе невозможно проверить? Для ответа на этот
вопрос нам представляется полезным привести один иллюстративный
пример. В статье по истории квантификации в социологии П.Лазарсфельд [165] анализирует причины неудачи А.Кетле в измерении
нефизических интеллектуальных и "моральных" характеристик через манифестные характеристики поведения, являющиеся следствием первых, не поддающихся прямому измерению. Отмечая, что
представления Кетле о косвенном измерении латентных качеств,
представляющих теоретический интерес, и его теория измерения социальных явлений значительно опередили свое время (притом, что,
в силу свойственной социальным наукам "дисконтинуально-сти", не
стали прямым основанием дальнейшей традиции социологического
измерения), Лазарсфельд полагает, что трудности, с которыми
столкнулся Кетле при решении интересовавшей его проблемы, были
связаны с детерминистским характером его представлений о связи
неизмеряемой переменной и ее индикатора. Аргументация Лазарсфельда построена на анализе конкретного примера измерения
криминальной тенденции ("Penchant au crime") [165. Р.305-309]. Изложив точку зрения Лазарсфельда, мы проанализируем этот пример на языке "вспомогательных теорий измерения", что позволит сделать более рельефным различие вероятностной, "симптоматической"
концепции измерения (Спирмен, Терстоун, Лазарсфельд) и детерминизма причинных моделей измерения32 .
Кетле располагал данными об уровне преступности для большого числа групп населения (выделенных по социально-демографическим признакам - пол, возраст, образование и т.д.). При этом
его не удовлетворяло чисто дескриптивное описание различий между
группами ("дескриптивных корреляций"). Он использовал свои оценки уровня преступности как показатели скрытых наклонностей к преступлению. Как отмечает Лазарсфельд, это давало Кетле преимущество более драматического описания результатов и почву для теоретической интерпретации [165. Р.305 ]. Большая частота убийств среди
молодежи, чем среди представителей старших возрастов, расценивалась как свидетельство "насильственной природы молодости", более
высокий уровень преступности среди мужчин - как проявление "ограниченной природы женской личности" (которая сама по себе не
поддается прямому измерению). Кетле осознавал уязвимость для
критики применяемого им метода эмпирического обоснования выво7 И.Ф.Девятко
32
97
Можно следующим образом определить суть детерминистской критики вероятностного
подхода: никакая теория измерения, связывающая теоретический конструкт и эмпирический индикатор, не может быть построена как обобщение формальных допущений
моделей латентно-структурного или факторного анализа. Применение послед
них само может быть обосновано лишь через уже заданную теорию измерения, связанную с
проверяемой содержательной теорией (описывающей релевантные характеристики социальной реальности, относительно которых оценивается обоснованность допущений). Поэтому представления о вероятностном выводе относительно латентного континуума или
"универсума признаков", являясь гипотетическими моделями процесса измерения не могут быть обоснованы теми техниками измерения, которые послужили «поводом» для их
появления.
да о неизмеряемых переменных (тенденциях, склонностях) и постоянно стремился найти контраргументы (фактически вводя новые
допущения в свою "теорию измерения"):
1) верно, что число совершенных преступлений не равно числу
преступников, но так как бдительность полиции можно считать
приблизительно постоянной (для разных групп), то это не играет
роли при сравнении криминальных тенденций по возрастным или
каким-либо другим социально-демографическим группам;
2) верно, что криминальная тенденция проявляется при определенных обстоятельствах и не проявляется при других, т.е. мы имеем
дело с "Penchant apparent" а не с "Penchant reel", но для сравнительных целей обе равно пригодны (Кетле проводит "эмпирическую
проверку" этого допущения, сравнивая распределение числа обвинений, приговоров и оправданий для разных возрастных групп);
3) действительно, отсутствует возможность сравнить данные социальной статистики по всему населению с данными по преступникам (Кетле не располагал, например, статистикой образования), но
можно снова применить относительные оценки, например, построить
кросс-классификацию преступников по полу и образованию.
Однако, пишет Лазарсфельд, все это еще не решает главной проблемы: "Что предполагается, когда делается вывод от совершенных преступлений к криминальной тенденции? Сделал ли
Кетле нечто большее, чем просто заменил словами "криминальная
тенденция" наблюдаемые оценки преступности?" [165. Р.306]. С
точки зрения Лазарсфельда, Кетле принял детерминистскую модель:
"причина (тенденция к преступлению в данной группе) - следствие
(доля совершивших преступления в этой группе)", тогда как в социальных науках типичной является вероятностная связь между индикаторами (симптомами) и гипотетическими конструктами.
Какова, с точки зрения Лазарсфельда, природа этих вероятностных отношений? Оказывается, они необходимо связаны с нелинейностью отношения "тенденция - симптом". Объясняя причину, по
которой Кетле не смог отказаться от детерминистской модели в
пользу вероятностной, Лазарсфельд указывает на аксиоматически
принимаемое Кетле допущение "пропорциональности причин и
следствий", т.е. в терминологии самого Лазарсфельда, предположение о линейных отношениях между латентным континуумом,
который пытается измерять Кетле, и вероятностью индикатора, который он может наблюдать. Далее Лазарсфельд без труда демонстрирует на примерах, что график, операциональная характеристика наблюдаемого индикатора на латентном континууме, может
иметь любую форму, помимо линейной. Но в обоих приводимых им
вымышленных примерах (теста конформности по отношению к моральным нормам и измерения "репродуктивной стратегии семей", имеющей результатом определенное число рождений мальчиков и девочек) хотя и наличествует безусловно нелинейное отношение гипотетической переменной и индикатора, сама нелинейность
не выводится из постулата вероятностной связи. Т.е. вероятностная трактовка связи " тенденция - симптом" оказыва98
ется сама по себе бесполезна для выявления нелинейности этой
связи. Напротив, объясняя в обоих случаях,) почему отношение
оказалось нелинейным, Лазарсфельд просто вводит дополнительные
объясняющие переменные в причинную модель, делая ее более
сложной, но не индетерминистской (в случае теста - это зависимость
формы кривой от различающей мощности вопроса, в случае числа
рождений - это влияние на конечный исход, помимо "тенденции
иметь мальчиков", "тенденции продолжать рождения до появления
мальчика", которая делает сверх-представленным потомство семей,
имеющих биологическую склонность к рождению девочек). Суть
здесь, оказывается, не в вероятностной природе самой связи, а в
нелинейности зависимости конкретного эмпирического индикатора
либо в присутствии неучтенной объясняющей переменной (которую в
принципе можно включить в нашу причинную модель измерения,
если мы ее эксплицитно рассматриваем, и найдя для этой неучтенной
переменной независимый индикатор, вычленить чистый эффект
интересующей нас "тенденции"). Суммируя, можно сказать, что
Лазарсфельд прав, отмечая сверхупрощающий и часто вводящий в
заблуждение характер сделанного Кетле допущения о прямой линейной связи неизмеряемой тенденции и ее манифестации 33 , но ошибается, когда считает, что нелинейный (1-й пример) и мультикаузальный (2-й пример) характер нашей модели измерения делает обоснованным, теоретически или из практических соображений, постулат о
вероятностной природе измерения. И собственный ход рассуждений
Лазарсфельда демонстрирует, сколь существенны для выбора формальной модели, описывающей характер отношений между доступными нам индикаторами и измеряемыми латентными характеристиками, содержательные представления о причинных связях "реального мира", вытекающие из теории явления (хотя, еще раз это ,
подчеркнем, результирующая формальная модель может оперировать и вероятностями).
Интересно отметить, что "стохастическая" аргументация никак ,
не соотнесена в данном случае с проблемой конструктной валидности
измерения, которую Лазарсфельд также затрагивает в данной статье
[165. Р.307-308]. В сущности, конструктная валидность - т.е. обоснованность связывания гипотетического конструкта теории с данным эмпирическим индикатором, - явно избыточное понятие с точки зрения
последовательно "вероятностного" подхода. В общем случае любой
тест, не обладающий конструктной валидностью, может иметь ненулевую вероятность "положительного" ответа на него в любой точке латентного континуума. Рассуждение Лазарсфельда об условиях, при
которых допустим вывод от наблюдаемого поведения (доля преступлений в данной группе или при данных социальных обстоятельствах) к
причине, т.е. к "преступным тенденциям" (на микроуровне анализа мотивационным состояниям принадлежащих к этой
7*
99
Пример с долей рождений мальчиков действительно показывает, что связь причины -,
тенденции и ее следствия - индикатора может быть обратной, т.е. при всех принятых допущениях о причинных связях в модели измерения следствием будет меньшее ожидаемое число
рождений мальчиков (и большее среднее число рождений девочек).
33
группе индивидов), по существу показывает, что модель Кегле была
недостаточно детерминистской, т.е., говоря современным языком,
Кегле не специфицировал все причины, влияющие на интересовавшую его теоретическую переменную и ее поведенческий индикатор.
В результате Лазарсфельд от "вероятностной" модели измерения и
критики детерминизма в социологическом измерении переходит к
каузальному анализу, как только возникает необходимость объяснить, в чем на самом деле заключалась "проблема Кегле". Он указывает, что так как измерение криминальной тенденции является
"внутренней" процедурой и внешний критерий валидации используемого поведенческого индикатора отсутствует, то уже на стадии
концептуализации нам придется искать разные индикаторы помимо
уровня преступности (проявления неуважения к закону, агрессивность). И кроме того, если мы включим в их число долю действительно совершенных преступлений, мы уже не сможем узнать,
каково эмпирическое отношение между криминальными тенденциями, измеренными независимо, и частотой преступлений, совершенных в разных группах и при различных социальных обстоятельствах
[165. Р.308]. Лазарсфельд отмечает, что Кегле проводит разграничение между общей криминальной тенденцией, умением осуществить преступление определенного типа и возможностью его осуществить при определенных обстоятельствах. Однако уверенность Кегле в том, что в его сравнительных оценках уже учтены
(поддерживаются на постоянном уровне) умение, возможность и вероятность обнаружения, помешала ему осознать необходимость
найти меру криминальной тенденции, независимую от самого преступного акта. Таким образом, ПЛазарсфельд, поначалу обосновывающий в рассматриваемой статье вероятностную природу косвенного измерения (как соотнесения гипотетического конструкта теории
и измеряемого индикатора), вынужден постоянно эксплицировать
предположения о причинных связях "реального мира", включенных
в конкретную ситуацию косвенного измерения. Т.е. то, что он считал
излишним "в принципе", оказывается неизбежным практически.
Отличительная же особенность подхода, развиваемого Х.Блейлоком, - постоянное подчеркивание необходимости заранее, основываясь на имеющихся теоретических представлениях, строить причинную теорию, связывающую постулируемые свойства с какими-то
индикаторами, которые мы можем наблюдать относительно непосредственно.
Рассмотрим "проблему Кегле" с точки зрения такого подхода (заведомо ограничившись лишь теми трудностями, о которых говорит в
своей статье ПЛазарсфельд и которые в значительной мере осознавал сам А.Кетле). В некоторой простейшей ситуации можно считать, что единственной причиной определенного индикатора (который мы обозначим как эффект-индикатор, в отличие от индикатора-причины) является переменная, которая и представляет теоретический интерес для исследователя. Т.е., применительно к рассматриваемому нами случаю, криминальная тенденция X является
единственной причиной уровня преступности Xv не считая каких-то
случайных факторов (не скоррелированных с X возмущений, разброс
которых будет уменьшаться по закону больших чисел с ростом числа
исследуемых случаев). Эта ситуация изображена на рис. 8 (для
большей наглядности кружком здесь и далее обведены неизмеряемые
переменные, а квадратом - измеряемые). Однако, если мы хотим
далее сравнить значения Х1 в разных группах (или разных субкультурах) , нам нужно 1) решить, как составить полный список альтернативных форм преступного поведения, т.е. всех возможных видов
преступлений, и выбрать критерий их включения или исключения
(скажем, обращение жертвы в полицию и официальная регистрация
факта преступления) , 2) найти способ их агрегирования, т.е. подсчета, заранее решив, что для получения сводного показателя альтернативные виды преступного поведения должны суммироваться или,
скажем, перемножаться. Допустим, мы имеем полные списки видов
преступлений для двух групп, например низкоквалифицированных
фабричных рабочих и представителей "свободных профессий" с высоким доходом. Предположим также (не очень реалистически), что
мы располагаем полными данными для двух выборок из этих групп
о частоте совершения ими каждого вида преступлений из наших
списков. Вполне возможно, однако, что в списке для второй группы
намного меньше видов преступлений, чем в списке для первой
группы (скажем, в нем отсутствуют убийства в пьяных драках и мелкие кражи). Мы, вероятно, захотим предположить, что возможно
какое-то "замещение" одного типа преступного поведения другим
(джентльмен, скажем, не убьет свою жену, но с помощью хитроумного мошенничества серьезно заденет ее финансовые интересы). Как
мы можем получить сравнимые численные показатели для двух
этих групп (если "криминальные тенденции", относительно которых
мы могли бы "взвесить" преступления из двух списков, попрежнему остаются прямо не измеряемыми)?
Вернемся, однако, к предположениям, сделанным для простейшей
ситуации, изображенной на рис. 8. Не обсуждая проблем межгрупповой сопоставимости индикаторов, т.е. считая их каким-то образом
решенными, введем определенное усложнение в нашу модель. Допустим, что навыки, необходимые для свершения какого-то вида
преступления (У), и возможности его совершить (P), зависящие от
конкретной ситуации и вероятности быть уличенным, также влияют
на наш эффект-индикатор, т.е. имеет место ситуация, изображенная
на рис. 9.
Очевидно, в этой ситуации нам нужно скорректировать нашу
меру преступной тенденции, статистически проконтролировав Y и
P, что возможно лишь если У и P достаточно хорошо измерены. Последнее требование еще более важно, если мы предположим наличие между независимыми переменными существенной корреляции:
даже чисто случайная, но существенная ошибка измерения в одной
из этих независимых переменных не только сдвинет к нулю "ее"
коэффициент в уравнении множественной регрессии, но и в случае
высокой скоррелированности этой независимой переменной с другой
будет приводить к завышенной оценке влияния этой второй
100
101
переменной. Однако Кегле не располагал возможностью измерить У
и P, да и сейчас едва ли возможно это сделать, не вводя для них
каких-то косвенных индикаторов, которые еще больше усложнят эту
модель (если мы захотели использовать, скажем, экспертные оценки для навыков совершения преступлений определенного вида, нужно было бы ввести ряд допущений, касающихся разброса суждений,
сходства критериев, используемых экспертами и т.п.). Поэтому Лазарсфельд и предложил найти независимую меру X, т.е. Х2 -некий
индикатор преступной тенденции, отличный от самого преступления и не зависящий от Y и P. Если бы такой индикатор Х2
можно было бы найти, возникла бы уже теоретическая проблема
обоснования его конструктной валидности (скажем, таким индикатором оказалась бы частота поведенческих проявлений неуважения
к старшим).
Введем еще одно усложнение в ситуацию, представленную на
рис. 9. Допустим, прежний уровень криминальной тенденции X (в
более ранний момент времени) влиял на различия в преступных
навыках Y между двумя нашими группами (рабочих и представителей "свободных" профессий), а различие в навыках, в свою
очередь, влияло на возможность совершения преступления. Кроме
того, прежнее значение уровня преступности Х1 может через механизм обратной связи влиять на последующее значение криминальной
тенденции X (такое предположение вполне правдоподобно, если
допустить, что криминальное поведение в определенной мере является "социально выученным"). Упрощенная схема для этого случая
представлена на рис. 10. Еще более сложной будет ситуация, когда
различие в значениях переменной P (возможностей, случаев, благоприятных для совершения преступления) для двух наших групп в
момент времени t - I каким-то образом, через различия в приобретенном опыте, навыках или в практике социализации представителей двух этих групп, влияет на "криминальную тенденцию" в
момент t. Как мы можем измерить "криминальную тенденцию" в
этих двух ситуациях? Конечно, существуют способы, позволяющие
при определенных условиях и допущениях справиться с мультикаузальностью и нерекурсивностью в причинных моделях косвенного
измерения. Но если отношения индикаторов к теоретическим конструктам заранее не определены в теоретической системе, т.е.
"вспомогательная теория измерения" не определена столь же отчетливо, как и содержательные теоретические гипотезы, исследователь,
идеализирующий ситуацию измерения, не сможет отделить отклонения полученных результатов, вызванные неадекватностью этой
идеализации, от ошибок теоретического прогноза.
В обсуждавшейся выше статье 1968 г. Х.Блейлок замечает, что
меньшая, в целом, острота проблем измерения в естественных
науках отчасти связана с замечательной константностью фундаментальных физических величин. В науках социальных, напротив, постоянно следует считаться с вариативностью эмпирических соотношений. Наряду с проблемами мультикаузальности, наличия механизмов обратной связи между индикатором и неизмеряемой пере-
Рис.8
Рис. 8. Модель с одним индикатором
для " проблемы Кетле".
Рис.9. Модель с двумя измеряемыми и одной неизмеряемой
переменной.
Рис. 10. Усложненная модель с обратной связью.
менной, в причинных моделях
измерения должны делаться и некоторые предположения, касающиеся вариативности (или константности) этой связи. Поэтому еще
одной темой, изначально включенной
в обсуждаемый круг идей, является обоснованность принятия
«предположения о гомогенности». Эта тема легко может быть проиллюстрирована на примере сравнительных исследований или измерения опосредующих переменных. Пока же, лишь очерчивая
ее общие контуры, вернемся к рассмотренному примеру. В этом
преступлений в группе - это эффект-индикатор Преступной тенденции. Но предположим, что мы сочли излишним понятие "криминальной тенденции" и хотим сравнить лишь сами уровни преступности34. Пусть Х1 - наблюдаемая частота преступлений, являющаяся какой-то частью истинного уровня преступности, т. е.
истинной частоты X. Истинное значение X соответствует полному но не измеряемом уровню преступности, а Х1 - числу преступлений, зарегистрированных официально (по которым было возбуждено уголовное дело). В таком случае мы можем считать,
что Х1 равно истинной величине X, умноженной на какую-то Величину U. Можем ли мы считать эту последнюю величину константой?
Лишь в очень ограниченном числе случаев при соблюдении целого
ряда условий.
В общем же, U - это переменная, значения которой будут изменятся
от ситуации к ситуации, от одного типа преступлений к
другому (достаточно сравнить квартирные кражи и вымогательство)
и в зависимости от социальных характеристик обвиняемого или
осужденного. Так, значения U могут быть намного меньше
"беловоротничковой" преступности в сравнении с преступностью
уличной. Поэтому попытка представить отношения X и Х1 в виде уравнения:
Х1 = a1+ b1X
103
102
34
Этот пример рассматривается Х.Блейлоком в работе [84. Р.89]
и считать U константой будет вести к заблуждениям. Конечно, в
ситуации, когда истинное значение X неизвестно, можно использовать многоиндикаторный подход, но и в этом случае следует сделать
определенные теоретические предположения о всех U., соединяющих X и X. -и индикатор, и постараться получить на этой основе какие-то прямые измерения этих U. Можно использовать для этого
специальное методическое исследование, посвященное сравнительному анализу статистики преступлений, зарегистрированных в результате обращения их жертв, добровольных явок с повинной, числа
осужденных за различные виды преступлений среди представителей
различных социальных групп и т.п. В ином случае, когда имеет место
некритическое принятие "предположения о гомогенности", это
обесценивает результат самого масштабного и интересного по замыслу
исследования35.
Как пишет Х.Блейлок в другой своей книге [90. Р.128-138], существующая терпимость социологов к глобальным обобщениям, построенным на весьма ненадежных и чаще всего "выносимых за скобки" предположениях о содержательной стороне осуществленных ими
измерительных процедур, может объясняться лишь недостатками
сложившейся в эмпирической социологии интеллектуальной культуры.
2. Взаимозависимость концептуализации и измерения:
случай использования категориальных переменных
в социологическом анализе
Тезис о тесной связи теоретических и специально-методических
проблем социологического исследования, о невозможности даже
кумулятивного накопления чисто эмпирических результатов без
существенного прояснения теоретических понятий в социологии
можно считать своего рода "общим местом". Новизна подхода
Х.Блейлока - в систематическом анализе того, как можно прояснить
природу этой связи, строя "вспомогательные теории измерения".
Осуществляемый Х.Блейлоком разбор проблем концептуализации, возникающий при использовании категориальных переменных
[89.' Р.109-145], интересен как образец такого систематического
анализа, направленного на чрезвычайно распространенные и часто
воспринимаемые как самоочевидные процедуры анализа данных и
интерпретации.
Интерес социологов к категориальным данным и классификациям
можно объяснить целым рядом причин: и преимущественно дескриптивной ориентацией, связанной с отсутствием достаточно общих
теорий; и неразработанностью фундаментальных проблем измерения; и заинтересованностью в интерпретации исторических событий
и "жгучих" проблем современности; и не слишком обязывающим и
легко согласуемым со здравым смыслом характером предположений,
принимаемых при использовании номинальных шкал и соответствующих методов анализа данных. Проблемы же, возникающие при использовании номинальных шкал и категориальных данных (даже столь простых, как "пол", "партийность" или "вероисповедание") и связанные
прежде всего с многомерностью этих категорий, часто остаются вне области интересов исследователей и немногим реже - вне сколь-нибудь
ясного осознания.
Оценка размерности для номинальных переменных является довольно редкой процедурой в конкретных социологических исследованиях. Поэтому социологи нередко предпочитают использование
неупорядоченных "именных" категорий попыткам выделить какой-либо
критерий, позволяющий упорядочить используемые категории I на одномерном континууме и достигнуть ординального уровня измерения.
Такая стратегия, однако, делает невозможным обоснование сравнимости
показателей, например в повторных исследованиях. Скажем, такие номинальные категории, как "протестант" или "квалифицированный профессионал", часто включаются в теоретическое объяснение в качестве
биографических, экзогенных факторов, каким-то образом связанных с
переменными жизненного опыта, влияющими на поведение или установки индивидов. Допустим, исследователь предположил, что конгрегационалисты, баптисты и квакеры могут быть объединены как "протестанты", чьи политические ориентации, в силу какой-то специфики
жизненного опыта, могут быть сопоставлены с политическими ориентациями католиков или мусульман. Если он сравнивает результаты своего
исследования с результатами идентичного по методике исследования,
проведенного 10 или 30 лет назад, то может ли он считать их сравнимыми лишь на том основании, что словесные "ярлыки" его номинальных категорий не изменились? В большинстве случаев ответ будет отрицательным, так как неявно предполагаемая и скрытая за номинальной ; "религиозной" группировкой переменная жизненного опыта скорее всего не обладает стабильностью в таких временных интервалах.
Аналогичная проблема возникает и в кросс-культурных исследованиях,
когда предполагается, например, что "профессионалы", независимо от
конкретного рода занятий или государственных границ, имеют сходные
ролевые ожидания, и "профессионализм" используется как объясняющая переменная для построения общей теоретической модели.
Если исследователь прибегнет к другой стратегии и попытается упорядочить номинальные группировки по какому-то одному измерению,
то возникает другая опасность - смешивания с другими ; "закоррелированными" измерениями, предполагающими совершенно иную
теоретическую интерпретацию. Например, упорядочение религиозных
деноминаций по степени "фундаментализма" может быть сильно связано с их ранжированием по престижности. Или упорядочение профессий по престижности окажется очень сходным с их упорядочением по
среднему уровню образования. Если исследователь далее обозначит
свою объясняющую переменную как религиозный фундаментализм
или профессиональный престиж, то
104
105
35
Истории осознания этой проблемы в социологии много внимания уделяет, например,
Э.Мокжицкив [153] (особенно гл.7,8).
полученная в результате теоретическая интерпретация будет совершенно отлична от интерпретации в терминах религиозного престижа
или среднего уровня образования [89. Р. 113-114].
В большинстве случаев, отмечает Х.Блейлок, самой целесообразной
стратегией оказывается введение серии промежуточных переменных
(даже если они не могут быть непосредственно измерены) и формулировка теоретических гипотез в терминах этих промежуточных переменных, а не самих по себе номинальных "социально-демографических факторов". Тогда религиозная принадлежность или
род занятий индивида будут включены во вспомогательную теорию
измерения как причинные индикаторы определенной переменной
жизненного опыта или знаний, получающей определенный балл в
соответствии с вероисповеданием или профессией. В результате,
например, протестант получит высокий балл по одному измерению,
промежуточный - по другому и низкий - по третьему. Сходным
образом профессиональная принадлежность получит численные
оценки по нескольким измерениям, зависящим от рода занятий (экономическая власть, социальный престиж и так далее). При проведении сравнительных исследований теоретически определенные переменные будут сохранять свою тождественность, хотя система численных оценок вполне может изменяться. Например, профессии будут иначе ранжированы по "надежности дохода", а определенное вероисповедание окажется более "фундаменталистским" в одном обществе, чем в другом.
Разумеется, такой подход требует проведения специальных методических исследований, позволяющих получить численные оценки
"проекций" биографических номинальных переменных на каждое из
релевантных измерений опыта [89. Р.134-135]. Располагая результатами таких исследований, социолог, проводящий конкретный опрос, действительно мог бы ограничиться простыми вопросами, касающимися рода занятий или вероисповедания, так как ответы на эти
вопросы могли бы далее получить некоторые числовые оценки, основанные на уже имеющейся информации. Тогда словесные "ярлыки",
включающие прилагательные "профессиональный" или "религиозный", могли бы использоваться как сокращенные обозначения
конкретных измерений, таких, как профессиональный престиж или
религиозный фундаментализм36. Таким образом, "одна и та же" номинальная шкала могла бы использоваться при получении ординальных оценок для нескольких достаточно общих теоретических
переменных, хотя такое использование категориальных переменных
потребовало бы специальных мер предосторожности, направленных
против потенциального смешения идентифицированных в модели переменных с неучтенными и неизмеряемыми факторами37. Здесь, по
мнению Х.Блейлока, мы сталкиваемся с фундаментальной дилеммой, сходной с поставленной К.Кумбсом [110]: знаем ли мы то, что
хотим, или хотим знать? Чем выше наши "амбиции" в измерении,
106
В качестве примера такого подхода Х.Блейлок приводит социально-экономический
индекс престижа профессий О.Дункана [119].
37
Более детально эта проблема рассматривается в [87; 89, ch.6].
36
тем сильнее принимаемые нами предположения и допущения и выше
вероятность желаемого результата, но в то же время - тем вероятнее ошибки интерпретации [89. Р.135].
Какой может быть общая стратегия концептуализации и построения "вспомогательной теории измерения" при использовании типичных для социологического исследования объясняющих переменных? Пожалуй, самым распространенным в эмпирических исследованиях типом объяснения (определяющим, соответственно,
"набор" измеряемых переменных) является связывание "фоновых"
биографических факторов либо с установками, ценностями и другими - " внутренними" переменными, либо с наблюдаемым поведением.
Преимущества такого подхода, с точки зрения измерения, очевидны, так как и зависимая, и объясняющая переменные в этом
случае обычно имеют несколько индикаторов, а для обоснования и
оценки эмпирической валидности и надежности существуют сравнительно простые и достаточно разработанные методы. Однако многочисленные эмпирические исследования, основанные на схеме "социально-демографическая переменная - установки/поведение",
привели не только к созданию общей теории "социально-бытийной
детерминации сознания или поведения, но и к накоплению сколько-нибудь непротиворечивых и сопоставимых фактов, касающихся
конкретных форм поведения и установок.
С точки зрения Х.Блейлока, недостаток таких исследований имплицитность, неразвернутость теоретических представлений о
природе связи этих двух типов измеряемых переменных. Обычно,
связывая, например, социально-экономический статус или место
жительства с политическим консерватизмом/либерализмом, исследователь предполагает, что существует какая-то переменная жизненного опыта, опосредующая эту связь. Однако эти переменные
опыта, определяющие способ влияния биографических факторов на
установки или поведение индивида, очень редко концептуализируются заранее, появляясь, в лучшем случае, при интерпретации результатов. Например, "различия в установках черных и белых американцев по отношению к реформе образования могут быть связаны с различиями в условиях социализации в родительской семье
либо с различиями в экономических ресурсах этих групп, создающими стартовое неравенство при переходе к новой системе образования..." (наш пример вымышлен, однако найти реальные не составляет труда). Если бы эти переменные опыта были заранее концептуализированы и, если это возможно, измерены, то основания для связывания непосредственно наблюдаемых типов поведения или установок с "паспортными" данными были бы значительно прочнее. Более
того, даже если переменные опыта, введенные во вспомогательную
теорию измерения, сами не могут быть измерены с удовлетворительной точностью, становится возможным сформулировать
серию теоретических предположений, которые вместе с допущениями о характере связи "опытных" и биографических переменных
будут вести к верифицируемым гипотезам, косвенно подтверждаю107
щим или опровергающим теоретическую концепцию исследования
[89. Р.142-144 ]. Следовательно, необходим некоторый список достаточно общих размерностей или факторов опыта, которые в каждом
конкретном случае могли бы быть соотнесены и с биографическими
переменными, и с интересующими исследователя типами поведения
или установками. Эти общие размерности опыта должны быть достаточно неспецифическими и "бессодержательными", чтобы допускать в разных ситуациях конкретизацию и использование в качестве объясняющих переменных для самых многообразных форм
поведения.
Помимо такого списка измерений опыта, проводящий конкретное
исследование социолог должен будет учесть степень значимости или
релевантности каждой биографической переменной для каждого измерения опыта в данной ситуации. Например, "пол" может быть
релевантным в ситуации А и иррелевантным в ситуации В. Т.е.
степень релевантности какого-либо социально-демографического
фактора также должна быть эксплицитно включена в модель измерения. Х.Блейлок осуществил первую попытку составить такой
общий перечень измерений опыта, которые могут быть использованы
во вспомогательных теориях измерения [89. Р.135-142 ]. Рассмотрим
основные типы таких переменных опыта.
1) Уважение или статус, предоставляемые референтными группами. Это достаточно общий для самых разнообразных ситуаций тип
переменных опыта, связанный со степенью получаемого субъектом
статуса или уважения (независимо от конкретных форм его выражения) . По сути он задает некоторую ординальную позицию субъекта
на континууме престижа по отношению к совокупности других
субъектов. В некоторых случаях такие переменные статуса имеют
специфическую метрику (например, размер денежного вознаграждения), но чаще всего подразумевают какое-либо ранжирование.
Конкретные ситуации А и В могут, однако, отличаться дифференцированностью рангов, степенью явной заданности критериев ранжирования, выраженностью конкуренции в борьбе за статус и так
далее. При этом перечисленные факторы будут выступать в качестве
отдельных измерений данной переменной опыта, оказывающих различное влияние на представителей разных социально-демографических групп.
2) Согласованность экспектаций, связанных с поведением. Можно выделить несколько измерений, связанных с этой общей переменной (безотносительно к специфическому содержанию этих экспектаций): наличие (или отсутствие) различных групп, имеющих
несовместимые ожидания по поводу поведения личности; ограниченность ресурсов, делающая невозможным одновременное следование согласованным экспектациям; предсказуемое и контролируемое либо случайное и находящееся вне контроля индивидуального
деятеля изменение социальных экспектаций во времени. Примером теорий, связывающих несогласованные или несовместимые социальные экспектаций с социально-демографическими переменными и поведением является теория "рассогласованности статусов".
108
3) Мера наличия у деятелей существенных ресурсов. Вне зависимости от природы и сути адресованных индивидам экспектаций,
статус или уважение получают те, кто способны им соответствовать.
Какая бы "фоновая" переменная не служила источником этих
ресурсов (биологическая наследственность, обучение, интериоризация форм поведения из микросоциального контекста или какая-то
другая), те деятели, которые не обладают этими ресурсами, окажутся
в ситуации дефицитарности. Однако (и здесь проявляется ограниченность упрощенной схемы "происхождение - успешность в деятельности") собственное восприятие субъектом своих ресурсов будет
взаимодействовать с реальным уровнем успешности, влияя на уровень притязаний, "Я-концепцию", которые, в свою очередь, будут
оказывать обратное воздействие на успешность деятельности.
4) Мера, в которой субъект подвергался трудностям, конфликтам, угрозам. Очевидно, что независимо от конкретных особенностей
изучаемой ситуации, некоторые группы испытали меньше угрожающих или конфликтных переживаний, чем другие - включая открытые
конфликты, абсолютную либо относительную депривацию и так
далее. Например, некоторые возрастные когорты испытали последствия трудностей военного времени или экологического кризиса,
которых не испытали другие. Такие комулятивные переживания (а
не сам по себе биологический возраст) будут проявляться в установках и поведении, особенно в ситуациях, имеющих смысловую соотнесенность с этими переживаниями.
Кроме описанных, Х.Блейлок выделяет и другие потенциально
релевантные измерения опыта, связанные с биографическими переменными и влияющие на установки или поведение: гомогенность
поведения индивидов, имеющих общую групповую принадлежность;
степень зависимости статуса от успешности; "проницаемость" референтных групп; степень совместимости ожиданий с опытом социализации и раннего научения; возможность "ухода" из группы (иногда
можно сменить этническую группу и практически никогда - расовую
идентичность); количество предоставляемой субъекту эмоциональной поддержки; наличие драматических или плавных изменений в
"истории жизни".
Разумеется, этот список неполон, однако он очень важен для
очерчивания сферы переменных опыта, соответствующих многообразию ситуаций и типов поведения, которые представляют интерес
для социолога. Спецификация этих переменных опытаj во вспомогательной теории измерения позволяет осуществить по крайней мере
приближенное ранжирование вдоль "опытного" континуума субъектов, имеющих различные значения релевантных биографических
переменных (даже в том случае, когда исследователь лишен возможности прямо или косвенно измерить переменную опыта).
Этот подход, однако, сталкивается с трудностями в тех случаях,
когда существует много релевантных измерений опыта, часть которых взаимодействует друг с другом, и сравнительно малое число категорий биографической переменной. Х.Блейлок приводит следующий пример: если чернокожие американцы одновременно испыты109
вают ситуации, в которых не имеют достаточного доступа к ресурсам,
в которых социальные ожидания рассогласованы, в которых они постоянно получают низкий статус, и если они имеют в среднем значительно больший "трудный" опыт, то на уровне интерпретации
становится крайне трудно решить, какой из этих взаимодействующих механизмов оказывает первичное влияние на их установки и
поведение. В этой ситуации исследователь должен найти подгруппу,
"нагруженную" лишь по некоторым измерениям опыта (и оценить
чистый эффект остальных). Полезным приемом является и декомпозиция укрупненных номинальных категорий: скажем, переход от
пяти-шести объединенных категорий "рода занятий" х детализированному списку 50-60 профессий, которые можно будет дифференцировать по нескольким измерениям опыта согласно усредненным
значениям соответствующих "опытов" их представителей.
Таким образом, даже если прямое измерение переменных опыта
оказывается практически невозможным, они могут и должны быть
сохранены в теоретической гипотезе и интерпретации при соблюдении некоторых условий: достаточно большого числа категорий биографической переменной (относительно гомогенных по релевантным
измерениям опыта); возможности дать усредненную оценку опыта
каждой категории (если не на индивидуальном, то на групповом
уровне); наличия достаточно четких теоретических гипотез, соотносящих выделенные переменные опыта с общими типами поведения
или установок. Следовательно, эта стратегия улучшения социологического измерения требует и хороших субстантивных теорий, и эксплицитных вспомогательных теорий измерения, связывающих переменные опыта с биографическими и поведенческими измеряемыми переменными.
3. Некоторые аспекты сравнимости измерений
Поскольку процесс измерения предполагает создание операционального языка, делающего объекты измерения сравнимыми в терминах этого языка, утверждения о несопоставимости измерений для
различных групп, культур или ситуаций являются весьма веским
аргументом, часто используемым критиками эмпирической социологии (см., например: [183]). Однако эти утверждения часто бывают
столь общими и неспецифицированными, что исключают возможность конструктивного диалога. Примером такого рода утверждений
может служить обобщенная аксиома "семантической неэквивалентности" стимулов или поведения в разных культурах или среди
представителей различных субкультурных групп [183 ]. Однако, как
бы ни формулировались такие соображения, они не лишены оснований и требуют некоторой общей стратегии в решении проблем сопоставимости.
Если в "соседней" психологии вопросы сравнимости измерений
стали систематически разрабатываться еще в 40-е - 50-е годы (в
дифференциальной психологии, теории тестов, экспериментальной
110
психосемантике), то в социологии эта проблема стала предметом специальных исследований к концу 60-х - началу 70-х годов (например, в
работах Г.Костнера, Р.Хаузера и А.Гольдберга и др., проводившихся
преимущественно в рамках многоиндикаторного подхода, рассмотренного в предыдущей главе).
Здесь мы затронем лишь проблему сравнимости измерений, хотя утверждения о несопоставимости часто относятся либо к неэквивалентности
"личностных смыслов", т.е. коннотативных компонентов значения, либо
к несопоставимости, возникающей в процессе обобщения в результате
действия неконтролируемых переменных. Последние два типа аргументов обычно вполне обоснованны и служат предметом анализа в психосемантике, изучающей индивидуальные системы значений (см., например: [58]), и в работах, посвященных планированию квазиэкспериментальных исследований [31 ]. Принято считать, что проблема сравнимости
измерений возникает в ситуации, когда измерение носит косвенный,
непрямой характер (т.е. отношение между теоретическим концептом и
наблюдаемой переменной явно опосредовано теоретически специфицированным эмпирическим конструктом), а вспомогательные теории измерения могут варьировать в зависимости от условий или контекста. Вопрос
становится еще сложнее в случаях, когда вспомогательная теория измерения включает те же переменные, которые, уже в качестве теоретических концептов, включены в основную содержательную теорию, что
приводит к смешиванию теоретических и "измерительных" проблем.
Например, какой-либо из биографических факторов (пол или социально-экономический статус) может приводить к систематической ошибке
измерения и в то же самое время быть причиной или следствием тех
переменных, которые исследователь стремится измерить. В этом случае, чем менее отчетливо определена вспомогательная теория измерения и чем сложнее основная теория, тем невозможнее атрибутировать
различия, возникающие при сравнении измерений (между условиями,
временными периодами или индивидами). Т.е. однозначно приписать
эти различия к истинным содержательным или вызванным артефактами
измерениям.
Проблема сравнимости измерений имеет целый ряд аспектов: использование общих индикаторов в многоиндикаторном анализе и его
ограничения [89. Р.76-85; 200]; нелинейные отношения между конструктом и индикатором, вариабельность коэффициентов в структурных
уравнениях (как в примере с "беловоротничковой" преступностью на с.
101) и другие. Мы ограничимся рассмотрением двух примеров, не требующих введения громоздкого формального аппарата.
Первый из этих примеров связан с нелинейностью отношения между
теоретически определяемой переменной и индикатором. Рассмотрим
пример приборного измерения, приводимый в работе [30 ]
111
и обсуждаемый авторами в том же, по сути, контексте роли содержательных теоретических соображений в непрямом социологическом
измерении. Пусть теоретическая переменная - это уровень удовлетворенности трудом для некоторой совокупности, зависящая (при
контроле многочисленных прочих факторов) от каждого приращения
зарплаты (измеряемого, например, в рублях). Эта зависимость, как
и связь "морального" и "физического" богатства у Я.Бернулли (см.:
[99]), вероятно, будет подвержена насыщению, так что функциональная форма отношения между удовлетворенностью и доходом
будет выглядеть как на рис. 11.
Допустим, что в теоретической модели исследования предполагается наличие связи между удовлетворенностью трудом (или, уже,
материальным вознаграждением за труд), т.е. внутренним состоянием, и каким-то поведением P. Последнее может относиться к качеству труда, досуговой активности или чему-либо еще. В отсутствие
удовлетворительного способа измерения субъективного состояния У
исследователь может обратиться к причинному индикатору - зарплате, т.е. прибегнуть к приборному измерению. Если поведение P
и удовлетворенность У связаны линейно, то, согласно модели насыщения, связь между индикатором У и переменной P будет нелинейной (кривая, изображенная на рис.11, может в конкретном случае
оказаться логарифмической функцией, сегментом параболы или
степенной функцией с положительным показателем, меньшим 1).
Мысленный эксперимент, предложенный Х.Блейлоком и близкий
к экспериментальным схемам психофизики, заключается в следующем предположении. Пусть для условия Л (относящегося ко времени,
характеристикам популяции или к ситуации) основное число случаев
попадет в левую часть кривой, а для аналогичного условия В - в
правую, верхнюю часть. Тогда коэффициент уравнения, линейно
связывающего P и Yl , для условия А окажется " круче", больше,
чем для условия В. Конечно, если мы имеем прямую меру для У и
эксплицитную вспомогательную теорию измерения, предсказывающую данный эффект, это предположение легко проверяемо. Но если
удовлетворенность У прямо не измеряется, то нельзя будет отличить
предсказания модели, изображенной на рис. 11, от модели, где отношения У и У - линейны, а нелинейна связь между У (удовлетворенностью) и P (поведением). В этом случае нужны несколько показателей для У — У1 , У2 и т.д., а также явные теоретические предсказания о форме связи каждого Уj с У. Этого рода проблемы часто оказываются вне поля зрения исследователя, использующего факторный анализ или путевой анализ и некритически принимающего допущения о линейности функциональных связей между "скрытыми"
конструктами и индикаторами без проверки пределов его применимости к конкретной ситуации38 . Х.Блейлок особенно предостерегает от " слепого" использования программ типа LISREL,
112
Если такое допущение неприемлемо, то можно попытаться разбить выборку на подвыборки, соответствующие областям значений Аи В на континууме У^, и провести грубую
оценку теоретической модели.
38
так как ошибки спецификации переменных будут распространяться
по всей каузальной системе J89. Р.87-88 ]. По его мнению, особенно
типичны нелинейные отношения между социально-демографическими, и вообще биографическими переменными, и переменными "внутренних состояний" (например.между формальной длительностью образования, измеренной как число лет обучения, и квалификацией).
Второй пример относится к проблемам сравнимости, возникающим из-за различий в сложности ситуаций, а именно - к последствиям дифференциальной сложности в случае использования эффектиндикаторов для косвенного измерения в ситуации мультикаузальности.
При использовании эффект-индикаторов, часто принимается допущение, что, кроме небольших случайных возмущений, единственной причиной эффект-индикатора является неизмеряемая переменная, представляющая в данном случае интерес для теоретической
модели. Однако индикатор (обозначим его как X. ) может подвергаться воздействию не только переменной X, которую предполагается
измерить, но и других переменных, например V или P . Кроме того,
эти переменные V и P сами могут быть связаны с переменной X в
некоторых ситуациях. Тогда обоснованность использования индикатора X. или совокупности индикаторов будет варьировать от ситуации к ситуации. Уже в статье 1968 г. [82] Х.Блейлок использует иллюстративный пример с измерением расовой дискриминации, к
которому он неоднократно обращается и в более поздних работах. Пусть, скажем, некоторая мера неравенства, типа различия в
доходе, служит для измерения расовой дискриминации. В некоторой
ситуации А вполне обоснованным кажется предположение, что
единственной причиной неравенства X , помимо случайных возмущений, является дискриминация со стороны работодателя. Однако
предположим, что в более сложной ситуации В, помимо дискриминации со стороны работодателя, может оказаться существенным
влияние различий в уровне образования, способностей или опыта
работы (обозначим соответственно как F, P, и У). Если эти переменные будут измерены, то существует возможность получения чистого
эффекта X (см. рис.12). Однако ситуации А и В, в силу своей
простоты, включают лишь очень ограниченное число факторов.
Более сложная ситуация потребует разработки более сложной модели. В некоторых случаях, если исследование охватывает достаточно
большой промежуток времени, разумно предположить, что показатель различий в образовании зависит не только от "образовательной"
дискриминации как ограничения доступа к равным возможностям
обучения, но и от поселенческой сегрегации. Если предположить,
что поселенческая сегрегация, "накопленная" к моменту t, влияет и
на доступность тех или иных профессий (помимо прямой профессиональной дискриминации), то можно ли сравнивать показатели неравенства в доходах (Х1 ) или в образовании в этой ситуации с "
теми же" показателями в более простых ситуациях А и В.
Важным преимуществом причинного анализа и построения диаграмм здесь является возможность визуализировать модель измере8 И.Ф.Девятко
113
Профессиональная
дискриминация
П
Р
Неизмеряемые
переменные
дискриминации
Измеряемые
показатели
ния и сделать очевидной границу, когда неизвестных становится
"слишком много" и получить единственное решение невозможно,
т.е. возникает необходимость в априорных предположениях (например, различия в уровне образования зависят только от дискриминации в сфере образования). Последнее обстоятельство очень существенно для повышения культуры не только измерения, но и теоретизирования: ведь в ситуации, когда отсутствуют ограничения на
сложность теоретической модели и для каждого "случая" вводятся
новые объясняющие факторы, всегда можно, образно говоря, "объяснить 100% дисперсии". "Можно показать, что при допущении возможности, когда все влияет на все с неопределенными параметрами,
будет существовать бесконечное число наборов оценок параметров,
абсолютно согласованных с одним и тем же множеством данных"
[86. Р.282]39. При этом теоретики могут до бесконечности спорить,
чей набор объясняющих переменных "лучше" без всяких шансов
разрешить этот спор эмпирическими средствами.
Анализ влияния дифференциальной сложности ситуаций и соответствующих им теоретических моделей на сравнимость показателей
позволяет затронуть еще одну существенную проблему - проблему валидности. Как мы показали во второй главе нашей книги, разработка моделей измерения привела к пониманию ограниченности, присущей концепции валидности и традиционным подходам к валидизации, которые в конце 50-х - начале 60-х годов активно
114
39
Интересно отметить, что анализируя с этой точки зрения недостатки исторического метода в книге [90], Х.Блейлок приходит к выводу, что тактика введения новых объясняющих переменных для каждого нового наблюдения превращает социолога или
политолога в "эрудированного обывателя", суждения которого всегда согласованы со
здравым смыслом (часто содержащим логически несовместимые посылки) и в то же
время богаты неизвестными" человеку-с-улицы" деталями и специально подобранными подтверждающими примерами.
Профессиональное
неравенство
Различия в голосовании на выборах
*
Рис. 13. Схема связи переменных дискриминации с измеряемыми показателями .
* В данной модели опущены многие переменные блока " Поведение меньшинства" агрессия, избегание контактов с доминирующим большинством и т.п., рассматриваемые Х.Блейлоком.
заимствовались социологами из психометрики. В тех ситуациях,
когда невозможно связать концепты и индикаторы по принципу
"один к одному", но наличие нескольких показателей для каждой
ненаблюдаемой переменной делает измерение возможным, понятие
"валидности" может вводить в заблуждение, подталкивая исследователя к поиску несуществующего "идеального" валидного показателя. Правильным путем здесь чаще всего будет разработка вспомогательной теории, связывающей несколько неизмеряемых переменных с несколькими индикаторами (о чем и шла речь в предыдущей
главе). Вернувшись к примеру с дискриминацией, мы можем заметить, что понятие дискриминирующего поведения довольно далеко
отстоит от обычно используемых мер дискриминации, относящихся
к физической сегрегации либо к какого-то рода неравенству. В самой
простой ситуации различия в социально-профессиональной структуре доминирующего большинства и меньшинства могут быть использованы как показатель профессиональной дискриминации, различия
в образовании - как показатель дискриминации в получении образования, а поселенческая сегрегация - как индикатор поселенческой
изоляции40. Однако в более сложной и близкой к реальности ситу115
40
Хотя даже такое сравнительно простое понятие, как поселенческая сегрегация, создает
серьезные трудности при попытке измерения. См. [120].
ации любые меры неравенства являются результатом не только
дискриминирующего поведения большинства, но и поведения самого
меньшинства, что должно быть отражено во вспомогательной теории
измерения.
Кроме того, переменные-индикаторы могут быть функциями не
только тех переменных дискриминации, которые включены в основную теорию и являются основной целью измерения. Приведем одну
из возможных моделей примера с дискриминацией, рассматриваемую Х.Блейлоком в статье [86. Р.296] (см. рис. 13).
Вполне очевидно, что традиционная концепция валидности в ситуации, сходной с изображенной на рис. 13, имеет весьма ограниченное применение. Очевидны и последствия для сравнимости показателей. Например, "экономическое неравенство" в ситуации, изображенной на рис. 13, будет зависеть от всех неизмеряемых переменных и, в свою очередь, влиять по крайней мере на поселенческую
и социальную изоляцию. Следовательно, нет никаких оснований
считать этот индикатор эквивалентным "экономическому неравенству" в ситуации взаимооднозначного соответствия.
Глава четвертая
НОВЫЕ ПРИЛОЖЕНИЯ И ПЕРСПЕКТИВЫ МОДЕЛИРУЮЩЕГО ПОДХОДА
1. Обобщение моделей структурных уравнений с латентной переменной и "общеизвестные истины" измерения
В недавней фундаментальной работе К.Боллена [96 ] представления о самостоятельном значении теоретически обоснованных моделей измерения были использованы для успешной попытки синтеза и
обобщения подходов и методов, применяемых в психометрике, эконометрике и социальных науках при описании и анализе отношений
между теоретическими и эмпирическими переменными. К моделям
структурных уравнений (structural equation models, т.е.. моделям,
состоящим из структурных уравнений) относятся и регрессионные,
и эконометрические, и факторно-аналитические процедуры. Таким
образом, и модели со множественными индикаторами, и модели путевого анализа, и факторные модели с латентными переменными
могут быть включены в общий класс структурных моделей с латентными (или ненаблюдаемыми) переменными. Система структурных
уравнений, задающих модель, в этом общем случае состоит из двух
подсистем: модели латентных переменных, описывающей отношения
ненаблюдаемых (неизмеряемых) одномерных конструктов, и модели
измерения [96. Р. 11]. Таким образом, предложенное обобщение понятия структурной модели в явной, эксплицитной форме включает
модель измерения в проверяемую теоретическую модель. Полная
теоретическая модель описывает отношения между зависимыми и
независимыми переменными и допускает наличие ошибок измерения
и в первых, и во вторых.
Демонстрацией продуктивности этого подхода стал систематический критический пересмотр ряда "общеизвестных истин" классической теории тестов, результаты которого изложены, в частности, в
работе К.Боллена и Р.Леннокса [97 ]. Так как к теме эффективности
моделирующего подхода к измерению для пересмотра ряда некритически принимаемых положений традиционной психометрики мы уже
неоднократно обращались (например, при описании многоиндикаторного подхода к конструктной валидности), мы ограничимся лишь
описанием некоторых новых результатов, полученных Болленом и
Ленноксом. Эти результаты интересны для нас, прежде всего, как
еще одна иллюстрация тех радикальных изменений, которые были
инициированы возникновением моделирующего подхода к измерению. Боллен и Леннокс поставили своей целью проверить, насколько
обоснованны обычные рекомендации, касающиеся отбора индикаторов (чаще всего - тестов или анкетных вопросов) и используемые
исследователями в повседневной практике. Эту проверку они осуществили для двух общих моделей измерения. Первая из них - классическая модель теории тестов и факторного анализа, где индикаторы
117
(пункты теста, вопросы) зависят от латентной переменной. Эту
модель, вслед за Х.Блейлоком, часто называют моделью измерения
с эффект-индикаторами, т.е. индикаторами-следствиями латентной
переменной. Для этой модели принимаются все обычные предположения теории тестов, в том числе и предположение о том, что
истинные значения латентной переменной определяют значения ее
индикаторов. Так как латентная переменная - это чаще всего некоторый теоретический конструкт, то примерами этой общей модели могут служить и многочисленные "черты личности" (от тревожности до макиавеллизма), и способности (например, невербальный интеллект), и диспозиции (политическая активность).
Вторая рассматривавшаяся Болленом и Ленноксом общая модель
- это модель с причинными индикаторами. Мы уже обращались к
примерам причинных индикаторов латентных переменных. В качестве причинных индикаторов используются, например, многие категориальные переменные, описывающие "жизненный путь" респондентов, например, образование или доход родителей (другие примеры можно найти на с.104-110 данной работы). Разумеется, причинными индикаторами они становятся лишь в том случае, если исследователь предполагает, что эти переменные детерминируют значение латентной переменной. Например, социолог может считать, что
продолжительность обучения и доход определяют социальный статус
(не вкладывая при этом в понятия "определяют" или "служит причиной" буквального физического смысла). Другими примерами могут служить "лишение пищи" как причинный индикатор "голода",
"психологическая травма" как причинный индикатор "стресса" и
т.п. Не входя в технические подробности (многие из которых, к тому
же, обсуждались нами раньше), отметим, что даже простейшая
модель латентной переменной с несколькими причинными индикаторами (последние еще называют "формативными") будет очевидным образом отличаться от предыдущей. Например, возрастание
значения латентной переменной не обязательно будет сопряжено с
возрастанием значений всех ее индикаторов.
Одним из фундаментальных понятий теории тестов является
понятие внутренней согласованности пунктов теста или батареи
вопросов, предназначенных для измерения одной латентной переменной. Это понятие составляет основу для оценки надежностисогласованности, или одномоментной надежности (см., в частности,
с.61-64 данной работы), и для применения факторного анализа.
Внутренняя согласованность подразумевает положительную корреляцию индикаторов одной переменной (разумеется, при условии, что
все пункты-индикаторы сформулированы в одном направлении).
Обычно рекомендуется исключать индикаторы, имеющие нулевую
или отрицательную корреляцию с остальными. Обоснованность критерия внутренней согласованности для первой модели - с эффектиндикаторами латентной переменной - не вызывает никаких сомнений. При условии стандартизации латентной и наблюдаемых переменных, корреляция между индикаторами будет равна произведению их корреляций с истинным баллом. Если корреляция индика118
торов с истинным баллом положительна, то и их корреляции друг с
другом также должны быть положительны.
Совсем иной будет ситуация для второй модели с причинными
индикаторами латентной переменной, так как сама модель не налагает никаких ограничений на попарные корреляции между индикаторами: они могут быть положительными, отрицательными или нулевыми. Скажем, связь между образованием и доходом как индикаторами статуса в некоторых обществах может быть нулевой или
отрицательной. Столь же трудно определить заранее направление и
величину связи между различными причинными индикаторами
стресса, например, потерей работы, смертью супруга и болезнью.
Исследователь, использующий рутинные процедуры поиска максимальных значений в матрице корреляций, рискует пропустить самые
информативные индикаторы. Таким образом, некритичное использование критерия внутренней согласованности может вести к совершенно ошибочным выводам.
Другим распространенным методологическим "рецептом" (не
всегда, кстати, согласующимся с критерием внутренней согласованности) является оптимальная корреляция индикаторов. Аргументом в этом случае обычно является необходимость обеспечить генерализуемость и валидность выводов, что невозможно для чрезмерно,
специфичного и узкого набора высококоррелированных индикаторов.
Однако анализ двух вышеописанных элементарных моделей ставит под сомнение и эту рекомендацию. Для модели с эффект-индикаторами латентной переменной предпочтительной все же является
высокая корреляция индикаторов. Если же у исследователя есть
основания предположить наличие скоррелированных ошибок измерения между индикаторами, то он не имеет никаких оснований
предпочитать индикаторы с умеренной корреляцией, так как единственный способ справиться с этой проблемой - это специфицировать
предполагаемую модель измерения и внести следующие из нее поправки в процедуру отбора индикаторов.
В случае же модели с причинными индикаторами, как уже говорилось, величины корреляций между индикаторами никак не
ограничиваются самой моделью и определяются лежащими вне
модели (экзогенными) факторами. Конечно, высокие корреляции
между причинными индикаторами затрудняют оценку воздействия
каждого из них на латентную переменную (проблема мультиколлинеарности), и в этой ситуации низкие корреляции предпочтительнее.
Однако никаких общих рекомендаций для причинных индикаторов
сделать нельзя, так как оптимальное значение корреляций между
индикаторами будет определяться лишь конкретной моделью измерения.
При выборе индикаторов одномерного теоретического конструкта
часто рекомендуется выбирать индикаторы, представляющие все
аспекты ("фасеты") этого конструкта, т.е. латентной переменной
(ср. с.37). Боллен и Леннокс, рассмотрев две описанные элементарные модели, пришли к следующему выводу: "В общем итоге, рекомендация делать выборку индикаторов для всех граней конструкта
119
может вводить в заблуждение. Для эффект-индикаторов одномерного конструкта равно надежные индикаторы в сущности взаимозаменяемы. Если же многогранность означает многомерность, то
каждое измерение (dimension) должно рассматриваться отдельно,
на основании своего собственного множества эффект-индикаторов.
В случае же причинных индикаторов, исключение какого-то индикатора меняет саму латентную переменную, ее состав (и интерпретацию), и, за несколькими исключениями, важно включить каждый причинный индикатор" [97. Р.308 ]. Таким образом, стремление к максимальной представленности всех аспектов одномерного
конструкта обоснованно лишь при выборе причинных индикаторов
и не имеет никакого смысла в случае эффект-индикаторов. Другие
интересные результаты, полученные Болленом и Ленноксом при
анализе общих моделей измерения с латентной переменной, мы
лишь кратко суммируем, так как их изложение здесь потребовало
бы привлечения достаточно специальных деталей. Первый из этих
результатов относится к часто используемому правилу сравнения
внутриконструктной и межкон-структной корреляции индикаторов. Суть этого правила кажется интуитивно ясной: корреляция
между индикаторами одной латентной переменной-конструкта
(например, между пунктами одного теста) должна быть выше,
чем корреляция между индикаторами разных конструктов. В действительности, данное правило может вести к ошибкам независимо
от типа индикаторов. Этот вывод может быть получен приблизительно тем же способом, который был использован при критике "ММ"-матриц Кэмпбелла-Фиске с позиций моделирующего подхода
(см. с.82-86 данной работы).
Другой распространенной практикой является использование
суммарного балла в качестве латентной переменной. Арифметическая сумма значений индикаторов (или линейный сводный показатель) часто подставляется в качестве латентной переменной в регрессионном, дисперсионном анализе и т.п. И в этом случае обоснованность такой практики зависит от того, какого типа индикаторы используются и какова модель измерения. Так, при использовании суммарного балла в качестве независимой переменной в регрессионной модели получаемые оценки коэффициентов
могут оказываться смещенными [97. Р.309-310] (см. также: [96.
Ch.5]). Использование процедуры взвешивания может несколько
улучшить ситуацию.
Таким образом, уже только учет направления связи между латентным конструктом и индикатором в самых общих моделях измерения позволяет критически отнестись ко многим правилам отбора индикаторов и оценки шкал и тестов.
Разумеется, рассмотренные Болленом и Ленноксом модели измерения существенно упрощены: ошибки измерения в них не
скорре-лированы, а между латентными переменными и индикаторами существует взаимнооднозначное соответствие. Кроме того,
элементарная модель с причинными индикаторами латентной переменной слишком проблематична и с содержательной - как интерпретировать, не вводя дополнительных факторов, латентную переменную, явля120
ющуюся следствием наблюдаемых показателей? - и со статистической точек зрения. В уже упомянутой фундаментальной работе
Боллена [96 ] доказывается, что способом интерпретации и статистической идентификации модели измерения с причинными индикаторами является ее включение в более широкую теоретическую
модель, где присутствуют и эффекты самой латентной переменной.
Мы можем лишь согласиться с выводом, к которому приходят
Боллен и Леннокс: использование самих по себе структурных моделей измерения еще не ведет к правильному выбору индикаторов,
однако формальная спецификация модели измерения - единственное средство понять, какие из общепринятых правил измерения подходят в данном случае [97. Р.312].
2. Г£ГЯАО-методология и процедуры автоматического поиска моделей
Успехи когнитивной науки и статистического моделирования,
подкрепленные достижениями компьютерной революции, сделали
осязаемой перспективу создания нормативной теории научного открытия и алгоритмических процедур, обеспечивающих поиск объяснительных моделей для эмпирических данных, полученных неэкспериментальным путем. Такая перспектива вновь оживила надежды
на построение строгого метода научного вывода для "нестрогих" и
неэкспериментальных наук. Книга К.Глаймура, Р.Шейниса,
П.Спиртеса и К.Келли [135] стала первой попыткой создать компьютерные процедуры научного открытия в социологии на основе
определенной методологии, которая воплотилась в нормативных
критериях отбора и проверки причинных моделей, являющихся,
пожалуй, самым популярным типом "мини-теорий" в общественных науках. Разработанные авторами методы и процедуры поиска
причинного объяснения реализованы в компьютерной программе
TETRAD и имеют довольно долгую и существенную для критической оценки Г/?Г7?АО-методологии предысторию. С краткого описания последней мы и начнем обсуждение возможностей и ограничений TETRAD-анализа.
С некоторой долей упрощения можно сказать, что вся история
использования прикладной статистики в неэкспериментальных
науках сводится к попыткам заменить экспериментальный контроль статистическим, т.е. сделать возможным обоснованный причинный вывод, опирающийся на данные о частотных распределениях, там, где по практическим или этическим соображениям невозможен классический эксперимент с варьированием независимой переменной, контролем иррелевантных факторов и измерением главного эффекта41. В основе идей регрессии и корреляции, выдвинутых Ф.Гальтоном и К.Пирсоном в XIX в., лежало
стремление вы121
41
Вопрос о правомерности такой замены все еще остается открытым с методологической тонки зрения. Достаточно полное представление о критических аргументах, используемых в этой дискуссии, можно получить из работ [168; 241].
вести причину - генетическую наследственность - из ее статистических проявлений. У.Огберн, первым из социологов применивший
частную корреляцию для анализа выборочных данных, также стремился выявить истинную причинную структуру, замаскированную
смешивающими факторами [122. Р. 134-135].
Методы, используемые в TETRAD, как и эвристические принципы выбора наилучшей объяснительной модели, восходят к одной из
наиболее ранних традиций в этой области, которая берет начало в
работах английского психометриста Чарльза Спирмена, предложившего концепцию общего фактора интеллекта. Стремясь показать,
что во всех тестах интеллекта наличествует общий причинный
компонент, объясняющий корреляцию между ними, он открыл чрезвычайно интересное соотношение. Во всех случаях, когда четыре
измеряемые переменныех{, *2, х , хвосходят к общему фактору, их
корреляции будут удовлетворять следующим уравнениям:
p12 p34  p13 p24  0
(1.1.)
p12 p34  p14 p23  0
(1.2)
p13 p24  p14 p23  0
(1.3)
(Здесь и далее в подстрочных индексах из соображений простоты
оставлены лишь номера измеряемых переменных, т.е. вместо рxixj
стоит рij... )
Спирмену удалось показать, что предположение о наличии общего
фактора вполне объясняет, почему эти ограничивающие условия,
наложенные на значения корреляций, будут удовлетворяться в генеральной совокупности, однако, увлеченный идеей "единой интеллектуальной способности", детерминирующей все интеллектуальные проявления человека, он не заметил, что эти ограничения тетрадные уравнения, или тетрадные разности (от греч. гетрах четыре) - будут выполняться и в некоторых других случаях, применительно к другим причинным моделям измерения (например,
модели с двумя скоррелированными факторами42. Иначе говоря,
Спирмен ошибался, полагая, что верен и обратный вывод: из выполнения тетрадных уравнений следует, что верна однофакторная модель. Правда, столь незначительный "промах" нисколько не снижает
значения того важнейшего и недооцененного вклада, который Спирмен внес в понимание природы объяснения в неэкспериментальной
науке. Глаймур и соавторы формулируют суть этого вклада следующим образом:"Ведущая методологическая идея Спирмена, ни разу
не сформулированная им вполне отчетливо, видимо, заключалась в
том, что наилучшим является такое объяснение, которое порождает
ограничения, обнаруживаемые в мерах генеральной совокупности, не предполагая при этом определенных значений параметров.
Другими словами, он предпочитал те объяснения, которые являлись
122
бы робастными или упругими при изменениях в спецификации
значений свободных параметров" [135. Р.236]. Применительно к ,
однофакторной модели это означало, что следующие из нее тетрадные разности должны быть нулевыми для генеральной совокупности
вне зависимости от того, каковы конкретные значения "нагрузок" отдельных тестов по латентному фактору. Аналогичные рассуждения
верны и для любого числа измеряемых переменных в модели общего
фактора: если все корреляции между измеряемыми переменными
действительно объясняются существованием общего латентного фактора, то все тетрадные уравнения должны выполняться независимо
от значений линейных коэффициентов43. Как отмечают Глаймур и
его коллеги, Спирмен интересовался тетрадами потому, что видел' в
них подтверждение своей психологической теории, но его последователей (Дж.Гарнетта, Т.Келлм и К.Холзингера) привлекла в спирменовской идее возможность разработать процедуры и критерии
нахождения наилучшей линейной причинной модели, объясняющей
данные. Дж.Гарнетт и Т.Келли смогли сформулировать проблему
нахождения таких ограничивающих условий для генеральной ковариационной матрицы, которые были бы необходимы и достаточны, чтобы принять какую-то линейную причинную модель. При этом модель
будет предполагать их выполнение для всех значений линейных коэффициентов, не налагая никаких иных независимых ограничений. В
такой постановке эта проблема непосредственно связана с эвристическими поисковыми процедурами, используемыми в программе
TETRAD. Уже к началу 30-х годов проблема была решена для целого ряда важных частных случаев, однако вычислительные сложности
при использовании моделей с большим числом измеряемых переменных препятствовали более быстрому прогрессу. Прекращение работы
в этом направлении, на четверть века отсрочившее появление эвристических процедур "компьютерного открытия" и причинного анализа моделей измерения, было связано с блестящими успехами в области факторного анализа.
Выход терстоуновских "Векторов ума" (1935), содержавших эффективный и простой в вычислительном отношении алгоритм редукции данных, радикально изменил взгляды и интересы абсолютного
большинства ученых, занимавшихся психометрикой и математической
социологией, а также ведущие способы их исследовательской практики. Сейчас, когда критика бездумного использования эксплораторного факторного анализа в качестве волшебной машинки для обнаружения новых "латентных сущностей" становится общим местом,
трудно по достоинству оценить воздействие взглядов Л.Терстоуна на
современников. Между тем этот гигант сделал для развития психометрики и психологии XX в. не меньше, чем его учитель Т.Эдисон
для развития техники. Как мы уже отмечали выше, он придерживался определенной философии науки, согласно которой основной
целью науки является нахождение конструктов, максимально просто
и экономно описывающих данные наблюдений.
123
Напомним, что мы уже говорили об использовании тетрадических (или тетрадных)
разностей в методе множественных индикаторов (см. с.88-89).
42
43
Для n-переменных число возможных тетрадных уравнений составит 3 •
C n4 .
Именно эта концепция стала методологической основой факторного
анализа44, и в этом смысле Терстоун действительно изобрел "почти
магическую процедуру, с помощью которой можно было делать
науку, открывать теории и двигать прогресс" [135. Р.242]. Спирменовские тетрады Терстоун рассматривал как частный случай, не
представляющий особого интереса: "Спирмен, посредственный математик, грубый и агрессивный спорщик, человек, привязанный к
одной теории и лишенный автоматического метода совершения открытий, имел мало шансов в сравнении с Терстоуном" [135.
Р.242].
Эффективность факторного анализа тесно связана с жесткостью
постулируемой им причинной модели измерения. В отличие от анализа вытекающих из гипотетической модели ограничений на корреляционную матрицу, который практиковали Спирмен и его последователи, факторный анализ "отбрасывает" возможность прямого причинного влияния измеряемых переменных друг на друга либо латентную переменную. Более того, психометрические представления той
эпохи (разделявшиеся, впрочем, и Спирменом) исключали возможность причинного влияния латентных черт друг на друга, которая
теоретически допускалась формальной моделью факторного анализа. Глаймур и соавторы вполне обоснованно, на наш взгляд, связывают этот факт с верой в генетическую предопределенность способностей и личностных черт и укоренившейся со времен Гальтона
и Пирсона ориентацией на биологические редукционистские модели.
Таким образом, впервые высказанная Спирменом идея оценивать
объяснительный потенциал линейных причинных моделей, исходя из
их способности накладывать структурные ограничения на ковариационную матрицу (вне зависимости от значений линейных коэффициентов в этих моделях), была надолго забыта. Глаймур, крупный
специалист в области истории и философии науки, ссылаясь на свои
более ранние работы45, и в особенности на анализируемые примеры
из истории естественных наук [134], приравнивает открытие Спирменом структурной взаимосвязи между статистическими моделями и
причинными процессами, порождающими наблюдаемые значения, к
коперниканскому перевороту в методологии социальных наук. Терстоун же, для которого способом выполнения ограничений на выборочную матрицу ковариаций было нахождение линейных коэффициентов (т.е. факторных нагрузок), оказывается "Птолемеем статистического моделирования", провозгласившим главным критерием оценки научной модели возможность упрощенного описания данных
[135.Р.242].
Следующий ключевой персонаж в истории разработки компьютерных процедур, обеспечивающих поиск линейных причинных
моделей объяснения для неэкспериментальных данных, - известный
124
Детальную методологическую характеристику общей модели с латентными переменными и
ее аксиом можно найти в работе [11. С.54-64].
45
К историко-научным представлениям К.Глаймура, как и к его концепции эмпирического
подтверждения теорий, мы еще обратимся в следующем разделе.
44
американский ученый Герберт А.Саймон. Величина его вклада в развитие методов "компьютерного открытия" в социологии вполне соответствует многообразию его исследовательских интересов - искусственный интеллект, методология науки, причинное моделирование, экономика, когнитивная психология, прикладная статистика и в значительной мере обусловлена этим многообразием . Прежде
всего Саймон одним из первых применил структурные уравнения,
использовавшиеся в эконометрике, для причинной интерпретации
социологических моделей. Он поставил проблему вывода каузальных
утверждений из статистических данных о корреляциях на основе
отношений идентифицируемости переменных, возродив идеи Спирмена. Помимо этого, Саймон, начиная со второй половины 50-х
годов, активно участвовал в самых значительных исследовательских
программах по моделированию интеллектуальной деятельности человека. Одна из первых работ в этой области - созданная
А.Ньюэллом, Дж.Шоу и Саймоном программа "машина Логиктеоретик", -приобрела очень широкую известность, так как смогла
воспроизвести большую честь результатов из "PrinciPia
mathematica" Б.Рассела и А.Уайтхеда. В 1987 г. Саймон, совместно с
П.Лэнгли, Г.Брэдшоу и Дж.Житкоу, опубликовал весьма впечатляющие результаты многолетней работы по моделированию процессов
научного открытия средствами искусственного интеллекта [159].
Системы искусственного интеллекта и программы для ЭВМ (семейство программ BACON, GLOUBER и др.) не только способны находить количественные законы, описывающие "поведение" физических или химических переменных, но и позволяют вводить новые
теоретические концепты, фиксирующие качественную сторону процессов. Однако влияние этих разработок на создание программы
TETRAD едва ли можно считать непосредственным, так как последняя основана на иных эвристических принципах. Куда более существенно влияние методологических взглядов Саймона и его философии науки, близкой к идеям логического позитивизма, но лишенной
таких его недостатков, как крайний эмпиризм и феноменализм.
Наиболее полное философское обоснование вычислительного подхода к нормативной теории научного открытия дано Саймоном в
книге "Модели открытия" (1977). Здесь он остро критикует
К.Поппера, отстаивавшего интуи-тивистскую трактовку научного
творчества и полагавшего, вслед за большинством философов науки,
что попытки сконструировать нормативную теорию научного открытия, сопоставимую с нормативной теорией процессов проверки
научных гипотез, абсолютно бессмысленны, так как реконструировать процессы вдохновения и озарения - задача психологии, а не
логики науки 46
125
46
В "Логике научного открытия", противореча заявленному в названии содержанию
собственной работы, Поппер писал: "... не существует ни логического метода получения новых идей, ни логической реконструкции этого процесса.... каждое открытие содержит "иррациональный элемент" или "творческую интуицию" в бергсоновском
смысле" [40. С.52]. Более поздние взгляды Поппера, изложенные в " Объективном
знании", в определенном смысле уже содержат некоторую нормативную теорию открытия, однако его эволюционная эпистемология сводит процесс научного поиска к
случайному перебору по принципу " проб и (исключения) ошибок".
Аргументы Саймона весьма убедительны, если, конечно, принять его
определение науки и научного открытия. Под логикой науки здесь понимается совокупность нормативных стандартов для сравнительной оценки
процессов (действий), используемых в ходе открытия или проверки теорий. Эта совокупность может рассматриваться как логика, поскольку
сами нормы выводимы из целей научной деятельности, Такая расширительная трактовка позволяет проводить логический анализ любого целенаправленного поведения (в том числе процессов решения задач),
которое всегда может быть описано и, следовательно - по крайней мере потенциально, - допускает формализацию в виде машинной программы. Если познавательные процессы могут быть представлены в
качестве процессов вычислений, организованных как системы продукции47, то нормативная теория (логика) научного открытия может быть
формализована как совокупность критериев оценки, используемых человеком в процессе обнаружения законов [216. Р.328-332 ]. Такие "логики" не гарантируют, что открытие состоится, они носят эвристический
характер, т.е. позволяют с высокой степенью вероятности получить решение задачи или несколько решений, среди которых находится верное. С точки зрения Саймона, разделяемое многими философами
предубеждение против попыток построить нормативную теорию открытия основано на уверенности, что любая логика открытия столкнется с
проблемой индукции. Однако проблема индуктивного вывода и предсказания в действительности лежит не в области теории научного открытия, а в области теории проверки и подтверждения: "Отделив выявление закономерностей от предсказания, мы можем создать истинную
нормативную теорию научного открытия - логику открытия" [216.
Р.335].
Как уже говорилось, в социологии причинный анализ статистических данных приобрел популярность в 1960-е годы, прежде всего
благодаря работам Х.Блейлока. В книге "Причинный вывод в неэкспериментальных исследованиях" (1961) он продемонстрировал возможности статистического моделирования и причинного анализа в
проверке сложных социологических гипотез, опираясь, в частности,
на некоторые идеи Саймона. Блейлок фактически заново изобрел
процедуру анализа ограничений, накладываемых линейной моделью
на ковариационную матрицу. Модели, рассматривавшиеся им в
первых работах, обычно отличались от моделей, изучавшихся в
психометрике и эконометрике. Они не содержали общего фактора,
поэтому ограничения накладывались на частные корреляции (этот
тип моделей соответствует типу причинной связи с промежуточной
переменной). Полное "возрождение" спирменовских идей в социологии произошло в конце 60-х годов, после публикации статьи Г.Костнера [113]. В главе II данной работы было показано, как, руководствуясь предложенным Блейлоком причинным подходом к анализу
ошибки измерения, Костнер показал, что тетрадные уравнения могут
использоваться в качестве критерия согласованности для простейших
126
47
Система продукций - набор связок типа " цель (условие) - действие", т.е. в данном случае
- условных пропозиций типа " Если процесс X должен быть эффективен для достижения
цели Y, то он должен обладать свойствами типа А, В, С" [216. Р.228].
причинных моделей с двумя скоррелированными неизмеряемыми
переменными и четырьмя или шестью индикаторами (напомним, что
в статье, опубликованной в том же номере журнала, Блейлок
доказал, что эти критерии пригодны для любых рекурсивных моделей с несколькими индикаторами латентных переменных). Идеи,
лежащие в основе эмпирического контроля причинной модели измерения, который осуществляется посредством анализа вытекающих
из модели структурных ограничений на корреляции (ковариации)
наблюдаемых переменных, и составили фундамент многоиндикаторного подхода к оценке качества измерения (см. главу II данной
книги). Еще одним важным шагом в расширении возможностей
причинного анализа в социологии стало распространение методов
путевого анализа на нерекурсивные модели с петлями обратной связи
между переменными.
Компьютерная революция, ощутимо затронувшая социологию в
конце 60-х - начале 70-х годов, упростила решение рутинных вычислительных проблем статистического моделирования. С появлением программ типа LISREL и EQS наметилась тенденция использовать ЭВМ не только для вычислений при оценке параметров или
проверке гипотез, но и для активного поиска возможных модификаций предварительно заданной модели. Однако эти программы осуществляли лишь узкий, направленный поиск альтернативных причинных моделей и, кроме того, были основаны на "неспирменовской"
стратегии пересмотра исходной модели.
TETRAD - первая попытка синтезировать спирменовский метод
поиска наилучшего причинного объяснения для неэкспериментальных данных, неопозитивистские представления Саймона о нормативной теории научного открытия, моделирующий подход к социологическому измерению и самые современные разработки в области искусственного интеллекта.
Проблема, стоявшая перед создателями программы TETRAD, заключалась в том, чтобы найти общий алгоритм для быстрого вычисления тетрадных уравнений (либо других ограничений, робастно
предполагаемых любой линейной причинной моделью) и сравнения
этих ограничений с теми, которые приблизительно удовлетворяются в выборочной ковариационной матрице, т.е. в данных.
Такой алгоритм, будучи реализованным в компьютерной программе,
позволил бы социологу вести эвристический поиск среди сколь угодно
большого числа линейных причинных моделей, не ограничиваясь
сравнением объяснительного потенциала двух или трех моделей,
оказавшихся в поле его зрения. Удалось ли решить эту задачу?
Программа TETRAD - это "интеллектуальный партнер" исследователя в построении модельных структур, описывающих поведение
переменных, в проверке правильности спецификации модели и, в
сущности, в обосновании причинного вывода в эмпирическом социологическом исследовании. Программа может быть использована
лишь для определенных типов линейных причинных моделей, однако
это подмножество моделей репрезентирует весьма типичные для
социологии структурные гипотезы. TETRAD на основании выбороч127
ных данных и задаваемой исследователем базовой (скелетной) модели позволяет получить такие ее модификации, которые наилучшим образом соответствуют данным с точки зрения определенных
принципов. Последние и являются критериями оценки линейных
моделей, т.е., по Саймону, составляют некоторую частную нормативную теорию открытия. К принципам, по которым производится
отбор наилучшей модели (или наилучшего дополнения исходной
модели), относятся принцип Спирмена, принцип Терстоуна и играющий вспомогательную роль принцип простоты. Первый подразумевает, что предпочтительной при прочих равных является та
модель, которая влечет имеющие место в генеральной совокупности
ограничения для всех значений своих свободных параметров. Согласно
второму, из модели не должны следовать ограничения, не выполняющиеся в выборочных данных 48. Интуитивно ясный третий принцип довольно трудно поддается формализации. Авторы TETRAD
интерпретируют его следующим образом: более простой является
причинная модель, содержащая меньшее число связей [135. Р.9495 ]. Применение упомянутых принципов ведет к разным альтернативам. Принцип Спирмена определяет выбор более простых моделей,
из которых следует большее число ограничений. Добавление же
ребра или скоррелированной ошибки в ориентированный граф, представляющий причинную модель49, уменьшает число таких ограничений и, стало быть, увеличивает вероятность ситуации, когда ограничения, выполняющиеся в данных, не "схвачены" объяснительной
моделью. Принцип Терстоуна диктует выбор более сложных моделей, поскольку увеличение числа связей в модели (т.е. добавление
ориентированных ребер или скоррелированных ошибок) опять-таки
уменьшает число подразумеваемых моделью ограничений и делает
маловероятной ситуацию избыточной "строгости" модели в отношении структуры данных.
Так как любые ограничивающие условия точно выполняются в
конечной выборке лишь в редких случаях, минимизация числа ограничений, предполагаемых моделью, будет способствовать соблюдению принципа Терстоуна. Что касается принципа простоты, то это
своеобразное средство "оккамизации" объяснительной модели. В отсутствие каких-либо безусловных преимуществ из нескольких моделей будет выбрана та, которая содержит наименьшее количество
путей причинного влияния. Модифицируя модель, пользователь получает информацию о том, как этот процесс влияет на соблюдение
принципов Спирмена и Терстоуна. При этом он решает, какой "вес"
следует приписать каждому из этих принципов.
128
Этот принцип носит имя Л.Терстоуна в связи с тем, что имеет фундаментальное значение для факторного анализа, где расхождение между вычисленными и наблюдаемыми
корелляциями уменьшаются посредством введения дополнительной причинной структуры.При этом соблюдается правило, по которому нужно избегать введения ограничений,
не имеющих места в данных.
49
Представление модели в форме графа - важное средство спецификации, позволяющее явно задать ее логический каркас. " Граф в наиболее обнаженной форме выявляет постулируемую систему отношений между переменными..." [25. С.78].
При работе с программой TETRAD необходимо ввести выборочную корреляционную (ковариационную) матрицу и исходную "скелетную" модель 50, а также задать уровень значимости .чтобы проверить, выполняются ли ограничения в выборочных данных. TETRAD
предлагает множество переработок исходной модели и таблицу, из
которой видно, как каждое предлагаемое дополнение влияет на
соблюдение принципов Спирмена и Терстоуна. Исследователь может
выбрать оптимальное с точки зрения этих принципов дополнение и
снова запустить программу для дополненной модели. Таким образом,
дерево поиска решения в TETRAD начинается с самой простой
причинной модели, а все более сложные "дочерние" модели проверяются на каждом последующем этапе. Первичные показате ли,
определяемые TETRAD, включают: 1) число ограничений, предполагаемых исходной моделью (I), 2) число ограничений, предполагаемых выборочными данными на данном уровне значимости (Н),
3) число ограничений, следующих из модели, но не выполняющихся в
выборочных данных (I — Н), 4) соответствующее число ограничений,
имеющих место для выборочных данных, но не предполагаемых моделью (Н — I). При сравнении исходной модели с дополненными основной мерой соблюдения принципа Спирмена является увеличение
числа уравнений, которые выполняются в данных, но не следуют из
модели. Лучшей считается модель с наименьшим значением этой величины / (Н — /). Для того, чтобы определить, насколько каждая из
переработок исходной модели способствует соблюдению принципа
Терстоуна, используются два показателя - уменьшение числа предполагаемых моделью ограничений, не выполняющихся в данных
D (/ — Я), и уменьшение "остатков" тетрадных разностей в выборке
(TTR), Программа содержит также грубую меру для оценки соот ветствия модели (индекс Бентлера-Бонетта), используемую для
принятия решения о прекращении поиска, если при дальнейших
модификациях модели соответствие не улучшается.
Число ограничений, которые в принципе могут следовать из линейных причинных моделей, очень велико. В программе TETRAD анализируются лишь два типа таких ограничений: уже упоминавшиеся
тетрадные разности и стремящиеся к нулю частные корреляции. Коэффициент частной корреляции будет равен нулю в случае, когда его
делитель равен нулю, откуда следует ограничение Pij = PikPjk
Причинная структура, соответствующая этому ограничению, достаточно очевидна: между X i и X j . нет никакого пути причинного влияния, помимо включающего X k . Что же касается тетрадных разностей, то, как уже говорилось, типичными моделями, для которых выполняются такие ограничения, являются модели, где измеряемые переменные восходят к общему фактору, либо нескольким скоррелированным факторам, либо образуют причинную "цепочку" (такие модели
обычно подразумевают ограничения на частные корреляции). Важная особенность рассмотренных ограничений
48
9 И.Ф.Девятко
50
129
Если исходная модель не специфицирована, то TETRAD использует модель, в которой все
измеряемые переменные восходят к одному латентному фактору.
заключается в том, что они могут быть выведены непосредственно из ориентированного графа, представляющего элементарную причинную структуру статистической модели.
Так как программа TETRAD реализует некоторую эвристику
для поиска наилучшей причинной модели, а не строгую алгоритмическую процедуру, эффективность которой может быть обоснована априорно, то оценка полезности этой программы существенно зависит от познавательной ценности и нетривиальности результатов. Авторы TETRAD подвергли вторичному анализу результаты ряда хорошо известных социологических исследований и
убедительно продемонстрировали необходимость учитывать альтернативные объяснительные гипотезы и сомнительность некоторых некритически принимаемых допущений.
Проиллюстрируем возможности TETRAD как "орудия критики",
обратившись к проведенному Глаймуром, Шейнисом, Спиртесом
и Келли анализу данных, полученных М.Коном в известном исследовании авторитарности - конформности различных социальных
групп американского общества [158 ]. Изучая отношения между
социальной принадлежностью, установками и чертами личности, Кон, в частности, рассматривал отношение латентной черты - фактора "Авторитарный консерватизм" - к переменным социальной стратификации. Измеряемыми переменными для определения показателя "Авторитарного консерватизма" были вопросы, имевшие пять вариантов ответа (от "совершенно согласен" до
"совершенно несогласен"). Использовались вопросы, разработанные Т.Адорно и его коллегами для классической "Авторитарной
личности", которые прошли процедуру селекции, гарантировавшую, по замыслу автора, одномерность каждой шкалы относительно измеряемого конструкта (критерием одномерности было соответствие модели гутмановской шкалы). Кроме того, весь блок
вопросов был подвергнут факторному анализу, результаты которого подтвердили специфичность отдельных шкал (в том числе,
шкалы авторитарности) относительно различных гипотетических
конструктов [158. Р.265-269 ]. Таким образом, Кон выделил в
своем исследовании фактор "Авторитарного консерватизма"
(АС), по отношению к которому отдельные вопросы служили индикаторами. В более поздних сравнительных обследованиях показано, что существуют "ядерные" пункты АС-шкалы, являющиеся
индикаторами авторитарности для разных национальных групп.
Моделью измерения всякий раз служила модель латентного фактора. Традиционная для социальной психологии интерпретация
этой модели измерения предполагает, что после выделения общего фактора, объясняющего связь между пунктами шкалы, остаточные корреляции пунктов приписываются коррелированным
ошибкам, возникающим при ответе. Именно так были проинтерпретированы результаты использования пяти "ядерных" пунктов
.АС-шкалы в работе Дж.Миллера и соавторов [179]. Глаймур
и его коллеги воспользовались данными о корреляциях этих пяти
вопросов, чтобы проверить, нельзя ли скоррелировать модель и
найти иное объяснение остаточным корреляциям. Они предположили, что "остатки"
130
можно рассматривать как симптом существования эффекта "закрепления" (anchoring effect) между ответами на вопросы интервью [135.
Р.165].
Эффект "закрепления" (или "установки на якорь") известен в
экспериментальной психологии и описывает механизм возникновения ситуации, когда результаты одного психического процесса (оценки величины стимула, решения задачи и т.п.) используются как исходная точка, база для другого процесса. Содержательная интерпретация эффекта может основываться на понятиях "уровня адаптации", "стимульного контекста" или "сохранения когнитивного баланса". Последнее объяснение весьма убедительно, когда речь идет о
порядке вопросов АС-шкалы. Их смысловая связанность и общая
нацеленность обеспечены специальными процедурами (см. выше) и,
вероятно, очевидны не только для исследователя, но и для респондента. Стремясь к тому, чтобы его ответы были согласованы и последовательны, респондент будет учитывать свои предыдущие ответы,
используя их как исходную точку. Результаты применения TETRAD
подтвердили преимущества модели измерения, предусматривающей
прямые причинные влияния между вопросами АС-шкалы, т.е. гипотезу о том, что корреляции между ответами, не связанные с их зависимостью от латентного фактора "Авторитарного консерватизма",
объясняются причинными отношениями между самими вопросамииндикаторами (а не необъясненными корреляциями их ошибок измерения). На рис.14 представлены исходная модель измерения "Авторитарного консерватизма", пересмотренная модель Дж.Миллера с коррелированными ошибками и одна из двух переработок исходной
модели, предложенных TETRAD51. Анализ модели измерения для
пяти вопросов АС-шкалы проводился до того, как стала известна их
временная последовательность в интервью, т.е. вопросы нумеровались условно. Поскольку две модели, найденные TETRAD, ограничивали порядок четырех вопросов из пяти (между которыми вводились прямые причинные связи), то программа фактически "выдала"
определенные утверждения о реальной последовательности вопросов.
Одно из них, как выяснилось позднее, действительно соответствовало тому порядку, в котором они задавались в исследовании Кона.
Статистическая проверка предложенных TETRAD моделей с помощью программы EQS также подтвердила высокую степень их соответствия данным. Этот анализ, наряду с другими вторичными исследованиями, проведенными разработчиками TETRAD, позволяет
очертить пределы, в которых практическую применимость программы можно считать в достаточной мере доказанной.
131
51
Здесь снова кружком обозначены неизмеряемые переменные, квадратом - измеряемые
переменные-индикаторы. Пять вопросов АС-шкалы (1 - 5): 1) "Важнее всего научить
детей абсолютному послушанию родителям"; 2) "В нашем сложном мире единственный
способ поступать правильно заключается в том, чтобы полагаться на руководителей и
специалистов"; 3) "Ни один порядочный человек не может уважать женщину, имевшую
сексуальные отношения до брака"; 4) "Любой хороший руководитель должен быт* строг
с подчиненными ему людьми, чтобы завоевать их уважение"; 5) " Неправильно поступать иначе, чем поступали наши предки".
1) TETRAD полезна в поисках правдоподобных и успешно
проходящих статистическую проверку моделей, значительно расширяя возможности исследователя в рассмотрении множества альтернативных объяснений. При этом, работая в режиме диалога, исследователь может эффективно использовать в поиске уже имеющиеся знания, содержательные соображения, чтобы исключить противоречащие им гипотезы.
2) TETRAD может быть полезна и в поиске альтернативной
исходной модели, в частности при принятии решения о необходимости введения в модель латентных переменных (хотя, разумеется,
TETRAD не может подсказать социологу, какой концепт соответствует этой латентной переменной).
3) Для данной исходной модели TETRAD может быть использована с целью различения коррелированных ошибок и прямых
причинных связей между переменными-индикаторами. При этом
иногдаона может определить направление причинной связи последних.
4) Пространство поиска TETRAD альтернативных моделей
многократно шире того, которое доступно при работе "вручную"
или даже с помощью программ типа LISREL [135. Р.147].
Не оценивая пока принципы и "образ науки", лежащие в основании TETRAD, обратимся к анализу наиболее очевидных недостатков в их техническом воплощении. Прежде всего, программа
никак не использует многие виды ограничений, которые и теоретически, и практически могут быть вычислены. Существенна и ориентированность программы на определенные типы моделей, что
делает ее неприменимой в целом ряде случаев. Далее. Так как программа основана на постепенном усложнении базовой модели, она,
естественно, не содержит никаких средств для автоматического
перехода от одной простой базовой модели к другой, тщательное
рассмотрение
132
всех возможных альтернативных базовых моделей зависит от добросовестности и внимательности использующего ее исследователя. Если
базовая модель с самого начала не соответствует принципу Спирмена (не
содержит ограничений, имеющих место в данных), т она не может помочь
в выборе другой модели, поскольку использ., емые в TETRAD ограничения не могут возникнуть в боле^ сложной дополненной модели,
если они не содержались в исходной простой.
Выбор между различными дополнениями исходной модели в TETRAD основан на оценивании выполнения ограничений для выборочных данных о
корреляциях. Как справедливо отмечает С.Хант, обоснованность такого
выбора "будет решающим образом зависеть от способности TETRAD правильно оценивать тетрадные разности и частные корреляции" и, следовательно, от таких факторов, как размер выборки, форма распределения выборочных данных и выбор уровня значимости [152. Р.172]. Последнее обстоятельство особенно существенно, так как выбор уровня значимости для
принятия или отвержения гипотезы о выполнении ограничений в выборочных данных не обеспечен в программе сколько-нибудь строгими правилами. Выбирая обычный уровень значимости (0,05), исследователь рискует
столкнуться с ситуацией, когда будут тривиально выполняться много
ограничений и любые дальнейшие переработки модели окажутся излишними. Авторы рекомендуют выбирать большие значения (например 0,5),
однако они не дают строгого метода для определения уровня значимости.
Наконец, использование программы может вызвать те же вычислительные
проблемы, которые ранее возникали при многоиндикаторном подходе к
оценке качества измерения, где тетрадные разности также использовались
для проверки правильности модели измерения. Для социологии весьма
типичны маленькие корреляции между переменными, произведения которых столь малы, что тетрадные разности будут очень близки к нулю, даже
если это не так для генеральной совокупности.
TETRAD-aHcUiH.3 можно рассматривать как весьма успешную попытку
передать машине некоторые функции исследователя в процессе идентификации причинной модели (посредством алгоритмизации определенных эвристических стратегий решения этой задачи человеком). Однако помимо
уже упоминавшихся технических ограничений, присущих этому типу анализа, существуют и фундаментальные проблемы обоснования используемых здесь нормативных принципов и общих представлений о возможностях и способах научного объяснения в социологии. Если даже считать
бесспорной ту умеренную и осторожную трактовку возможностей искусственного интеллекта и статистического моделирования, которую дают
авторы TETRAD [135. Р.15-61 ], весьма проблематичными остаются гносеологические и, менее явно, онтологические допущения, лежащие в основании TETRAD-метоцологии.
Главная цель TETRAD-анализа - поиск альтернативных объяснений через
вторичный (третичный и т.д.) анализ данных. В этом смысле TETRAD продолжает традиции эксплораторной статистики,
133
основания которой подвергались достаточно серьезной критике (см.:
[185]). Глаймур и соавторы готовы согласиться с тем, что объяснение, найденное TETRAD, может быть объяснением "к случаю", а
теория, сконструированная через поисковый анализ уже имеющихся
данных, "будет сконструирована специально, чтобы объяснить эти
данные" [135. Р.58]. Однако они полагают, что понятие конструирования теории "под данные" может иметь по крайней мере два
смысла. Первый, когда исследователь действительно конструирует,
"подгоняя" и "прилаживая" теорию. Найденное таким образом
теоретическое объяснение действительно не может считаться подтвержденным данными, для которых оно было сконструировано. И
второй, когда сами теории- можно рассматривать как некоторые
идеальные объекты, находящиеся "там", т.е. в попперовском третьем
мире объективного содержания мышления, и "имеющие такие логические отношения с данными, которые они имеют, независимо от
того, случилось ли кому-нибудь о них подумать" [135. Р.59 ]. В этом
смысле открыть теорию не означает создать ее. Теория либо нахо дится в правильных логических отношениях к данным (и подтверждается ими), либо нет. И, значит, постоянная забота о разграничении
поискового анализа и подтверждения теории оказывается надуманной, так как проверка теории основана отнюдь не на правильном
предсказании и прогнозе. Реальная проблема в том, что, поскольку
"специально сконструированные" теории также могут быть согласованы с данными, возникает необходимость найти такую концепцию
теоретического объяснения, которая требовала бы большего, чем
простое соответствие статистическим зависимостям, наблюдаемым в
данных.
В случае анализа линейных причинных моделей "большее" как
раз и заключается в наложении дополнительных ограничений на
структуру данных и проверке выполнения этих ограничений. Ограничения, вводимые объяснительной моделью, проверяются относительно самой модели. Общая логика таких процедур носит название
бутстреп-методологии52, которая послужила основой предложенной
Глаймуром оригинальной концепции проверки теорий [134 ]. Об этой
концепции мы еще будем говорить дальше, здесь же ограничимся
замечанием, что ее главная идея состоит в том, что гипотезы
получают эмпирическое подтверждение не сами по себе, а лишь
относительно вспомогательных предположений или утверждений
основной теории. TETRAD-аиалт в сущности является бутстреппроцедурой поиска и проверки гипотез, т.е. гипотетических причинных моделей. Однако глаймуровская логическая теория относительного подтверждения имеет внутренние ограничения, связанные с
тем, что правдоподобие относительного подтверждения решающим
образом зависит от правдоподобия вспомогательных предположений,
используемых при проверке гипотезы. В TЕТRАD-анализе эпистемически привилегированным статусом пользуются причинные модели, соответствующие описанным выше принципам Спирмена и Тер134
Анализсовременного употребления и этимологии понятия"бутстреп"данвпредисловии к русскому переводу книги Б.
Эфрона [61].
52
стоуна, и поэтому строгое обоснование эффективности этого подхода зависит от возможности обоснования нормативных критериев отбора и
проверки моделей.
Насколько вообще оправдан эпистемический приоритет, который разработчики TETRAD приписывают линейным причинным моделям,
накладывающим структурные ограничения на данные? Видимо, можно
согласиться с продуктивностью такого подхода, когда соблюдается условие "при прочих равных", т.е. когда в отсутствие иных содержательных,
концептуально-теоретических обоснований для выбора предпочтение отдается "моделям, которые не предполагают ошибочных ограничений, но
действительно предлагают эмпирически верные ограничения на данные"
перед "моделями, которые не предполагают никаких ограничений (и,
следовательно, никаких ошибочных ограничений)" [135. Р. 190]. Этот
подход явно сродни интуитивно привлекательной идее предпочтительности максимально обязывающих (в смысле возможных импликаций) и
содержащих наименьшее число параметров моделей, с использованием
которых в определенной мере связаны успехи естественных наук, что
неоднократно подчеркивают и авторы. Однако строго обосновать применимость этого принципа можно лишь основываясь на все тех же содержательных соображениях о природе социальной реальности, "генерирующей" наши данные, т.е. на некоторых уже онтологических допущениях, источником которых может быть только социологическая теория.
Именно это, вероятно, имеет в виду Г.Саймон, когда в предисловии к
"Discovering Causal Structure" пишет: "... данные сами по себе не могут
помочь нам (прямо) выбрать правильные структурные уравнения! Мы
должны прибавить к данным дополнительную информацию ("наложить
дополнительные ограничения", как обычно говорят) , чтобы сделать выбор. Они равнозначны эмпирическим предположениям о семантике ситуации, о природе механизмов, в действительности породивших данные.
Здесь не существует простой процедуры "поворота рукоятки", которая
позволит нам делать автоматическую науку" [135. P.XIV]. Отметим,
что существует еще одна возможность обоснования, которую, пожалуй,
нельзя назвать строгой. Речь идет об этосе эмпирической науки, иногда
определяющем "законность" процедуры или нормативного принципа
не только через рациональность или практическую эффективность, но и
через соответствие каким-то одобряемым "культурным образцам" и нормативным "стандартам поведения" (например, стандартам методической
строгости, избегания "спекулятивных" либо теоретически избыточных
объяснений). Эта возможность хорошо известна "после-куновской" и
"послемертоновской" социологии и истории науки. Не вдаваясь в обсуждение этих известных соображений, заметим, что эмпирическая социология не только часто использовала возможность обоснования своих
принципов через стандарты "методической строгости" (в отсутствие
строгости теоретической), но и в значительной мере осознавала неизбежные пределы такого обоснования. Не столько доказать, сколько
проиллюстрировать эту мысль может
135
небольшой и не слишком серьезный отрывок из воспоминаний
П.Лазарсфельда, приведенный Дж.Конверс в качестве эпиграфа к
одной из глав фундаментальной истории социологических исследований в США [109. Р.267 ]: "Рождественский скетч в Бюро53. Один из
парней играет меня. Я вхожу и распределяю сигары, и кто-то спрашивает:"Это парень или девушка?". И этот фиктивный Лазарсфельд останавливается и говорит: "Черт возьми! Откуда я знаю,
меня интересует только метод".
3. Критика причинных моделей измерения с
латентной переменной
Мы уже обсуждали некоторые существенные ограничения, возникающие при использовании множественных индикаторов для измерения латентных переменных. Ограничения, присущие моделирующему подходу, как было показано выше, осознаются большинством
исследователей и нередко успешно преодолеваются при решении
практических задач.
Однако некоторые критики причинных моделей с латентными
переменными отвергают саму возможность их использования. "Тотальная" критика моделирующего подхода к измерению ставит под
сомнение использование информации о наблюдаемых переменных
для выводов о взаимоотношениях между социологическими показателями и теоретическими конструктами. По мнению радикальных
критиков, этот подход в ообще не может быть обоснован на почве
содержательных или эпистемологических соображений.
Наиболее типична следующая аргументация. При определении
надежности индикаторов в латентных переменных в причинных моделях измерения используются критерии согласованности, выводимые из этих моделей. Критерии согласованности включают в себя
корреляции индикаторов и непосредственно измеряемых теоретических переменных (примеры можно найти во второй главе данной
книги). В этом случае любые выводы о наличии или отсутствии
ошибки измерения в любом данном индикаторе латентной переменной оказываются зависящими от наличия ошибок измерения в
гипотетически "правильных" индикаторах других переменных и от
правильности теоретической модели, постулируемой исследователем. Иными словами, обоснованность вывода о наличии или отсутствии ошибки измерения в отдельно взятом индикаторе латентной теоретической переменной зависит от правильности спецификации модели в целом, т.е. от правдоподобия всей совокупности
допущений, касающихся остальных латентных переменных и их индикаторов. Очевидно, однако, что именно идея невозможности проверки отдельной гипотезы о качестве "вот этого" индикатора составляет ядро концепции взаимосвязи теории и измерения. Как мы
неоднократно подчеркивали, "теоретические" и "измерительные"
гипотезы в социальных науках могут быть раз136
53
Имеется в виду созданное П Лазарсфельдом и Р .Мертоном Бюро прикладных исследований Колумбийского университета.
ведены лишь аналитически. Однако, как пишет представитель "радикальной критики" Г.Г.Хоппе: "Ошибка измерения - рог definitionem это расхождение между наблюденным значением и соответствующим
истинным значением данной переменной. Само определение логически
предполагает, что наличие ошибки измерения в некой переменной (Y)
эпистемологически не зависит от наличия или отсутствия ошибки измерения в любой другой переменной, определяемой независимо от Y, и,
более того, что исход <данной проверки> точно так же не зависит от существования или несуществования каких-либо взаимоотношений между
этими переменными" [150. Р.505]. Таким образом, Хоппе представляется
неприемлемой любая стратегия вывода, для которой проверка "измерительной" гипотезы требует принятия некоторых вспомогательных допущений о том, насколько хорошо измерены другие переменные и каков
характер эмпирических взаимоотношений между ними. С его точки зрения, принятие любых вспомогательных гипотез для проверки интересующей нас гипотезы о качестве измерения какой-то переменной - это "эпистемологический абсурд", так как эти гипотезы не соотнесены опять же
эпистемологически с интересующей нас гипотезой [Там же]. Однако
возможен ли вообще научный вывод, абсолютно независящий от правдоподобия вспомогательных гипотез или допущений, принимаемых исследователем явно и неявно для того, чтобы сделать проверяемой его
"главную" гипотезу? Ровно в той мере, в которой возможно абсолютное
и беспредпосылочное знание.
Другой аргумент, используемый Хоппе в полемике с моделирующим
подходом, также неявно основан на идеях и проблемах, впервые сформулированных в рамках этого же подхода. Как уже говорилось, после принятия эксплицитной модели измерения, включающей в себя и отношения между теоретическими переменными, и ошибки измерения, иногда
становится очевидной невозможность однозначного "приписывания" результата содержательной гипотезе либо артефакту измерения. Для иллюстрации здесь можно обратиться к рассмотренным нами ранее примерам, в частности к модели "удовлетворенность - заработная плата" (с.
111-113) или к модели "дискриминация меньшинства" (с. 113-116). Казалось бы, возможность идентификации таких "отрицательных образцов"
(как и возможность найти частное или компромиссное решение возникающих проблем) гарантирована именно использованием моделирующего подхода. Однако, с точки зрения Хоппе, сама альтернатива приписывания негативного результата либо "непорядку в теории", либо "непорядку в измерении" создает соблазн списывания теоретических ошибок за
счет недостатков измерительной процедуры и деморализует исследователей. Таким образом, полагает Хоппе, критикуемый им подход неприемлем не только с логической и эпистемологической точек зрения, но также
"нежелателен с психологической точки зрения: использование моделей, допускающих ошибку измерения, приводит к концу процесс проб и
ошибок, необходимый для научного прогресса" [150. Р.508 ]. Даже разделяя эволюционную концепцию
137
науки - пусть и не в попперовской радикальной версии - мы можем
лишь недоумевать, каким образом можно заменить культуру ясной и
отчетливой экспликации всей совокупности теоретических и методических допущений, постепенно получающую признание в социологии под названием "моделирующий подход к измерению", тщательной проверкой данных ("переменная за переменной"), как
рекомендует Хоппе [Там же. Р.509 ]. Разумеется, проверка данных
чрезвычайно важна, а техника путевого анализа, рассматриваемая
Хоппе как единственное орудие моделирующего подхода, имеет
целый ряд ограничений, помимо справедливо указанных им. Однако
методы и "инструменты", используемые социологом, столь сильно
отличаются от искусственных закрытых систем, используемых в
качестве инструментов физического измерения, что требование их
тщательной проверки может быть истолковано лишь как полезная
метафора, а не конкретная рекомендация.
Однако первый, "эпистемологический" аргумент, используемый Хоппе, все же заслуживает более подробного рассмотрения, так как адресован к фундаментальной и до недавнего времени не получавшей должного внимания черте моделирующего подхода к измерению - холистской трактовке логики научного исследования и проверки гипотез.
Мы не можем здесь останавливаться на анализе новейших тенденций
в философии науки, но позволим себе кратко рассмотреть те результаты, которые непосредственно связаны с предметом нашего обсуждения. Последние работы в области логики подтверждения научных гипотез относятся преимущественно к проблеме относительного подтверждения, т.е. подтверждения гипотез относительно вспомогательных допущений либо "фоновой" теории. Несмотря на разногласия, существующие между представителями различных концепций
(байесианской, гипотетико -дедуктивной и др.), большинство специалистов в этой области согласятся с тем, что при ответе на вопрос о
том, при каких условиях некоторое (всегда фрагментарное и частное)
эмпирическое доказательство подтверждает теоретическую гипотезу,
нельзя изолировать "гипотезу" и "доказательство" из целостного "поля" фоновых знаний и допущений (и, следовательно, нельзя построить
чисто логическое объяснение процесса подтверждения гипотезы). Т.е.
всякое относительное подтверждение существенно зависит от эпистемического статуса вспомогательных допущений и теорий. Как отмечает
автор критического обзора этой области: "То, что кажется сейчас необходимым, это некое холистское объяснение подтверждения всей системы гипотез, возможно, в терминах их подтверждения относительно друг
друга. То обстоятельство, что такой холизм становится неизбежен в объяснении <процесса> подтверждения на определенной стадии, не должно вызвать никакого удивления в свете работы, проделанной в философии науки за последнее столетие, хотя это значительно усложняет
задачу объяснить подтверждение на языке исключительно логических
отношений" [124. Р.266 ]. Этот вывод, возможно, покажется неутешительным сторонникам "сильной" программы логики научного исследования. Но он очевидно подкрепляет наше несогласие с критикой моделирующего подхода, высказанной Хоппе.
138
Интересно отметить, что одна из популярных теорий относительного эмпирического подтверждения, развиваемая известным историком и философом науки К.Глаймуром, обнаружила в моделирующем
подходе свою образцовую иллюстрацию. Более того, как мы указывали выше, стратегия научного открытия, предполагаемая этой теорией, недавно получила воплощение в компьютерной системе поиска
содержательных и "вспомогательных" теоретических моделей в социологии. К.Глаймур разработал оригинальную и в значительной мере соответствующую реальной истории научных открытий концепцию
эмпирического подтверждения теорий [134 ]. Опираясь на взгляды
Карнапа и раннего Рейхенбаха, Глаймур считает, что эмпирические
доказательства дают примеры теоретических утверждений, которые
могут быть дедуцированы из доказательств при помощи других (вспомогательных) теоретических утверждений. Однако (в отличие, например, от Рейхенбаха) Глаймур отрицает существование "привилегированных" утверждений теории - аналитических истин или координирующих определений, - которые привязывали бы доказательство
к теории. С его точки зрения, любая теоретическая гипотеза может
быть использована для дедукции примера теоретического утверждения из совокупности эмпирических доказательств. Т.е. доказательство подтверждает или не подтверждает гипотезу по отношению к теории [134. Р.110]. В главе, посвященной методологии "неестественных" наук [134. Ch.7 ], Глаймур показывает, что используемые в каузальном моделировании способы проверки гипотез могут рассматриваться как примеры защищаемой им так называемой бутстреп-стратегии обоснования научного вывода. Здесь мы не будем возвращаться
к тем возможностям (и опасностям), которые открываются в результате конвергенции бутстреп-стратегии проверки теорий и причинного
моделирования в социологии.
Другая критическая аргументация, прозвучавшая недавно в адрес
причинного моделирования и вспомогательных теорий измерения, была развита английским социологом Р.Поусоном в программной книге
"Мера для мер: манифест для эмпирической социологии" [196 ]. Анализ этой аргументации представляется нам самым существенным, так
как собственная концепция Поусона, как нам кажется, в значительно
большей мере опирается на критикуемый подход, чем склонен признать ее автор. Отметим сразу, что критика, высказываемая Поусоном, абсолютно справедлива в том, что касается недостаточно проясненных и осмысленных эпистемологических оснований моделирующего подхода, упрощенных или даже архаичных представлений о соотношении теоретического и эмпирического знания (в частности,
трактовки понятия причинности, разведения обсервационного и теоретического языков в науке). Более того, в книге Поусона дан блестящий образец разбора феноменологических, антипозитивистских и
иных критических претензий к измерению в эмпирической социологии (которым мы, к сожалению, не уделили должного внимания).
С точки зрения Р.Поусона, моделирующий подход к измерению,
развиваемый Блейлоком и "американской социометрической школой", является первой систематической попыткой органично встро139
4. Реалистская стратегия измерения
ить теоретические понятия в процесс измерения. Однако, разделяя
общие черты американской традиции анализа переменных (восходящей к работам Лазарсфельда), моделирующий подход сводит само
теоретизирование к серии изящных технических решений [196.
Р.53]. Поэтому конечным фундаментом измерения, его операционально определяемыми индикаторами оказываются описания повседневного языка, произвольный и изменчивый характер которых открывает весь подход для феноменологической критики. Разграничивая "образы" и "индикаторы", "латентные переменные" и "наблюдаемые показатели", причинные модели измерения в сущности сохраняют общие онтологические посылки лазарсфельдовской концепции качественного измерения и взаимозаменимости индикаторов
[196. Р.54-57]. Хотя моделирующий подход и основывается на идее
теоретической нагруженности обсервационных понятий, он, по мнению Поусона, трактует сами теоретические понятия как переменные
и, следовательно, сводит их к "суммарным описаниям" или эмпирическим генерализациям. Различие концептов теории и конкретных
индикаторов (или, иначе, постулятивных и интуитивных понятий)
не основано на сколько-нибудь приемлемых критериях демаркации
и, как мы и отмечали выше, постоянно воспроизводит проблемы
релевантного научного протокола, онтологического статуса латентных переменных и возможной трактовки причинного влияния теоретических "образов" на эмпирические "показатели" [196. Р.57].
Поусон признает, что различение "вспомогательных теорий измерения" и "содержательных (теоретических) теорий" представляет
собой определенный шаг вперед в сравнении с дихотомией "образ индикатор", но этот шаг, как он полагает, ведет лишь к более
изощренной версии эмпиризма. С его точки зрения, подход Блейлока
и его последователей сохраняет дуализм "мыслимого - воспринимаемого" (или "теоретического - эмпирического") и игнорирует "роль
теории и концептуализации в перцептивных различиях, которые мы
делаем" [196. Р.71 ]. Нам кажется, что представленный в этой книге
анализ концептуальных оснований моделирующего подхода позволяет не согласиться с наиболее категоричными из суждений Поусона:
хотя в ранних работах Блейлока присутствуют спорные или некритически заимствованные из эмпирицистской философии науки положения, развитые им позднее представления о роли контекста и
"фоновой" теории в сравнимости индикаторов, об относительности
разделения теоретических конструктов и наблюдаемых индикаторов
(и зависимости этого разделения от конкретной исследовательской
проблемы) делают очевидной несправедливость обвинений в принятии понятий естественного языка в качестве "прямых наблюдений"
или в стремлении превратить теоретизирование в "фабрикацию путевых диаграмм" [196. Р.71 ]. В остальном, повторим, критические
замечания Р.Поусона вполне справедливы, и последние разделы этой
книги мы посвятим краткому обзору новейших тенденций в анализе
взаимосвязи концептуализации и измерения и попыток развития и
модификации моделирующего подхода, начав со взглядов самого
Поусона.
Р.Поусон подвергает критике шкалирование и моделирующий
подход к измерению, в большей или меньшей степени разделяющие
основные недостатки всех традиционных стратегий: игнорирование
интерсубъектной и межкультурной вариативности смыслов; навязывание смысловой перспективы исследователя в процессе общения с
исследуемыми; использование терминов естественного языка в качестве эмпирических референтов формальной системы измерения;
влияние теоретических представлений на отбор данных. Предлагаемая им альтернатива в значительной степени основана на постпозитивистской философии науки и реалистской версии методологии
социальных наук (Р.Харре. Р.Бхаскар и др.). Для последней особенно характерна критика рациональной реконструкции логики исследования в естественных науках, навязываемой позитивизмом в
качестве методологического эталона для наук общественных, а также
повышенный интерес к реально используемой учеными "logics-inuse", часто далекой от дедуктивно-помологической модели.
По мнению Поусона, моделирующему подходу к измерению
недостает понимания роли фундаментальных механизмов (underlying mechanisms), порождающих наблюдаемые причинные зависимости. Следует не просто задаваться вопросом о причинной взаимосвязи между переменными, а пытаться понять внутренние структурные механизмы этой связи: "Например, наше знание законов
соотношения давления и температуры газов не является простой
производной эмпирических генерализаций, вычисленных на основании надежных показателей либо на основании арифметической согласованности причинной модели, использующей вспомогательные
теории, чтобы связать социальные понятия и конкретные индикаторы. Скорее любое эмпирическое доказательство взаимосвязи,
которым мы располагаем, рассматривается в соответствии с независящим от него знанием о форме газовых законов, основанным на
нашем понимании поведения фундаментального механизма, т.е.
кинетической теории молекул газа" [196. Р.72].
Иными словами, теория должна не только постулировать существование некоторого отношения, но и объяснять его форму посредством обращения к глубинным онтологическим структурам. Естественные науки, как полагает Поусон, действительно могут преподнести урок социологам, однако этот урок отличается от рецептов позитивизма.
Прежде всего, основой языка обсервационных понятий и показателей должна служить теория, а не повседневное знание. Легко
видеть, что этот тезис является лишь более отчетливой формулировкой мыслей Блейлока об опасности использования "самоочевидных"
понятий естественного языка в качестве социологических переменных и о необходимости конструирования этих переменных на базе
осмысленных теоретических представлений (ср., например, с тем,
что говорит Блейлок об использовании категориальных переменных
в социологическом анализе).
140
141
Однако использование теории в качестве источника для языка наблюдений, как известно, порождает проблему циркулярности (или
"порочного круга"): если термины наблюдения, которыми мы пользуемся, сконструированы на почве социологической теории, то как
они могут служить доказательством этой теории? Релятивистская и
структуралистская критика эмпирической социологии как раз и подчеркивает "селективный", а не "объективный" характер эмпирических данных. Чтобы показать способ решения этой проблемы, Поусон
обращается к повседневной практике естественных наук, где экспериментирование и измерение являются основными видами исследовательской деятельности и, судя по всему, не воспринимаются учеными как источник смещенных наблюдений. Он справедливо отмечает, что в естественных науках практика измерения опирается не
столько на аксиоматические теории шкалирования, сколько на практические вопросы преобразования и передачи энергии и обработки
сигналов. Кроме того, "совершенно ясно, что сама цель измерения <в
физике> - включить и воплотить в инструменте принципы, выводимые
из теоретической науки" [196. Р.106]. Т.е. задача измерения воспринимается как инженерная, связанная с практическим применением
законов, теорий и гипотез теоретической физики. Стратегию, которая
в этом случае используется, Поусон называет трансформационной
моделью измерения: ученый (инженер) измеряет свойство, конструируя искусственную систему, в которой создаются взаимосвязи между
интересующим его свойством и другими свойствами (описываемыми
другими, пусть частными, работающими теориями) [196. Р.110 ]. Эта
интервенционистская стратегия подразумевает, что ученый не ждет
милостей от природы (т.е. озарений в результате "прямого наблюдения") , а берет их у нее (т.е. создает и контролирует не существовавшую прежде ситуацию). Урок, заключенный здесь, состоит, по мысли
Поусона, в том, что социологам не следует более полагаться на репрезентационную модель измерения с ее якобы исходными "прямыми
индикаторами". Они должны, по крайней мере, имитировать подлинную трансформационную модель. С нашей же точки зрения, моделирующий подход к измерению едва ли нуждается в этом конкретном
уроке, хотя и должен включить в себя другие верные положения, развиваемые Поусоном.
Другой интересной особенностью трансформационной модели измерения является то, как в ней преодолевается проблема циркулярности. По мнению Поусона, аргумент "порочного круга" не относится к этой модели, так как теории и гипотезы, которые проверяются
при измерении конкретного свойства, отличаются от теорий и гипотез, которые при этом измерении применяются (что и позволяет
назвать модель трансформационной) [196. Р.114-116, 120]. Мы не
станем, вслед за Поусоном, обращаться к иллюстрациям того, как
используются преобразования различных форм энергии в физических измерительных приборах. Отметим лишь, что Р.Поусон также
приходит к идее относительного эмпирического подтверждения теории, которая (как мы писали в предыдущем разделе) играет решающую роль в возможности обоснования моделирующего подхода к
142
измерению. При этом Поусон не стремится создать некую нормативную социологическую методологию, включающую в себя правила
"хорошего" трансформационного измерения. Эти правила (перефразируя Э.Гидденса) - и средство, и результат реальной исследовательской практики, ибо методология и реальная практика социологического исследования организованы рекурсивно [196. Р.125]. Поусон
сам суммирует "новые правила социологического измерения" следующим образом [196. Р.324-325]:
1) Социологические переменные - это не дискретные "свойства",
а часть системы, регулируемой каким-то генеративным фундаментальным механизмом. Параметры измерения конституируются социологической теорией;
2) Исходным материалом для эмпирической проверки являются
социальные регулярности. Однако сами регулярности - это не случающиеся "сами по себе" совпадения, а результат действия порождающих фундаментальных механизмов в конкретном контексте.
Любая эмпирическая гипотеза должна включать в себя детальную
спецификацию всех трех элементов, а ее проверка предполагает
использование определенных средств концептуальной или экспериментальной (квазиэкспериментальной) изоляции интересующего исследователя генеративного механизма от других социальных механизмов (т.е. источников смешения). Так как, с точки зрения
Р.Поусона (в значительной мере опирающегося на работу [168]),
статистический контроль является несовершенной заменой экспериментального, - а последний в социальных науках неприменим, - то предпочтение должно отдаваться сравнительным и лонгитюдным исследованиям, позволяющим вычленить вариативность
контекста;
3) Эмпирические доказательства имеют смысл только внутри
целостных скоординированных систем (сетей) знания. Так как значения любых терминов ("теоретических" или "обсервационных")
задаются внутри концептуальной сети, одни понятия и теории сравнительно лучше понимаемые и, следовательно, поддающиеся
измерению - могут служить уточнению и проверке менее ясных
понятий и теорий. При этом теоретизирование в социологии должно
держаться как можно дальше от формулировок естественного языка,
стремясь создать собственную концептуальную сеть формально определяемых понятий. Конечным результатом в этом случае станут
генеративные формальные модели, -по отношению к которым только
и возможно говорить о проверке гипотез;
4) То, что можно рассматривать как эмпирическое доказательство, должно не измерять "реальный мир" непосредственно и прямо,
а соотносить конкурирующие понятия или утверждения. Именно в
точках пересечения теорий возможно обоснование научного вывода
(что делает научный дискурс в принципе проверяемым, в отличие
от абсолютно контекстуального и открытого повседневного дискурса) . Решающая же роль измерения связана с тем, что оно концентрирует в себе уже существующее теоретическое знание, делая
возможной интерпретацию эмпирического доказательства;
143
5) Безусловно, социологические данные социально конструируются. Точнее, процесс порождения данных определяется совокупностью вербальных и социальных признаков, задающих контекст
коммуникации. "Навязывание" значений респонденту (или информанту) - это реальная проблема, поскольку исследуемые понятия это понятия самого социолога и они не могут и не должны быть ничем
иным. Единственное средство смягчить эту проблему - использование
данных, относящихся исключительно к институциональному или
взаимному (интерсубъективному) знанию. Исследователь с необходимостью принимает на себя роль "концептуального наставника" (но
не "открывателя гипотез"), а респондент действует как "учащийсяинформант".
Поусон принимает все неизбежные ограничения социологического измерения, связанные с невозможностью жестко формализовать
социологические теории (а иногда - и определить, какие из них
можно считать конкурирующими), с несовершенством контроля,
обеспечиваемого квазиэкспериментальными схемами, с недостижимостью полной концептуальной ясности в процессе коммуникации с
респондентами и т.п. Однако он верит в возможность (и существование) исследовательских практик, соответствующих его правилам
(и, вероятно, рекурсивно определяющих их). Примером, и достаточно убедительным, являются те главы его книги, которые посвящены
измерению социальной стратификации и должны, по замыслу автора, продемонстрировать продуктивность предлагаемой им стратегии.
Нам кажется, что самые существенные преимущества реалистской стратегии Р.Поусона54 связаны с подчеркиванием роли теории
в социологическом измерении. Эта роль, по Поусону, не сводится к
некоторой "теоретической нагруженности" данных, ставшей общим
местом в работах по причинным моделям измерения, а определяется
"теоретичностью" самого измерения, концентрирующего и воплощающего в себе наличное теоретическое знание, на фоне которого
только и могут подлежать эмпирической проверке другие фрагменты
концептуальной системы. Развиваемые им представления о порождающих причинные связи фундаментальных механизмах, с нашей
точки зрения, ценны скорее как попытка найти альтернативу бездумному использованию "причинной" терминологии путевого анализа. Самое же существенное в его позиции - это отчетливое и фундированное высокой философской культурой обоснование того положения, которое, как мы видели выше, не вполне чуждо и работам Х.Блейлока: решение базисных проблем социологического измерения лежит в сфере социологической теории. Р.Поусон использует
приписываемый Кельвину афоризм, чтобы сказать: "Если ты не можешь теоретизировать, твое измерение скудно и неудовлетворительно" [196. Р.73].
144
5. Трехуровневая концепция процесса измерения
До сих пор мы лишь эпизодически касались некоторых гносеологических проблем, связанных с использованием теоретических моделей измерения. Однако игнорирование этих проблем при активном
применении причинных моделей измерения в практике конкретных
социологических исследований к концу 80-х годов породило серьезные трудности в теоретической интерпретации результатов этих
исследований, а в более широком контексте - и в понимании взаимоотношений теоретического и эмпирического знания. Чтобы понять природу этих трудностей, необходимо учесть те специфические обстоятельства, которыми сопровождалось утверждение новых
подходов к измерению в социологии.
Идеи причинного анализа, получившие широкую популярность в
американской эмпирической социологии приблизительно во второй
половине 60-х годов, как уже отмечалось, имели два принципиально
различных источника. Первым из этих источников были структурные модели эконометрики, описывавшие совокупность причинных
взаимосвязей между понятиями теории и позволявшие объяснить
определенные эмпирические факты.
Вторым источником были психометрические модели измерении,
использовавшиеся как средство аналитического представления отношений между понятиями теории, измерительными конструктами и
конкретными эмпирическими показателями. И та, и другая традиции
использовали причинные диаграммы и интерпретации. И каузальные
репрезентации структурных моделей, и модельные представления
диагностических процедур имели сходство в способах отображения
и языке описания. В силу этого возникла тенденция к синтезу указанных традиций, причем основанием такого синтеза мыслилась некоторая общая идея "причинности". Работы авторитетных специалистов по моделям измерения в социологии, в частности самого
Х.Блейлока, как будто давали некоторые основания для сочетания
структурных моделей и моделей измерения в единых аналитических
рамках и "приравнивания" взаимоотношений внутри этих двух
типов моделей. В результате уже на новой почве возникло известное в "эксплораторной" статистике позитивистское редуцирование понятий теории к "истинным значениям" наблюдаемых переменных [185].
Возникла парадоксальная ситуация, когда в работах одних и тех
же авторов, с одной стороны, признавалось различие между теоретическими структурными моделями и моделями измерения (соответствующее введенному Блейлоком различению "общей" и "вспомогательной" теории), а с другой стороны - эти модели рассматривались
как эквивалентные и взаимозаменяемые. Фактически широкая каузальная интерпретация измерения замещала понимание измерения
как самостоятельной теоретически нагруженной исследовательской
деятельности реификацией теоретических понятий (которые уподоблялись материальным объектам, "причиняющим" наблюдаемые переменные или являющимся "результатом" действия последних).
54
Отметим, что Поусон вполне осознает условность притязаний того философского направления (преимущественно британского), которое идентифицирует себя как "реализм", на приоритет в вопросах генеративных причинных структур, реляционной природы
научных понятий и т.п. Реализм для него - это предельно широкое обозначение одной
философской перспективы.
10 И.Ф.Девятко
145
Структурная модель теории - это теоретическая репрезентация
содержательных представлений об "устройстве" социальной реальности. Она включает в себя понятия теории, связанные постулируемыми причинными отношениями. Относясь к теоретическому уровню знания, структурные модели вместе с тем иллюстрируют существенную зависимость эмпирического исследования от теоретической
спецификации. Постольку, поскольку входящие в структурную модель понятия теории посредством измерения "привязаны" к наблюдаемым величинам, исходная структурная репрезентация становится
основанием для планирования исследования, выбора метода анализа
данных и теоретической интерпретации результатов. Одним из
способов подчеркивания теоретической нагруженности любого эмпирического исследования является как раз понимание процесса построения теории как моделирования реальности, направленное против эмпирицистских представлений об "объективном выводе". Причинность в структурных моделях теории - это теоретические предположения о том, как элементы социальной реальности воздействуют друг на друга. Причинность здесь, подчеркнем это еще раз, не
эмпирический результат, а часть теоретической схемы, задающей
рамки эмпирического исследования (например, набор переменных,
включаемых в план исследования в качестве контрольных, определяется содержательными представлениями об их релевантности,
следующими из этой теоретической схемы). Но структурные модели
сами по себе не определяют эмпирические референты для входящих
в них теоретических понятий. Следовательно, эмпирическая реализация структурных моделей должна включать в себя совокупность
моделей измерения, т.е. теоретических детализаций, "привязывающих" теоретические концепты к эмпирическим наблюдениям.
Модели измерения, постулирующие связи между понятиями теории и наблюдениями, одновременно являются и концептуальной
интерпретацией наблюдаемых показателей, и эмпирической интерпретацией теоретических концептов. Без явной или неявной модели
измерения нельзя установить связь между утверждениями теории и
эмпирическими гипотезами. И, с другой стороны, любая теоретическая интерпретация эмпирической взаимосвязи основывается на некоторой модели измерения (отчетливая формулировка и иллюстрация этого положения была дана уже в известной статье Г.Костнера
[113], положившей начало систематической разработке многоиндикаторного подхода). Иными словами, эмпиристский идеал "когнитивного исчисления" как чисто механического перехода от данных
наблюдений к понятиям теории не может быть реализован [185].
Х.Блейлок, стремясь подчеркнуть, что взаимосвязи теоретических
концептов и данных наблюдения сами являются продуктом теоретической спецификации, обозначил отношения измерения как "вспомогательную теорию", отличную от каузальных структурных взаимоотношений "общей теории". Таким образом, понятие "модель измерения" по содержанию идентично понятию "вспомогательной
теории", связывающей теоретические концепты и наблюдаемые величины.
146
Как и структурные модели, модели измерения являются элементом процесса теоретической спецификации. Последние также играют
решающую роль в планировании и интерпретации результатов эмпирического исследования. И структурные модели, и модели измерения в общем случае могут быть выражены через совокупность линейных уравнений. Это содержательное и формальное сходство
между двумя видами моделей и привело к их частому смешению при
построении социологических теорий "среднего уровня" и, соответственно, к включению эмпирических индикаторов в структурные
модели теории и к отождествлению теоретических концептов с "истинными значениями" в моделях измерения. Пример трудностей,
возникающих в результате такого смешения, будет приведен ниже.
Здесь же мы отметим, что реакцией на эти трудности стала углубленная разработка философских и теоретических оснований социологического измерения и развитие конструктного подхода к измерению и трехуровневой концепции измерения в работах П.Хорана и
К.Бэйли [77; 78; 151 ].
Развивая идеи конструктного подхода к измерению, П.Хоран считает, что стержнем проблемы является существование двух теорий
измерения. Первая из этих теорий совпадает с очерченной выше интерпретацией "вспомогательных теорий" измерения, связывающих,
теоретические концепты с наблюдениями. Вторая же теория фактически постулирует, что теоретические концепты продуцируют (в причинном смысле) эмпирические переменные, представляющие эти концепты. Эти две теории не только различны, но и несовместимы. Вторая
из этих теорий в психометрике получила название теории "платоновского истинного балла" (см.: [172]). С идеей "истинного балла"
были связаны многие ранние работы в психометрике. В этой идее воплощена следующая интерпретация измерения: существует мир истинных сущностей (истинных баллов), но этот мир непосредственно не
доступен нашим органам чувств. Так как нам доступны лишь наблюденные баллы, содержащие истинный и ошибочный компоненты, то
наша задача заключается в том, чтобы найти методические процедуры, позволяющие из измеренных баллов получать истинные значения.
Т.е. эта интерпретация требует процедуры автоматической идентификации истинного компонента наблюдений. Однако, как уже неоднократно говорилось, не существует механического способа выделения "истинного" компонента. П.Хоран формулирует это утверждение
следующим образом: "Хотя мы можем использовать методические
процедуры для идентификации систематических компонентов наблюдений, эти методы сами по себе не способны однозначно и недвусмысленно привязать эти систематические компоненты к какому-то
истинному значению или содержанию… Коротко говоря, платоновские истинные баллы, постулируемые этой теорией измерения, - это
метафизические сущности, которые не могут быть идентифицированы
на чисто эмпирической или методической почве" [151. Р.48г15
В отечественной литературе методологические проблемы перехода от теоретического
концепта к эмпирическому референту и обоснования социальных показателей детально анализируются в [7. С.60-142].
147
10
В качестве альтернативы этой интерпретации измерения в психометрике с конца 60-х годов постепенно формируется "конструктный" подход к измерению [172 ]. Конструкт - это результат операции
измерения, определяемый как ожидаемое значение конкретной совокупности наблюдаемых величин. Он, таким образом, обладает
всеми необходимыми статистическими свойствами и не требует
отсылок к метафизическим сущностям. Измерительные конструкты
- это эмпирические репрезентации теоретических понятий, определяющих процесс эмпирического исследования. Это определение,
дополненное теоретическими предположениями о характере отношений между наблюдаемыми баллами, конструктами и ошибками,
стало основанием для современного подхода к измерению в психометрике и теоретическим обоснованием для статистической оценки
ненаблюдаемых факторов и переменных. Как было показано П.Хораном [151 ], конструктный подход к измерению по сути очень
близок к социологической интерпретации моделей измерения (особенно, обобщенной модели структурных уравнений, о которой шла
речь ранее). Однако в литературе по моделям измерения в социологии до недавнего времени отсутствовало столь отчетливое разведение
очерченных двух подходов (что и порождало смешение структурных
моделей и моделей измерения). С точки зрения П.Хорана, причиной
этой путаницы была именно причинная интерпретация измерения,
предложенная с целью более глубокого содержательного понимания
процесса измерения, но в долговременной перспективе приведшая к
обратному эффекту [151. Р.56]. Поэтому от собственно причинной
интерпретации моделей измерения, порождающей многочисленные
философские и методологические проблемы, следует отказаться.
Этот отказ, однако, вовсе не подразумевает отказа от сложившейся
теории и практики построения моделей измерения. И тем более он
не означает отказа от используемых сейчас методов анализа ошибки
измерения, применение которых первоначально обосновывалось
именно причинной трактовкой измерения, так как формальный
аппарат этих методов был во многом заимствован из причинного
анализа, использовавшегося при построении структурных моделей.
В рамках конструктного подхода и "исследовательские переменные", и "ошибки" понимаются как теоретические конструкты. Т.е.,
исследовательская переменная - это результат применения совокупности теоретических предположений о смысле тех или иных наблюдаемых значений, а ошибка - "остаток" наблюдаемых значений
после вычленения их теоретически релевантной доли [151. Р.48].
Отсюда ясно, что оба эти реципрокных конструкта обусловлены и
организованы в согласии с теоретической спецификацией, содержащейся в модели измерения (и, значит, не являются эмпирическим
воплощением "истинных сущностей" или "истинных ошибок"). Конструкты измерения - это эмпирические представления теоретических
концептов, вводимых для интерпретации отношений эмпирического
мира.
Таким образом, за двумя описанными подходами к интерпретации измерения (двумя теориями измерения) стоят две следующие
148
трактовки: 1) измерение - это "зависимое от данных" обнаружение
переменных, рассматриваемых как "истинные" сущности; 2) измерение - это "зависимый от теории" процесс организации эмпирической информации, ведущий к представлению теоретических понятий
в эмпирических терминах, а формируемые в этом процессе переменные являются продуктом теоретической спецификации. Дальнейшее развитие второго, конструктного подхода к измерению связано с уточнением природы конструктов измерения и формулировкой
трехуровневой концепции измерения. В двухуровневой концепции
измерения все элементы должны относиться либо к теоретической,
Рис. 15. Три уровня измерения. Источник:
[151].
С - теоретический концепт; £е теоретически специфицированный эмпирический конструкт (£ - исследовательская
переменная, е - ошибка измерения); х. - эмпирический индикатор.
либо к эмпирической области, что делает невозможным существование элементов, относящихся (либо не относящихся) к обеим этим
областям. К.Бэйли и П.Хоран предложили трехуровневую концепцию измерения. С точки зрения этой концепции, любая модель измерения связывает теоретические концепты (1-й уровень) с эмпирически наблюдаемыми показателями (3-й уровень) посредством
конструктов (2-й уровень), организующих эмпирическую информацию согласно теоретическим критериям [77; 151 ]. Графической иллюстрацией этой концепции является рис. 15, на котором изображена идеализированная трехуровневая модель измерения.
Как уже говорилось, конструктами измерения являются и исследовательская переменная, и ошибка измерения. Так как эти конструкты находятся в реципрокных отношениях (в ошибку входит
"остаток" эмпирической информации после спецификации исследовательской переменной), можно для простоты дальнейшего обсуждения сосредоточиться на конструктах-переменных. Анализируя
преимущества трехуровневой модели измерения для предотвращения смешения структурных моделей и моделей измерения, П.Хоран
приводит широко известный пример из области исследований "социально-экономического статуса", неоднократно рассматривавшийся в
дискуссиях по проблемам измерения.
Одной из первых шкал измерения общего престижа профессий
была шкала Национального центра исследований общественного
мнения, исходный вариант которой был предложен С.Нортом и
П.Хаттом (NORS Prestige scale). Эта шкала основывалась на субъективных оценках конкретных профессий для репрезентативной
выборки населения США. Однако эта шкала не могла быть распространена на весь огромный список существующих профессий и
149
возникла необходимость в другой модели измерения для оценивания
профессий в социально-экономическом сводном индексе профессий,
который мог бы заменять (рейтинг. О.Дункан предложил такой
индекс (SEI,, основанный на уровне образования и дохода для
мужчин в профессиональных категориях национальной переписи.
При этом он подчеркивал, что SEI - это модель измерения, могущая
репродуцировать баллы NORC, а не структурная модель теории, описывающая, как "устроено" оценивание престижа. Однако, как отмечает П.Хоран, многие современные исследователи склонны воспринимать индекс социально-экономического статуса как некую
модель социальной структуры, и возникла целая полемика о том,
является ли индивидуальное оценивание престижа основанным на
восприятии социальных и экономических характеристик профессии
(см.: [151. Р.44-46]). Этой путанице между моделями измерения и
теории, по мнению П.Хорана, способствовало отсутствие четкого разграничения между теоретическими концептами, конструктами и индикаторами, вытекающее из двухуровневой модели измерения (теоретический концепт-индикатор). Вполне возможно, что теоретическая
модель, устанавливающая каузальную связь между восприятием
профессионального уровня образования и восприятием профессионального дохода, с одной стороны, и индивидуальным оцениванием профессий, с другой стороны, верна. Однако доказательство
этого не может быть получено из анализа модели измерения социально-экономического статуса.
На наш взгляд, самым существенным достоинством трехуровневой модели являются все же те возможности, которые она открывает
для прояснения проблемы "прямого" и "непрямого (косвенного)" измерения в социологии. На чем основано представление о возможности прямого измерения в социологии? Чтобы ответить на этот вопрос, можно вновь обратиться к статье Х.Блейлока, анализировавшейся в предыдущей главе [82 ]. В этой статье возможность прямого
измерения обосновывается тем, что существуют теоретические переменные, настолько близкие к операциональному уровню, что измерение может рассматриваться как прямое. Примером могут служить
переменная "возраст" и признак "пол" [82. Р. 19]. Автор, правда,
оговаривает, что предположение о прямом измерении этих свойств
не всегда верно и содержит долю упрощающей условности, но ни в
этой, ни в более поздних работах не дает общего определения оснований или условий, приводящих к такому упрощению. На самом
деле, как показано в работах К.Бэйли [77] и П.Хорана [151], основанием для утверждения о прямом характере измерения является
предположение о простом взаимооднозначном соответствии между
концептом теории и некоторым эмпирически наблюдаемым индикатором (этому предположению соответствует пунктирная связь "а" на
рис.15). Однако это упрощающее предположение само основано на
принимаемой "по общему согласию" и опирающейся на обыденное
знание теоретической спецификации того, что мы подразумеваем под
концептом "пол" или "возраст". Т.е. конструкт ( е ) , представляющий концепт "пол", например, имплицитно считается
150
ясным и очевидным здравому смыслу. Таким образом, понятие
"прямого" измерения предполагает, что в ситуации общего согласия и
интуитивной ясности опосредующее звено (конструкт) может быть
опущено в модели измерения. Однако на самом деле измерение
"пола" подразумевает разные эмпирические индикаторы в разных
случаях, и это различие индикаторов определяется разной теоретической спецификацией эмпирических конструктов. Для определения
гражданского пола достаточно прямого вопроса, для определения
пригодности к участию в женских соревнованиях по легкой
атлетике - визуального осмотра, для оценки маскулинностифемининности необходимы специальные психологические тесты, а
в оценке гормонального статуса - биохимические анализы. Следовательно, сам по себе теоретический концепт "пол" всегда подлежит
спецификации в конструкте измерения. Эта спецификация может
происходить неявно и основываться на здравом смысле, создавая
впечатление "прямоты", но может (и в идеале должна) быть эксплицирована, например, с учетом сложных моделей психосексуальной
дифференциации или других содержательных соображений. Аналогичные рассуждения могут быть проведены для признака "возраст". В
работе Ю.Н.Толстовой [51. С.41-42] пример с возрастом обсуждается в
контексте дискуссии о роли содержательных соображений при определении типа шкал в социологии (речь идет о недостаточности чисто
формального подхода, основанного на "физическом" способе получения данных). Детальное обсуждение последствий "наложения" двухуровневой интерпретации на трехуровневый процесс измерения содержится в работе К.Бэйли [77]. Типичным случаем такого слияния является игнорирование различий между теоретическими концептами и конструктами, репрезентирующими эти концепты в конкретном социологическом исследовании. Как отмечает П.Хоран, в работах
Х.Блейлока (например, [81. Р.55]) можно найти различение между
теоретическими понятиями (концептами), латентными переменными
(конструктами) и наблюдаемыми индикаторами. Однако это различение, не будучи закрепленным в трехуровневой модели измерения, не
смогло предотвратить двойственности в интерпретации моделей измерения в других работах. Эта двойственность и связанные с ней проблемы и приводили к интерпретации, наблюдаемых значений как
причинно обусловленных концептами теории, а "неявных переменных" - одновременно и как теоретических конструктов, и как невидимых сущностей, "производящих" эмпирические наблюдения.
Очень серьезным аргументом в пользу принятия моделирующего
подхода к измерению (не основанного на онтологическом постулате
каузальности) и представления о трехуровневой организации этого
процесса служит проделанный П.Хораном анализ проблемы измеряемых переменных в социологии. Следуя предложенному К.Лэндом разграничению, П.Хоран выделяет два типа неизмеряемых переменных.
Неизмеряемая переменная "типа-1" - это конструкт (специфицированный для теоретического понятия), имеющий один или несколько эмпирических индикаторов. Переменная этого типа опреде151
лена для моделей измерения и не требует постулирования собственно
причинных связей в модели. Например, в [214] предлагается моделирующий подход к анализу ошибки измерения, и неизмеряемые
переменные здесь - это переменные "типа-1". Неизмеряемая переменная "типа-2" используется в структурных моделях теории как
промежуточная, опосредующая причинные связи между измеряемыми переменными (т.е. речь идет о концептах теории). П.Хоран полагает, что использование каузальных репрезентаций и в структурных моделях, и в моделях измерения ведет к смешению описанных двух типов переменных. Это смешение не приводит к слишком
уж драматическим последствиям, пока "разные" неизмеряемые переменные не появляются в одном аналитическом контексте [151.
Р.53]. Однако эти проблемы возникают, как только разного типа
модели и разного типа переменные должны быть включены исследователем в единый анализ. Сталкиваясь с двумя разными ситуациями,
описанными одним термином, исследователь начинает трактовать
эти ситуации как взаимозаменяемые. С точки зрения П.Хорана,
особо изобилует примерами по необходимости совместного использования моделей измерения и структурных моделей и, соответственно, их смешения, литература по моделям типа MIMIC, т.е. моделям,
включающим множественные индикаторы и множественные причины. Широкое распространение прикладных программ типа LISREL
для многомерного анализа переменных делает особенно нежелательным сохранение неопределенности в трактовке процесса измерения
и типов неизмеряемых переменных, игнорирование различия между
структурными моделями и моделями измерения.
Дальнейшая разработка конструктного подхода к измерению и
трехуровневой модели процесса измерения, на наш взгляд, могла бы
открыть новые перспективы для более глубокого понимания проблем
надежности и валидности социологического измерения, которые пока
не получили удовлетворительного и бесспорного решения. Анализируя сегодняшнее состояние моделирующего подхода к измерению,
следует отметить и ту роль, которую он играет в прояснении философских проблем соотношения теории и конкретного социологического исследования, а также роли измерения как необходимой
составляющей теоретической спецификации, которая лежит в основании любого анализа эмпирических данных и, в конечном счете, в
создании внутри самой эмпирической социологии такой интеллектуальной атмосферы, которая (если воспользоваться выражением
П.Хорана) может сделать ее "неэмпиристской без того, чтобы стать
антиэмпирической" [151. Р.57].
ВМЕСТО ЗАКЛЮЧЕНИЯ:
О РАДИКАЛЬНОЙ КРИТИКЕ
"КОЛИЧЕСТВЕННЫХ" ПРОЦЕДУР В СОЦИОЛОГИИ 1
Промежуточный жанр этой книги - нечто вроде симбиоза краткого
курса истории и критико-аналитического обзора - имеет и множество
недостатков, и одно явное преимущество: возникает возможность уйти
от "закономерностей" исторического развития и прогрессивных методологических рекомендаций. С некоторой долей уверенности можно
принять лишь общий вывод: диагностические измерительные процедуры в социологии не имеют абсолютного обоснования и полных эпистемологических гарантий, так как их достоверность существенным
образом зависит от достоверности содержательных теоретических
представлений, которые явно или неявно принимаются социологами.
Однако же число таких теоретических перспектив - и, соответственно, число возможных и существенных для измерения "онтологических" допущений - небезгранично и в большинстве случаев можно
указать на локально обоснованную совокупность процедур и критериев качества, которая дисциплинирует рациональное эмпирическое
исследование относительно данной теоретической перспективы. Частным случаем такой совокупности диагностических процедур и критериев является использование причинных моделей измерения, так
как последние в принципе применимы ко всем социологическим теориям, допускающим структурную детерминацию социального действия. В некоторых теоретических перспективах - например, во вдохновляемых феноменологическим подходом - эта "возможность методологии" остается в основном неосуществленной. Причины часто заключаются в принципиальных трудностях, создаваемых особенностями "образа" социального мира, который принимается внутри данной
ориентации: так, принятие последовательно волюнтаристского понимания социального действия по совести должно вести к солипсизму.
Немаловажны и исторические обстоятельства институционального закрепления социологических "школ мышления", часто обострявшие
содержательные расхождения во взглядах. Поиски своей "диагностической процедуры" идут, тем не менее, почти повсеместно: и в критической социологии, и в этнометодологии, и в феминистской теории.
Эти поиски нередко описываются как некая единая традиция "качественной методологии", противопоставляемая традиции "количественной методологии". Ценность многих результатов, полученных в
" качественной" социологии в последние годы, несомненна, и мы надеемся, что отечественный читатель сможет в ближайшее время саВ данном разделе использованы материалы статьи "Qv Q-проблема: опыт социологического анализа дилеммы "качественного" и количественного" подходов в социологии" ,
написанной в соавторстве с Г.С.Батыгиным (в печати).
153
мостоятельно в этом убедиться. Ценность же самого мнимо-очевидного противопоставления качественных и количественных методов
в социальных науках далеко не бесспорна. Вспыхивающая время от
времени дискуссия о качественной и количественной методологиях
("Q v Q" -дискуссия) едва ли решает исследовательские проблемы
внутри какой-либо из существующих теоретических перспектив. Основной мишенью для самой радикальной критики, позволяющей
к тому же сконструировать некую "групповую солидарность" сторонников качественных подходов, является "количественная" диагностическая процедура в социологии. Предыдущее изложение, как
нам кажется, показывает, что никакой единой и неделимой " количественной" диагностической процедуры в социологии никогда не
существовало. Остается лишь сказать несколько слов о продуктивности и обоснованности самого противопоставления "количественного" и " качественного" и о сопутствующей ему радикальной критике
"позитивистских" методов.
Дилемма качественное - количественное находится в самом центре грандиозной эпистемологической кучи и, по мнению многих,
является самым современным и модным ее компонентом. Даже
попытка строгого описания этой дилеммы повлечет за собой необходимость расчленения и описания других "слоев" или ракурсов,
имеющих уже устоявшуюся дурную репутацию. Здесь достаточно
упомянуть лишь некоторые из них: научный подход и другие
подходы к знанию, позитивистская и гуманистическая модели социального знания, единство-различие метода естественных и социальных наук, значимость эмпирического обоснования социологии versus
дискурсивный, конвенциональный характер социологического познания и т.п.
Каждый из названных ракурсов или "слоев" может быть описан
как аналитически самостоятельная смысловая оппозиция. Нередко
участники методологических дискуссий, не затрудняясь аналитическим разграничением возможных смыслов, выбирают не отдельные
позиции, а, образно говоря, стороны этой эпистемологической кучи.
Соблазн тут достаточно велик, так как некоторые из позиций действительно связаны между собой не только исторически, но и идейно. Скажем, по "левую" (условно) сторону кучи обычно лежат и
антинатурализм, и методологический релятивизм, и недоверие к
объективности как таковой и объективности эмпирического доказательства в частности. Здесь, "слева", часто располагаются лагерем
и наиболее "теоретические" марксисты (типа Л.Альтюсера), и феминистские критики традиционной социологической методологии, и
этнометодологи. Своих оппонентов, оказавшихся "справа" от воображаемой разграничительной линии, они нередко списком зачисляют в "позитивисты". Впрочем, теперь уже признано, что слово "позитивизм" не имеет ни однозначно определенного смысла, ни замкнутого множества эмпирических референтов (см., например:
[139]) и значительно чаще используются "эмпиризм" или "мужской
шовинизм", еще не вполне утратившие строго терминологическое
значение.
На первый взгляд, общей платформой "левого" лагеря является
некий антисциентистский импульс, однако и сам антисциентизм
скрывает в себе возможность дальнейших аналитических разграничений: антисциентизм этнометодологов скорее основан на идеях
интерсубъективности и зависимости социального знания от контекста, т.е. в интересующем нас аспекте может рассматриваться в качестве одной из версий эпистемологического релятивизма (если не
нигилизма). Марксистская же теория и близкие ей версии структурализма строят критику науки и научного истеблишмента на идее
неразделимости знания, интереса и власти (хотя некоторые из теоретиков принимают заодно и тезис о дискурсивной природе теории).
Феминистская критика социальной науки также охотно использует идею воспроизводства сложившихся властных отношений при
получении и распределении знания, в результате чего сам доступ к
познавательным ресурсам представляется структурированным и организованным в интересах сохранения мужского господства в науке.
Однако феминистская методология менее восприимчива к глубинным эпистемологическим постулатам теоретического марксизма,
касающимся обманчивой, "фантомной" природы эмпирически наблюдаемых социальных факторов, за которыми кроются истинные
механизмы событий: классовые интересы марксистов или даже
структуры К.Леви-Стросса. Феминистская методология, таким образом, лишь ставит под сомнение объективность "мужской" интерпретации общества и преимущественное право патриархов означивать,
классифицировать и интерпретировать объективные эмпирические
данные, не посягая на саму идею объективности и эпистемический
статус наблюдаемой реальности. Поэтому в работах, выполненных в
феминистской традиции, наряду с критикой сексизма в официальной
статистике (см., например: [192]) часто присутствует и вполне
обычная статистическая аргументация, почти немыслимая в структуралистских эссе. Вместе с тем, феминистское теоретизирование в
социальных науках нередко опирается на наследие понимающей
социологии, и здесь оно ближе к этнометодологии. Именно убежденность феминистских теоретиков в существенности качественного
понимания социальных явлений (Verstehen), дополненная гуманистическим идеалом и импульсом освобождения от "нормальной",
устоявшейся социальной структуры, приводит их в лагерь качественной методологии. Однако отмеченная выше умеренность критики
научного познания со стороны феминистской теории препятствует
принятию самых радикальных позиций в спорах о качественном и
количественном, происходящих уже "на территории" философии
науки, - например, в битве натурализма и антинатурализма, в
которой больше всего шансов у третьей стороны, "денатурализованного" эмпиризма в духе Куайна.
Все эти запутанные обстоятельства с неумолимостью физического
закона ведут к появлению "химер", ломающих любые аналитические и пространственные ("лево - право") разметки упомянутой
кучи. Примером такой "химеры" может служить, скажем, компью-
154
155
терная программа для обработки результатов качественных, этнографически ориентированных феминистских эмпирических исследований. Эта программа называется "Nudisf и имеет достаточно серьезное методологическое обоснование [204 ].
Излишне говорить, что в "правый" угол кучи часто попадают не
менее разнородные квазисоюзники, позиции которых в некоторых
существенных отношениях далеки, отвечают на совершенно разные
вопросы и даже противоположны. Ограничимся лишь одним примером. Скажем, и для "жестких" социологических методологов, преимущественно американцев, и для занимающихся метатеорией реалистов (Р.Бхаскар, Р.Харре) большая часть критики "слева" - это
идеологическая оппозиция самой науке как рациональному предприятию2. Однако в том "слое" кучи, где расположены традиционные
дилеммы философии науки, единство "жесткой" методологии и реализма оказывается проблематичным.
Представления большинства "жестких" социологических методологов распределены (очень приблизительно) вдоль континуума "логический позитивизм - критический реализм - эволюционная эпистемология". Изрядная часть "жестких" методологов полагает, что единство метода различных наук обеспечивается так или иначе существенной ролью эмпирического подтверждения научной теории. Как
уже говорилось (см. главу IV данной работы), реализм строит защиту
научного метода на постпозитивистстком образе научного исследования, переопределяющем природу самой науки. А именно, реалисты
отвергают позитивистское убеждение в решающей роли эмпирических наблюдений, в примате, так сказать, языка наблюдений, позволяющих проверить утверждения науки. Однако же они не отрицают
ни само существование эмпирически наблюдаемого мира, ни значимость для теории неких "наблюдаемых фактов". Разумеется, для реализма - как и для любой философии науки, возникшей после логического позитивизма, - не существует никаких "чистых сенсорных
данных" и всякое наблюдение является теоретически-нагруженным.
Реализм не доходит до полной релятивизации фундамента науки и,
конечно, не заявляет, что все "наблюдаемые факты" полностью определяются теориями или, того пуще, ценностями и интересами исследователя. Как и некоторые другие теоретические перспективы
постпозитивистской эпохи, реализм склоняется к идее "сетевой структуры теоретических понятий" (определяемых взаимно) и к модели
относительно эмпирического подтверждения, т.е. подтверждения теоретических гипотез относительно совокупности других теоретических гипотез. Этой ценой реализму удается спасти не только идеал
научности, но и тезис единства метода (Р.Бхаскар). Разумеется, реалистская картина того, "что на самом деле делают ученые", радикально отличается от логико-позитивистской. Не обсуждая здесь детали этой картины, отметим лишь тот существенный для нас факт,
что в центре ее оказываются онтологические "порождающие механизмы", ответственные за многообразие эмпирически наблюдаемого.
Определенная теоретическая модель действия порождающего механизма организует сам язык наблюдения, создавая условия для того,
чтобы " эмпирические факты" либо " наблюдаемые регулярности"
случались (или не случались). Сказанного достаточно, чтобы
читатель заметил и оценил удивительное сходство реалистской и
марксистской " онтологии": в обоих случаях истинные механизмы
социальной реальности скрыты за фасадом видимого и вполне логично, например, трактовать классовые интересы "в себе" как генеративные механизмы любых конфликтов3. Поэтому самые сильные
аргументы, используемые при критике социологического анализа
переменных (в духе Лазарсфельда), в неомарксистской критической
социологии и в реалистской перспективе практически совпадают
(сравним, например, [66] и [196]).
Таким образом, дискуссия о "качественной" и "количественной"
методологиях не может быть даже понята и исторически верно реконструирована без отсылок к контекстам, интересам и идеологиям.
Именно поэтому она не может быть разрешена в каком-либо строгом
смысле. Известный британский социолог, неоднократно писавший и
о качественных методах, пришел к выводу, к которому мы приходим только сейчас, значительно более коротким путем:"... проблема с модами (интеллектуальными) заключается в том, что они
часто прямо противоположны критическому мышлению: "линия партии" куда легче сочетается с выкрикиванием лозунгов, чем с подлинной работой. Сообщение, которое я вывожу из этого наблюдения, заключается в том, что полярности, на которых базируется различие
"качественное - количественное", должны быть (используя модный
термин) деконструированы" [215. Р.58 ]. Иначе говоря, следует понять, почему различные исследовательские "практики" в некоторых
случаях тематизируются как "качественные" либо "количественные". Почему какие-то, зачастую весьма старые, дилеммы социологии
или социологические перспективы - например, "структура" и "действие" либо " социальная наука" и " социальная политика" - вновь
используются как аргументы и альтернативы в " Q v Q" -дискуссии? Почему, наконец, нам следует выбирать между "количественным" и "качественным", как если бы это был действительный выбор
между действительно различными возможностями?
Мы не станем здесь ворошить всю историю социологии в поиске
ответов: важно знать, что ответы находятся именно там. Какие-то
темы все же нужно выявить. Во-первых, в полном соответствии с
labelling theory нынешние сторонники качественной методологии,
т.е. социологи, называющие себя так и/или принимаемые за
таковых коллегами, безусловно сделали первый ход, ибо именно они
ввели в социологический язык саму классификацию и начали последовательные попытки определить ее критерии, чтобы выявить аутсайдеров.
157
156
3
2
Эта оценка обычно не распространяется на феноменологическую критику.
Здесь с реалистами и марксистами соседствуют другие почтенные" онтологии" психоанализ с идеями "симптомов", "сил" и "истолкования" и даже платоновская теория знания, совсем не метафорически описывающая земную судьбу" эйдосов".
Фундаментом этих попыток стала критика количественных подходов, содержащаяся в классических текстах современной качественной традиции (см., в частности: [108; 208; 141; 223]). Концепция качественной методологии, которая может быть воссоздана из этих
действительно блестящих книг, относительно стройна в том, что
касается "онтологии" социального. (Впрочем, и теоретические перспективы могут различаться. Книга А.Сикьюрела, например, ближе
к традиции, восходящей к А.Шюцу, тогда как Х.Шварц и Дж.Джейкобс основываются на идеях Г.Зиммеля.) Куда менее согласованы собственно методологические взгляды. Здесь само понятие качественной методологии утрачивает определенность, простираясь от
этнометодологии как теории и практики до строго определяемого
этнографического метода "включенного наблюдения", возводимого
к культурной антропологии и Чикагской школе. Поиск же общего и
различного во взглядах качественных методологов на то, что собственно является "демаркационной линией" для качественной методологии, ведет именно к той эпистемологической куче, о которой мы
уже говорили. Вместо того, чтобы снова разбираться в том, все ли
качественные методологи верят (или должны верить) в Verstehen и
интеллектуальную эмпатию/любовь к угнетенным, продуктивнее
обратиться к историческому анекдоту.
Известно, что одним из отцов-основателей этнографического
метода был польский антрополог Бронислав Малиновский. В сумятице первой мировой войны он был выслан в тихоокеанские колонии
и позднее опубликовал несколько классических монографий о жителях Тробриандовых островов. Многие антропологи и социологи полагали, что труды Малиновского - великолепная иллюстрация метода полевой работы, основанного на эмпатическом вживании в
смыслы и ценности иной культуры. Публикация личного дневника
Малиновского (1967) стала настоящим ударом для профессионального сообщества. Этот не предназначавшийся для широкой аудитории документ изобличал в Малиновском крайне эгоцентричного
невротика, занятого исключительно собой и не только не уважавшего
тробриандцев, но и не испытывавшего к ним никакой симпатии.
Нельзя не согласиться с Дж.Кёрком и М.Миллером, полагающими,
что: "Это разоблачение компрометирует не достоверность или качество профессиональных достижений Малиновского, а миф о том, что
хорошее полевое исследование возникает из святого сочувствия выдающихся знатоков человечества" [157. Р.37]4 .
Конечно, многие проблемы, обсуждаемые в серьезных работах,
посвященных использованию этнографического метода "включенного наблюдения" или биографического метода, вполне реальны (см.,
например: [141; 170 ]). Но проблемы эти равно существенны и для
158
4
Заметим здесь, что наш пример раскрывает близость, если не тождество," Q v Q" дискуссии в социологии и противопоставления" эмика - этика" в культурной антропологии. В последнем случае" эмическое" отождествляется с описанием культуры" глазами туземца", а "этическое" - с" навязанным" исследователем описанием. Блестящий сопоставительный анализ этих двух псевдодискуссий, восходящий к идеям
Куайна и Витгенштейна, можно найти в работе [128].
тех, кого принято называть "количественными методологами". Отдавая должное влиянию феноменологической и марксистской критики на развитие количественных методов в социологии последних
четырех десятилетий, мы все же хотим заметить, что история становления социологического измерения содержит много доказательств систематического и часто плодотворного интереса" позитивистов" к проблемам рефлексивности, значения, культурного
контекста и определяющей роли теории.
Чем более корректно определяется "позитивистская методология"
в текстах, так или иначе посвященных качественным методам,
тем очевиднее фантомность этого понятия. Позитивистскую методологию обычно обвиняют в игнорировании "естественно случающихся" данных и преимущественном интересе к стандартным опросам и
официальной статистике. Еще один видовой признак "позитивизма"
заключается в использовании модели объяснения, подменяющей
поиск логических или причинных связей статистическим выводом
и корреляциями (ср., например: [181 ]). Соответственно, валидность
"позитивистских" исследований основана на статистическом методе
и понятии репрезентативности, тогда как качественный подход связывает свое понимание валидности исследования с обоснованностью
его теоретической базы.
Но так ли непроблематичны естественность и чистота "естественных" данных? Даже классический образец "включенного наблюдения" - книга Уильяма Фута Уайта о жизни бедных итальянских
кварталов "Street Corner Society" - не содержит никаких очевидных
гарантий от возможных "смещений", связанных с присутствием
автора. Сведения о структуре взаимодействия в уличной шайке, полученные Уайтом, во многом основаны на личном, взаимообогащающем и скрепленном разными мелкими услугами общении автора
с Доком и его ребятами (что неоднократно подчеркивается и в книге
Уайта). В литературе показано, что "Street Corner Society" и другие
аналогичные работы по своему стилю и содержанию следовали не
научным канонам, а жанру "социальной публицистики". Разумеется, это не доказательство "нищеты этнографизма". Но это явное
подтверждение общности проблем по обе стороны методологической
границы. Вполне очевиден и "сконструированный" характер обвинений, касающихся одержимости количественных методологов сугубо техническими проблемами и статистическими процедурами. Даже
концептуализация понятия валидности у современных "позитивистов" явно исходит из идеи проверки модели измерения, выводимой
из содержательной социологической теории.
Социологи часто сталкиваются с проблемами и дилеммами, которые являются или считаются методологическими. Например, проблема может осознаваться как противоречие между сухостью теории и
богатством жизненного опыта. В иных случаях трудно примирить
желание объяснить мир со стремлением его преобразовать. Бывает и
так, что зыбкими кажутся даже коренящиеся в нерефлектируемом
обыденном знании "объективность", "рациональность" и даже "эмпирическая наблюдаемость". Некоторые из этих и прочих проблем
159
существенны и в определенных исторических и смысловых контекстах почти неразделимы. Другие же
возникают под влиянием дурной метафизики и требуют лингвистического анализа. Но в свете
всего вышеизложенного нам представляется бессмысленным рассматривать все эти проблемы
как следствия или проявле ния одного фундаментального " количественно-качественного" противоречия. "Q v Q''-дискуссия может способствовать разрешению этих проблем ровно в той же мере, как и дискуссия о "физиках и лириках". Имея смысл в каких-то строго очерченных границах,
такого рода диспуты вырождаются в идеологическую и политическую склоку "групп интересов" в тот
самый момент, когда полюса смысловой оппозиции глобализуются и превращаются в боевые кличи
сторон.
Наука же продолжает следовать своим путем, обозначенным диагностической процедурой.
160
ЛИТЕРАТУРА
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
33
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
44.
45.
Аванесов B.C. Тесты в социологическом исследовании. М.: Наука, 1982.
Анастази А. Психологическое тестирование. Кн.1. М.: Педагогика, 1982.
Андреева Г.М. Современная буржуазная эмпирическая социология. М.: Мысль, 1965.
Андреева Г.М. Социальная психология. М.: Изд-во МГУ, 1990.
АндрееваГ.М., БогомоловаН.Н., ПетровскаяЛ.А. Современная социальная психология на Западе. М.: Изд-во МГУ, 1978.
Андреенков В.Г., Маслова О.М. Эмпирический базис социологической науки // Социол. исслед., 1987. N 6. С.111-117.
Батыгин Г.С. Обоснование научного вывода в прикладной социологии. М.: Наука, 1986.
Батыгин Г.С. Ремесло Пауля Лазарсфельда (введение в научную биографию) // Вестник Академии наук СССР, 1990. N 8. С.94-108.
Берка К. Измерения: Понятия, теории, проблемы. М.: Прогресс, 1987.
Бешелев С.Д., Гурвич Ф.Г. Математико-статистические методы экспертных оценок. М.: Статистика, 1974.
Благуш П. Факторный анализ с обобщениями. М.: Финансы и статистика, 1989.
Блейлок X. Косвенное измерение в социальных исследованиях // Математика в социологии: Моделирование и обработка информации / Под ред. А.Аганбегяна,
Х.Блейлока и др. М.: Мир, 1977. С.282-300.
Богомолов А.С. Буржуазная философия США XX века. М.: Мысль, 1974.
Войтко В.И., Гильбух Ю.З. О некоторых основных понятиях психодиагностики // Вопр. психологии, 1976. N 4. С.16-30.
Воловня В.И. Надежность информации в социологическом исследовании. Киев: Наукова думка, 1974.
Воронов Ю.П. Методы сбора информации в социологическом исследовании. М.: Статистика, 1974.
Вудвортс Р., Шлосбере Г. Психофизика II. Методы шкалирования // Проблемы и методы психофизики / Под ред. А.Г.Асмолова и М.Б.Михалевской. М.: Изд-во МГУ,
1974. 4.1. С.174-228.
Гильбух Ю.З. Актуальные проблемы валидации психологических тестов // Вопр. психологии, 1978. N5. С.108-118.
Глосс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976.
Голофаст Б.Б. Соотношение концептуальной и инструментальной характеристик знания в социологическом исследовании // Логика социологического исследования / Отв. ред.
Г.В.Осипов. М.: Наука, 1987.
Грин Б.Ф. Измерение установки // Математические методы в современной буржуазной социологии / Под ред. Г.В.Осипова. М.: Прогресс, 1966. С.227-287.
Гутман Л. Основы шкалограммного анализа // Математические методы в современной буржуазной социологии. М.: Прогресс, 1966. С.288-343.
Докторов Б.З. О надежности измерения в социологических исследованиях. Л.: Наука, 1979.
Дэйвисон М. Многомерное шкалирование: Методы наглядного представления данных. М.: Финансы и статистика, 1988.
Елисеева И.И, Рукавишников В.О. Логика прикладного статистического анализа. М.: Финансы и статистика, 1982.
Жуков Ю.М. Применение шкалирования в социально-психологических исследованиях // Методология и методы социальной психологии. М.: Наука, 1977. С.126-135. стория буржуазной
социологии первой половины ХХ века. М.: Наука, 1979. Гл.1.С.5-78.
КетлеА. Социальная физика или опыт исследования о развитии человеческих способностей. Киев, 1911-1913. Т. 1,2.
Клигер С.А. Измерительные процедуры в социологическом исследовании: Автореф. дис. М., 1975.
Клигер С.А., Косолапое М.С., Толстова Ю.Н. Шкалирование при сборе и анализе социологической информации. М.: Наука, 1978.
Кэмпбелл Д.Т. Модели экспериментов в социальной психологии и прикладных исследованиях. М.: Прогресс, 1980.
Лазарсфельд Пол Ф. Измерение в социологии // Американская социология: Перспективы, проблемы, методы. М.: Прогресс, 1972. С.143-149.
Математические методы в социальных науках / Пер. с англ. М.: Прогресс, 1973.
Методы сбора информации в социологических исследованиях. Кн. 1-2 / Отв. ред. В.Г.Андреенков, О.М.Маслова. М.: Наука, 1990.
Моин В.Б. Две стратегии измерения // Социологические исследования. 1989. N 6. С.112-119.
Общая психодиагностика / Под ред. А.А.Бодалева, В.В.Столина. М.: Изд-во МГУ, 1987.
Осипов Г.В., Андреев Э.П. Методы измерения в социологии. М.: Наука, 1977.
Паниотто В.И. Качество социологической информации. Киев: Наукова думка, 1986.
Пирсон К. Наука и обязанности гражданина. Пер. с англ. К.А.Тимирязева. 2-е изд. М.: Лит. изд. отдел Наркомпроса, 1918.
Поппер К. Логика и рост научного знания. М.: Прогресс, 1983.
Процесс социального исследования / Пер. с нем. Под ред. Ю.Е.Волкова. М.: Прогресс, 1975.
Пфанцагль И. Теория измерений. М.: Мир, 1976.
Пэнто Р., Гравитц М. Методы социальных наук. М.: Прогресс, 1972. С.197-522.
Рабочая книга социолога. 2-е изд. М.: Наука, 1983.
СаганенкоГ.И. Надежность результатов социологического исследования. Л.: Наука, 1983.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
69.
70.
71.
72.
73.
74.
75.
76.
77.
78.
79.
80.
81.
82.
83.
84.
85.
86.
87.
Современная зарубежная социальная психология / Редакторы-составители Г.М.Андреева, Н.Н.Богомолова, Л.А.Петровская. М.: Изд-во МГУ. С.162-163.
Стивене С. Математика, измерение и психофизика // Экспериментальная психология / Под ред. П.К.Анохина, В.А.Артемова. T.1. M.: Иностр. лит-ра, 1960. С.19-92.
Стивене С.С. О психофизическом законе // Проблемы и методы психофизики /Под ред. А.Г.Асмолова, М.Б.Михалевской. М.: Изд-во МГУ, 1974. С.56-102.
Суппес П., Зинес Дж. Основы теории измерений // Психологические измерения. М.:Мир, 1967. С.9-110.
Типология и классификация в социологических исследованиях / Отв. ред. В.Г.Андреенков, Ю.Н.Толстова. М.: Наука, 1982.
Толстова Ю.Н. Математика в социологии: элементарное введение в круг основных понятий (измерение, статистические закономерности, принципы анализа данных): Методическое
пособие. АН СССР. Ин-т социологии, М., 1990.
Факторный, дискриминантный и кластерный анализ / Пер. с англ. Под ред. И.С.Енюкова. М.: Финансы и статистика, 1989. С.5-77.
Хейс Д. Причинный анализ в статистических исследованиях. М.: Финансы и статистика, 1981.
Чесноков С.В. Основы гуманитарных измерений: Препринт. М.: Всесоюзный научно-исследовательский институт системных исследований, 1986.
Швырев B.C. Теоретическое и эмпирическое в научном познании. М.: Наука, 1978.
Шихирев П.Н. Исследования социальной установки в США // Вопр. философии. 1973. N2. С.159-166.
Шихирев П.Н. Современная социальная психология в США. М.: Наука, 1979.
Шмелев А.Г. Традиционная психометрика и экспериментальная психосемантика: объективная и субъективная парадигмы анализа данных // Вопр. психологии. 1982. N 5. С.36-46.
Шмелев А.Г. Введение в экспериментальную психосемантику. М.: Изд-во МГУ, 1983.
Экман Г., Кюннапас Т. Шкалирование эстетических оценок "прямыми" и "косвенными" методами // Семиотика и искусствометрия. М.: Мир, 1972. С.267-277.
Эфрон Б. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988.
Ядов В.А. О диспозиционной регуляции социального поведения личности // Методологические проблемы социальной психологии. М.: Наука. С.85-105.
Ядов В.А. Социологическое исследование: методология, программа, методы. М.: Наука, 1987.
Abrams Ph. The Origins of British Sociology: An Essay with Selected PaPers. Chicago -London: University of Chicago Press, 1968.
Adler F. OPerational Definitions in Sociology // Am. Journ. of Soc. 1947. Vol. 52. N 4. P. 438-444.
Adorno Th. W. Sociology and EmPirical Research // Critical Sociology: Selected Reading / Ed. by P. Connerton. N.Y.: Penguin Books, 1976, P. 225-236.
Adorno Т., Frenkel-BrunswickE., LevinsonD., and R. Nevitt Sanford. The Authoritarian Personality. N.Y.: HarPer, 1950.
AllPort F.H. The GrouP Fallacy in Relation to Social Science // Am. Journ. of Soc. 1923-1924. Vol. 29. N 6. P. 688-703. Bogardus E.S. Discussion // Ibid. P. 703-704.
AllPort F.H., Hartman D.A. The Measurement and Motivation of AtyPical OPinion in a Certain GrouP // Am. Polit. Sc. Rev. 1925. Vol. 19. N 4. P. 753-760.
AllPort G.W. Attitudes // Handbook of Social Psychology / Ed. by C. Murchison. Worcester: Clark University Press, 1935, P. 798-884.
AllPort G.W. The Nature of Prejudice. Reading, Mass.: Addison-Wesley Publ. Сотр., 1954.
Althauser R.P., Heberlein T.A. Validity and the Multitrait-Multimethod Matrix // Sociological Methodology 1970 / Ed. by E.F. Borgatta, G.W. Bohrnstedt. San Francisco: Jossey-Bass, 1970, P.
151-169.
Althauser R.P., Scott R.A. A Causal Assessment of Validity: the Augmented Multitrait-Multimethod Matrix // Causal Models in the Social Sciences / Ed. by H.M. Blalock. Chicago: Aldine, 1971, P.
374-399.
Anderson M.J. The American Census: A Social History. New Haven - London: Yale University Press, 1988.
Assadi Bahrain. Social Construction of Knowledge in American Sociology: A Content Analysys of ASR. 1936-1983 // Dissertation Abstracts International: The Humanities and Social Sciences. 1989.
Vol. 49. N 9. P. 2837-A.
Attitude Measurement / Ed. by G.F. Summers. Chicago : Rand McNally, 1970.
Bailey K.A. Three-Level Measurement Model // Quality and Quantity. 1984. Vol. 18. N 2. P. 225-245.
Bailey K.A. A PhilosoPhical Foundations of Sociological Measurement: A Note on the Three-Level Model // Quality and Quantity. 1986. Vol. 20. N 3. P. 327-333.
Berelson В., Steiner G.A. An Inventory of Scientific Findings. New York: Burlingame, Harcourt, Brace & World, 1964.
Blalock H.M. (Jr.) Causal Inferences in NonexPerimental Research. ChaPel Hill: University of North Carolina Press, 1964.
Blalock H.M. Making Causal Inferences for Unmeasured Variables from Correlations among Indicators // Am. Journ. of Soc. 1963. Vol. 69. N 1. P. 53-62.
Blalock H.M. The Measurement Problem: A GaP between Languages of Theory and Research / / Methodology in Social Research / Ed. by H.M. Blalock. New York: McGrow Hill, 1968, P. 5-27.
Blalock H.M. MultiPle Indicators and the Causal APProach to Measurement Error // Am. Journ. of Soc. 1969. Vol. 75. N 2. P. 264-272.
Blalock H.M. Theory Constructoin: From Verbal to Mathematical Formulations. Englewood Cliffs, NJ: Prentice-Hall, 1969.
Blalock H.M. Estimating Measurement Error Using MultiPle Indicators and Several Points in Time // Am. Soc. Rev. 1970. Vol. 35. N 1. P. 101-111.
Blalock H.M. The FormaliPation of Sociological Theory // Theoretical Sociology: Perspectives and Developments / Ed. by J. McKinney, E.A. Tiryakian. New York: APPleton - Century-Crofts, 1970,
P. 271-300.
Blalock H.M. ConcePtualiPation and Measurement in the Social Sciences. Beverley Hills: Sage Publ., 1982.
88. Blalock H.M. Basic Dilemmas in the Social Sciences. Beverley Hills: Sage Publ., 1984.
89. Blalock H.M. The Real and Unrealised Contributions of Quantitative Sociology // Am. Soc. Rev. 1989. Vol. 54. N 3. P. 447-460.
90. Bogardus E.S. Measuring Social Distance // Journ. of APPl. Soc. 1925. Vol. 9 (MarchaPril). P. 299-308.
91. Bogardus E.S. Immigration and Race Attitudes. Boston: D.C. Heath, 1928.
92. BogardusE.S. A Social Distance Scale// Sociology and Social Research. 1932-1933. Vol.17. P. 265-271.
93. Bohrstedt G.W. Reliability and Validity Assessment in Attitude Measurement // Attitude Measurement. Chicago: Rand McNally, 1970.
94. Bollen K.A. Structural Equations with Latent Vaviables. New York: Wiley, 1989.
97 Bollen K., Lennox R. Conventional Wisdom on Measurement A Structural Equation PersPective // Psych. Bull. 1991. Vol. 110. N 2. P. 305-314.
98. Bonjean Ch. M.» HUIR.J., McLemore S. Dale. Sociological Measurement: An Inventory of Scales and Indices. San Francisco: Chandler, 1967.
99. Boring E. G. The Beginning and Growth of Measurement in Psychology / / ISIS. 1961. Vol. 52. N 168. P. 238-257.
100. Buhner M. Quantification and Chicago Social Science in 1920s: ANeglected Tradition // Journ. of the Hist, of the Behav. Sc. 1981. Vol. 17. N 3. P. 312-331.
101. Bulmer M., Bulmer J. PhilantroPy and Socail Science in 1920s: Beardsley Ruml and the Laura SPelmanRockfeller Memorial, 1922-29 // Minerva. 1981. Vol. 19. N 3. P. 347-407.
102. Bulmer M. The Chicago School of Sociology: InstitutionaliPation, Diversity and the Rise of Sociological Research. Chicago-London: University of Chicago Press, 1984.
103. Bulmer M, The Decline of the Social Survey Movement and the Rise of American EmPirical Sociology //The Social Survey in Historical PersPective, 1880-1940 / Ed. by M. Bulmer,
K. Bales, and K.Kish Sklar. Cambridge: Cambridge University Press, 1992, P. 340-358.
104. Cahalan D. Correlates of ResPondent Accuracy in the Denver Validity Study // Publ. OPin. Quart. 1968-69. Vol. 32. N 4. P. 607-621.
105. CamPbell A., Gurin G., Miller W.E. The Voter Desides. Evanston, Ml.: Row, Peterson, 1954.
106. CamPbell D.T., Fiske D.W. Convergent and Discriminant Validation by the Multitrait Multimethod Matrix // Psychol. Bull. 1959. Vol. 56. N 1. P. 81-105.
107. Churchman C.W. Why Measure? //Measurement: Definitions and Theories / Ed. By C.W. Churchman, P. Ratoosh. N.Y.: Wiley, 1959, P. 83-94.
108. Cicourel A. V. Method and Measurement in Sociology. N.Y.: Free Press, 1964.
109. Converse J.M. Survey Research in the United States: Roots and Emergence, 1890-1960. Berkley: University of California Press, 1987.
110. Coombs C.H. Theory and Methods of Social Measurement // Research Methods in the Bahavioral Sciences / Ed. by Festinger L., KatP D. N.Y.: Dryden Press, 1953.
111. Coombs C.H. A Theory of Data. N.Y.: Wiley, 1964.
112. Coombs C.H., Dawes R.M., Tversky A. Mathematical Psychology: An Elementary Introduction. Englewood Cliffs: Prentice-Hall, 1970.
113. CostoerH.P. Theory, Deduction and Rules of CorresPondence// Am. Journ. of Soc. 1969. Vol. 75. N 2. P. 245-263.
114. Cronbach L.J. Essentials of Psychological Testing. 3rd ed. N.Y.: HarPer & Row, 1970.
115. Cronbach L.J., Meehl P.E. Construct Validity in Psychological Tests // Psychol. Bull. 1955. Vol. 52. N 3. P. 281-302.
116. Curtis RF., Jackson E.F. MultiPle Indicators in Survey Research // Am. Journ. of Soc. 1968. Vol. 68. N 2. P. 195-204.
117. Dawes R.M. Fundamentals of Attitude Measurement. N.Y.: Wiley, 1972.
118. DenPin N. The Research Act in Sociology. L.: Butterfleld, 1970.
119. Duncan O.D. A Socio-Economic Index for All OccuPations // OccuPations and Social Status / Ed. by A. Reiss. N.Y.: Free Press, 1961. P. 109-161.
120. Duncan O.D., Duncan B. A Methodological Analisis of Segregation Indices // Am. Soc. Rev. 1955. Vol. 20. N 2. P. 210-217.
121. Duncan O.D. Notes on Social Measurement: Historical and Critical. N.Y. Russel Sage Foundation, 1984.
122. EasthoPe G. A History of Social Research Methods. L.: Longman, 1974.
123. Eaton A., Harrison Sh. M. A BibliograPhy of Social Surveys: RePorts of Fact-Finding Studies Made as a Basis for Social Action; Arranged by Subjects and Localities. N.Y.:
Russel Sage Foundation, 1930.
124. Edidin A. From Relative Confirmation to Real Confirmation // Philos. of Sc. 1988. Vol. 55. N2. P. 265-271.
125. Edwards A.L. Techniques of Attitude Scales Construction. N.Y.: APPleton-Century-Crofts, 1957.
126. Edwards A.L., Kenney K.C. A ComParison of the Thurstone and Likert Techniques of Attitude Scale Construction // Journ. of APPl. Psychol. 1946. Vol. 30. N 1. P. 72-83.
127. EtPioni A. Social Analysis as a Sociological Vocation // Am. Joum. of Soc. 1966. Vol. 70. N5. P. 613-622.
128. FelePPa Я Cultural Kinds: ImPosition and Discovery in AnthroPology // Glassner В., Moreno J., eds. The Qualitative-Quantitative Distinction in the Social Sciences. Dordrecht
etal.:Kluwer Academic Publishers, 1989, P. 119-153.
129. FergusonL. W. A Study of the Likert Technique of Attitude Scale Construction / / Journ. Of Soc. Psych. 1941. Vol. 13. N 1. P. 51-57.
130. Festinger L. The Treatment of Qualitative Data by "Scale Analysis" // Psychol. Bull. 1947. Vol. 44. N 2. P. 149-161.
131. Ghiselly E.E., CamPbell J.P., Pedeck S. Measurement Theory for the Behavioral Sciences. San Francisco: W.H. Freeman and Co., 1981.
132. Giddens A. New Rules of Sociological Methods: A Positive Critique of InterPretative Sociologies. L.: Hutchinson, 1976.
133. Glassner В., Moreno J.E. Introduction: Quantification and Enlightment// Glassner В., Moreno J., eds. The Qualitative-Quantitative Distinction in the Social Sciences. Dordrecht,
et al.: Kluwer Academic Publishers, 1989, P. 1-12.
134. GlymourC. Theory and Evidence. Princeton: Princeton University Press, 1980.
135. GlymourC., Scheines R., SPines P., Kelly K. Discovering Causal Structure: Artificial Intelligence, PhilosoPhy of Science and Statistical Modelling. Orlando: Academic Press,
1987.
136. Goodman L.A. New Methods for Analysing the Intrinsic Character of Qualitative Variables Using Cross-Classified Data // Am. Journ. of Soc. 1987. Vol. 93. N 3. P. 529-558.
137. GuttmanL. A Basic for Scalling Qualitative Data // Am. Soc. Rev. 1944. Vol. 9. N 1. P. 39-150.
138. Guttman L An Outline of Some New Methodology for Social Research // Publ. OPin. Quart. 1954. Vol. 18. P. 395-404.
139. HalfPenny P. Positivism and Sociology: ExPlaining Social Life. L.: George Allen and Unwin, 1982.
140. HamblinR.M. Social Attitudes: Magnitude Measurement and Theory // Measurement in Social Sciences. Chicago: Aldine, 1974, P. 61-120.
141. Hammersley M., Atkinson P. EthnograPhy: PrinciPles in Practice. L.; N.Y.: Tavistock, 1983.
142. Harrison Sh. M. DeveloPment and SPread of Social Surveys // A BibliograPhy of Social Surveys. N.Y.: Russel Sage Foundation, 1930. P. XI - XLVIII.
143. Harvey L Myths of the Chicago School of Sociology. Aldershot et. al.: Avebury, 1987.
144. HauserR.M., Goldberger A.S. The Treatment of Unobservable Variables in Path Analysis // Sociological Methodology 1971 / Ed. by H.L. Costner. San Francisco: Jossey-Bass,
1971, P. 81-117.
145. Heise D.R. SeParating Reliability and Stability in Test-Retest Correlation // Causal Models in the Social Sciences / Ed. by H.M.Blalock. Chicago: Aldine, 1971, P. 348-363.
146. Heise D.R. Some Issues on Sociological Measurement // Sociological Methodology 1973- 1974 / Ed. by H.L.Costner. San Francisco: Jossey-Bass, 1974. P. 1-16.
147. Hevner K. An EmPirical Study of Three PsychoPhysical Methods // Journ. of Gener. Psychol. 1930. Vol. 4. P. 191-212.
148. HinkleR. Founding Theory of American Sociology, 1881-1915. Boston-London-Henley: Routledge and Kegan Paul, 1980, P. 76-102.
149. A History of Psychology in AutobiograPhies / Ed. by E.G.Boring a.o. Vol. IV. Wowcester, Mass.: Clark University Press, 1952, P. 295-321.
150. Hoppe H.-H. On How Not to Make Inferences About Measurement Error // Quality and Quantity. 1980. Vol. 14. N 3. P. 503-511.
151. Horan P.M. Causal Models of Measurement: Some Problems for Theory Construction // Quality and Quantity. 1989. Vol. 23. N 1. P. 39-59.
152. Hunt S. Review (C. Glymour et al. Discovering Causal Structure...) // Psychometrica. 1989. Vol. 54. N 1. P. 167-173.
153. Jones L.V. Some Invariant Findings Under the Method of Successive Intervals // Am. Journ. of Psychol. 1959. Vol. 72. N 2. P. 210-220.
154. KatP D. The Measurement of Intensity // Gauging Public OPinion / Ed. by H. Cantril et. al. 4th Print. Princeton: Princeton University Press, 1947.
155. KatPD. "F.H. AllPort" // International EncycloPedia of Social Science. 1968. Vol. 1. P. 271-274.
156. Kelly G.A. The Psychology of Personal Constructs. N.Y.: Norton, 1955. Vol.1.: A Theory of Personality.
157. Kirk J., Miller M. Reliability and Validity in Qualitative Research // Qualitative Research Methods Series. Vol.1. Beverly Hills et. al.: Sage, 1986.
158. KohnM. Class and Conformity: A Study in Values. Homewod: Dorsey Press, 1969.
159. LangleyP., SimonH., PytkowJ. Scientific Discovery: ComPutational ExPlorations of the Creative Processes. Cambridge: The MIT Press, 1987.
160. LaParsfeld P.P. Jugend und Beruf. Jena: Gustaw Fisher, 1931.
161. LaParsfeld P.P. The Art of Asking Why in Marketing Research // Nat. Mark. Rev. 1935. Vol.1. P. 32-43.
162. LaParsfeld P.P. The Psychological APProach in the DeveloPment of Conclusions // The Thechnique of Marketing Research / Am. MarkeTing Association. N.Y.: McGrow-Hill,
1937.
163. LaParsfeld P.P. Interchangeability of Indices in the Measurement of Economic Influences // Journ. of APPl. Psychol. 1939. Vol. 23. N1. P. 33-45.
164. LaParsfeld P. F. Radio and the Printed Page: An Introduction to the Study of Radio and It's Role in the Communication of Ideas. N.Y.: Duel, Sloan and Pearce, 1940.
165. LaParsfeld P.P. Notes on the History of Quantification in Sociology-Trends, Sources and Problems // ISIS. 1961. Vol. 52. N 168. P. 277-333.
166. LaParsfeld P.P. ConcePt Formation and Measurement in the Behavioral Sciences: Some Historical Observations // ConcePts, Theory and ExPlanation in the Behavioral Sciences
/ Ed. by G.Di RenPo. N.Y.: Random House, 1966, P. 140-202.
167. LaParsfeld P.P., Barton A.H. Qualitative Measurement in the Social Sciences: Classification, TyPologies, and Indices // The Policy Sciences: Recent DeveloPments in
ScoPe and Method / Ed. by D. Lerner, H.D. Laswell. Stanford: Stanford University Press, 1951, P. 155-192. .
168. Ueberson S. Making It Count: The ImProvement of Social Research and Theory Berkeley : University of California Press, 1985, 257 P.
169. LikertR., Roslow S., MurPhy G. A SimPle and Reliable Method of Scoring the Thurstone Attitude Scales // Journ. of Soc. Psychol. 1934. Vol.5. P. 228-238.
170. Lofland J., Lofland L.H. AnalyPing Social Settings. Belmont: Wadsworth, 1984.\
171. Long J. S. Estimation and HyPothesis Testing in Linear Models Containing Measurement Error: A Review of Joreskog's Model for the Analysis of Covariance Structures // Sociol.
Meth. and Research. 1976. N 5 (November). P. 157-206.
172. Lord F.M., Novick M.R. Statistical Theories of Mental Test Scores. Reading, Mass.: Addison-Wesley, 1968.
173. Lundberg G.A. Foundations of Sociology. N.Y.: The Macmillan Сотр., 1939.
174. Madge J. The Origins of Scientific Sociology. L.: Tavistock Publications, 1970.
175. Mason J. Research Sources: Annotated Guide to the Social Sciences. Vol.1.1968. Vol. 2. 1972. Santa Barbara, Calif.: Clio Press.
176. Mayer L.E., Younger M.S. MultiPle Indicators and the Relations between Abstract Variables // Sociological Methodology 1975 / Ed. by D.R. Heise. San Francisco: JosseyBass, 1975, P. 191-211.
177. Measurement in the Social Sciences: Theories and Strategies / Ed. by H.M.Blalock. Chicago: Aldine, 1974.
178. Mika S. Psychologia SPolecPna. WarsPawa: Panstwowe Wydawn. Naukowe, 1982.
179. Miller J., SlomcPynski K., Shoenberg R. Assesing ComParability of Measurement in Cross-National Research: Authovitarian-Conservatism in Different Sociocultural Settings
// Soc. Psychol. Quart. 1981. Vol. 44. N 1. P. 178-191.
180. Miller P. McC., Wilson M. A Dictionary of Social Science Methods. Chichester etc.: Wiley, 1983
181. MitchellC. Case and Situational Analysis// Soc. Rev. Vol. 31. N2. P. 187-211.\
182. Mokken R.J. A Theory and Procedure of Scale Analysis, et. al.: Mouton, 1971.
183. MokrPycki E. FiloPofia nauki a sociologia; Od doktryny metodologicPney do PraktykibadawcPei. WarcPawa: Panstwowe Wydawn. Naukowe, 1980.
184. MoserCA. Survey Survey Methods in Social Investigation. Melbourne: Heinemann, 1958.
185. Mulaik S.A. ExPloratory Statistics and EmPiriciPm // Philos. of Sc. 1985. Vol. 52. N 3. P. 410-431.
186. MurPhy G., MurPhy L.B., Newcomb T.M. ExPerimental Social Psychology. Revised ed. N.Y.: HarPer, 1937. Ch. 13.
187. MurPhy G., LikertR. Public OPinion and Individual: A Psychological Study of Student Attitudes on Pubic Questions, with a Retest Five Years Later. N.Y.:Russel, [1938], 1967.
188. Nachmias Ch., Nachmias D. Research Methods in the Social Sciences. 2nd ed.L.: Arnold, 1982.
189. The Nature and ScoPe of Social Science: A Critical Anthology / Ed. L.I. Krimerman. N.Y.: APPleton-Century-Crofts, 1969.
190. NorthroP F.S.C. The Logic of the Science and the Humanities. N.Y.: Macmillan, 1947, P. 402.
191. NunnalyJ.C. Psychometric Theory. N.Y.: McCrow-Hill, 1967.
192. Oakley A., Oakley R. Sexism in Official Statistics // Irvine J. et al. (eds.) Demistifying Socail Statistics. L. Pluto Press, 1979, P. 172-189.
193. Oberschall A. The InstitutionaliPetion of American Sociology // The Establishment of EmPirical Sociology: Studies in Continuity, Discontinuity, and InstitutionaliPation. N.Y.:
HarPer and Row, 1972. P. 187-251.
194. Osgood Ch. E., Suci G.J., Tannenbaum P.H. The Measurement of Meaning. Urbana: University of Illinois Press, 1957.
195. ParkRE. The ConcePt of Social Distance // Journ. of APPl. Soc. 1924. Vol. 8. P 339-344.
196. Pawson R. A Measure for Measures: A Manifesto for EmPirical Sociology. L.; N.Y.: Routledge, 1989.
197. Platt J. Anglo-American Contacts in the DeveloPment of Research Methods Before 1945 //The Social Survey in Historical PersPective, 1880-1940 / Ed. M. Buhner, K. Bales,
K. Kishsklar. Cambridge: Cambridge University Press, 1992, P. 340-358.
198. Pollock P. EmPirical Research in Public OPinion // Critical Sociology: Selected Reading / Ed. by P. Connerton. N.Y.: Penguin Books, 1976, P. 225-236.
199. PresserS.IsInaccuracyonFactualSurveyItem-SPecincorResPondent-SPeciflc?//Publ. OP. Quart. 1984. Vol. 48. N 3. P. 344-355.
200. PrPeworski A, Teune H. The Logic of ComParative Social Inquiry. N.Y.: Wiley- Intersience, 1970.
201. Qualitative and Quantitative Social Research: PaPers in Honor of Paul F. LaParsfeld / Ed. by R. Merlon, J.I. Coleman, P.H. Rossi. N.Y.: The Free Press, 1979.
202. Rice S.A. Quantitative Methods in Politics. N.Y.: A. KnoPf, 1928.
203. Rice S.A. Statistical Studies of Social Attitudes and Public OPinion // Statistics in Social Studies / Ed. by S.A. Rice. PhiladelPhia: University of Pennsylvania Press, 1930.
204. Richards L., Richards T. The Transformation of Qualitative Method: ComPutational Paradigms and Research Processes // Fielding N., Lee R. (eds.). Using ComPuters in
Qualitative Research. L.: Sage, 1991.
205. Roth P.A. Meaning and Method in The Social Sciences: A Case for Methodological Pluralism. Itaca & London: Cornell University Press, 1987.
206. Rudemick C.A. The Uses and Abuses of the Questionnaire Procedures // Journ. of APPl Psychol. 1930. Vol. 14. N. 1. P. 32-41.
207. Saffir M.A. A ComParative Study of Scales Constructed by Three PsychoPhysical Methods // Psychometrica. 1937. Vol. 2. N. 2. P. 179-198.
208. SchwartP H., Jacobs J. Qualitative Sociology: AMethod to the Madness. N.Y.: Free Press, 1979.
209. SchutP W.C. FIRO: Л Three-Dimensional Theory of InterPersonal Behavior. N.Y.: Holt, Rinehart and Winston, 1960.
210. Scott W.F. Attitude Measurement // The Handbook of Social Psychology / Ed. by G. lindPey and E. Aronson. 2nd ed. Reading. Mass.: Addison-Wesley. 1968. Vol. 2.
P. 204-273.
211. SelltiP C., Jahoda M., Deutsch M., Cook S.W. Research Methods in Social Relations: Revised One-Volume Edition. N.Y.: Holt, 1967.
212. SelvinH.C. A Critique of Tests of Significance in Survey Research/ Am. Soc.Rev. 1957. Vol. 22. N 5. P. 519-527.
213. Shfnn A.M., Jr. Relations between Scales // Measurement in Social Sciences / Ed. By H.M. Blalock. Chicago: Adline, 1974, P. 121-155.
214. Siege/ P.W., Hodge R.W. A Causal APProach to the Study of Measurement Error // Methodology in Social Research / Ed. by H.M. Blalock and A.B. Blalock. N.Y.: McGrowHill, 1968, P. 28-59.
215. Silverman D. Telling Convincing Stories: APlea for Cautious Positivism in Case Studies / / Glassner В., Moreno J. (eds.) The Quantitative-Qualitative Distinction in the Social Sciences. Dordrecht
et. al.: Kluwer Academic Publishers, 1989, P. 57-77.
216. Simon H. Models of Discovery and Other ToPics in the Methods of Science. Dordrecht: D. ReidelPubl. ComPany, 1977.
217. Social Science and Social Policy. ContemPorary Social Research: 12 / Ed. by M. Bulmer. L.: Allen and Unwin, 1968.
218. Stevens S.S. Measurement, PsychoPhysics and Utility // Measurement: Definitions and Theories / Ed. by C. West Churchman, P. Ratoosh. N. Y.: Wiley & Sons, Inc.,
1959, P. 18-49.
219. StokmanF., W, van Schuur. Basic Scaling // Quality and Quantity. 1980. Vol. 14. N1. P. 5-30.
220. Stouffer S.A. ExPerimental ComParison of a Statistical and Case History Technique of Attitude Research//Publications of American Sociological Society. 1931. Vol. 25.P. 154159.
221. Stouffer S.A. Communism, Conformity, and Civil Liberties. N.Y.: Doubleday, 1955.
222. Stouffer S.A. etal. Measurement and Prediction. N.Y.: John Wiley & Sons, [1950] 1966.
223. Strauss A.L. Qualitative Analysis for Social Scientists. Cambridge et. al.: Cambridge University Press, 1987.
224. Sullivan J.L. MultiPle Indicators: Some Criteria of Selection / / Measurement in the Social Sciences: Theories and Strategies / Ed. by H.M. Blalock. Chicago: Aldine, 1974, P. 246269.
225. Sullivan J.L., Feldman S. MultiPle Indicators: An Introduction: Sage University Paper Series on Quantitative APPlications in the Social Sciences, 07-015. Beverly Hills: Sage
Publications, 1979.
226. ThurstoneL.L. The Method of Paired ComParisons for Social Values / / Journ. of Abnorm. and Soc. Psychol. 1927. Vol. 21. N 1. P. 384-400.
227. Thurstone L.L. An ExPerimental Study of National Preferences / / Journ. of Gen. Psychol. 1928. Vol. 1. P. 405-425.
228. Thurstone L.L. The Measurement of OPinion // Journ. of Abnorm. and Soc. Psychol. 1928. Vol. 22. N 4. P. 415-430.
229. Thurstone L.L. Attitudes Can be Measured //Am. Journ. of Soc. 1928. Vol. 33. N 4. P. 529-554.
230. ThurstoneL.L. The Measurement of Change in Socail Attitudes / / Journ. of Soc. Psychol. 1931. Vol. 2. P. 230-235.
231. Thurstone L.L. Influence of Motion Pictures on Children's Attitudes // Journ. of Soc. Psychol. 1931. Vol. 2. P. 291-305.
232. Thurstone L.L. The Measurement of Social Attitudes // Journ. of Abnorm. and Soc. Psychol. 1931-32. Vol. 26. P. 249-269.
233. Thurstone L.L, Chave E.J. The Measurement of Attitude: A PsychoPhysical Method and Some ExPeriments with a Scale for Measuring Attitude toward Church. 7th ed. Chicago:
University of Chicago Press, [1929] 1964.
234. Thurstone L.L. The Measurement of Values. Chicago: University of Chicago Press, 1959.
235. Torgerson W.S. Theory and Method of Scaling. N.Y.: Wiley, 1958.
236. Turner S.P. The World of Academic Quantifiers: the Columbia University Family and It's Connections // The Social Survey in Historical PersPective. 1880-1940 / Ed. by M. Bulmer, K. Bales,
and K. Kish Skelar. Cambridge: Cambridge University Press, 1991,
237. UPshaw H.S. Attitude Measurement // Methodology in Social Research /Ed by H M Blalock. N.Y.: McGraw-Hill, 1968, P. 60-111.
238. Webb E.T., CamPbell D.T., SchwartP R.T., Sechrest L. Unobtrusive Measures: Nonreactive Research in the Social Sciences. Chicago: Rand McNally, 1966, ch. 1.
239. Werts C.E., Linn R.L., Joreskog K.G. Quantifying Unmeasured Variables // Measurement in the Social Sciences / Ed. by H.M. Blalock. Chicago: Adline, 1974, P. 270-292.
240. Wiley D.E., Wiley J.A. The Estimation of Measurement Error in Panel Data // Causal Models in the Social Sciences / Ed. by H.M. Blalock. Chicago: Adline, 1971, P. 364241. Wilier D., Wilier J. Systematic EmPiricism: Critique of a Pseudoscience. Enelewood Cliffs-Prentice-Hall, 1973.
242. ZellerR.A., Carmines £.G. Measurement in the Social Sciences: The LinkbetweenTheory and Data. Cambridge: Cambridge University Press, 1980.
168
ИМЕННОЙ УКАЗАТЕЛЬ 
АдорноТ.26, 130
Алтаузер Р. 63, 82, 86
АльтюсерЛ. 154
Апшоу Г. 36, 37, 39, 49, 51, 52, 56
Балмер М. 16
Батыгин Г.С. 9, 153
Баули А. 32
Бентлер П. 129
Берджесс Э. 13, 17, 18
БернуллиЯ. 112
Блейлок Х.М. 63, 66, 76, 80, 87, 92-96, 100, 102-104, 106-109, 111-116, 118, 126, 127, 139-141, 144-146, 150, 151
Блумер Г. 17, 18
Богардус Э.С. 14-16, 19, 28, 53
Бодрийяр Ж. 8
БолленК. 117-121
Бонетт Д. 129
Борнстед Дж. 63, 67, 72
Бриджмен П.У. 93
Брэдшоу Г. 125
Буш Дж. 40
БхаскарР. 141, 156
Бэйли К. 147, 149, 151
Бюлер Ш. 30
Вебер Э.Г. 21 Витгенштейн Л. 158
Гальтон Ф.121-124
Галтунг И.5
Гарнет Дж. 123
Гете И.В. 5
Гидденс Э. 143
Гиддингс Ф. 13,19
Гилфорд Дж. 46
Глаймур К. 121-124
ГольдбергА. 111
Горбачев М.С. 40
ГринБ.Ф. 51,52, 57
Турин Дж. 29
Гутман Л. 8, 15, 27-30, 37, 41, 47, 52, 53, 56, 57, 59, 96
Гэллап Дж. 27, 33
Джексон Э. 76
Джейкобе Дж. 158
Джоунс П. 47
Док 159
Драйзер Т. 7
ДробаД. 22
Дункан О.Д. 106, 150

Автор выражает признательность С.В. Чернышеву за помощь в составлении именного указателя.
ЖиткоуДж. 125
Зеллер Р. 63,66, 68,70,72-74
Зигель П. 77
Зиммель Г. 158
Зинес Дж. 162
Знанецкий Ф. 11, 14
Карминес Э. 66-68, 70, 72, 74
КарнапР. 139
Катц Д. 29
Келли Дж. 35
КеллиК. 121, 130
Келли Т. 123
Кендэлл М. 41
Кетле А. 97-100, 102
КеркДж. 158
Кон М. 130-132
Конверс Дж. 13, 15, 16, 29, 33, 34, 63, 136
Костнер Г. 63, 75, 76, 79-82, 111, 126, 146
Кранц Д. 96
КронбахЛ. 71
Куайн У. ван О. 155, 158
Кулидж Дж.К. 19
Кумбс К. 53,96, 106
Кун Т.С. 8
Кэмпбелл Д.Т. 76, 82-85, 120
Кэмпбелл Э. 29
КюннапасТ. 41
Лазарсфельд П.Ф. 4, 7, 27, 30-35, 96-100, 136, 140, 157
ЛангеН. 11
Ландберг Дж.Э. 15,93
Лапьер Р. 14, 39
Леви-Стросс К. 155
ЛенноксР. 117-121
Ликерт Р. 16, 19, 25, 26, 41, 47, 49-51, 58
Лэнгли П. 125
Лэнд К. 151
Льюс Р. 96
Малиновский Б. 158 .
Менахем Мендель 5
МертонР. 136
Мерфи Г. 12, 26
Мерфи Л. 12
Миллер Дж. 130-132
Миллер М. 158
Миллер У. 29
Мокжицкий Э. 104
Моккен Р. 58, 59
Мостеллер Ф. 46
Нейман Е. 13
НортС. 149
Нортроп Ф.94, 95
НьюкомТ. 12
Ньюэлл А. 125
Огбёрн У.В. 13, 18, 122
ОлпортГ. 12
Олпорт Ф. 14-16, 19-21, 29
Осгуд Ч. 35
ПаркР.Э. 15, 17, 18
Пирсон К. 32, 121, 124
Пирсон Э. 32
Платт Дж. 32
Плутарх 5
Поппер К. 125
Поусон Р. 139-144
Птолемей 124
РайсС.А. 13, 14, 16, 19, 24, 25
Рассел Б. 125
Рейхенбах Г. 139
Рибо Т. 11
Роллан Р. 7
Роупер Э. 27, 33
Саймон Г.А. 125-128, 135
Сачмэн А. 29
Сикьюрел А. 158
Скотт Р. 86
Смит X. 22
Смолл А. 17, 18
Сократ 4,5
Спирмен Ч. 59, 88, 97, 122-125, 128, 129, 133,134
СпиртесП. 121, 130
Стауффер С. 17, 18, 25, 29, 31, 32, 53, 62
Стивене С. 22, 36, 43, 44, 66, 111
Суппес П. 96
Сэффир М. 44, 45
СьобергЛ. 41
Тверский А. 96
Тернер С. 13
Терстоун Л.Л. 4, 12, 16-25, 28, 41, 46-49, 51, 53, 58, 96, 97, 123, 124, 128, 129, 134
Томас У.А. И, 15, 17, 18
ТоргерсонУ.37,44-46
Толстова Ю.Н. 151
Уанли Д. 87
Уайли Дж. 87
Уайт У.Ф. 159
Уайтхед А. 125
УэббЮ. 76
Фейерабенд П. 8
Фейхтвангер Л. 7
Фергюсон П. 47,51
Фехнер Г.Т. 20, 21
Фиске Д. 76,82-85, 120
Фишер Р. 32
ХантС. 133
Харви Л. 16, 18
ХарреР. 141, 156
Хартман Д. 16, 19, 29
Хатт П. 149
Хаузер Р. 111
Хеберлейн Т. 86
Хейс Д. 72, 86, 87
Хинкли Э. 47
Ходж Р. 77
ХользингерК. 88,123
Хоппе Г.Г. 137, 138
ХоранП. 147-152
Хуссейн Саддам 40
ЧейвЮ. 21,22,49
Чэпин С. 13
Шварц X. 158
Шейнис Р. 121, 130
Шепард Р. 96
Шоу Дж. 125
Шутц У. 73, 74
Шюц А. 158
Эдварде А. 44, 46
Эддингтон А.С. 93
Эдисон Т.А. 123
Экман Г. 41
Эфрон Б. 134
Юл Дж. 32
р. Яков Иосеф 5
СОДЕРЖАНИЕ
3.
Предисловие (Г.С.Батыгин)....................................................................
л
Глава первая ИЗМЕРЕНИЕ УСТАНОВОК В АМЕРИКАНСКОЙ СОЦИОЛОГИИ И СОЦИАЛЬНОЙ ПСИХОЛОГИИ: ЗАРОЖДЕНИЕ СОЦИОЛОГИЧЕСКОЙ ПАРАДИГМЫ
1. Становление основных подходов к измерению установок (1920-е-1930-е годы)
10
2. Шкалы социальной дистанции и традиция измерения в Чикагской школе
15
3. Психологическая ориентация: Ф.Олпорт, Л.Л.Терстоун, Р.Ликерт. .
19
4. Традиция Гутмана - Лазарсфельда в измерении установки и формирование концепции качественного измерения ,
27
5. Формальные модели шкалирования установок и классификации шкал
35
Глава вторая. ПРОБЛЕМА КАЧЕСТВА ИЗМЕРЕНИЯ В СОЦИОЛОГИИ: ОТ КОНСТРУКТА К ИНДИКАТОРУ И ОБРАТНО
1. Надежность, валидность и ошибка измерения: кризис классической теории тестов
61
2. Надежность и валидность эмпирических моделей ................................
68
3. Множественные индикаторы в оценке качества измерения ...................
75
Глава третья. КОНЦЕПТУАЛИЗАЦИЯ, ИЗМЕРЕНИЕ, МОДЕЛИРОВАНИЕ: НОВАЯ ТРАКТОВКА ДИАГНОСТИЧЕСКОЙ ПРОЦЕДУРЫ В СОЦИОЛОГИИ
1. Концептуализация и косвенное измерение как предмет "вспомогательных теорий измерения" (исходные предпосылки)
92
2. Взаимозависимость концептуализации и измерения: случай использования категориальных переменных в социологическом анализе . . .
104
Некоторые аспекты сравнимости измерений ............................................
110
Глава четвертая. НОВЫЕ ПРИЛОЖЕНИЯ И ПЕРСПЕКТИВЫ МОДЕЛИРУЮЩЕГО ПОДХОДА
1 • Обобщение моделей структурных уравнений с латентной переменной и "общеизвестные истины" измерения
117
2. TETRAD - методология и процедуры автоматического поиска моделей
121
3. Критика причинных моделей измерения с латентной переменной . .
136
4. Реалистская стратегия измерения .........................................................
141
5. Трехуровневая концепция процесса измерения....................................
145
Вместо заключения: О радикальной критике "количественных" проце
дур Р социологии.......................................................................................
Литература .................................................................................................
Именной указатель ....................................................................................
153
161
170
Научное издание
Девятко Инна Феликсовна
ДИАГНОСТИЧЕСКАЯ ПРОЦЕДУРА В СОЦИОЛОГИИ Очерк истории и теории
Утверждено к печати Ученым советом Института социологии РАН
ИФ "Наука - философия, право,
социология и психология"
Руководитель фирмы М.М.Беляев
Редактор Л.В.Пеняева
Художник А.А.Кущенко
Художественный редактор Н.Н.Михайлова
Технический редактор З.Б.Павлюк
Корректор Ю.Л.Косорыгин
Девятко И.Ф.
25 Диагностическая процедура в социологии. Очерк истории и теории. — М.: Наука, 1993. — 175 с. ISBN 5-02-008211-2
В монографии анализируется история развития и методологические основания диагностических измерительных процедур в социологии, выявляются теоретические предпосылки основных подходов к измерению, описываются методы, с помощью которых производится оценка качества социологических показателей.
Для социологов, всех, кто имеет дело с проведением социологических исследований.
0302010000-411 1 042(02)-93
43-93-11 полугодие
ББК 60.5
HBJ4°230 ЛР №020297 от 27.11.91
Сдано в набор 02.08.93 Подписано к печати 04.09.93.
Формат 60x90'/.в
Гарнитура Тайме. Печать офсетная
Усл. печ. л. 11,0 Усл. кр. отт. 11,3 Уч.-изд. л. ИЗ',4
Тираж 800 экз. Тип. зак. *98
Ордена Трудового Красного Знамени
издательство "Наука" 117864 ГСП-7, Москва В-485, Профсоюзная ул.,
90
Санкт-Петербургская типография № 1 ВО «Наука» 199034, Санкт-Петербург, 9
линия, 12
Download