2. КОНСПЕКТ ЛЕКЦИЙ Раздел 1. Предмет и методы математической статистики Тема

advertisement
2. КОНСПЕКТ ЛЕКЦИЙ
Раздел 1. Предмет и методы математической статистики
Тема 1.1. Место и роль статистического анализа в
экспериментально-психологическом исследовании и психологической
практике.
Математическая статистика - наука, изучающая методы раскрытия
закономерностей, свойственных большим совокупностям однородных
объектов, на основании их выборочного обследования. Основные задачи
статистических методов, состоят в том, чтобы обобщить и представить
количественные данные исследования в систематизированной и сжатой форме,
позволяющей увидеть основные тенденции закономерности и законы развития
человека, а так же отклонения от них.
Очень часто перед исследователем в психологии стоит задача
выявления различий между двумя, тремя и более выборками испытуемых. Это
может быть, например, задача определения психологических особенностей
хронически больных детей по сравнению со здоровыми, юных
правонарушителей по сравнению с законопослушными сверстниками, или
различий между работниками государственных предприятий и частных фирм,
между людьми разной национальности или разной культуры и, наконец, между
людьми разного возраста в методе «поперечных срезов».
При решении задач выявления различий в уровневых показателях следует
помнить, что "усредненный профиль успешного специалиста" должен
рассматриваться скорее как исследовательский результат, позволяющий
сформулировать гипотезы для дальнейших исследований, а не как основание
для профессионального отбора. Тому есть две причины. Во-первых, ни у
одного из успешных специалистов не наблюдаться "усредненный профиль", он,
в сущности, является обобщением; во-вторых, в профессиональной
деятельности наличие собственного индивидуального стиля важнее
соответствия "среднегрупповому" профилю.
В психологических исследованиях часто бывает важно доказать, что в
результате действия каких-либо факторов произошли достоверные изменения
("сдвиги") в измеряемых показателях. К числу таких факторов должен быть
отнесен прежде всего фактор времени. Сопоставление показателей, полученных
у одних и тех же испытуемых по одним и тем же методикам, но в разное время,
дает нам временной сдвиг.
Сопоставление показателей, полученных по одним и тем же методикам,
но в разных условиях измерения (например, "покоя" и "стресса"), дает нам
ситуационный сдвиг. Условия измерения могут изменяться не только реально,
но и умозрительно. Сопоставляя показатели, измеренные в обычных и
воображаемых условиях, мы получаем умозрительный сдвиг.
Мы говорим о сдвиге под влиянием контролируемых или не
контролируемых воздействий. И здесь мы наталкиваемся на методическую
трудность, которую оказывается возможным преодолеть только путем введения
контрольной группы, которая не испытывала бы на себе воздействия данного
экспериментального фактора.
Тема 1.2. Разделы математических методов в психологии
Разделы математической статистики:
1.
Методы описательной статистики – данные исследования
представляются в виде таблиц, графиков, подсчитывается первичная
статистика: среднее значение, мода, медиана, дисперсия, стандартное
отклонение, асимметрия, эксцесс
2.
Методы индуктивной статистики – помогают исследовать
значимость различий между выборками с точки зрения статистических
критериев.
3.
Корреляционные методы – позволяют узнать о наличии и степени
связи между двумя и более переменными с тем, чтобы можно было предсказать
возможное значение одной их них, если известна другая.
4.
Дисперсионный анализ позволяет проанализировать причины
изменчивости признака под влиянием какой-либо контролируемой переменной.
Он позволяет вычленить следующие виды вариативности:
вариативность, обусловленную действием каждой из исследуемых
переменных; вариативность, обусловленную взаимодействием исследуемых
независимых переменных; случайную вариативность.
5. Регрессионный анализ позволяет выявить характер зависимости одной
переменной (зависимой, или результативного признака) от других
(независимых переменных, или факторов).
6. Факторный анализ позволяет выявить латентные, скрытые
переменные, или факторы, обусловливающие множественные корреляционные
связи.
7. Кластерный анализ – многомерный статистический метод,
позволяющий ответить на вопрос: объединены ли показатели, или испытуемые
по какому-либо основанию или признаку.
Тема 1.3. Задачи математических методов в психологии
Математическая статистика - наука о математических методах анализа
данных, полученных при проведении массовых наблюдений (измерений,
опытов). В зависимости от математической природы конкретных результатов
наблюдений статистика математическая делится на статистику чисел,
многомерный статистический анализ, анализ функций (процессов) и временных
рядов, статистику объектов нечисловой природы. Существенная часть
статистики математической основана на вероятностных моделях. Выделяют
общие задачи описания данных, оценивания и проверки гипотез.
Рассматривают и более частные задачи, связанные с проведением выборочных
обследований, восстановлением зависимостей, построением и использованием
классификаций (типологий). Для описания данных строят таблицы, диаграммы,
иные наглядные представления, например, корреляционные поля.
Вероятностные модели обычно не применяются. Некоторые методы описания
данных опираются на продвинутую теорию и возможности современных
компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на
выделение групп объектов, похожих друг на друга, и многомерное
шкалирование, позволяющее наглядно представить объекты на плоскости, в
наименьшей степени исказив расстояния между ними. Методы оценивания и
проверки гипотез опираются на вероятностные модели порождения данных.
Эти модели делятся на параметрические и непараметрические. В
параметрических моделях предполагается, что изучаемые объекты
описываются функциями распределения, зависящими от небольшого числа (14) числовых параметров. В непараметрических моделях функции
распределения предполагаются произвольными непрерывными. В статистике
оценивают параметры и характеристики распределения (математическое
ожидание, медиану, дисперсию, квантили и другие), плотности и функции
распределения, зависимости между переменными (на основе линейных и
непараметрических коэффициентов корреляции, а также параметрических или
непараметрических оценок функций, выражающих зависимости). Используют
точечные и интервальные (дающие границы для истинных значений) оценки. В
статистике есть общая теория проверки гипотез и большое число методов,
посвященных проверке конкретных гипотез. Рассматривают гипотезы о
значениях параметров и характеристик, о проверке однородности (то есть о
совпадении характеристик или функций распределения в двух выборках), о
согласии эмпирической функции распределения с заданной функцией
распределения или с параметрическим семейством таких функций, о
симметрии распределения и другие.
Раздел 2. Элементы теории психологических измерений
Тема 2.1. Измерение в психологии
Использованием, применением измерений в психологии занимается
психометрика.
В самом общем виде измерение – это процедура приписывания объектам
и их свойствам чисел в соответствии с определенными правилами. Это
операция, посредством которой определяется отношение одной (измеряемой)
величины к другой однородной величине (принимаемой за единицу); число,
выражающее такое отношение, называется численным значением измеряемой
величины.
Измерение в психологии можно определить как процедуру определения
наличия и степени выраженности какого-либо психологического свойства или
признака объекта.
Законченное измерение включает следующие элементы: объект
измерения, свойство или состояние которого характеризует измеряемая
величина;
единицу
измерения;
технические
средства
измерения,
проградуированные в выбранных единицах; метод измерения; наблюдателя или
регистрирующее устройство, воспринимающее результат измерения;
окончательный результат измерения. Всякое измерение неизбежно связано с
погрешностями измерений. Погрешности, порожденные несовершенством
метода измерения, неточной градуировкой и неправильной установкой
измерительной аппаратуры, называют систематическими. Систематические
погрешности исключают введением поправок, найденных экспериментально.
Погрешности другого типа - случайные - обусловлены влиянием на результат
измерения неконтролируемых факторов. Случайные погрешности оцениваются
методами математической статистики по данным многократных измерений.
Измерения можно провести с помощью различных шкал. Выделяют
четыре характеристики шкал: описание, порядок, расстояние и наличие
начальной точки. Описание предполагает использование единственного
дескриптора или опознавателя для каждой градации в шкале. Порядок
характеризует относительный размер дескрипторов. Не все шкалы обладают
характеристиками порядка. Считается, что шкала имеет начальную точку, если
она имеет единственное начало или нулевую точку. Например, возрастная
шкала имеет истинную нулевую точку. Однако не все шкалы обладают нулевой
точкой для измеряемых свойств. Часто они имею только произвольную
нейтральную точку.
Тема 2.2. Средства психологических измерений
Выделяют четыре уровня измерения, определяющих тип шкалы
измерений: наименований, порядка, интервальный и отношений. Их
относительная характеристика дается в таблице 1.
Таблица 1
Характеристика шкал различного типа
Уровень измерений Характеристики шкал
Описание
Порядок
Расстояние
Шкала
наименований
Шкала
порядка
Шкала интервалов
Шкала отношений
*
*
Наличие
начальной
точки
*
*
*
*
*
*
*
*
Шкала наименований обладает только характеристикой описания; она
ставит в соответствие описываемым объектам только его название, никакие
количественные характеристики не используются. Объекты измерения
распадаются на множество взаимоисключающих и исчерпывающих категорий.
Шкала наименований устанавливает отношения равенства между объектами,
которые объединяются в одну категорию. Каждой категории дается название,
численное обозначение которого является элементом шкалы. Очевидно, что
измерение на этом уровне всегда возможно.
Шкала порядка разрешает ранжировать респондентов или их ответы.
Она имеет свойства шкалы наименований в сочетании с отношением порядка.
Иными словами, если каждую пару категорий шкалы наименований
упорядочить относительно друг друга, то получится порядковая шкала. Для
того чтобы шкальные оценки отличались от чисел в обыденном понимании, их
на порядковом уровне называют рангами. Например, частоту покупки
определенного товара (раз в неделю, раз в месяц или чаще). Однако такая
шкала указывает только относительную разницу между измеряемыми
объектами.
Интервальная шкала обладает также характеристикой расстояния
между отдельными градациями шкалы, измеряемого с помощью определенной
единицы измерений, то есть используется количественная информация. На этой
шкале уже не бессмысленны разности между отдельными градациями шкалы. В
данном случае можно решить, равны они или нет, а если не равны, то какая из
двух больше. Шкальные значения признаков можно складывать.
Шкала отношений является единственной шкалой, имеющей нулевую
точку, поэтому можно проводить количественное сравнение полученных
результатов. Такое дополнение позволяет вести речь о соотношении
(пропорции). Выбранная шкала измерений определяет характер информации,
которой будет располагать исследователь при проведении изучения какого-то
объекта. Но скорее следует говорить о том, что выбор шкалы для измерений
определяется характером отношений между объектами, наличием информации
и целями исследования. Если, скажем, нам требуется проранжировать марки
продуктов, то, как правило, не требуется определять, насколько одна марка
лучше другой. Следовательно, нет необходимости при таком измерении
пользоваться количественными шкалами (интервалов или отношений). Кроме
того, тип шкалы предопределяет, какой вид статистического анализа можно
или нельзя использовать. При использовании шкалы наименований возможно
нахождение частот распределения, средней тенденции по модальной частоте,
вычисление коэффициентов взаимозависимости между двумя или большим
числом рядов свойств, применение непараметрических критериев проверки
гипотез. Среди статистических показателей на порядковом уровне пользуются
показателями центральной тенденции – медианой, квартилями и другие. Для
выявления взаимозависимости двух признаков используются коэффициенты
ранговой корреляции Спирмена и Кендэла. Кроме рассмотренных выше
алгебраических операций интервальные шкалы допускают все статистические
операции, присущие порядковому уровню; возможны также вычисления
средней арифметической, дисперсии так далее.
Вместо ранговых
коэффициентов корреляции вычисляется коэффициент парной корреляции
Пирсона. Может также быть рассчитан множественный коэффициент
корреляции. Надо иметь в виду, что полученные результаты всегда можно
перевести в более простую шкалу, но никогда наоборот.
Раздел 3. Измерение признака и статистическая совокупность
Тема 3.1. Формы группирования данных в психологическом
исследовании
Наиболее простой формой группировки количественных данных
психологического исследования является ранжированный ряд значений
переменной. Он строиться на основе операции ранжирования или
упорядочивания значений переменной в возрастающем или убывающем
порядке (от французского слова «ranger» - выстраивать по росту).
Так, мы можем упорядочить данные группы испытуемых, чтобы оценить
успешность конкретного ученика. Ранжированный ряд значений позволит
увидеть ранг или место испытуемого в упорядоченном ряду.
Если ранжированный ряд значений расположить в «сжатом» виде – в
виде двойного ряда: ряда значений переменной без учета их повторяемости и
ряда соответствующих им частот.
Такой ранжированный ряд значений переменной с указанием частоты
отдельных значений называется вариационным рядом.
Вариационный ряд как форма представления данных позволяет
определить распределение, оценить характер варьирования переменной.
Если выборка испытуемых значительна, имеет смысл дальнейшее
обобщение данных. Для этого используется построение распределения
сгруппированных частот. Оценки, полученные испытуемыми объединяются в
группы (разряды оценок), а каждому разряду приписывается частота,
соответственно число испытуемых попавших в интервал.
Число разрядов зависит от объема выборки следующим образом
(Таблица 2).
Таблица 2
Число разрядных интервалов в зависимости от объема выборки
Объем
выборки
Число
интервалов
25-40
40-60
60-100
100-200
более 200
5-6
6-8
7-10
8-12
10-15
Алгоритм построения распределения сгруппированных частот включает
следующие этапы:
1. Определение размаха.
2. Выбор интервала разрядов в зависимости от объема выборки.
3. Определение границ разрядов.
4. Табулирование.
Тема 3.2. Графические формы представления распределений
График – это чертёж, применяемый для наглядного изображения
зависимости одной величины от другой.
Графики представляют собой наборы двумерных, трехмерных, тернарных
или n-мерных графиков (таких как гистограммы, диаграммы рассеяния,
линейные графики, поверхности, тернарные диаграммы рассеяния и пр.), по
одному графику для каждой выбранной категории (подмножества)
наблюдений.
Чтобы придать наглядность закономерности варьирования переменной,
вариационные ряды представляют в графической форме: в виде гистограмм и
полигонов распределений.
Гистограмма представляет собой последовательность столбцов, каждый
из которых опирается на один разрядный интервал, а его высота отражает
частоту в соответствующем разряде.
Полигон распределения строится через нанесение на ось абсцисс средних
значений классов, на ось ординат – соответствующих частот и соединение
точек кривой.
График распределения наглядно показывает, какие именно конкретные
значения или диапазоны значений исследуемой переменной встречаются
наиболее часто, насколько различаются эти значения, расположено ли
большинство наблюдений около среднего значения, является распределение
симметричным или асимметричным, многомодальным или одномодальным и
т.д. По форме распределения можно судить о природе исследуемой
переменной. Например, бимодальное распределение позволяет предположить,
что выборка не является однородной и содержит наблюдения, принадлежащие
двум различным множествам, которые в свою очередь нормально
распределены.
Многие статистики основываются на определенных предположениях о
распределениях анализируемых переменных; гистограммы и полигоны уже
позволяют проверить, выполняются ли эти предположения.
Как правило, работа с новым набором данных начинается с построения
гистограмм всех переменных.
Для наглядности статистическое распределение значения признака всегда
иллюстрируется полигоном распределения или гистограммой (Рис. 1).
Рис. 1 Полигон и гистограмма статистического распределения
Раздел 4. Параметры распределения
Тема 4.1. Центральная тенденция распределения
К основным количественным характеристикам эмпирических
распределений относятся меры центральной тенденции, меры разброса, меры
асимметрии и эксцесса.
Меры центральной тенденции указывают единственный наиболее
типичный, репрезентативный результат, характеризующий выполнение теста
всей группой. Меры центральной тенденции различаются неодинаковой
математической строгостью и методами вычисления.
Это мода, медиана и среднее арифметическое.
1.Модой (Мо) называют значение переменной, имеющее в совокупности
данных наибольшую частоту. Распределение с двумя модами называется
бимодальным.
2.Медиана (Ме) – это значение переменной, которое делит пополам
ранжированный ряд значений переменной. Таким образом, одна половина
выборки имеет значения ниже медианы, вторая – выше.
3.Среднее арифметическое (оценка математического ожидания)
вычисляется по формуле:
xM 
x
i
n
где xi - каждое наблюдаемое значение признака; i - индекс, указывающий
на порядковый номер данного значения признака; n - количество наблюдений;
∑- знак суммирования.
Среднее арифметическое является наиболее строгой математически
мерой центральной тенденции и чаще всего используется в статистике.
Тема 4.2. Разброс
Одна из главных задач психологии – прогнозировать, объяснять
причины и влиять на изменчивость психологических характеристик. Между
тем, средняя арифметическая показывает типичный, репрезентативный
результат, но не говорит о диапазоне варьирования.Одна и та же средняя
величина может характеризовать совокупности данных, в которых размеры
вариации признака значительно отличаются друг от друга.
Меры разброса – это статистические показатели вариациизначений
переменной относительно среднего значения. Они показывают степень
индивидуальных отклонений от центральной тенденции распределения и
позволяют судить о степени однородности-разнородности выборки.
В исследования используют три меры разброса.
1. Размах вариации (R). Это разность между максимальным и
минимальным значениями выборки.
2. Дисперсия определяется по формуле:
S
2
 (x

i
 x) 2
n 1
где xi - каждое наблюдаемое значение признака; x - среднее
арифметическое значение признака; n - количество наблюдений.
3. Стандартное отклонение (σ). Величина, представляющая собой
квадратный корень из несмещенной оценки дисперсии (S), называется
стандартным отклонением или средним квадратическим отклонением. Для
большинства исследователей привычно обозначать эту величину греческой
буквой σ (сигма), а не S. На самом деле, σ - это стандартное отклонение в
генеральной совокупности, a S - несмещенная оценка этого параметра в
исследованной выборке. Но, поскольку S - лучшая оценка σ, эту оценку стали
часто обозначать уже не как S, а как σ:

 ( x  x)
2
t
n 1
Рис.2 Кривые распределения признака с меньшим диапазоном
вариативности признака (1) и большим диапазоном вариативности признака (2)
Тема 4.3. Асимметрия и эксцесс распределения
В тех случаях, когда какие-нибудь причины благоприятствуют более
частому появлению значений, которые выше или, наоборот, ниже среднего,
образуются асимметричные распределения. При левосторонней, или
положительной, асимметрии в распределении чаще встречаются более низкие
значения признака, а при правосторонней, или отрицательной - более высокие
(см. Рис 2).
Показатель асимметрии (A) вычисляется по формуле:
Рис. 3 Кривые распределения признака с положительной (левосторонней)
асимметрией (1) и отрицательной (правосторонней) асимметрией (2)
В тех случаях, когда какие-либо причины способствуют преимущественному появлению средних или близких к средним значений, образуется
распределение с положительным эксцессом. Если же в распределении
преобладают крайние значения, причем одновременно и более низкие, и более
высокие, то такое распределение характеризуется отрицательным эксцессом и в
центре распределения может образоваться впадина, превращающая его в
двувершинное (Рис.4).
Показатель эксцесса (E) определяется по формуле:
E
( xi  x ) 4
3
n  4
Рис. 4. Эксцесс: а) положительный; 6) отрицательный
В распределениях с нормальной выпуклостью E=0.
Раздел 5. Виды и оценка законов распределения
Тема 5.1. Виды распределений в психологическом исследовании
Рассмотрим неотрицательную функцию f(х), f(х)0.
Кривая у=f(х) является графиком
функции f(х). Так как f(х) 0, то каждая
y
точка графика либо принадлежит, либо
лежит выше оси Ох. Рассмотрим на оси Ох
B
A
интервал (,) и криволинейную трапецию
ВА, площадь которой обозначим SВА.
Пусть Х – некоторая непрерывная случайная
x
величина.
Рассмотрим событие: Х(,),
0 α
β
или, что то же самое . Это событие
имеет определенную вероятность Р().
Рис 5.
Неотрицательная функция f(х) называется плотностью распределения
вероятности случайной величины Х. Если вероятность события <X< равна
площади SВА криволинейной трапеции для любого интервала (.
Имеем: Р() = SВА
Из школьного курса алгебры известно, что площадь криволинейной
трапеции SВА равна определенному интегралу от функции f(х) в пределах от
 до . Следовательно, Р() =

 f ( x)dx

Распределение непрерывной случайной величины Х характеризуется
плотностью f(х). График у=f(х) плотности называется кривой распределения.
Нормальное распределение.
Говорят, что случайная величина Х распределена нормально, если
плотность распределения вероятностей этой величины имеет вид:
f ( x) 
1
2 

e
( x а )2
2 2
Здесь е – основание натурального логарифма: e  2,7. Числа а и  параметры распределения: а – математическое ожидание,
 - среднее
квадратичное отклонение величины Х.
y
x
График функции (рис.6) называется
нормальной кривой.
Он симметричен
=a
относительно прямой х=а и имеет вид,
показанный на рисунке. Важность изучения
нормального распределения объясняется
тем,
x что многие с практической точки зрения
важные признаки различных явлений имеют
a
0
нормальное
распределение:
результаты
измерений однотипных объектов, например,
Рис.6
веса людей; величины, связанные с контролем качества определенного
вида продукции; время работы однотипных приборов до выхода их из строя и
т.п.
Вычисления показывают, что в случае нормального распределения
Р (а-σ Х а +σ) 0,68, Р (а-2σ Х а +2σ) 0,95, Р (а-3σ Х а +3σ)
0,997.
Это значит, что 68% значений нормально распределенной величины Х
отстоит от а не более, чем на ; 95% значений Х содержится в интервале (а2,а +2); 99,7% значений Х содержится в интервале (а-3,а +3), т.е.
практически все значения нормально распределенной случайной величины Х
отстоят от математического ожидания не далее, чем на 3.
Этот вывод получил в теории вероятностей название закона трех сигм.
Равномерное распределение.
y
A
B
Говорят, что случайная величина Х,
принимающая значение в интервале ,
распределена равномерно, если ее плотность
постоянна: f(х) = С = соnst. Поскольку
Р(Х) =1, то 1=SАВ=(·c.
1
0
α
β
Следовательно, с =
. Для равномерного
 
x

распределения имеем: а = М(Х)=
2
Рис. 7
Показательное распределение.
Плотность
распределения
вероятностей
показательного
распределения имеет вид:
y
λ
0, если....х  0,
f(х)= 
  e
x
, если...х  0.
График
показательного
распределения
показан на рисунке.
x
При х+ график неограниченно
приближается к оси Ох. Число 
есть параметр распределения.
0
Рис. 8
Для показательного распределения доказывается:
а =М(Х)=
1

, дисперсия D(Х) =
1

2
и (Х)=
1

Тема 5.2. Свойства нормального распределения
В психологических исследованиях чаще всего ссылаются на нормальное
распределение.
Нормальное распределение характеризуется тем, что крайние значения
признака в нем встречаются достаточно редко, а значения, близкие к средней
величине - достаточно часто. Нормальным такое распределение называется
потому, что оно очень часто встречалось в естественнонаучных исследованиях
и казалось "нормой" всякого массового случайного проявления признаков. Это
распределение следует закону, открытому тремя учеными в разное время:
Муавром в 1733 г. в Англии, Гауссом в 1809 г. в Германии и Лапласом в 1812 г.
во Франции. График нормального распределения представляет собой
привычную глазу психолога-исследователя так называемую колоколообразную
кривую.
Нормальным называется распределение вероятностей непрерывной
случайной величины, которое описывается плотностью вероятности:
f ( x) 
1
 x 2
e

( x  mx ) 2
2  2x
;
Нормальный закон распределения также называется законом Гаусса.
Нормальный закон распределения занимает центральное место в теории
вероятностей. Это обусловлено тем, что этот закон проявляется во всех
случаях, когда случайная величина является результатом действия большого
числа различных факторов. К нормальному закону приближаются все
остальные законы распределения. Можно легко показать, что параметры m x и
 x , входящие в плотность распределения являются соответственно
математическим ожиданием и средним квадратическим отклонением
случайной величины Х. График плотности нормального распределения
называется нормальной кривой или кривой Гаусса. Нормальная кривая
обладает следующими свойствами:
1) Функция определена на всей числовой оси.
2) При всех х функция распределения принимает только положительные
значения.
3) Ось ОХ является горизонтальной асимптотой графика плотности
вероятности, так как при неограниченном возрастании по абсолютной величине
аргумента х, значение функции стремится к нулю.
4) Экстремум функции.
y  
xm

3
2
e

( xm)2
22
 0;
x  m;
Так как при y’ > 0 при x < m и y’ < 0 при x > m , то в точке х = т функция
1
имеет максимум, равный  2 .
5) Функция является симметричной относительно прямой х = а.
При рассмотрении нормального закона распределения выделяется
важный частный случай, известный, как правило трех сигм. Запишем
вероятность того, что отклонение нормально распределенной случайной
величины от математического ожидания меньше заданной величины D:
m    m
m    m

 

P( X  m  )   
 
         2   









 

Если принять D = 3s, то получаем с использованием таблиц значений
функции Лапласа:
P( X  m  3)  2(3)  2  0,49865  0,9973
То есть вероятность того, что случайная величина отклонится от своего
математического ожидание на величину большую, чем утроенное среднее
квадратичное отклонение, практически равна нулю. Это правило называется
законом трех сигм.
Тема 5.3. Методы оценки типа распределения
Проверка нормальности распределения эмпирических данных помимо
использования визуального метода и оценки параметров распределения
предполагает применение двойного составного критерия. Метод проверки
диктует объем выборки.
Если объем выборки меньше или равен 15, то не нужно использовать
параметрические критерии. Если количество измерений больше 15, но меньше
50, то следует применять двойной составной критерий. Для выборок объемом
больше 50 рекомендован критерий двойной составной критерий
Двойной составной критерий предназначен для сопоставления двух
распределений — эмпирического и нормального. Если эмпирическое
распределение удовлетворяет двойному составному критерию, то с
вероятностью 0,98 можно считать, что к полученным данным применима
нормальная модель распределения.
Пример. Участники однодневного тренинга «Уверенное поведение»
оценивали у себя уровень личностной тревожности. Первое измерение
проводилось в день тренинга, второе — на следующий после тренинга день.
Все изменения оценивались по 10-балльной шкале. Данные представлены в
таблице 3. Вопрос: Можно ли утверждать, что полученные эмпирические
данные подчиняются закону нормального распределения?
Таблица 3
Данные по личностной тревожности испытуемых до и после
тренинга «Уверенное поведение»
ФИО
1.И. В. Л.
2 Я. Е. А.
3. К С. И
4 Р М.Н.
5. Н.М.Т.
6. Е. Л.П.
7.Л. К. С.
8. Т. А. П.
9. Б. В. В
10.С М .А
11. В. П. Р.
12. Ч. Н. Г.
13. А.С.П.
14. В.С.К.
15. В.П.П.
16. Л.Г.Т.
17. Т.И.Ч.
М
D
SD
Личностная тревожность
до тренинга
после тренинга
5
4
4
4
5
6
3
6
6
5
6
6
3
4
4
4
4
4,65
1,12
1,06
5
1
4
4
4
5
5
5
5
6
6
3
1
3
3
4
4
4
2,12
1,46
Двойной составной критерий предполагает две проверки. При первой
проверяется, попадает ли расчетный коэффициент dэмп. в заданную для
нормального распределения область. Если нет, то с вероятностью 0,98 можно
считать, что распределение эмпирических данных не соответствует
нормальному закону — Но принимается. Если расчетный коэффициент dэмп.
попадает в заданную для нормального распределения область, то переходят ко
второй проверке.
При втором сравнении необходимо из статистических таблиц взять
коэффициент z, соответствующий объему выборки. Далее необходимо
рассчитать дисперсию D и найти стандартное отклонение SD, а затем расчетное
отклонение s = SD • z. Потом следует сосчитать количество mэмп .случаев, когда
│хi - Mx│оказался больше s.
По статистическим таблицам необходимо найти mкр, и если mэмп .меньше
mкр., то можно считать распределение эмпирических данных нормальным, в
противном случае — нельзя.
До начала тренинга «Уверенное поведение» проведем расчеты для его
участников.
Сформулируем гипотезы:
Нулевая гипотеза (Н0) — распределение эмпирической случайной
величины данных, измеренных до проведения тренинга, отличается от нормального закона распределения;
Альтернативная гипотеза (Н1) — распределение эмпирической случайной
величины подчиняется нормальному закону распределения.
Первое условие
Проведем первое сравнение. Для этого необходимо рассчитать dэмп.
Сначала найдем x : x  4,65
Заполним первый столбец таблицы 3,
Просуммируем содержание столбца 1:
 x  x  15,65
Затем найдем D и SD. Для этого возведем разность хдо - x до в квадрат и
запишем в столбец 2. Подсчитаем сумму:
 xx
 18
2
Поделим ее на п — 1 = 17 — 1 = 16. Получим D = 1,12.
Возьмем квадратный корень из D:
SD  D  1,057
Пользуясь формулой dэмп. рассчитываем
n
d
 x x
i 1
n
i
n    xi  x 
2
i 1
и получаем dэмп. = 0,9.
С помощью статистических таблиц определим d1 и d2 соответствующие
объему выборки. Если dэмп> d2, а dэмп> d1 то можно переходить ко второму
сравнению.
d2= 0,6829, d1 = 0,9137. 0,9 > 0,6829 и 0,9 < 0,9137. Значит, dэмп
удовлетворяет первому условию.
Второе условие
Найдем z из статистических таблиц для объема выборки п = 17
z = 2,58.
Рассчитаем вспомогательное значение s, воспользовавшись рассчитанным
стандартным отклонением SD, s=SD · z:
s = 1,057·2,58 = 1,92.
Заполним третий столбец таблицы для расчета SD. Если значение в
столбце 1 будет больше рассчитанного s = 1,92, то пишем 1, если нет, то 0.
Считаем сумму mэмп ячеек столбца 3: mэмп =0
По статистической таблице находим mкр: mкр=1
Сравниваем mкр и mэмп: mкр > mэмп.
Значит, второе условие выполняется, а следовательно, принимается
гипотеза Н1.
Ответ: Принимается гипотеза Н1. Данные учащихся до исследования
можно считать распределенными по нормальному закону. Более подробно с
двойным
составным
критерием
можно
ознакомиться,
используя
дополнительную литературу [2].
Раздел 6. Понятие норм и стандартов в психологии
Тема 6.1. Виды стандартных шкал в психологии
Показатели психометрических тестов, применяемых в практической
психологии с целью постановки психологического диагноза переводятся из
первичных ("сырых" - не подвергнутых обработке) и полученных
испытуемым по данному тесту в стандартные показатели, которые
рассчитываются на основе линейного или нелинейного преобразования
первичных показателей (при условии их распределения близкого к
нормальному закону). При этом исторически сложилось наличие ряда
наиболее распостраненных стандартных показателей, связанных с
особенностями преобразования. К наиболее известным и используемым
стандартным шкалам относятся:
1.Шкала стенов или с-показателей (от англ. standart ten), созданная
Кеттелом и используемая в опроснике 16 PF. M = 5,5; σ = 2; с принадлежит
интервалу от 1 до 10.
2.Шкала станайнов (от англ. standart nine), созданная Гилфордом M = 5;
σ = 2; с принадлежит интервалу от 1 до 9.
3. Шкала IQ-показателей Векслера. M = 100; σ = 15; IQ принадлежит
интервалу от 40 до 160.
4. Z-шкала Амтхауэра M = 100; σ = 10; Z принадлежит интервалу от 60
до 140.
5. Т шкала Маккола. M = 50; σ = 10; Т принадлежит интервалу от 10 до
90.
Другие виды стандартных шкал представлены на рис. 9. О них можно
прочитать в основной литературе [3].
Рис. 9 Соотношения различных типов тестовых показателей при
нормальном распределении
Тема 6.2. Условия и методы стандартизации шкал.
Переход от исходной шкалы в которой представлены психологические
показатели к стандартной осуществляется с помощью Z-шкалы.
Z-шкала образуется в результате центрирования,понимаемого как
линейная трансформация величин признака,при которой средняя величина
распределения становится равная нулю и процедуры нормирования
посредством среднеквадратических отклонений.
Z-шкала состоит из неприрывного континиума Z-показателей,
определяемых в виде разности между индивидуальными первичными
результатами и средним значением для генеральной совокупности,деленные на
стандартное отклонение распределения:
z
xx

где х - необработанные ("сырые") баллы; x - среднее; σ - стандартное
отклонение.
При этом полученная Z- шкала будет иметь среднюю точку М=0 и
единицу измерения (масштаб) 16 стандартного (единичного) нормального
распределения как показано на рис.9.
Z-показатель может принимать как положительные, так и отрицательные
значения. Большинство случаев (99,72 %) значения Z-показателей умещается в
пределах -3 < М > +3 и могут принимать любые значения. К достоинствам Zпоказателя относится простота интерпретации и сравнения индивидуальных
результатов: чем больше показатель, тем дальше от среднего (нормы) он может
находиться, при этом знак указывает ( + ) - выше среднего; ( - ) – ниже
среднего. Но недостатки, особенно в области прикладной (практической)
психологии, к которым относят: сложность интерпретации для испытуемого
(клиента),крупность
масштаба
единиц
измерения,
оперирование
отрицательными и положительными величинами, побудили разработчиков
тестов использовать нормализованные преобразования по формуле:
Zp = А + b Z ,
где Zp -преобразованный стандартный показатель; b - стандартное
отклонение преобразованного распределения - Z-показатель; А - среднее
значение преобразованного распределения. Такой переход правомерен, так как
стандартная шкала представляет собой интервальную шкалу, что позволяет
выполнять линейные преобразования, при условии что константы b и А –
действительные числа.
Раздел 7. Индуктивная статистика
Тема 7.1. Основной метод индуктивной статистики
Основная задача индуктивной статистики, или теории статистического
вывода связана с выявлением различий между показателями двух или
нескольких распределений.
Выявление существенных различий позволит объяснить их действием
независимой переменной, или фактора, а не случайностью, связанной с малым
объемом выборки.
Основным инструментом индуктивной статистики является метод
проверки статистических гипотез.
Принцип метода состоит в том, что выдвигается нулевая гипотеза H0 с
тем, чтобы доказать или опровергнуть ее и тем самым подтвердить
альтернативную гипотезу (H1).
Нулевая гипотеза - это гипотеза об отсутствии различий. Она
обозначается как H0 И называется нулевой потому, что содержит число 0: X1Х2=0, где X1, X2 - сопоставляемые значения признаков.
Нулевая гипотеза - это то, что мы хотим опровергнуть, если перед нами
стоит задача доказать значимость различий.
Альтернативная гипотеза - это гипотеза о значимости различий. Она
обозначается как H1. Альтернативная гипотеза - это то, что мы хотим доказать,
поэтому иногда ее называют экспериментальной гипотезой. Нулевая и
альтернативная гипотезы могут быть направленными и ненаправленными.
Направленные гипотезы
H0: X1 не превышает Х2
H1: X1 превышает Х2
Ненаправленные гипотезы
H0: X1 не отличается от Х2
Н1: Х1 отличается от Х2
Построим схему - классификацию статистических гипотез.
Рис. 9 Виды статистических гипотез
Проверка гипотез осуществляется с помощью критериев статистической
оценки различий.
Проверка статистической гипотезы осуществляется с помощью
статистического критерия в соответствии с определенным алгоритмом.
Критерии делятся на параметрические и непараметрические.
Параметрические критерии – критерии, включающие в формулу расчета
параметры распределения, то есть средние и дисперсии (t – критерий
Стьюдента, критерий F Фишера и др.)
Непараметрические критерии - критерии, не включающие в формулу
расчета параметров распределения и основанные на оперировании частотами
или рангами (критерий Q-Розенбаума, Т-критерий Вилкоксона и др.). И те, и
другие критерии имеют свои преимущества и недостатки. На основании
нескольких руководств можно составить таблицу, позволяющую оценить
возможности и ограничения тех и других.
Таблица 4
Возможности и ограничения параметрических
и непараметрических критериев
ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
1.Позволяют прямо оценить различие в
средних, полученных в двух выборках (t
- критерий Стьюдента).
НЕПАРАМЕТРИЧЕСКИЕ
КРИТЕРИИ
Позволяют оценить лишь средние
тенденции, например, ответить на
вопрос, чаще ли в выборке А
встречаются более высокие, а в
выборке Б более низкие значения
признака (критерии Q, U, φ* и др.).
2.Позволяют прямо оценить различия в
дисперсиях (критерий Фишера).
3.Позволяют выявить тенденции
изменения признака при переходе от
условия к условию (дисперсионный
однофакторный анализ), но лишь при
условии нормального распределения
признака.
4.Позволяют оценить взаимодействие
двух и более факторов в их влиянии на
изменения признака (двухфакторный
дисперсионный анализ).
5.Экспериментальные данные должны
отвечать двум, а иногда трем, условиям:
а)значения признака измерены по
интервальной шкале;
б) распределение признака является
нормальным;
в) в дисперсионном анализе должно
соблюдаться требование равенства
дисперсий в ячейках комплекса.
6.Математические расчеты довольно
сложны.
7.Если условия, перечисленные в п.5,
выполняются, параметрические критерии оказываются несколько более
мощными, чем непараметрические.
Позволяют оценить лишь различия в
диапазонах вариативности признака
(критерий φ*).
Позволяют выявить тенденции
изменения признака при переходе от
условия к условию при любом
распределении признака (критерии
тенденций L и S).
Эта возможность отсутствует.
Экспериментальные данные могут
не отвечать ни одному из этих
условий:
а)значения признака могут быть
представлены в любой шкале,
начиная от шкалы наименований;
б) распределение признака может
быть любым и совпадение его с
каким-либо теоретическим законом
распределения необязательно и не
нуждается в проверке;
в) требование равенства дисперсий
отсутствует.
Математические расчеты по
большей части просты и занимают
мало времени
(за искл. критериев χ2 и λ).
Если условия, перечисленные в п.5,
не выполняются, непараметрические
критерии оказываются более
мощными, чем параметрические,
так как они менее чувствительны к
«засорениям».
Мы видим, что параметрические критерии могут оказаться несколько
более мощными, чем непараметрические, но только в том случае, если признак
измерен по интервальной шкале и нормально распределен. С интервальной
шкалой есть определенные проблемы. Лишь с некоторой натяжкой мы можем
считать данные, представленные не в стандартизованных оценках, как
интервальные. Кроме того, проверка распределения "на нормальность" требует
достаточно сложных расчетов, результат которых заранее неизвестен. Может
оказаться, что распределение признака отличается от нормального, и нам так
или иначе все равно придется обратиться к непараметрическим критериям.
Непараметрические критерии лишены всех этих ограничений и не
требуют таких длительных и сложных расчетов. По сравнению с
параметрическими критериями они ограничены лишь в одном - с их помощью
невозможно оценить взаимодействие двух или более условий или факторов,
влияющих на изменение признака. Эту задачу может решить только
дисперсионный двухфакторный анализ.
Тема 7.2. Параметрические критерии
t-критерий Стьюдента
t-критерий Стьюдента является одним из самых мощных и часто
используется при анализе результатов исследования. Для t-критерия должны
быть соблюдены три условия: шкала измерения не ниже интервальной,
нормальное распределение данных и одинаковая дисперсия выборок.
t-критерий Стьюдента существует в нескольких модификациях: для
связанной выборки, для несвязанной выборки и для определения значимости
различия вероятностей появления событий. Рассмотрим все три модификации.
Рассмотрим t-критерий Стьюдента для связанных выборок
t-критерий для связанных выборок, или, иначе говоря, для зависимых
измерений, используется для определения вероятности того, что наблюдаемое
различие между двумя условиями для одних и тех же участников обусловлено
случаем
Вернемся к примеру в Теме 5.3. и продолжим его анализ. Как было
выяснено в ходе расчетов выше, полученные в примере А данные имеют
нормальное распределение и выборочные дисперсии значимо не отличаются.
Если уже известно, что распределение данных и до и после одинаково и
является нормальным, а дисперсии выборок не отличаются, то для поиска
различий возможно использование t-критерия Стьюдента.
Вопрос: Различаются ли средние показатели участников до и после
тренинга?
Сформулируем гипотезы:
Нулевая H0 — средние двух выборок различаются незначимо (различия в
средних выборок случайны);
Альтернативная H1— средние двух выборок различаются значимо
(различия в средних выборок не случайны).
Для наглядности скопируем таблицу 3, добавив к ней 2 столбца для
проведения расчетов.
Сосчитаем разность между Xдо и Хпосле и занесем в таблицу 5 (δ= (Xдо Хпосле) найдем сумму δ. Возведем δ в квадрат, запишем в таблицу 5 и найдем
сумму δ 2.
Таблица 5
Расчет t-критерия Стьюдента
ФИО
Расчетные данные
1.И. В. Л.
2 Я. Е. А.
3. К С. И
4 Р М.Н.
5. Н.М.Т.
6. Е. Л.П.
7.Л. К. С.
8. Т. А. П.
9. Б. В. В
10.С М .А
11. В. П. Р.
12. Ч. Н. Г.
13. А.С.П.
14. В.С.К.
15. В.П.П.
16. Л.Г.Т.
17. Т.И.Ч.
Сумма
Затем
Xдо
Хпосле
δ
δ2
5
4
4
4
5
6
3
6
6
5
6
6
3
4
4
4
4
5
1
4
4
4
5
5
5
5
6
6
3
1
3
3
4
4
0
3
0
0
1
1
-2
1
1
-1
0
3
2
1
1
0
0
S1=11
0
9
0
0
1
1
4
1
1
1
0
9
4
1
1
0
0
S2=33
находим
отклонение  

среднюю
2
(n  1)

разность

S1 11

 0,64 ,
n 17
33
 1,43 , рассчитываем
16
t эм п 
стандартное
 n
 1,85 определяем

размерность системы df = n-1 = 16 Найдем по стандартным таблицам
эмпирическое значение критерия tэмп(1,85) ≤t0,05(2,12)
Ответ: Принимается нулевая гипотеза (Но). Средние значения
отличаются незначимо. Значимых различий между выборками не найдено.
На основании анализа расчетов можно заключить, что результаты
участников тренинга относятся к одной генеральной совокупности, а значит,
влияние тренинга на изменение личностной тревожности незначительное.
t-критерий Стъюдента для несвязанных выборок используется для
определения того, является различие в распределении значений между двумя
группами случайным или статистически значимым. Для вычисления t-критерия
Стьюдента используется следующая формула:
t
M1  M 2
m12  m22
где М — среднее значение по выборке, m 

(n  1)
где  стандартное отклонение.
Более подробно с критерием можно познакомиться, используя
дополнительную литературу [2].
F - критерий Фишера
F-критерий Фишера используют для сравнения дисперсий двух
вариационных рядов. Он вычисляется по формуле:
F
 12
,
 22
где  12 - большая дисперсия,  22 - меньшая дисперсия.
Если вычисленное значение критерия F больше критического для
определенного уровня значимости и соответствующих чисел степеней свободы
для числителя и знаменателя, то дисперсии считаются различными.
Число степеней свободы числителя определяется по формуле:
v1  n1  1
где n1 число вариант для большей дисперсии.
Число степеней свободы знаменателя определяется по формуле:
v2  n2  1
где n 2 - число вариант для меньшей дисперсии.
Пример. При измерении величины газообмена в опытной (n1=10) и
контрольной (n2=10) группах животных были получены соответственно
следующие величины дисперсий -  12 =163.9 и  22 =89.3. Значение критерия F
составило 1.84 (p>0,05), следовательно, различие в изменчивости процесса
газообмена в опытной и контрольной группах животных можно считать
несущественным.
F-критерий Фишера направлен на определение равенства дисперсий двух
выборок. Данный критерий может служить первичным способом выявления
различий в показателях двух выборок и применяется для получения
предварительного ответа на вопрос: принадлежат ли обе выборки одной
генеральной совокупности? Этот критерий проверяет равенство в двух выборках одного параметра нормального распределения — дисперсии. Второй
параметр проверяет t-критерий Стьюдента.
Если критерий Фишера указывает на то, что дисперсии двух выборок
различаются, это основание полагать, что различия между выборками значимы.
Сравнение двух выборочных дисперсий осуществляется следующим
образом. Вычисляется эмпирическое дисперсионное отношение.
где D1 и D2 всегда выбираются таким образом, что объем выборки с D1
>D2 п1 — объем выборки с D1,а п2 — объем выборки с D2.
Далее по стандартным таблицам определяется F ст для проверяется
условие Fэмп≤F0,05 - в этом случае дисперсии различаются лишь случайным
образом (гипотеза о равенстве дисперсий подтверждается). Если Fэмп≤Fст то
различия не случайны (гипотеза о значимом различии дисперсий
подтверждается).
Продолжим рассмотрение примера.
Значимо ли различие дисперсии данных у участников до и после
тренинга?
Сформулируем гипотезы:
Нулевая (H0) - дисперсии значимо не различаются (различия в дисперсиях
выборок случайны);
Альтернативная (H1) - различие дисперсий значимо (различия в
дисперсиях выборок не случайны).
Ранее мы уже рассматривали этот пример и с помощью двойного
составного критерия определили, что распределение показателей может
считаться нормальным. Также нами были вычислены дисперсии результатов до
и после тренинга: Dдо=1,12, Dпосле=2,12. n1 = n2 = 17;
Fэм п 
2,12
 1,89
1,12
В статистической таблице находим статистическое значение критерия:
F0,05 = 2,33. Fэмп≤F0,05 значит, гипотеза о том, что различия в дисперсиях
незначительны, подтверждается.
Ответ: Принимается H0. Различия в дисперсиях выборок случайны.
Тема 7.3. Непараметрические критерии
Q - критерий Розенбаума
Критерий используется для оценки различий между двумя выборками по
уровню какого-либо признака, количественно измеренного. В каждой из
выборок должно быть не менее 11 испытуемых. Он позволяет быстро оценить
различия между двумя выборками по какому-либо признаку. Однако если
критерий Q не выявляет достоверных различий, это еще не означает, что их
действительно нет.
В этом случае стоит применить критерий φ* Фишера. Если же Qкритерий выявляет достоверные различия между выборками с уровнем
значимости р<0,01, можно ограничиться только им и избежать трудностей
применения других критериев.
Критерий применяется в тех случаях, когда данные представлены по
крайней мере в порядковой шкале. Признак должен варьировать в каком-то
диапазоне значений, иначе сопоставления с помощью Q -критерия просто
невозможны. Например, если у нас только 3 значения признака, 1, 2 и 3, - нам
очень трудно будет установить различия. Метод Розенбаума требует,
следовательно, достаточно тонко измеренных признаков.
Применение критерия начинаем с того, что упорядочиваем значения
признака в обеих выборках по нарастанию (или убыванию) признака. Лучше
всего, если данные каждого испытуемого представлены на отдельной карточке.
Тогда ничего не стоит упорядочить два ряда значений по интересующему нас
признаку, раскладывая карточки на столе. Так мы сразу увидим, совпадают ли
диапазоны значений, и если нет, то насколько один ряд значений "выше" (S1), а
второй - "ниже" (S2). Для того, чтобы не запутаться, в этом и во многих других
критериях рекомендуется первым рядом (выборкой, группой) считать тот ряд,
где значения выше, а вторым рядом - тот, где значения ниже.
Гипотезы
H0: Уровень признака в выборке 1 не превышает уровня признака в
выборке 2.
H1: Уровень признака в выборке 1 превышает уровень признака в выборке 2.
Графическое представление критерия Q
На Рис.11 представлены три варианта соотношения рядов значений в
двух выборках. В варианте (а) все значения первого ряда выше всех значений
второго ряда. Различия, безусловно, достоверны, при соблюдении условия, что
n1, n2≥11.
В варианте (б), напротив, оба ряда находятся на одном и том же уровне:
различия недостоверны. В варианте (в) ряды частично перекрещиваются, но все
же первый ряд оказывается гораздо выше второго. Достаточно ли велики зоны
S1 и S2, в сумме составляющие Q, можно определить по Таблице стандартных
значений критерия. Чем величина Q больше, тем более достоверные различия
мы сможем констатировать.
Рис. 11 Возможные соотношения рядов в двух выборкаx: S1 - зона
значений 1-го ряда, которые выше максимального значения 2-го ряда; S2 - зона
значений 2-го ряда, которые меньше минимального значения 1-го ряда;
штриховой отмечены перекрещивающиеся зоны двух рядов
Ограничения критерия Q
1. В каждой из сопоставляемых выборок должно быть не менее 11 наблюдений. При этом объемы выборок должны примерно совпадать. Е.В.
Гублером указываются следующие правила:
а) если в обеих выборках меньше 50 наблюдений, то абсолютная
величина разности между n1 и n2 не должна быть больше 10 наблюдений;
б) если в каждой из выборок больше 51 наблюдения, но меньше 100, то
абсолютная величина разности между щ и Л2 не должна быть больше 20
наблюдений;
в) если в каждой из выборок больше 100 наблюдений, то допускается,
чтобы одна из выборок была больше другой не более чем в 1,5-2 раза.
2. Диапазоны разброса значений в двух выборках должны не совпадать
между собой, в противном случае применение критерия бессмысленно. Между
тем, возможны случаи, когда диапазоны разброса значений совпадают, но,
вследствие разносторонней асимметрии двух распределений, различия в
средних величинах признаков существенны (Рис. 12, 13).
Рис. 12 Вариант соотношения распределений признака в двух выборках,
при котором критерий Q беспомощен
Рис.13 Вариант соотношения распределений признака в двух выборках,
при котором критерий Q может быть применим
Рассмотрим пример
У предполагаемых участников психологического эксперимента,
моделирующего деятельность воздушного диспетчера, был измерен уровень
вербального и невербального интеллекта с помощью методики Д. Векслера.
Было обследовано 26 юношей в возрасте от 18 до 24 лет (средний возраст 20,5
лет). 14 из них были студентами физического факультета, а 12 - студентами
психологического факультета Ленинградского университета (Сидоренко Е.В.)
показатели вербального интеллекта представлены в Табл. 6
Можно ли утверждать, что одна из групп превосходит другую по уровню
вербального интеллекта?
Таблица 6
Индивидуальные значения вербального интеллекта в выборках
студентов физического (n1=14) и психологического (n2=12) факультетов
№
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Студенты-физики
Код имени
Показатель
испытуемого
вербального
интеллекта
И.А
132
К.А.
134
К.Е.
124
П.А.
132
С.А.
135
СТ.А.
132
Т.А.
131
Ф.А.
132
Ч.И.
121
Ц.А.
127
СМ.А.
136
К.АН.
129
Б.Л.
136
Ф.В.
136
№
1.
2.
3.
4.
5.
6.
7.
8.
9.
10
11
12
Студенты - психологи
Код имени
Показатель
испытуемого
вербального
интеллекта
Н.Т.
126
О.В.
127
Е.В.
132
Ф.О.
120
И.Н.
119
И.Ч.
126
И.В.
120
К.О.
123
P.P.
120
Р.И.
116
O.K.
123
Н.К.
115
Упорядочим значения в обеих выборках, а затем сформулируем гипотезы:
H0: Студенты-физики не превосходят студентов-психологов по уровню
вербального интеллекта.
H1: Студенты-физики превосходят студентов-психологов по уровню
вербального интеллекта.
Таблица 7
Упорядоченные по убыванию вербального интеллекта ряды
индивидуальных значений в двух студенческих выборках
Как видно из Табл. 7, мы правильно обозначили ряды: первый, тот, что
"выше" - ряд физиков, а второй, тот, что "ниже" - ряд психологов.
По Табл. 7 определяем количество значений первого ряда, которые
больше максимального значения второго ряда: S1=5.
Теперь определяем количество значений второго ряда, которые меньше
минимального значения первого ряда: S2=6.
Вычисляем Qэмп по формуле:
Qэмп = S1+S2=5+6=11
По статистическим таблицам определяем критические значения Q для
n1=14, n2=12:
7( p  0,05)
Qкр  
9( p  0,01)
Ясно, что чем больше расхождения между выборками, тем больше
величина Q. Но отклоняется при Qэмп>Qкp, а при Qэмп <Qкp мы будем
вынуждены принять Но.
Построим "ось значимости".
Рис. 14 Ось значимости
По рис. 14 Qэмп>Qкp, р=0,01.
H0 отклоняется и принимается H1. Студенты-физики превосходят
студентов-психологов по уровню вербального интеллекта (р<0,01). Отметим,
что в тех случаях, когда эмпирическая величина критерия оказывается на
границе зоны незначимости, мы имеем право утверждать лишь, что различия
достоверны при р<0,05, если же оно оказывается между двумя критическими
значениями, то мы можем утверждать, что р< 0,05.
Если эмпирическое значение критерия оказывается на границе зоны
значимости, р<0,01, в зоне значимости - что р<0,01
Поскольку уровень значимости выявленных различий достаточно высок
(р<0,01), мы могли бы на этом остановиться. Однако если исследователь сам
психолог, а не физик, вряд ли он на этом остановится. Он может попробовать
сопоставить выборки по уровню невербального интеллекта, поскольку именно
невербальный интеллект определяет уровень интеллекта в целом и степень его
организованности.
АЛГОРИТМ
Подсчет критерия Q Розенбаума
1. Проверить, выполняются ли ограничения: n1,n2 ≥11,
n1 n2≈n2. Упорядочить значения отдельно в каждой выборке по степени
возрастания признака. Считать выборкой 1 ту выборку, значения в которой
предположительно выше, а выборкой 2 - ту, где значения предположительно
ниже.
3. Определить самое высокое (максимальное) значение в выборке 2.
4. Подсчитать количество значений в выборке 1, которые выше
максимального значения в выборке 2. Обозначить полученную величину как S1.
5. Определить самое низкое (минимальное) значение в выборке 1.
6. Подсчитать количество значений в выборке 2, которые ниже
минимального значения выборки 1. Обозначить полученную величину как S2.
7. Подсчитать эмпирическое значение Q по формуле: Q=S1+S2
8. По Таблице статистических значений критерия
определить
критические значения Q для данных n1 и n2. Если Qэмп равно Q0,05 или
превышает его, Н0 отвергается.
9. При n1,n2>26 сопоставить полученное эмпирическое значение с Qкp=8
(р≤0,05) и Qкp=10(p≤0,01). Если Qэмп превышает или по крайней мере равняется
Qкp=8, H0 отвергается.
U - критерий Манна-Уитни
Критерий предназначен для оценки различий между двумя выборками по
уровню какого-либо признака, количественно измеренного. Он позволяет
выявлять различия между малыми выборками, когда n1,n2≥3 или n1=2, n2≥5, и
является более мощным, чем критерий Розенбаума.
Этот метод определяет, достаточно ли мала зона перекрещивающихся
значений между двумя рядами.
Чем меньше область перекрещивающихся значений, тем более вероятно,
что различия достоверны. Эмпирическое значение критерия U отражает то,
насколько велика зона совпадения между рядами. Поэтому чем меньше Uэмп,
тем более вероятно, что различия достоверны.
Гипотезы:
Н0: Уровень признака в группе 2 не ниже уровня признака в группе 1.
H1: Уровень признака в группе 2 ниже уровня признака в группе 1.
Графическое представление критерия U
На Рис. 15 представлены три из множества возможных вариантов
соотношения двух рядов значений.
В варианте (а) второй ряд ниже первого, и ряды почти не
перекрещиваются. Область наложения слишком мала, чтобы скрадывать
различия между рядами. Есть шанс, что различия между ними достоверны.
Точно определить это мы сможем с помощью критерия U.
В варианте (б) второй ряд тоже ниже первого, но и область перекрещивающихся значений у двух рядов достаточно обширна. Она может еще
не достигать критической величины, когда различия придется признать
несущественными. Но так ли это, можно определить только путем точного
подсчета критерия U.
В варианте (в) второй ряд ниже первого, но область наложения настолько
обширна, что различия между рядами скрадываются.
Рис. 15 Возможные варианты соотношений рядов значений в двух
выборках; штриховкой обозначены зоны наложения
Ограничения критерия U
1. В каждой выборке должно быть не менее 3 наблюдений: n1,n2≥3;
допускается, чтобы в одной выборке было 2 наблюдения, но тогда во второй их
должно быть не менее 5.
2. В каждой выборке должно быть не более 60 наблюдений; n1,n2≤60.
Однако уже при n1,n2>20 ранжирование становиться достаточно трудоемким.
В случае, если n1,n2>20, лучше использовать другой критерий, а именно
угловое преобразование Фишера в комбинации с критерием λ,, позволяющим
выявить критическую точку, в которой накапливаются максимальные различия
между двумя сопоставляемыми выборками. Формулировка звучит сложно, но
сам метод достаточно прост. Каждому исследователю лучше попробовать
разные пути и выбрать тот, который кажется ему более подходящим.
Пример.
Вернемся к результатам обследования студентов физического и
психологического факультетов Ленинградского университета с помощью
методики Д. Векслера для измерения вербального и невербального интеллекта.
С помощью критерия Q-Розенбаума мы смогли с высоким уровнем значимости
определить, что уровень вербального интеллекта в выборке студентов
физического
факультета
выше.
Попытаемся
установить
теперь,
воспроизводится ли этот результат при сопоставлении выборок по уровню
невербального интеллекта. Данные приведены в Табл. 8.
Можно ли утверждать, что одна из выборок превосходит другую по
уровню невербального интеллекта?
Таблица 8
Индивидуальные значения невербального интеллекта в выборках
студентов физического (n1=14) и психологического (n2=12) факультетов
Студенты-физики
Код имени
Показатель
испытуемого
невербального
интеллекта
1. ИА.
111
2. К.А.
104
3.К.Е.
107
4.П.А.
90
5.С.А.
115
6.Ст.А.
107
7.Т.А.
106
8.Ф.А.
107
9.Ч.И.
95
10.ЦА.
116
11.См.А.
127
12.К.Ан.
115
13.Б.Л.
102
14.Ф.В.
99
Студенты-психологи
Код
Показатель
имени
невербального
испытуемого
интеллекта
1.Н.Т.
113
2.О.В.
107
3.Е.В.
123
4.Ф.О.
122
5.И.Н.
117
6.И.Ч.
112
7.И.В.
105
8.К.О.
108
9.P.P.
111
10.Р.И.
114
11.O.K.
102
12.Н.К.
104
Критерий U требует тщательности и внимания. Прежде всего,
необходимо помнить правила ранжирования.
Правила ранжирования
1. Меньшему значению начисляется меньший ранг. Наименьшему
значению начисляется ранг 1.
Наибольшему значению начисляется ранг, соответствующий количеству
ранжируемых значений. Например, если n=7, то наибольшее значение получит
ранг 7, за возможным исключением для тех случаев, которые предусмотрены
правилом 2.
2. В случае, если несколько значений равны, им начисляется ранг,
представляющий собой среднее значение из тех рангов, которые они получили
бы, если бы не были равны.
Например, 3 наименьших значения равны 10 секундам. Если бы мы
измеряли время более точно, то эти значения могли бы различаться и
составляли бы, скажем, 10,2 сек; 10,5 сек; 10,7 сек. В этом случае они получили
бы ранги, соответственно, 1, 2 и 3. Но поскольку полученные нами значения
равны, каждое из них получает средний ранг:
1 2  3 6
 2
3
3
Допустим, следующие 2 значения равны 12 сек. Они должны были бы
получить ранги 4 и 5, но, поскольку они равны, то получают средний ранг:
45
 4,5 и т.д.
2
3. Общая сумма рангов должна совпадать с расчетной, которая определяется по формуле:
 (R ) 
1
N  ( N  1)
2
где N - общее количество ранжируемых наблюдений (значений).
Несовпадение реальной и расчетной сумм рангов будет свидетельствовать об
ошибке, допущенной при начислении рангов или их суммировании. Прежде
чем продолжить работу, необходимо найти ошибку и устранить ее.
АЛГОРИТМ
Подсчет критерия U Манна-Уитни.
1. Перенести все данные испытуемых на индивидуальные карточки.
2. Пометить карточки испытуемых выборки 1 одним цветом, скажем
красным, а все карточки из выборки 2 - другим, например, синим.
3. Разложить все карточки в единый ряд по степени нарастания признака,
не считаясь с тем, к какой выборке они относятся, как если бы мы работали с
одной большой выборкой.
4. Проранжировать значения на карточках, приписывая меньшему значению меньший ранг. Всего рангов получится столько, сколько у нас (n1+п2).
5. Вновь разложить карточки на две группы, ориентируясь на цветные
обозначения: красные карточки в один ряд, синие - в другой.
6. Подсчитать сумму рангов отдельно на красных карточках (выборка 1) и
на синих карточках (выборка 2). Проверить, совпадает ли общая сумма рангов с
расчетной.
7. Определить большую из двух ранговых сумм.
8. Определить значение U по формуле:
U  (n1  n2 ) 
n x  (n x  1)
 Tx
2
где n1 - количество испытуемых в выборке 1;
n2 - количество испытуемых в выборке 2;
Тх - большая из двух ранговых сумм;
nх - количество испытуемых в группе с большей суммой рангов.
9. Определить критические значения U по Таблице стандартных значений
критерия. Если Uэмп.>Uкp 005, Но принимается. Если Uэмп≤Uкp_005, Но отвергается.
Чем меньше значения U, тем достоверность различий выше.
Теперь проделаем всю эту работу на материале данного примера. В
результате работы по 1-6 шагам алгоритма построим таблицу 9.
Таблица 9
Подсчет ранговых сумм по выборкам студентов физического и
психологического факультетов
Студенты-физики (n1=14)
Студенты-психологи (n2=12)
Показатель невербального
Ранг
Показатель
Ранг
интеллекта
невербального
интеллекта
127
26
123
25
122
24
117
23
116
22
115
20,5
115
20,5
114
19
113
18
112
17
111
15,5
111
15.5
108
14'
107
11.5
107
11,5
107
11,5
107
11,5
106
9
105
8
104
6.5
104
6,5
102
4,5
102
4,5
99
3
95
2
90
1
Суммы
1501
165
1338
186
Средние
107,2
111,5
Общая сумма рангов: 165+186=351. Расчетная сумма:
R
1

N  ( N  1) 26  (26  1)

 351
2
2
Равенство реальной и расчетной сумм соблюдено.
Мы видим, что по уровню невербального интеллекта более "высоким"
рядом оказывается выборка студентов-психологов. Именно на эту выборку
приходится большая ранговая сумма: 186.
Теперь мы готовы сформулировать гипотезы:
H0: Группа студентов-психологов не превосходит группу студентовфизиков по уровню невербального интеллекта.
Н1: Группа студентов-психологов превосходит группу студентов-физиков
по уровню невербального интеллекта.
В соответствии со следующим шагом алгоритма определяем эмпирическую величину U:
U эм п  (14  12) 
12  (12  1)
 186  60
2
Подсчитаем эмпирическую величину U и для второй ранговой суммы
(165), подставляя в формулу соответствующее ей пх:
U эм п  (14  12) 
14  (14  1)
 165  108
2
Для сопоставления с критическим значением выбираем меньшую
величину U: Uэмп=60.
По Таблице стандартных значений критерия определяем критические
значения для n1=14, n2=12.
51( p  0,05)
U кр  
38( p  0,01)
Критерий U является одним из двух исключений из общего правила
принятия решения о достоверности различий, а именно,
мы
можем
констатировать достоверные различия, если Uэмп≤Uкp
Построим "ось значимости".
Рис. 16 Ось значимости для U - критерия
Uэмп=60
Uэмп>Uкp
Ответ: H0 принимается. Группа студентов-психологов не превосходит
группы студентов-физиков по уровню невербального интеллекта.
Т - критерий Вилкоксона
Критерий применяется для сопоставления показателей, измеренных в
двух разных условиях на одной и той же выборке испытуемых.
Он позволяет установить не только направленность изменений, но и их
выраженность. С его помощью мы определяем, является ли сдвиг показателей
в каком-то одном направлении более интенсивным, чем в другом.
Этот критерий применим в тех случаях, когда признаки измерены, по
крайней мере, по шкале порядка; и сдвиги между вторым и первым замерами
тоже могут быть упорядочены. Для этого они должны варьировать в
достаточно широком диапазоне. В принципе, можно применять критерий Т и в
тех случаях, когда сдвиги принимают только три значения: —1, 0 и +1, но тогда
критерий Т вряд ли добавит что-нибудь новое к тем выводам, которые можно
было бы получить с помощью критерия знаков. Вот если сдвиги изменяются,
скажем, от —30 до +45, тогда имеет смысл их ранжировать и потом
суммировать ранги.
Суть метода состоит в том, что мы сопоставляем выраженность сдвигов в
том и ином направлениях по абсолютной величине. Для этого мы сначала
ранжируем все абсолютные величины сдвигов, а потом суммируем ранги. Если
сдвиги в положительную и в отрицательную сторону происходят случайно, то
суммы рангов абсолютных значений их будут примерно равны. Если же
интенсивность сдвига в одном из направлений перевешивает, то сумма рангов
абсолютных значений сдвигов в противоположную сторону будет значительно
ниже, чем это могло бы быть при случайных изменениях.
Первоначально мы исходим из предположения о том, что типичным
сдвигом будет сдвиг в более часто встречающемся направлении, а нетипичным,
или редким, сдвигом - сдвиг в более редко встречающемся направлении.
Гипотезы
Н0: Интенсивность сдвигов в типичном направлении не превосходит
интенсивности сдвигов в нетипичном направлении.
H1: Интенсивность сдвигов в типичном направлении превышает интенсивность сдвигов в нетипичном направлении.
Графическое представление Т критерия Вилкоксона
Сдвиги в противоположные стороны мы можем представить себе в виде
двух облаков, как и в критерии знаков. Величина облака зависит не только от
количества соответствующих сдвигов, но и от их интенсивности, отраженной в
длине стрелок (Рис. 17). В сущности, облака: противостоят друг другу, как два
воздушных фронта: они не просто соревнуются по величине, они меряются
силами! При определенных п, а именно при n≥18, мы вообще можем отказаться
от понятия типичного сдвига. Сдвигов в ту и другую сторону может оказаться
поровну, но если 9 меньших сдвигов будут относиться к одному направлению,
а 9 больших сдвигов - к противоположному, то мы можем констатировать
достоверное преобладание этого противоположного направления сдвигов.
Вспомним, что критерий знаков в этом случае не выявил бы никаких
достоверных различий.
Рис. 17 Варианты соотношения «светлого» и «темного фронтов» сдвигов двух разных направленностей в Т - критерии Вилкоксона
На Рис. 17 (а) "светлый фронт" преобладает над "темным фронтом" и по
количеству сдвигов, и по их интенсивности. На Рис. 17 (б) «светлый фронт»
преобладает только по интенсивности сдвигов, но не по их количеству; на
Рис.17 (в) в "светлом фронте" наблюдаются более интенсивные сдвиги, но их
меньше, чем в "темном фронте". Здесь критерий знаков мог бы констатировать
преобладание изменений, соответствующих "темному фронту". Между тем,
интенсивность противоположных, хотя и редких, сдвигов, столь велика, что
делать какие-то однозначные выводы было бы опрометчиво.
Ограничения во временен Т- критерия Вилкоксона
1. Минимальное количество испытуемых, прошедших измерения в двух
условиях - 5 человек. Максимальное количество испытуемых - 50 человек, что
диктуется верхней границей имеющихся таблиц. Критические значения Т
приведены в статистических таблицах.
2. Нулевые сдвиги из рассмотрения исключаются, и количество наблюдений n уменьшается на количество этих нулевых сдвигов. Можно обойти это
ограничение, сформулировав гипотезы, включающие отсутствие изменений,
например: "Сдвиг в сторону увеличения значений превышает сдвиг в сторону
уменьшения значений и тенденцию сохранения их на прежнем уровне".
Пример.
В выборке курсантов военного училища (юноши в возрасте от 18 до 20
лет) измерялась способность к удержанию физического волевого усилия на
динамометре. Сначала у испытуемых измерялась максимальная мышечная сила
каждой из рук, а на следующий день им предлагалось выдерживать, на
динамометре с подвижной стрелкой мышечное усилие, равное 1/2
максимальной мышечной силы данной руки. Почувствовав усталость,
испытуемый должен был сообщить об этом экспериментатору, но не
прекращать опыт, преодолевая усталость и неприятные ощущения - "бороться,
пока воля не иссякнет". Опыт проводился дважды; вначале с обычной
инструкцией, а затем, после того, как испытуемый заполнял опросник
самооценки волевых качеств по методике А.Ц. Пуни. Ему предлагалось
представить себе, что он уже добился идеала в развитии волевых качеств, и
продемонстрировать соответствующее идеалу волевое усилие. Подтвердилась
ли гипотеза экспериментатора о том, что обращение к идеалу способствует
возрастанию волевого усилия? Данные представлены в Табл. 10
Таблица 10
Расчет критерия Т при сопоставлении замеров
физического волевого усилия
Код имени Длительность удержания усилия Разность Абсолют Ранговый
испытуемо
на динамометре (с)
(fпосле- fдо)
ное
номер
го
значение разности
разности
До измерения После измерения
волевых
волевых качеств и
качеств и обращения к идеалу
обращения к
(fпосле)
идеалу (fдо)
1 Г.
64
25
- 39
39
11
2 Кос.
77
50
- 27
27
8
3 Крив.
74
77
+3
5
1
4 Кур.
95
76
- 19
19
6
5 Л.
105
67
- 38
38
9,5
6 М.
83
75
-8
8
4
7 Р.
73
77
+4
4
2,5
8 С.
75
71
-4
4
2,5
9 Т.
101
63
- 38
38
9,5
10 X.
97
122
+ 25
25
7
11 Ю.
78
60
- 18
18
5
Сумма
66
Для подсчета этого критерия нет необходимости упорядочивать ряды
значений по нарастанию признака. Мы можем использовать алфавитный
список испытуемых, как в данном случае.
Первый шаг в подсчете критерия Т - вычитание каждого
индивидуального значения "до" из значения "после". Мы видим из Табл.10, что
8 полученных разностей - отрицательные и лишь 3 - положительные. Это
означает, что у 8 испытуемых длительность удержания мышечного усилия во
втором замере уменьшилась, а у 3 - увеличилась. Мы столкнулись с тем
случаем, когда уже сейчас мы не можем сфомулировать статистическую
гипотезу, соответствующую первоначальному предположению исследователя.
Предполагалось, что обращение к идеалу будет увеличивать длительность
мышечного усилия, а экспериментальные данные свидетельствуют, что лишь в
3 случаях из 11 этот показатель действительно увеличился. Мы можем
сформулировать лишь гипотезу, предполагающую несущественность сдвига
этого показателя в сторону снижения.
Сформулируем гипотезы.
Н0: Интенсивность сдвигов в сторону уменьшения длительности мышечного усилия не превышает интенсивности сдвигов в сторону ее увеличения.
H1: Интенсивность сдвигов в сторону уменьшения длительности мышечного усилия превышает интенсивность сдвигов в сторону ее увеличения.
На следующем шаге все сдвиги, независимо от их знака, должны быть
проранжированы по выраженности. В Табл.10 в четвертом слева столбце
приведены абсолютные величины сдвигов, а в последнем столбце (справа) ранги этих абсолютных величин. Меньшему значению соответствует меньший
ранг. При этом сумма рангов равна 66, что соответствует расчетной:
R
i

N  ( N  1) 11  (11  1)

 66
2
2
Теперь отметим те сдвиги, которые являются нетипичными, в данном
случае - положительными. В Табл.10 эти сдвиги и соответствующие им ранги
выделены жирным шрифтом. Сумма рангов этих "редких" сдвигов и составляет
эмпирическое значение критерия Т:
T   Rr
где Rr - ранговые значения сдвигов с более редким знаком.
Итак, в данном случае,
Тэмn=1+2,5+7=10,5
По Таблице стандартных значениев критерия определяем критические
значения Т для n=11:
Рис. 18 Ось значимости для Т-критерия Вилкоксона
Зона значимости в данном случае простирается влево. Действительно,
если бы "редких", в данном случае положительных, сдвигов не было совсем, то
и сумма их рангов равнялась бы нулю. В данном же случае эмпирическое
значение Т попадает в зону неопределенности:
Тэмп<Ткр (0,05)
Ответ: Н0 отвергается. Интенсивность отрицательного сдвига показателя
физического волевого усилия превышает интенсивность положительного
сдвига (р<0,05).
Попытаемся графически отобразить интенсивность отрицательных и
положительных сдвигов. На Рис. 19 слева сдвиги представлены в секундах, а
справа - в своих ранговых значениях. Мы видим, что ранжирование несколько
уменьшает площади сопоставляемых облаков, или "фронтов".
Рис. 19 Графическое представление отрицательных и положительных
сдвигов в длительности удержания мышечного усилия; слева – в секундах,
справа – в ранговых значениях
Таким
образом,
исследователю
придется
признать,
что
продолжительность удержания мышечного волевого усилия во втором замере
снижается, и этот сдвиг неслучаен. Инструкция, ориентирующая испытуемого
на соответствие идеалу в развитии воли, оказалась гораздо менее мощным
фактором, чем какая-то иная сила - возможно, мышечное утомление, может
быть, разочарование в себе или в возможностях данного психологического
эксперимента. А может быть, в момент второго замера просто перестает
действовать какой-то мощный фактор, который был активен вначале? На все
эти вопросы статистические методы не могут ответить, если в схему
эксперимента не включена контрольная группа, в данном случае, выборка,
уравновешенная с экспериментальной группой по всем значимым
характеристикам (полу, возрасту, профессии, месту обучения). У которой
просто измерили бы вторично волевое усилие через такой же промежуток
времени, не призывая соответствовать идеалу в развитии воли.
АЛГОРИТМ
Подсчет Т- критерия Вилкоксона
1. Составить список испытуемых в любом порядке, например,
алфавитном.
2. Вычислить разность между индивидуальными значениями во втором и
первом замерах ("после" - "до"). Определить, что будет считаться "типичным"
сдвигом и сформулировать соответствующие гипотезы.
3. Перевести разности в абсолютные величины и записать их отдельным
столбцом (иначе трудно отвлечься от знака разности).
4. Проранжировать абсолютные величины разностей, начисляя меньшему
значению меньший ранг. Проверить совпадение полученной суммы рангов с
расчетной.
5. Отметить кружками или другими знаками ранги, соответствующие
сдвигам в "нетипичном" направлении.
6. Подсчитать сумму этих рангов по формуле:
T   Rr
где Rr - ранговые значения сдвигов с более редким знаком.
7. Определить критические значения Т для данного п по Таблице
стандартных значений критерия. Если Тэмп меньше или равен Ткр, сдвиг в
"типичную" сторону по интенсивности достоверно преобладает.
χ2 критерий Пирсона
Критерий χ2 применяется в двух целях;
1) для сопоставления эмпирического распределения признака с теоретическим - равномерным, нормальным или каким-то иным;
2) для сопоставления двух, трех или более эмпирических распределений
одного и того же признака.
Критерий χ2 отвечает на вопрос о том, с одинаковой ли частотой
встречаются разные значения признака в эмпирическом и теоретическом
распределениях или в двух и более эмпирических распределениях.
Преимущество метода состоит в том, что он позволяет сопоставлять
распределения признаков, представленных в любой шкале, начиная от шкалы
наименований . В самом простом случае альтернативного распределения "да нет", "допустил брак - не допустил брака", "решил задачу - не решил задачу" и
т. п. мы уже можем применить критерий χ2.
Допустим, некий наблюдатель фиксирует количество пешеходов,
выбравших правую или левую из двух симметричных дорожек на пути из точки
А в точку Б .
Допустим, в результате 70 наблюдений установлено, что 51 человек
выбрали правую дорожку, и лишь 19 - левую. С помощью критерия χ2 мы
можем определить, отличается ли данное распределение выборов от
равномерного распределения, при котором обе дорожки выбирались бы с
одинаковой частотой. Это вариант сопоставления полученного эмпирического
распределения с теоретическим..
Но представим себе, что наблюдатель решает совершенно другую задачу:
он занят проблемами билатерального регулирования. Совпадение полученного
распределения с равномерным его интересует гораздо в меньшей степени,
чем совпадение или несовпадение его данных с данными других
исследователей. Ему известно, что люди с преобладанием правой ноги
склонны делать круг против часовой стрелки, а люди с преобладанием левой
ноги - круг по ходу часовой стрелки, и что в исследовании коллег
преобладание левой ноги было обнаружено у 26 человек из 100
обследованных.
С помощью метода χ2 можно сопоставить два эмпирических
распределения.
Аналогичным образом мы можем сопоставлять распределения выборов
из трех и более альтернатив. Например, если в выборке из 50 человек 30
выбрали ответ (а), 15 человек - ответ (б) и 5 человек -ответ (в), то мы
можем с помощью метода χ2 проверить, отличается ли это распределение от
равномерного распределения или от распределения ответов в другой выборке,
где ответ (а) выбрали 10 человек, ответ (б) -25 человек, ответ (в) - 15
человек.
В тех случаях, если признак измеряется количественно, скажем, в
баллах, секундах или миллиметрах, нам, быть может, придется объединить
все обилие значений признака в несколько разрядов. Например, если время
решения задачи варьирует от 10 до 300 секунд, то мы можем ввести 10 или 5
разрядов, в зависимости от объема выборки. Например, это будут разряды: 050 секунд; 51-100 секунд; 101-150 секунд, и т. д. Затем мы с помощью метода
χ2 будет сопоставлять частоты встречаемости разных разрядов признака, но в
остальном принципиальная схема не меняется.
При сопоставлении эмпирического распределения с теоретическим мы
определяем степень расхождения между эмпирическими и теоретическими
частотами.
При сопоставлении двух эмпирических распределений мы определяем
степень расхождения между эмпирическими частотами и теоретическими
частотами, которые наблюдались бы в случае совпадения двух этих
эмпирических распределений. Формулы расчета теоретических частот будут
специально даны для каждого варианта сопоставлений.
Графическое представление критерия
Проиллюстрируем пример с выбором правой или левой дорожек на
пути из точки А в точку Б. На Рис. 20 частота выбора левой дорожки
представлена левым столбиком, а частота выбора правой дорожки - правым
столбиком гистограммы. На оси ординат отмеряются относительные частоты
выбора, то есть частоты выбора той или иной доожки, отнесенные к общему
количеству наблюдений. Для левой дорожки относительная частота, которая
называется также частотою, составляет 19/70, то есть 0,27, а для правой
дорожки 51/70, то есть 0,73.
Рис. 20 Частоты выбора левой и правой дорожек: теоретическая
частота представлена в виде горизонтальной планки, стрелками обозначены
области расхождения между эмпирическими и теоретическими частотами
(χ2-критерий Пирсона)
Если бы обе дорожки выбирались равновероятно, то половина
испытуемых выбрала бы правую дорожку, а половина - левую. Вероятность
выбора каждой из дорожек составляла бы 0,50.
Мы видим, что отклонения эмпирических частот от этой величины
довольно значительны. Возможно, различия между эмпирическим и
теоретическим распределением окажутся достоверными.
На Рис. 21 фактически представлены две гистограммы, но столбики
сгруппированы так, что слева сопоставляются частоты предпочтения левой
дорожки в выборе нашего наблюдателя (1) и в выборке Т.А. Доброхотовой
и Н.Н. Брагиной (2), а справа - частоты предпочтения правой дорожки в
этих же двух выборках.
Рис. 21 Частоты выбора левой и правой дорожек в двух выборках
испытуемых
1-Выборка наблюдателя;
2-Выборка других исследователей.
Мы видим, что расхождения между выборками очень незначительны.
Критерий χ2, скорей всего, подтвердит совпадение двух распределений.
Ограничения критерия
1.
Объем выборки должен быть достаточно большим: п≥30. При
п<30 критерий χ2 дает весьма приближенные значения. Точность критерия
повышается при больших п.
2. Теоретическая частота для каждой ячейки таблицы не должна быть
меньше 5: f>5. Это означает, что если число разрядов задано заранее и не
может быть изменено, то мы не можем применять метод χ2, не накопив
определенного минимального числа наблюдений. Если, например, мы хотим
проверить наши предположения о том, что частота обращений
в
телефонную службу Доверия неравномерно распределяются по 7 дням
недели, то нам потребуется 5*7=35 обращений. Таким образом, если
количество разрядов (k) задано заранее, как в данном случае, минимальное
число наблюдений (nmin) определяется по формуле: nmin=k*5.
3. Выбранные разряды должны "вычерпывать" все распределение, то
есть охватывать весь диапазон вариативности признаков. При этом
группировка на разряды должна быть одинаковой во всех сопоставляемых
распределениях.
4. Необходимо вносить "поправку на непрерывность" при сопоставлении распределений признаков, которые принимают всего 2 значения. При
внесении поправки значение χ2 уменьшается.
5. Разряды должны быть неперекрещивающимися: если наблюдение
отнесено к одному разряду, то оно уже не может быть отнесено ни к какому
другому разряду.
Сумма наблюдений по разрядам всегда должна быть равна общему
количеству наблюдений.
АЛГОРИТМ
Расчет критерия χ2
1. Занести в таблицу наименования разрядов и соответствующие им
эмпирические частоты (первый столбец).
2. Рядом с каждой эмпирической частотой записать теоретическую
частоту (второй столбец).
3. Подсчитать разности между эмпирической и теоретической частотой
по каждому разряду (строке) и записать их в третий столбец.
4. Определить число степеней свободы по формуле:
ν = κ-1
где κ - количество разрядов признака.
Если ν=1, внести поправку на "непрерывность".
5. Возвести в квадрат полученные разности и занести их в четвертый
столбец.
6. Разделить полученные квадраты разностей на теоретическую частоту
и записать результаты в пятый столбец.
7. Просуммировать значения пятого столбца. Полученную сумму
обозначить как χ2ЭМП.
8. Определить по по таблице стандартных значений критерия
критические значения для данного числа степеней свободы ν.
Если χ2эмп меньше критического значения, расхождения между
распределениями статистически недостоверны.
Если χ2эмп равно критическому значению или превышает его,
расхождения между распределениями статистически достоверны.
Алгоритм вычислений, таким образом, выражается формулой:
k
( f эj  fT ) 2
j 1
fT
 
2
где fэj - эмпирическая частота по j-тому разряду признака; fт теоретическая частота; j - порядковый номер разряда; k - количество
разрядов признака.
Раздел 8. Корреляционный анализ
Тема 8.1. Виды корреляционного анализа
Корреляционным
называется
исследование,
проводимое
для
подтверждения или опровержения гипотезы о статистической связи между
несколькими (двумя и более) переменными. В психологии в качестве
переменных могут выступать психические свойства, процессы, состояния и др.
«Корреляция» в прямом переводе означает «соотношение». Если
изменение одной переменной сопровождается изменением другой, то можно
говорить о корреляции этих переменных. Наличие корреляции двух
переменных ничего не говорит о причинно-следственных зависимостях между
ними, но дает возможность выдвинуть такую гипотезу. Отсутствие же
корреляции позволяет отвергнуть гипотезу о причинно-следственной связи
переменных. Различают несколько интерпретаций наличия корреляционной
связи между двумя измерениями:
1.Прямая корреляционная связь. Уровень одной переменной
непосредственно соответствует уровню другой. Примером является закон Хика:
скорость переработки информации пропорциональна логарифму от числа
альтернатив, или другой пример: корреляция высокой личностной
пластичности и склонности к смене социальных установок.
2.Корреляция, обусловленная 3-й переменной. Две переменные а и с
связаны одна с другой через 3-ю (в), не измеренную в ходе исследования. По
правилу транзитивности, если есть R (a, b) и R (b, с), то R (а, с). Примером
подобной корреляции является установленный психологами США факт связи
уровня интеллекта с уровнем доходов. Если бы такое исследование
проводилось в сегодняшней России, то результаты были бы иными. Очевидно,
все дело в структуре общества. Скорость опознания изображения при быстром
(тахистоскопическом) предъявлении и словарный запас испытуемых также
положительно коррелируют. Скрытой переменной, обусловливающей эту
корреляцию, является общий интеллект.
3. Случайная корреляция, не обусловленная никакой переменной.
4.Корреляция, обусловленная неоднородностью выборки. Представим
себе, что выборка, которую мы будем обследовать, состоит из двух однородных
групп. Например, мы хотим выяснить, связана ли принадлежность к
определенному полу с уровнем экстраверсии. Считаем, что «измерение» пола
трудностей не вызывает, экстраверсию же измеряем с помощью опросника
Айзенка ETI-1. У нас 2 группы: мужчины-математики и женщиныжурналистки. Неудивительно, если мы получим линейную зависимость между
полом и уровнем экстраверсии—интроверсии: большинство мужчин будут
интровертами, большинство женщин — экстравертами.
Корреляционные связи различаются по своему виду. Если повышение
уровня одной переменной сопровождается повышением уровня другой, то речь
идет о положительной корреляции. Чем выше личностная тревожность, тем
больше риск заболеть язвой желудка. Возрастание громкости звука
сопровождается ощущением повышения его тона. Если рост уровня одной
переменной сопровождается снижением уровня другой, то мы имеем дело с
отрицательной корреляцией. По данным Зайонца, число детей в семье
отрицательно коррелирует с уровнем их интеллекта. Чем боязливей особь, тем
меньше у нее шансов занять доминирующее положение в группе.
Рис. 22 Графическое отображение уровней и видов корреляции
На рисунке даны примеры распределения испытуемых в пространстве
двух признаков на рисунке а) строгая положительная корреляция, б) сильная
положительная корреляция, в) слабая положительная корреляция, г) нулевая
корреляция, д) отрицательная корреляция, е) строгая отрицательная
корреляция, ж) нелинейная корреляция, з) нелинейная корреляция
Тема 8.2. Разновидности методов
Коэффициенты корреляции Спирмена
Метод ранговой корреляции Спирмена позволяет определить тесноту
(силу), а также направление корреляционной связи между двумя признаками.
Для подсчета ранговой корреляции необходимо располагать двумя
рядами значений, которые могут быть проранжированы. Такими рядами
значений могут быть:
1) два признака, измеренные в одной и той же группе испытуемых;
2) две индивидуальные иерархии признаков, выявленные у двух
испытуемых по одному и тому же набору признаков (например, личностные
профили по 16-факторному опроснику Р. Б. Кеттелла, иерархии ценностей по
методике Р. Рокича, последовательности предпочтений в выборе из нескольких
альтернатив и др.);
3) две групповые иерархии признаков;
4) индивидуальная и групповая иерархии признаков.
Вначале показатели ранжируются отдельно по каждому из признаков.
Как правило, меньшему значению признака начисляется меньший ранг.
Во всех четырех случаях значимость полученного коэффициента
корреляции определяется по количеству ранжированных значений N. В первом
случае это количество будет совпадать с объемом выборки п. Во втором случае
количеством наблюдений будет количество признаков, составляющих
иерархию. В третьем и четвертом случае N - это также количество
сопоставляемых признаков, а не количество испытуемых в группах.
Если абсолютная величина rs достигает критического значения или
превышает его, корреляция достоверна.
Гипотезы
Возможны два варианта гипотез. Первый относится к случаю 1, второй - к
трем остальным случаям.
Первый вариант гипотез
H0: Корреляция между переменными А и Б не отличается от нуля.
H1: Корреляция между переменными А и Б достоверно отличается от
нуля.
Второй вариант гипотез
H0: Корреляция между иерархиями А и Б не отличается от нуля.
H1: Корреляция между иерархиями А и Б достоверно отличается от нуля.
Графическое представление метода ранговой корреляции
Чаще всего корреляционную связь представляют графически в виде
облака точек или в виде линий, отражающих общую тенденцию размещения
точек в пространстве двух осей: оси признака А и признака Б ( Рис. 23).
Попробуем изобразить ранговую корреляцию в виде двух рядов
ранжированных значений, которые попарно соединены линиями (Рис. 23). Если
ранги по признаку А и по признаку Б совпадают, то между ними оказывается
горизонтальная линия, если ранги не совпадают, то линия становится
наклонной. Чем больше несовпадение рангов, тем более наклонной становится
линия. Слева на Рис. 23 отображена максимально высокая положительная
корреляция (rв=+1,0) - практически это "лестница". В центре отображена
нулевая корреляция - плетенка с неправильными переплетениями. Все ранги
здесь перепутаны. Справа отображена максимально высокая отрицательная
корреляция (rs=-1,0) -паутина с правильным переплетением линий.
Рис. 23 Графическое представление ранговой корреляции:
а) высокая положительная корреляция;
б) нулевая корреляция;
в) высокая отрицательная корреляция
Ограничения коэффициента ранговой корреляции
1. По каждой переменной должно быть представлено не менее 5
наблюдений. Верхняя граница выборки определяется имеющимися таблицами
критических значений - N≤40.
2. Коэффициент ранговой корреляции Спирмена rs при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным
дает огрубленные значения. В идеале оба коррелируемых ряда должны
представлять собой две последовательности несовпадающих значений. В
случае, если это условие не соблюдается, необходимо вносить поправку на
одинаковые ранги.
Пример
В исследовании, моделирующем деятельность авиадиспетчера группа
испытуемых, студентов физического факультета ЛГУ проходила подготовку
перед началом работы на тренажере. Испытуемые должны были решать задачи
по выбору оптимального типа взлетно-посадочной полосы для заданного типа
самолета. Связано ли количество ошибок, допущенных испытуемыми в
тренировочной сессии, с показателями вербального и невербального
интеллекта, измеренными по методике Д. Векслера?
Таблица 11
Показатели количества ошибок в тренировочной сессии и
показатели уровня вербального и невербального интеллекта у студентовфизиков (N=10)
Показатель
Показатель
Количество
Испытуемый
вербального
невербального
ошибок
интеллекта
интеллекта
1 Т.А.
29
131
106
2 П.А.
54
132
90
3 Ч.И.
13
121
95
4 Ц.А.
8
127
116
5 См.А.
14
136
127
6 К.Е.
26
124
107
7 К.А.
9
134
104
8 Б.Л.
20
136
102
9 И.А.
2
132
111
10 Ф.В.
17
136
99
Суммы
192
1309
1057
Средние
19,2
130,9
105,7
Сначала попробуем ответить на вопрос, связаны ли между собой
показатели количества ошибок и вербального интеллекта.
Сформулируем гипотезы.
H0: Корреляция между показателем количества ошибок в тренировочной
сессии и уровнем вербального интеллекта не отличается от нуля.
H1: Корреляция между показателем количества ошибок в тренировочной
сессии и уровнем вербального интеллекта статистически значимо отличается от
нуля.
Далее нам необходимо проранжировать оба показателя, Приписывая
меньшему значению меньший ранг, затем подсчитать разности между рангами,
которые получил каждый испытуемый по двум переменным (признакам), и
возвести эти разности в квадрат. Произведем все необходимые расчеты в
таблице 12.
В Табл.12 в первой колонке слева представлены значения по показателю
количества ошибок; в следующей колонке - их ранги. В третьей колонке слева
представлены значения по показателю вербального интеллекта; в следующем
столбце - их ранги. В пятом слева представлены разности d между рангом по
переменной А (количество ошибок) и переменной Б (вербальный интеллект). В
последнем столбце представлены квадраты разностей - d2.
Таблица 12
2
Расчет d для рангового коэффициента корреляции Спирмена rs при
сопоставлении показателей количества ошибок и вербального интеллекта
у студентов-физиков (N=10)
Испытуемый
Переменная А
Переменная Б
d (ранг А
d2
количество
вербальный
ошибок
интеллект.
ранг Б)
Индивиду Ранг Индивидуа Ранг
альные
льные
значения
значения
1 ТА.
29
9
131
4
5
25
2 ПА.
54
10
132
5.5
4,5
20.25
3 Ч.И.
13
4
121
1
3
9
4 Ц.А.
8
2
127
3
-1
1
5 См.А.
14
5
136
9
-4
16
6 К.Е.
26
8
124
2
6
36
7 К.А.
9
3
134
7
-4
16
8 Б.Л.
20
7
136
9
-2
4
9 И.А.
2
1
132
5,5
-4,5
20,25
10 Ф.В.
17
6
136
9
9
Суммы
55
55
0
156,5
Коэффициент ранговой корреляции Спирмена подсчитывается по
формуле:
rs  1 
6   (d 2 )
N  ( N 2  1)
где d - разность между рангами по двум переменным для каждого
испытуемого;
N - количество ранжируемых значений, в. данном случае количество
испытуемых.
Рассчитаем эмпирическое значение rs:
rs  1 
6 156,5
 0,052
10  (102  1)
Полученное эмпирическое значение гs близко к 0. И все же определим
критические значения rs при N=10 по статистическим таблицам:
0,64( p  0,05)
rsк  
0,79( p  0,01)
rsээм  rsк
Ответ: H0 принимается. Корреляция между показателем количества
ошибок в тренировочной сессии и уровнем вербального интеллекта не
отличается от нуля.
АЛГОРИТМ
Расчет коэффициента ранговой корреляции Спирмена rs.
1. Определить, какие два признака или две иерархии признаков будут
участвовать в сопоставлении как переменные А и В.
2. Проранжировать значения переменной А, начисляя ранг 1
наименьшему значению, в соответствии с правилами ранжирования. Занести
ранги в первый столбец таблицы по порядку номеров испытуемых или
признаков.
3. Проранжировать значения переменной В, в соответствии с теми же
правилами. Занести ранги во второй столбец таблицы по порядку номеров
испытуемых или признаков.
4. Подсчитать разности d между рангами А и В по каждой строке таблицы
и занести в третий столбец таблицы.
5. Возвести каждую разность в квадрат: d2 . Эти значения занести в
четвертый столбец таблицы.
6. Подсчитать сумму квадратов ∑d2.
7. При наличии одинаковых рангов рассчитать поправки.
8. Рассчитать коэффициент ранговой корреляции г5 по формуле:
а) при отсутствии одинаковых рангов
rs  1  6 
d
2
N  ( N 2  1)
б) при наличии одинаковых рангов
d 2  Ta  Tb
rs  1  6  
N  ( N 2  1)
где ∑d2 - сумма квадратов разностей между рангами
Та и Tb, - поправки на одинаковые ранги;
N - количество испытуемых или признаков, участвовавших в
ранжировании.
9. Определить по Таблицам стандартных значений критические значения
rs для данного N. Если rs превышает критическое значение или по крайней мере
равен ему, корреляция достоверно отличается от 0.
Тема 8.3. Корреляционные планы исследования
План корреляционного исследования является разновидностью
квазиэкспериментального плана при отсутствии воздействия независимой
переменной на зависимые. В более строгом смысле: тестируемые группы
должны быть в эквивалентных неизменных условиях. При корреляционном
исследовании все измеряемые переменные — зависимые. Фактором,
определяющим эту зависимость, может быть одна из переменных или скрытая,
неизмеряемая переменная.
Корреляционное исследование разбивается на серию независимых друг
от друга измерений в группе испытуемых Р. Различают простое и
сравнительное корреляционные исследования. В первом случае группа
испытуемых однородна. Во втором случае мы имеем несколько
рандомизированных групп, различающихся по одному или нескольким
определенным критериям. В общем виде план такого исследования
описывается матрицей вида: Рх О (испытуемые х измерения). Результатом
этого исследования является матрица корреляций. Обработку данных можно
вести, сравнивая строки исходной матрицы или столбцы. Коррелируя между
собой строки, мы сопоставляем друг с другом испытуемых; корреляции же
интерпретируются как коэффициенты сходства—различия людей между собой.
Разумеется, Р-корреляции можно вычислять лишь в том случае, если данные
приведены к одной шкальной размерности, в частности с помощью Zпреобразования:
Z
Xi  X

Коррелируя между собой столбцы, мы проверяем гипотезу о
статистической связи измеряемых переменных. В этом случае их размерность
не имеет никакого значения. Такое исследование называется структурным, так
как в итоге мы получаем матрицу корреляций измеренных переменных, которая
выявляет структуру связей между ними.
В исследовательской практике часто возникает задача выявить временные
кореляции параметров или же обнаружить изменение структуры корреляций
параметров во времени. Примером таких исследований являются лонгитюды.
План лонгитюдного исследования представляет собой серию отдельных
замеров одной или нескольких переменных через определенные промежутки
времени. Лонгитюдное исследование — это промежуточный вариант между
квазиэкспериментом и корреляционным исследованием, так как время
интерпретируется исследователем как независимая переменная, определяющая
уровень зависимых (например, личностных черт).
Полный план корреляционного исследования представляет собой
параллелепипед Рх ОхР, грани которого обозначаются как «испытуемые»
«операции» «временные этапы».
Результаты исследования можно анализировать по-разному. Помимо
вычисления Р- и О-корреляций возникает возможность сравнения матриц РхО,
полученных в разные периоды времени, путем подсчета двухмерной
корреляции — связи двух переменных с третьей. То же самое касается и матриц
РхТxТхО.
Но чаще исследователи ограничиваются обработкой другого типа,
проверяя гипотезы об изменении переменных во времени, анализируя матрицы
РхТ по отдельным измерениям.
Перечислим основные типы корреляционного исследования.
1.Сравнение двух групп.
2.Одномерное исследование одной группы в разных условиях.
3.Корреляционное исследование попарно эквивалентных групп.
4.Для проверки гипотезы о статистической связи нескольких переменных,
характеризующих поведение, проводится многомерное корреляционное
исследование.
5.Структурное корреляционное исследование.
6.Лонгитюдное корреляционное исследование.
Данные структурного корреляционного исследования представляют
собой одну или несколько матриц «испытуемые» х «тесты». Первичная
обработка заключается в подсчете коэффициентов статистической связи между
двумя и более переменными. Выбор меры связи определяется шкалой, с
помощью которой произведены измерения.
1.Если измерения произведены по дихотомической шкале, то для
подсчета тесноты связи признаков применяется коэффициент  .
Дихотомическая шкала — вырожденный вариант шкалы интервалов; для нее
применимы все статистические методы шкалы интервалов.

bc  ad
(a  c)(b  d )( a  b)(c  d )
2. Данные представлены в порядковой шкале. Мерой связи, которая
соответствует шкале порядка, является коэффициент Кэнделла. Он основан на
подсчете несовпадений в порядке следования ранжировок X и Y. Есть ряд
испытуемых: сначала мы выстраиваем этот ряд в порядке убывания массы тела,
а затем — в порядке убывания роста. Для каждой пары подсчитывается число
совпадений и инверсий: совпадение, если их порядок по X и Y одинаков;
инверсия, если порядок различен. Разница числа «совпадений» и числа
«инверсий», деленная на п∙(п — 1)/2, дает коэффициент t. Часто для обработки
данных, полученных с помощью шкалы порядка, используют коэффициент
ранговой корреляции Спирмена, который является модификацией
коэффициента Пирсона для натурального ряда чисел (рангов). Никакого
отношения к порядковой шкале он не имеет. Но его рекомендуют применять в
том случае, если одно измерение произведено по шкале порядков, а другое —
по шкале интервалов.
3. Данные получены по шкале интервалов, или отношений. В этом случае
применяется стандартный коэффициент корреляции Пирсона или коэффициент
ранговой корреляции Спирмена. В том случае, если одна переменная является
дихотомической, а другая — интервальной, используется так называемый
бисериальный коэффициент корреляции.
Наконец, если исследователь полагает, что связи между переменными
нелинейные, он вычисляет корреляционное отношение, характеризующее
величину нелинейной статистической зависимости двух переменных.
Корреляционное исследование завершается выводом о статистической
значимости установленных (или неустановленных) зависимостей между
переменными. Однако исследователи не ограничиваются такой констатацией.
Более подробно с корреляционным анализом можно познакомиться в
источниках основной литературы [1,3]
Раздел 9. Дисперсионный анализ
Тема 9.1. Задачи дисперсионного анализа
Дисперсионный анализ - это анализ изменчивости признака под влиянием
каких-либо контролируемых переменных факторов.
Задача дисперсионного анализа состоит в том, чтобы из общей
вариативности признака вычленить вариативность троякого рода:
а) вариативность, обусловленную действием каждой из исследуемых
независимых переменных;
б) вариативность, обусловленную взаимодействием исследуемых
независимых переменных;
в) случайную вариативность, обусловленную всеми другими
неизвестными переменными.
Вариативность, обусловленная действием исследуемых переменных и их
взаимодействием, соотносится со случайной вариативностью. Показателем
этого соотношения является критерий F Фишера.
Рис.24 Критерий F Фишера
В формулу расчета критерия F входят оценки дисперсий, то есть
параметров распределения признака, поэтому критерий F является параметрическим критерием.
Чем в большей степени вариативность признака обусловлена
исследуемыми переменными (факторами) или их взаимодействием, тем выше
эмпирические значения критерия F.
В дисперсионном анализе исследователь исходит из предположения, что
одни переменные могут рассматриваться как причины, а другие - как следствия.
Переменные первого рода считаются факторами, а переменные второго рода результативными признаками. В этом отличие дисперсионного анализа от
прямолинейного корреляционного анализа, в котором мы исходим из
предположения, что изменения одного признака просто сопровождаются
определенными изменениями другого.
Только наше исследовательское чутье может подсказать нам, что должно
рассматриваться как причина, а что - как результат. Однако не всегда эти
ощущения у разных исследователей совпадают, поэтому нужно быть готовым к
тому, что наши выводы могут быть оспорены другими специалистами, которые
рассматривают данный предмет с иной точки зрения и видят в нем иные
перспективы. Впрочем, спорность выводов - постоянный спутник
психологического исследования.
Постараемся быть оптимистичными и представим себе, что существует
все же какое-то совпадение взглядов на психологические причины и следствия.
На Рис. 25 представлены два варианта рассеивания показателей учебной
успешности в зависимости от уровня развития кратковременной памяти. Из
Рис. 25(а) мы видим, что при низком уровне развития кратковременной памяти
оценки по английскому языку, похоже, несколько ниже, чем при среднем, а при
высоком уровне выше, чем при среднем. Похоже, что кратковременная память
может рассматриваться как фактор успешности овладения английским языком.
С другой стороны, Рис. 25(6) свидетельствует о том, что успешность в
чистописании вряд ли так же определенно зависит от уровня развития
кратковременной памяти.
О том, верны ли наши предположения, мы сможем судить только после
вычисления эмпирических значений критерия F.
Рис. 25 Рассеивание индивидуальных средних оценок по английскому
языку (а) и чистописанию (б) у учеников с низким, средним и высоким
уровнями развития кратковременной памяти
Низкий, средний и высокий уровни развития кратковременной памяти
можно рассматривать как градации фактора кратковременной памяти.
Нулевая гипотеза в дисперсионном анализе будет гласить, что средние
величины исследуемого результативного признака во всех градациях
одинаковы.
Альтернативная гипотеза будет утверждать, что средние величины
результативного признака в разных градациях исследуемого фактора различны.
Если градации фактора различаются лишь качественно, их лучше
называть условиями действия фактора или переменной. Например, действие
аутогенной тренировки при условии использования текстов православных
молитв или эффективность психокоррекционных воздействий при разных
формах хронических заболеваний у детей.
Экспериментальные данные, представленные по градациям фактора,
называются дисперсионным комплексом. Данные, относящиеся к отдельным
градациям - ячейками комплекса.
Дисперсионный анализ позволяет нам констатировать изменение
признака, но при этом не указывает направление этих изменений. Нам
необходимо специально графически представлять полученные данные по
градациям фактора, чтобы получить наглядное представление о направлении
изменений.
Подобного рода задачи позволяют решать непараметрические методы
сравнения выборок или условий измерения, а именно критерий Н. КрускалаУоллиса и критерий χ2r Фридмана. Однако это касается только тех задач, в
которых исследуется действие одного фактора, или одной переменной. Задачи
однофакторного дисперсионного анализа, действительно, могут эффективным
образом решаться с помощью непараметрических методов. Метод
дисперсионного анализа становится незаменимым только когда мы исследуем
одновременное действие двух (или более) факторов, поскольку он позволяет
выявить взаимодействие факторов в их влиянии на один и тот же
результативный признак.
Тема 9.2.Однофакторный дисперсионный анализ
Однофакторный дисперсионный анализ для несвязанных выборокприменяется в тех случаях, когда исследуются изменения результативного
признака под влиянием изменяющихся условий или градаций какого-либо
фактора. В данном варианте метода влиянию каждой из градаций фактора
подвергаются разные выборки испытуемых. Градаций фактора должно быть не
менее трех.
Непараметрическим вариантом этого вида анализа является критерий Н
Крускала-Уоллиса.
Описание метода.
Представляем полученные данные в виде столбцов индивидуальных
значений, каждый из столбцов соответствует тому или иному из изучаемых
условий;просуммировать индивидуальные значения по столбцам и суммы
возвести в квадрат.
Суть метода состоит в том, чтобы сопоставить сумму этих возведенных в
квадрат сумм с суммой квадратов всех значений, полученных во всем
эксперименте.
Гипотезы.
H0: Различия между градациями фактора (разными условиями) являются
не более выраженными, чем случайные различия внутри каждой группы.
H1: Различия между градациями фактора (разными условиями) являются
более выраженными, чем случайные различия внутри каждой группы.
Графическое представление метода для несвязанных выборок.
На рисунке показана кривая изменения объема воспроизведения слов при
разной скорости их предъявления. Метод дисперсионного анализа позволяет
определить, что перевешивает - тенденция, выраженная этой кривой, или
вариативность признака внутри групп, которая на графике схематически
изображена в виде диапазонов изменения признака от минимального значения
к максимальному значению в каждой группе.
Рис. 26 Кривая изменения объема воспроизведения при повышении
скорости предъявления слов; по каждому условию показаны диапазоны
изменения признака (однофакторный дисперсионный анализ)
Ограничения метода однофакторного дисперсионного анализа для
несвязанных выборок.
1. Однофакторный дисперсионный анализ требует не менее трех градаций фактора и не менее двух испытуемых в каждой градации.
2. Должно соблюдаться правило равенства дисперсий в каждой ячейке
дисперсионного комплекса. Условие равенства дисперсий выполняется при
использовании предлагаемой схемы расчета за счет выравнивания количества
наблюдений в каждом из условий (градаций).
3. Результативный признак должен быть нормально распределен в исследуемой выборке.
Пример.
Три различные группы из шести испытуемых получили списки из десяти
слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5
секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей
группе с большой скоростью - 1 слово в секунду. Было предсказано, что
показатели воспроизведения будут зависеть от скорости предъявления слов
Таблица 13
Количество воспроизведенных слов
№ испытуемого
1
2
3
4
5
6
Суммы
Средние
Общая сумма
Группа 1: низкая
скорость
8
7
9
5
6
8
43
7,17
Группа 2: средняя Группа 3: высокая
скорость
скорость
7
4
8
5
5
3
4
6
6
2
7
4
37
24
6,17
4,00
104
Поскольку сопоставляются разные группы, любые различия в показателях между разными условиями предъявления слов - это в то же время
различия между группами испытуемых. Однако всякие различия между
испытуемыми внутри каждой группы объясняются какими-то другими, не
относящимися к делу переменными, будь то индивидуальные различия между
отдельными испытуемыми или неконтролируемые факторы, заставляющие их
реагировать различным образом. Критерий F позволяет проверить гипотезы:
H0: Различия в объеме воспроизведения слов между группами являются
не более выраженными, чем случайные различия внутри каждой группы.
H1: Различия в объеме воспроизведения слов между группами являются
более выраженными, чем случайные различия внутри каждой группы.
Используя экспериментальные значенияустановим некоторые величины,
которые будут необходимы для расчета критерия F.
Рис. 27 Расчет основных величин для однофакторного дисперсионного
анализа
Отметим разницу между ∑(хi2), в которой все индивидуальные значения
сначала возводятся в квадрат, а потом суммируются, и (∑хi) 2где
индивидуальные значения сначала суммируются для получения об- j щей
суммы, а потом уже эта сумма возводится в квадрат.
Часто встречающееся в этой и последующих таблицах обозначение SS сокращение от "суммы квадратов" .
SSфакт означает вариативность признака, обусловленную действием
исследуемого фактора; SSобщ - общую вариативность признака; SSCA вариативность, обусловленную неучтенными факторами, "случайную" или
"остаточную" вариативность.
MS - "средний квадрат", или математическое ожидание суммы квадратов,
усредненная величина соответствующих SS.
df - число степеней свободы, которое при рассмотрении непараметрических критериев мы обозначили греческой буквой v.
Рис. 28 Последовательность операций в однофакторном дисперсионном
анализе для несвязанных выборок
Вывод: H0 отклоняется. Принимается H1. Различия в объеме
воспроизведения слов
между группами являются более выраженными, чем
случайные различия внутри каждой группы (р<0,01).Скорость предъявления
слов влияет на объем их воспроизведения.
Дисперсионный анализ для связанных выборок:
Применяется в тех случаях, когда исследуется влияние разных градаций
фактора или разных условий на одну и ту же выборку испытуемых. Градаций
фактора должно быть не менее трех.
Непараметрический вариант этого вида анализа - критерий Фридмана χ2r.
Различия между условиями могут проявиться только вопреки различиям
между испытуемыми.
Фактор индивидуальных различий может оказаться
более значимым, чем фактор изменения экспериментальных условий. Поэтому
необходимо учитывать еще одну величину - сумму квадратов сумм индивидуальных значений испытуемых.
Однофакторный дисперсионный анализ для связанных выборок позволит
определить, что перевешивает - тенденция, выраженная этой кривой, или
индивидуальные различия, диапазон которых представлен на графике в виде
вертикальных линий – от минимального до максимального значения.
Графическое представление метода:
Рис. 29 Кривая изменения времени решения анаграмм разной длины:
четырехбуквенной, пятибуквенной и шестибуквенной.
Ограничения метода дисперсионного анализа для связанных выборок.
1. Дисперсионный анализ для связанных выборок требует не менее трех
градаций фактора и не менее двух испытуемых, подвергшихся воздействию
каждой из градаций фактора.
2. Должно соблюдаться правило равенства дисперсий в каждой ячейке
комплекса.
3. Результативный признак должен быть нормально распределен в исследуемой выборке.
В приводимом ниже примере показатели асимметрии и эксцесса
составляют:
A = 2,18;
mA = 0,632;
tA = 2,18/0,632=3,45;
mE = 1,264;
tE = 4,17/1,264 = 3,30
-распределение показателей 5-ти, человек, составляющих дисперсионный
комплекс, несколько отличается от нормального: tA>3; tE>3. Однако в целом по
выборке распределение нормальное:
n = 22
A = 1,26;
mA = 0,522;
tA = 2,41<3;
E = 2,29;
mE = 1,044;
tE = 2,19<3
Т.о. в выборке в целом результативный признак распределен нормально.
Случайно отобранные 5 человек распределением своих оценок демонстрируют
некоторое отклонение.
Пример.
Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной,
настойчивости.Каждому
испытуемому
индивидуально
предъявлялись
последовательно
три
одинаковые
анаграммы:
четырехбуквенная,
пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины
анаграммы влияет на длительность попыток ее решения?
Гипотезы. В данном случае их два набора.
Набор А.
H0(A): Различия в длительности попыток решения анаграмм разной длины
являются не более выраженными, чем различия, обусловленные случайными
причинами.
H1(A): Различия в длительности попыток решения анаграмм разной длины
являются более выраженными, чем различия, обусловленные случайными
причинами.
Набор Б.
Н0(Б): Индивидуальные различия между испытуемыми являются не более
выраженными, чем различия, обусловленные случайными причинами.
Н1(Б): Индивидуальные различия между испытуемыми являются более
выраженными, чем различия, обусловленные случайными причинами.
Длительность попыток решения анаграмм (сек):
Таблица 14
Длительность попыток решения анаграмм (сек)
Код имени
Условие 1:
Условие 2:
Условие 3;
Суммы
испытуемого четырехбуквенная пятибуквенная шестибуквенная
по
анаграмма
анаграмма
анаграмма
испытуемым
1. Л-в
2. П-о
3. К-в
4. Ю-ч
5. Р-о
Суммы по
столбцам
5
7
2
2
35
51
235
604
93
171
141
1244
7
20
5
8
7
47
247
631
100
181
183
1342
Таблица 15
Расчет промежуточных величин для критерия F в примере об
анаграммах
Расшифровка обозначения
Экспериментальное
Обозначение
значение
суммы индивидуальных значений по
Тс
51; 1244; 47
каждому из условий (столбцов)
сумма квадратов суммарных значений
∑ Т2с
∑ Т2с =512+12442+472
по каждому из условий
n
количество испытуемых
n=5
количество значений у каждого
с
испытуемого
с=3
(т. е. количество условий)
N
общее количество значений
N=15
суммы индивидуальных значений по
Тn
каждому
247; 631; 100; 181; 183
испытуемому
сумма квадратов сумм индивидуальных
∑ Т2n
2472+6312+1002+1812+1832
значений по испытуемым
квадрат общей суммы индивидуальных
(∑ x i)2
(∑ x i)2=13422
значений
константа, которую нужно вычесть из
1
1
/N ∙ (∑ x i)2 каждой суммы квадратов
/N ∙ (∑ x i)2 =1/N ∙13422
xi
∑ x2 i
каждое индивидуальное значение
сумма
квадратов
индивидуальных
значений
Подсчитаем значение F.
Fфакт  MS факт / MS cл  6,872
Fисп  MSисп / MScл  1,054
По таблице стандартных значений критерия определяем Fкр.
4,46( p  0,05)
Fкр (2,8)  
8,65( p  0,01)
3,84( p  0,05)
Fкр (4,8)  
7,01( p  0,01)
Более подробно с расчетами в однофакторном дисперсионном анализе
можно познакомиться в источнике [2] основной литературы.
Тема 9.3. Двухфакторный дисперсионный анализ
Дисперсионный двухфакторный анализ. Обоснование задачи по оценке
взаимодействия двух факторов. Двухфакторный дисперсионный анализ для
связанных и несвязанных выборок.
Дисперсионный двухфакторный анализ.
Двухфакторный дисперсионный анализ позволяет оценить влияние
каждого из факторов в отдельности, их взаимодействие. Может оказаться, что
одна переменная значимо действует на исследуемый признак только при малых
(или, напротив, больших) значениях другой переменной. Например, повышение
вознаграждения
может
повышать
скорость
решения
задач
у
высокоинтеллектуальных
испытуемых
и
понижать
ее
у
низкоинтеллектуальных. Усиление наказания может снижать количество
агрессивных реакций у девочек и повышать его у мальчиков. Или, скажем,
внушение может влиять на младших школьников, но не влиять на подростков.
Один фактор может "заморозить" или, напротив, "катализировать" действие
другого.
Двухфакторный дисперсионный анализ предъявляет особые требования к
формированию комплексов. Комплекс должен представлять собой
симметричную систему: каждой градации фактора А должно соответствовать
одинаковое количество градаций фактора В.
Двухфакторный дисперсионный анализ:
а) для несвязанных выборок;
б) для связанных выборок.
Двухфакторный дисперсионный анализ для несвязанных выборок.
Применяется в тех случаях, когда исследуется одновременное действие
двух факторов на разные выборки испытуемых, т. е. когда разные выборки,
испытуемых оказываются под воздействием разных сочетаний двух факторов.
Количество выборок определяется количеством ячеек дисперсионного
комплекса.
Суть метода остается прежней, но в двухфакторном дисперсионном
анализе мы можем проверить большее количество гипотез. Расчеты гораздо
сложнее, чем в однофакторных комплексах.
Используемый в данном руководстве алгоритм расчетов предназначен
только для равномерных комплексов. Если комплекс получился
неравномерным, необходимо случайным образом отсеять несколько испытуемых.
Пример.
Четырем группам испытуемых предъявлялись списки из 10 слов:
группе 1 - короткие слова с большой скоростью;
группе 2 - короткие слова с медленной скоростью;
группе 3 - длинные слова с большой скоростью;
группе 4 - длинные слова с медленной скоростью.
В каждой группе было по 4 испытуемых, всего N=16. Предсказывалось,
что между факторами длины слов и скоростью их предъявления будет
наблюдаться значимое взаимодействие: при большой скорости предъявления
лучше будут запоминаться короткие слова, а при медленной скорости длинные слова
Таблица 16
Количество воспроизведенных слов при разной длине слов и разной
скорости их предъявления(зарубежный вариант.)
Переменная
Переменная (фактор) А - длина слов
Суммы по
(фактор) В
переменной В
скорость
(ТB)
предъявления A1 - короткие слова
A2 - длинные
слов
слова
В1 (большая
скорость)
B2 (малая
скорость)
Суммы по
переменной А (ТA)
9867
30
5334
15
45
4335
15
7567
25
40
40
85
45
Таблица 17
Двухфакторный дисперсионный комплекс по оценке влияния
фактора А (длина слов) и фактора В (скорость предъявления слов) на
количество воспроизведенных слов (отечественный вариант.)
Градации фактора А
Градации фактора В
Суммы по ячейкам
Суммы по градациям
фактора А
Суммы по градациям
фактора В
А1 - короткие слова
B1
B2
9
4
8
3
6
3
7
5
30
15
ТA1=45
A2 – длинные слова
B1
B2
5
7
3
5
3
6
4
7
15
25
ТA2=40.
ТB1==30+15=45
ТB2==15+25=40
ТA1= ТB1; ТA2= ТB2.
Гипотезы: касающиеся влияния фактора А отдельно от фактора В (как
бы при "усредненных" его значениях), гипотезы о влиянии фактора В отдельно
от фактора А и гипотезы о влиянии взаимодействия градаций факторов А и В.
1 комплект гипотез:
H0: Различия в объеме воспроизведения слов, обусловленные действием
фактора А, являются не более выраженными, чем случайные различия между
показателями.
H1: Различия в объеме воспроизведения слов, обусловленные действием
фактора А, являются более выраженными, чем случайные различия между
показателями.
2 комплект гипотез:
H0: Различия в объеме воспроизведения слов, обусловленные действием
фактора В, являются не более выраженными, чем случайные различия между
показателями.
H1: Различия в объеме воспроизведения слов, обусловленные действием
фактора В, являются более выраженными, чем случайные различия между
показателями.
3 комплект гипотез:
H0: Влияние фактора А на объем воспроизведения слов одинаково при
разных градациях фактора В, и наоборот.
H1: Влияние фактора А на объем воспроизведения слов различно при
разных градациях фактора В, и наоборот.
Используя экспериментальные значения, установим величины, которые
будут необходимы для расчета критериев F.
Рис. 30 Величины, необходимые для расчета критериев F в
двухфакторном дисперсионном анализе для несвязанных выборок.
При подсчете ∑ x i2 все индивидуальные значения сначала возводятся в
квадрат, а потом суммируются, а при подсчете (∑ x i)2 все индивидуальные
значения сначала суммируются, а затем их общая сумма возводится в квадрат.)
Рис. 31 Последовательность операций в двухфакторном дисперсионном
анализе для несвязанных выборок.
Вывод: Но принимается в комплектах гипотез1и2.Различия в объёме
воспроизведения слов, обусловленные в отдельности факторами А и В, не
являются более выраженными, чем случайные различия между показателями.
H0 отвергается для взаимодействия факторов (3 комплект). Принимается H1.
Влияние фактора А на объем воспроизведения слов различно при разных
градациях фактора В, и наоборот (р≤0,01).
Факторы длины слов и скорости их предъявления в отдельности не
оказывают значимого действия на объем воспроизведения. Значимым
оказывается именно взаимодействие факторов: короткие слова лучше
запоминаются при быстрой скорости предъявления, а длинные - при медленной
скорости предъявления. Таким образом, предположение нашло статистически
значимое подтверждение (р≤0,001).
Рис. 32 Кривые изменения объема воспроизведения при повышении
скорости предъявления коротких (сплошная линия) и длинных слов
(пунктирная линия) в двухфакторном дисперсионном анализе
Ограничения двухфакторного дисперсионного анализа для несвязанных
выборок.
1. У каждого фактора должно быть не менее двух градаций.
2. В каждой ячейке комплекса должно быть не менее двух наблюдаемых
значений для выявления взаимодействия градаций.
3. Количества значений во всех ячейках комплекса должны быть равны
для обеспечения равенства дисперсий в ячейках комплекса и для использования
приведенного выше алгоритма расчетов.
4. Комплекс должен представлять собой симметричную систему: каждой
градации фактора А должно соответствовать одинаковое количество градаций
фактора В.
5. Результативный признак должен быть нормально распределен в исследуемой выборке, в противном случае значимые различия будет выявить
гораздо труднее и применение метода будет не вполне корректным.
6. Факторы должны быть независимыми. В рассмотренном примере
скорость предъявления слов и их длина - внешне независимые факторы. В
других случаях независимость факторов может быть подтверждена отсутствием
корреляционной связи между переменными, выступающими в качестве
факторов.
Двухфакторный дисперсионный анализ для связанных выборок.
Применяется в тех случаях, когда исследуется действие двух факторов на
одну и ту же выборку испытуемых.
Проверяются 4 гипотезы: о влиянии
фактора А, о влиянии фактора В, о влиянии взаимодействия факторов А и В и о
влиянии фактора индивидуальных различий.
Пример.
В выборке курсантов военного училища (юноши в возрасте от 18 до 20
лет) измерялась способность к удержанию физического волевого усилия на
динамометре. В первый день эксперимента у них, наряду с другими
показателями, измерялась мышечная сила каждой из рук. На второй день
эксперимента им предлагалось выдерживать на динамометре мышечное усилие,
равное '/2 максимальной мышечной силы данной руки. На третий день
эксперимента испытуемым предлагалось проделать то же самое в парном
соревновании на глазах у всей группы. Пары соревнующихся были подобраны
таким образом, чтобы сила обеих рук у них примерно совпадала. Можно ли
считать, что фактор соревнования в группе каким-то образом влияет на
продолжительность удержания усилия? Подтверждается ли предположение о
том, что правая рука более "социальна"?
Таблица 18
Длительность удержания усилия (сек/10) на динамометре правой и
левой руками в разных условиях измерения (n=4).
Код
Наедине с экспериментатором В группе сокурсников (A2)
имени
(A1)
испытуем
Правая рука
Левая рука Правая рука Левая рука
ого
1
Л-в
11
10
15
10
2
С-с
13
11
14
10
3
С-в
12
8
8
5
4
К-в
9
10
7
8
Единицы измерения -секунды, в каждом случае их количество уменьшено
в 10 раз.
Таблица 19
Двухфакторный дисперсионный комплекс по оценке влияния
фактора А (вне группы - в группе) и фактора В (правая - левая рука) на
длительность удержания физического волевого усилия (сек/10) - вариант I
Код имени
испытуемо
B1
го
A1 - вне группы
Индивидуальн
ые суммы по
B2
A1
(В1+В2)
10
21
11
24
8
20
10
19
1. Л-в
11
2. С-с
13
3. С-в
12
4. К-в
9
Суммы по
45 39
ячейкам
Суммы по градациям A1 и А2
Общая
сумма
84
А2 - в группе
B1
B2
15
14
8
7
10
10
5
8
44
33
Индивидуальн
Индивидуаль
ые суммы всех
ные суммы
4-х значений
по А2 (В1+В2)
25
24
13
15
46
48
33
34
77
161
Таблица 20
Двухфакторный дисперсионный комплекс по оценке влияния
факторов А и В на длительность физического волевого усилия (сек/10) вариант II
B1 – правая рука
B2 – левая рука
Код имени
Индивидуальн
Индивидуальн
Индивидуаль
испытуемо
ые суммы всех
ые суммы по
A1 A2
A1 A2 ные суммы
го
4-х значений
B1
по B2 (A1+A2)
(A1+A2)
1. Л-в
11 15
26
10 10
20
46
2. С-с
13 14
27
11 10
21
48
3. С-в
12 8
20
8
5
13
33
4. К-в
9
7
16
10
8
18
34
Суммы по
45 44
39 33
ячейкам
Суммы по
града89
72
циям A1 и А2
Общая
161
сумма
Две ячейки комплекса поменялись местами: A1B2 и A2B1. Это позволяет с
большей легкостью подсчитать суммы по градациям B1 и В2.
Установим некоторые величины, которые будут необходимы для расчёта
критериев F.
Рис. 32 Величины, необходимые для расчета критериев
двухфакторном дисперсионном анализе для связанных выборок.
F
в
Теперь при расчетах будем лишь подставлять уже подсчитанные
значения тех или иных величин.
Рис. 33 Последовательность операций в двухфакторном дисперсионном
анализе для связанных выборок.
Влияние факторов А и В, как каждого в отдельности, так и в их
взаимодействии, незначимо. В то же время фактор индивидуальных различий
между испытуемыми(Fи)оказался значимым (р<0,05). Критерий F для факторов
А и В вычисляется как отношение вариативности между градациями факторов
к вариативности между испытуемыми в этих градациях.
Рис. 34 Индивидуальные изменения длительности физического волевого
усилия по четырем испытуемым.
У одного испытуемого выше показатели по левой руке, у трех других - по
правой. При измерении вне группы индивидуальные кривые ближе друг к
другу, при измерениях в группе они расходятся.
Рис. 35 Изменения средних величин длительности физического волевого
усилия при переходе от индивидуальных замеров к групповым (правая рука сплошная линия, левая рука - пунктирная линия)
Рис. 36 Изменения средних величин длительности физического волевого
усилия при переходе от правой руки к левой (сплошная линия - измерения вне
группы, пунктирная линия - измерения в группе)
Во втором, групповом, замере снижаются показатели и по правой, и по
левой руке, но все же правая рука "держится" почти на уровне первого замера, в
то время как левая рука в большей степени "сдается" под влиянием усталости в
группе, чем вне группы.
Можно было бы подтвердить предположение о большей "социальности
правой руки, большая стабильность которой, возможно, отражает стремление
поддержать "лицо" в ситуации соревнования в группе, но выявленные
тенденции незначимы.
Раздел 10. Многомерные статистические методы
Тема 10.1. Регрессионный анализ
Взаимосвязь между переменными величинами может быть описана
разными способами. Например, как было показано в предыдущем разделе,
эту связь можно описать с помощью различных коэффициентов корреляции
(линейных, частных, корреляционного отношения и т.п.). В то же время эту
связь можно выразить по-другому: как зависимость между аргументом (величиной) Хи функцией У. В этом случае задача будет состоять в нахождении
зависимости вида Y = F(X) или, напротив, в нахождении зависимости вида Х=
F{Y). При этом измерение функции в зависимости от изменений одного или
нескольких аргументов называется регрессией.
Графическое выражение регрессионного уравнения называют линией
регрессии. Линия регрессии выражает наилучшее предсказание зависимой
переменной (К) по независимым переменным (А). Эти независимые
переменные, а их может быть много, носят название предикторов.
Регрессию выражают с помощью двух уравнений регрессии, которые в
самом простом случае выглядят, как уравнения прямой, а именно так:
У= а0 + а1 ∙X
X = b0 + b1∙ Y
В первом уравнении Y — зависимая переменная, а Х — независимая
переменная, а0 свободный член, а а1 — коэффициент регрессии, или угловой
коэффициент, определяющий наклон линии регрессии по отношению к осям
координат.
Во втором уравнении X — зависимая переменная, a Y — независимая
переменная, b0 свободный член, а b1— коэффициент регрессии, или угловой
коэффициент, определяющий наклон линии регрессии по отношению к осям
координат.
Количественное представление связи (зависимости) между X и Y (между
Y и X) называется регрессионным анализом. Главная задача регрессионного
анализа заключается, собственно говоря, в нахождении коэффициентов а0, b0,
а1 и b1 и определении уровня значимости полученных аналитических
выражений, связывающих между собой переменные X и Y.
При этом коэффициенты регрессии а1 и b1 показывают, насколько в
среднем величина одной переменной изменяется при изменении на единицу
меры другой. Коэффициент регрессии а1 в первом уравнении можно
подсчитать по формуле:
a1  rxy 
Sy
Sx
А коэффициенты b1 во втором уравнении по формуле:
b1  ryx 
Sx
Sy
где rxy — коэффициент корреляции между переменными X и У;
Sx — среднеквадратическое отклонение, подсчитанное для переменной
X;
Sy — среднеквадратическое отклонение, подсчитанное для переменной Y.
Общий вид системы уравнений для нахождения величин а0 и а1 таков:
Общий вид системы уравнений для нахождения величин — b0 и b1 таков:
В этих системах уравнений используются следующие обозначения:
N — число элементов в переменной Х или в переменной Y,
 x , — сумма всех элементов переменной X,
i
y
i
— сумма всех элементов переменной Y,
,
 y y — произведение всех элементов переменной Y друг на друга,
i
i
 x x — произведение всех элементов переменной X друг на друга,
i i
y x —
i i
попарное произведение всех элементов переменной Х на
соответствующие элементы переменной Y.
Для применения метода линейного регрессионного анализа необходимо
соблюдать следующие условия:
1. Сравниваемые переменные X и Y должны быть измерены в шкале
интервалов или отношений.
2. Предполагается, что переменные X и Y имеют нормальный закон
распределения.
3. Число варьирующих признаков в сравниваемых переменных
должно быть одинаковым.
Приведем несколько примеров линейной регрессии.
Пример. В исследовании Ф. Гальтона (который и ввел в науку понятие
регрессии) был измерен рост 205 родителей и 930 их взрослых детей. При этом,
если за Y взять рост ребенка, а за X рост родителя, уравнение регрессии,
связывающее рост ребенка с ростом родителей, имеет вид:
где X и Y средние по всей выборке испытуемых.
Таким образом, зная величины средних по всей выборке и рост одного из
родителей — X., из уравнения можно подсчитать величину Y., т.е. рост ребенка.
Задача. У 8 подростков психолог сравнивает баллы по третьему субтесту
теста Векслера (переменная X) и оценки по алгебре (переменная Y). Теперь его
интересует вопрос: на сколько баллов повысится успешность решения третьего
субтеста Векслера, если оценки по алгебре повысятся на 1 балл? Кроме того,
его интересует вопрос, будет ли повышение успешности решения третьего
субтеста Векслера на 1 балл влиять на повышение оценок по алгебре?
Решение. Ответы на эти вопросы психолог получит с помощью
использования метода регрессии. Расположим исходные данные в виде
таблицы 21, в которой произведем предварительные необходимые вычисления.
Таблица 21
№
испытуемых
п/п
1
xi
yi
xi· yi
xi· xi
yi· yi
8
2
16
64
4
2
8
3
24
64
9
3
10
4
40
100
16
4
10
5
50
100
25
5
14
5
70
196
25
6
16
4
64
256
16
7
18
3
54
324
9
а
18
а
72
324
16
Суммы
102
30
390
1429
120
С помощью решения первой системы уравнений необходимо найти
уравнение регрессии Y на X, т.е. определить коэффициенты а0 и а1, и таким
образом ответить на вопрос — на сколько баллов повысится успешность
решения третьего субтеста Векслера, если оценки по алгебре повысятся в
среднем на 1 балл.
В этой системе уравнений благодаря вычислениям, приведенным в
таблице 21, нам известны все необходимые величины сумм и число N = 8,
поскольку в эксперименте участвовало 8 человек. Итак, находим а0 и а1. Для
этого перепишем первую систему уравнений, учитывая данные таблицы 21:
Решая эту систему уравнений, находим а0 = 3 и а1 = 0,06. Следовательно,
искомое уравнение регрессии Y на X будет иметь вид:
Теперь найдем уравнение регрессии Хна У. Для этого необходимо решить
вторую систему уравнений, чтобы определить величины b0 и b1. Подставляем
во вторую систему уравнений данные из таблицы 21 получаем:
Решая эту систему уравнений, находим b0 = 9 и b1 = 1. Тогда искомое
уравнение регрессии Хна Убудет иметь вид:
Мы получили два уравнения регрессии. Коэффициенты а1 и b1 в
уравнениях регрессии показывают, на насколько в среднем величина одного
признака, например Y, изменяется при изменении другого признака на единицу
меры, например X.
Иными словами, мы уже можем ответить на оба вопроса нашей задачи.
Так, согласно уравнению,
увеличение на 1 балл успешности
решения третьего субтеста теста Векслера влечет за собой увеличение оценок
по алгебре на 0,06 или на 6%. В то же время, согласно уравнению регрессии
, — увеличение на 1 балл оценки по алгебре влечет за собой
увеличение оценок по третьему субтесту Векслера также на 1 балл.
Более подробно регрессионный анализ, как линейный так и
множественный изложен в пособии основной литературы [1].
Тема 10.2. Факторный анализ
Метод множественных корреляций в отличие от метода парных
корреляций позволяет выявить общую структуру корреляционных
зависимостей, существующих внутри многомерного экспериментального
материала, включающего более двух переменных, и представить эти
корреляционные зависимости в виде некоторой системы.
Один из наиболее распространенных вариантов этого метода —
факторный анализ — позволяет определить совокупность внутренних
взаимосвязей, возможных причинно-следственных связей, существующих в
экспериментальном
материале.
В
результате
факторного
анализа
обнаруживаются так называемые факторы — причины, объясняющие
множество частных (парных) корреляционных зависимостей.
Фактор — математико-статистическое понятие. Будучи переведенным на
язык психологии (эта процедура называется содержательной или
психологической интерпретацией факторов), он становится психологическим
понятием. Например, в известном 16-факторном личностном тесте Р. Кеттела
каждый фактор взаимно однозначно связан с определенными чертами личности
человека.
С помощью выявленных факторов объясняют взаимозависимость
психологических явлений. Поясним сказанное на примере. Допустим, что в
некотором психолого-педагогическом эксперименте изучалось взаимовлияние
таких переменных, как характер, способности, потребности и успеваемость
учащихся. Предположим далее, что, оценив каждую из этих переменных у
достаточно представительной выборки испытуемых и подсчитав коэффициенты
парных корреляций между всевозможными парами данных переменных, мы
получили следующую матрицу интеркорреляций (в ней справа и сверху
цифрами обозначены в перечисленном выше порядке изученные в
эксперименте переменные, а внутри самого квадрата показаны их корреляции
друг с другом; поскольку всевозможных пар в данном случае меньше, чем
клеток в матрице, то заполнена только верхняя часть матрицы, расположенная
выше ее главной диагонали).
Анализ корреляционной матрицы показывает, что переменная 1
(характер) значимо коррелирует с переменными 2 и 3 (способности и потребности). Переменная 2 (способности) достоверно коррелирует с переменной
3 (потребности), а переменная 3 (потребности) — с переменной 4
(успеваемость). Фактически из шести имеющихся в матрице коэффициентов
корреляции четыре являются достаточно высокими и, если предположить, что
они определялись на совокупности испытуемых, превышающей 10 человек, —
значимыми.
Рис. 37
Зададим некоторое правило умножения столбцов цифр на строки
матрицы: каждая цифра столбца последовательно умножается на каждую
цифру строки и результаты парных произведений записываются в строку
аналогичной матрицы. Пример: если по этому правилу умножить друг на друга
три цифры столбца и строки, представленные в левой части матричного
равенства, то получим матрицу, находящуюся в правой части этого же
равенства:
Рис. 38
Задача факторного анализа по отношению к только что рассмотренной
является как бы противоположной. Она сводится к тому, чтобы по уже
имеющейся матрице парных корреляций, аналогичной представленной в
правой части показанного выше матричного равенства, отыскать одинаковые
по включенным в них цифрам столбец и строку, умножение которых друг на
друга по заданному правилу порождает корреляционную матрицу.
Иллюстрация:
Рис. 39
Здесь x1 x2, х3 и х4 - искомые числа. Для их точного и быстрого
определения существуют специальные математические процедуры и
программы для ЭВМ.
Допустим, что мы уже нашли эти цифры: х1 = 0,45, х2= 0,36 х3 = 1,12, х4 =
0,67. Совокупность найденных цифр и называется фактором, а сами эти цифры
— факторными весами или нагрузками.
Эти цифры соответствуют тем психологическим переменным, между
которыми вычислялись парные корреляции, х1 - характер, х2 - способности, х3
— потребности, х4 — успеваемость. Поскольку наблюдаемые в эксперименте
корреляции между переменными можно рассматривать как следствие влияния
на них общих причин — факторов, а факторы интерпретируются в
психологических терминах, мы можем теперь от факторов перейти к
содержательной
психологической
интерпретации
обнаруженных
статистических закономерностей. Фактор содержит в себе ту же самую
информацию, что и вся корреляционная матрица, а факторные нагрузки
соответствуют коэффициентам корреляции. В нашем примере х3 (потребности)
имеет наибольшую факторную нагрузку (1,12), а х2 (способности) —
наименьшую (0,36).
Следовательно, наиболее значимой причиной, влияющей на все
остальные психологические переменные, в нашем случае являются
потребности, а наименее значимой — способности. Из корреляционной
матрицы видно, что связи переменной х3 со всеми остальными являются
наиболее сильными (от 0,40 до 0,75), а корреляции переменной х2 — самыми
слабыми (от 0,16 до 0,40).
Чаще всего в итоге факторного анализа определяется не один, а
несколько факторов, по-разному объясняющих матрицу интеркорреляций
переменных. В таком случае факторы делят на генеральные, общие и
единичные. Генеральными называются факторы, все факторные нагрузки
которых значительно отличаются от нуля (нуль нагрузки свидетельствует о
том, что данная переменная никак не связана с остальными и не оказывает на
них никакого влияния в жизни). Общие — это
факторных нагрузок отлична от нуля. Единичные
существенно отличается от нуля только одна
схематически представлена структура факторного
факторах различной степени общности.
факторы, у которых часть
— это факторы, в которых
из нагрузок. На рис. 7
отображения переменных в
Рис. 40 Структура факторного отображения взаимосвязей переменных.
Отрезки, соединяющие факторы с переменными, указывают на высокие
факторные нагрузки
Тема 10.3. Кластерный анализ
Кластерный анализ включает в себя набор различных алгоритмов
классификации. Методы кластерного анализа позволяют решать следующие
задачи:
- проведение классификации объектов с учетом признаков, отражающих
сущность, природу объектов. Решение такой задачи, как правило, приводит к
углублению знаний о совокупности классифицируемых объектов;
- проверка выдвигаемых предположений о наличии некоторой структуры в
изучаемой совокупности объектов, т.е. поиск существующей структуры;
- построение новых классификаций для слабоизученных явлений, когда
необходимо установить наличие связей внутри совокупности и попытаться
привнести в нее структуру.
Общий вопрос, задаваемый исследователями во многих областях, состоит в
том, как организовать наблюдаемые данные в наглядные структуры, т.е.
развернуть таксономии. Например, биологи ставят цель разбить животных на
различные виды, чтобы содержательно описать различия между ними. В
соответствии с современной системой, принятой в биологии, человек
принадлежит к приматам, млекопитающим, амниотам, позвоночным и
животным. Заметьте, что в этой классификации, чем выше уровень агрегации,
тем меньше сходства между членами в соответствующем классе. Человек имеет
больше сходства с другими приматами, чем с "отдаленными" членами
семейства млекопитающих (например, собаками) и т.д.
Проверка статистической значимости
Заметим, что предыдущие рассуждения ссылаются на алгоритмы
кластеризации, но ничего не упоминают о проверке статистической
значимости. Фактически, кластерный анализ является не столько обычным
статистическим методом, сколько "набором" различных алгоритмов
"распределения объектов по кластерам". Существует точка зрения, что в
отличие от многих других статистических процедур, методы кластерного
анализа используются в большинстве случаев тогда, когда вы не имеете какихлибо априорных гипотез относительно классов, но все еще находитесь в
описательной стадии исследования. Следует понимать, что кластерный анализ
определяет "наиболее возможно значимое решение". Поэтому проверка
статистической значимости в действительности здесь неприменима, даже в
случаях, когда известны p-уровни.
Техника кластеризации применяется в самых разнообразных областях.
Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных
исследований, содержащих результаты, полученные методами кластерного
анализа. Например, в области медицины кластеризация заболеваний, лечения
заболеваний или симптомов заболеваний приводит к широко используемым
таксономиям. В области психиатрии правильная диагностика кластеров
симптомов, таких как паранойя, шизофрения и т.д., является решающей для
успешной терапии. В археологии с помощью кластерного анализа
исследователи пытаются установить таксономии каменных орудий,
похоронных объектов и т.д. Известны широкие применения кластерного
анализа в маркетинговых исследованиях. В общем, всякий раз, когда
необходимо классифицировать "горы" информации к пригодным для
дальнейшей обработки группам, кластерный анализ оказывается весьма
полезным и эффективным.
Объединение (древовидная кластеризация)

Иерархическое дерево

Меры расстояния

Правила объединения или связи
Общая логика
Как реализуется объединение в кластеры? Назначение алгоритма
древовидной кластеризации состоит в объединении объектов (например,
животных) в достаточно большие кластеры, используя некоторую меру
сходства или расстояние между объектами. Типичным результатом такой
кластеризации является иерархическое дерево.
Рассмотрим горизонтальную древовидную диаграмму. Диаграмма
начинается с каждого объекта в классе (в левой части диаграммы). Теперь
представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш
критерий о том, какие объекты являются уникальными, а какие нет. Другими
словами, вы понижаете порог, относящийся к решению об объединении двух
или более объектов в один кластер.
Рис. 41 Горизонтальная древовидная диаграмма
В результате, вы связываете вместе всё большее и большее число
объектов и агрегируете (объединяете) все больше и больше кластеров,
состоящих из все сильнее различающихся элементов. Окончательно, на
последнем шаге все объекты объединяются вместе. На этих диаграммах
горизонтальные оси представляют расстояние объединения (в вертикальных
древовидных диаграммах вертикальные оси представляют расстояние
объединения). Так, для каждого узла в графе (там, где формируется новый
кластер) вы можете видеть величину расстояния, для которого
соответствующие элементы связываются в новый единственный кластер. Когда
данные имеют ясную "структуру" в терминах кластеров объектов, сходных
между собой, тогда эта структура, скорее всего, должна быть отражена в
иерархическом дереве различными ветвями. В результате успешного анализа
методом объединения появляется возможность обнаружить кластеры (ветви) и
интерпретировать их.
Меры расстояния
Объединение или метод древовидной кластеризации используется при
формировании кластеров несходства или расстояния между объектами. Эти
расстояния могут определяться в одномерном или многомерном пространстве.
Например, если вы должны кластеризовать типы еды в кафе, то можете принять
во внимание количество содержащихся в ней калорий, цену, субъективную
оценку вкуса и т.д. Наиболее прямой путь вычисления расстояний между
объектами в многомерном пространстве состоит в вычислении евклидовых
расстояний. Если вы имеете двух- или трёхмерное пространство, то эта мера
является реальным геометрическим расстоянием между объектами в
пространстве (как будто расстояния между объектами измерены рулеткой).
Однако алгоритм объединения не "заботится" о том, являются ли
"предоставленные" для этого расстояния настоящими или некоторыми другими
производными мерами расстояния, что более значимо для исследователя; и
задачей исследователей является подобрать правильный метод для
специфических применений.
Евклидово расстояние. Это, по-видимому, наиболее общий тип
расстояния. Оно попросту является геометрическим расстоянием в
многомерном пространстве и вычисляется следующим образом:
(x,y) = {∑i (xi - yi)2}1/2
Заметим, что евклидово расстояние вычисляется по исходным, а не по
стандартизованным данным. Это обычный способ его вычисления, который
имеет определенные преимущества (например, расстояние между двумя
объектами не изменяется при введении в анализ нового объекта, который
может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять
различия между осями, по координатам которых вычисляются эти расстояния.
К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее
в миллиметры (умножая значения на 10), то окончательное евклидово
расстояние (или квадрат евклидова расстояния), вычисляемое по координатам,
сильно изменится, и, как следствие, результаты кластерного анализа могут
сильно отличаться от предыдущих.
Квадрат евклидова расстояния. Иногда может возникнуть желание
возвести в квадрат стандартное евклидово расстояние, чтобы придать большие
веса более отдаленным друг от друга объектам. Это расстояние вычисляется
следующим образом:
(x,y) = ∑i (xi - yi)2
Расстояние городских кварталов (манхэттенское расстояние). Это
расстояние является просто средним разностей по координатам. В большинстве
случаев эта мера расстояния приводит к таким же результатам, как и для
обычного расстояния Евклида. Однако отметим, что для этой меры влияние
отдельных больших разностей (выбросов) уменьшается (так как они не
возводятся в квадрат). Манхэттенское расстояние вычисляется по формуле:
(x,y) = ∑i |xi - yi|
Расстояние Чебышева. Это расстояние может оказаться полезным, когда
желают определить два объекта как "различные", если они различаются по
какой-либо одной координате (каким-либо одним измерением). Расстояние
Чебышева вычисляется по формуле:
(x,y) = Максимум|xi - yi|
Степенное расстояние. Иногда желают прогрессивно увеличить или
уменьшить вес, относящийся к размерности, для которой соответствующие
объекты сильно отличаются. Это может быть достигнуто с использованием
степенного расстояния. Степенное расстояние вычисляется по формуле:
(x,y) = (∑i |xi - yi|p)1/r
где r и p - параметры, определяемые пользователем. Несколько примеров
вычислений могут показать, как "работает" эта мера. Параметр p ответственен
за постепенное взвешивание разностей по отдельным координатам, параметр r
ответственен за прогрессивное взвешивание больших расстояний между
объектами. Если оба параметра - r и p, равны двум, то это расстояние совпадает
с расстоянием Евклида.
Процент несогласия. Эта мера используется в тех случаях, когда данные
являются категориальными. Это расстояние вычисляется по формуле:
(x,y) = (Количество xi yi)/ i
На первом шаге, когда каждый объект представляет собой отдельный
кластер, расстояния между этими объектами определяются выбранной мерой.
Однако когда связываются вместе несколько объектов, возникает вопрос, как
следует определить расстояния между кластерами? Другими словами,
необходимо правило объединения или связи для двух кластеров. Здесь имеются
различные возможности: например, вы можете связать два кластера вместе,
когда любые два объекта в двух кластерах ближе друг к другу, чем
соответствующее расстояние связи. Другими словами, вы используете "правило
ближайшего соседа" для определения расстояния между кластерами; этот метод
называется методом одиночной связи. Это правило строит "волокнистые"
кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами,
случайно оказавшимися ближе остальных друг к другу. Как альтернативу вы
можете использовать соседей в кластерах, которые находятся дальше всех
остальных пар объектов друг от друга. Этот метод называется метод полной
связи. Существует также множество других методов объединения кластеров,
подобных тем, что были рассмотрены.
Одиночная связь (метод ближайшего соседа). Как было описано выше, в
этом методе расстояние между двумя кластерами определяется расстоянием
между двумя наиболее близкими объектами (ближайшими соседями) в
различных кластерах. Это правило должно, в известном смысле, нанизывать
объекты вместе для формирования кластеров, и результирующие кластеры
имеют тенденцию быть представленными длинными "цепочками".
Полная связь (метод наиболее удаленных соседей). В этом методе
расстояния между кластерами определяются наибольшим расстоянием между
любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными
соседями"). Этот метод обычно работает очень хорошо, когда объекты
происходят на самом деле из реально различных "рощ". Если же кластеры
имеют в некотором роде удлиненную форму или их естественный тип является
"цепочечным", то этот метод непригоден.
Невзвешенное попарное среднее. В этом методе расстояние между двумя
различными кластерами вычисляется как среднее расстояние между всеми
парами объектов в них. Метод эффективен, когда объекты в действительности
формируют различные "рощи", однако он работает одинаково хорошо и в
случаях протяженных ("цепочного" типа) кластеров.
Взвешенное попарное среднее. Метод идентичен методу невзвешенного
попарного среднего, за исключением того, что при вычислениях размер
соответствующих кластеров (т.е. число объектов, содержащихся в них)
используется в качестве весового коэффициента. Поэтому предлагаемый метод
должен быть использован (скорее даже, чем предыдущий), когда
предполагаются неравные размеры кластеров.
Невзвешенный центроидный метод. В этом методе расстояние между
двумя кластерами определяется как расстояние между их центрами тяжести.
Взвешенный центроидный метод (медиана). Этот метод идентичен
предыдущему, за исключением того, что при вычислениях используются веса
для учёта разницы между размерами кластеров (т.е. числами объектов в них).
Поэтому, если имеются (или подозреваются) значительные отличия в размерах
кластеров, этот метод оказывается предпочтительнее предыдущего.
Метод Варда. Этот метод отличается от всех других методов, поскольку
он использует методы дисперсионного анализа для оценки расстояний между
кластерами. Метод минимизирует сумму квадратов (SS) для любых двух
(гипотетических) кластеров, которые могут быть сформированы на каждом
шаге. Подробности можно найти в работе Варда (Ward, 1963). В целом метод
представляется очень эффективным, однако он стремится создавать кластеры
малого размера.
Ранее этот метод обсуждался в терминах "объектов", которые должны
быть кластеризованы (см. Объединение (древовидная кластеризация)). Во всех
других видах анализа интересующий исследователя вопрос обычно выражается
в терминах наблюдений или переменных. Оказывается, что кластеризация, как
по наблюдениям, так и по переменным может привести к достаточно
интересным результатам. Например, представьте, что медицинский
исследователь собирает данные о различных характеристиках (переменные)
состояний пациентов (наблюдений), страдающих сердечными заболеваниями.
Исследователь может захотеть кластеризовать наблюдения (пациентов) для
определения кластеров пациентов со сходными симптомами. В то же самое
время исследователь может захотеть кластеризовать переменные для
определения кластеров переменных, которые связаны со сходным физическим
состоянием.
Двувходовое объединение
После этого обсуждения, относящегося к тому, кластеризовать
наблюдения или переменные, можно задать вопрос, а почему бы не проводить
кластеризацию в обоих направлениях? Модуль Кластерный анализ содержит
эффективную двувходовую процедуру объединения, позволяющую сделать
именно это. Однако двувходовое объединение используется (относительно
редко) в обстоятельствах, когда ожидается, что и наблюдения и переменные
одновременно вносят вклад в обнаружение осмысленных кластеров.
Метод K средних как метод кластеризации существенно отличается от
таких агломеративных методов, как Объединение (древовидная кластеризация)
и Двувходовое объединение. Предположим, вы уже имеете гипотезы
относительно числа кластеров (по наблюдениям или по переменным). Вы
можете указать системе образовать ровно три кластера так, чтобы они были
настолько различны, насколько это возможно. Это именно тот тип задач,
которые решает алгоритм метода K средних. В общем случае метод K средних
строит ровно K различных кластеров, расположенных на возможно больших
расстояниях друг от друга.
В примере с физическим состоянием медицинский исследователь может
иметь "подозрение" из своего клинического опыта, что его пациенты в
основном попадают в три различные категории. Далее он может захотеть
узнать, может ли его интуиция быть подтверждена численно, то есть, в самом
ли деле кластерный анализ K средних даст три кластера пациентов, как
ожидалось? Если это так, то средние различных мер физических параметров
для каждого кластера будут давать количественный способ представления
гипотез исследователя (например, пациенты в кластере 1 имеют высокий
параметр 1, меньший параметр 2 и т.д.).
С вычислительной точки зрения вы можете рассматривать этот метод, как
дисперсионный анализ (см. Дисперсионный анализ) "наоборот". Программа
начинает с K случайно выбранных кластеров, а затем изменяет принадлежность
объектов к ним, чтобы: (1) - минимизировать изменчивость внутри кластеров, и
(2) - максимизировать изменчивость между кластерами. Данный способ
аналогичен методу "дисперсионный анализ (ANOVA) наоборот" в том смысле,
что критерий значимости в дисперсионном анализе сравнивает межгрупповую
изменчивость с внутригрупповой при проверке гипотезы о том, что средние в
группах отличаются друг от друга. В кластеризации методом K средних
программа перемещает объекты (т.е. наблюдения) из одних групп (кластеров) в
другие для того, чтобы получить наиболее значимый результат при проведении
дисперсионного анализа (ANOVA).
Обычно, когда результаты кластерного анализа методом K средних
получены, можно рассчитать средние для каждого кластера по каждому
измерению, чтобы оценить, насколько кластеры различаются друг от друга. В
идеале вы должны получить сильно различающиеся средние для большинства,
если не для всех измерений, используемых в анализе. Значения F-статистики,
полученные для каждого измерения, являются другим индикатором того,
насколько хорошо соответствующее измерение дискриминирует кластеры.
Download