ГОУ ВПО «КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра автоматизации исследований и технической кибернетики

ГОУ ВПО «КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра автоматизации исследований и технической кибернетики МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ И ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ПРОГРАММА АНАЛИЗА ДАННЫХ STATISTICA (версия 5.0) Кемерово 2008 1. ВВЕДЕНИЕ 1.1. Краткое описание системы STATISTICA 1.2. Запуск системы STATISTICA 1.3. Создание таблицы в STATISTICA 2. ОПИСАТЕЛЬНАЯ СТАТИСТИКА 2.1. Описательная статистика: вычисление числовых характеристик распределения признака 2.2. Построение гистограммы с графиком функции плотности вероятности нормального распределения 2.3. Таблицы частот и частотный анализ 3. ПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА 3.1. Сравнение средних 2-х зависимых выборок (t – кр. Стьюдента) 3.2. Сравнение средних и дисперсий 2-х независимых выборок (t – кр. Стьюдента и F – кр. Фишера) 4. НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА: ВЫЯВЛЕНИЕ РАЗЛИЧИЙ В УРОВНЕ ПРИЗНАКА 4.1. Выявление различий в уровне признака для 2-х незав. выборок (U – критерий Манна - Уитни) 4.2. Выявление различий в уровне признака для 3-х и более незав. выб. (H – критерий Крускала - Уоллиса) 5. НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА: ОЦЕНКА ДОСТОВЕРНОСТИ СДВИГОВ 5.1. Оценка достоверности сдвига в значениях признака (G – критерий знаков) 5.2. Оценка достоверности сдвига в значениях признака (T – критерий Вилкоксона) Составитель: старший преподаватель кафедры АИТК КемГУ Невзорова Т.А. Литература Боровиков В. П. Программа STATISTICA для студентов и инженеров. – М.: КомпьютерПресс, 2001. – 301 с. 2 1. ВВЕДЕНИЕ 1.1. Краткое описание системы STATISTICA STATISTICA представляет собой интегрированную систему статистического анализа и обработки данных. STATISTICA работает с четырьмя различными типами документов, которые соответствуют основным структурным компонентам системы. Это: • электронная таблица Spreadsheet, которая предназначена для ввода исходных данных и их преобразования; • электронная таблица Scrollsheet для вывода численных и текстовых результатов анализа; • график  документ в специальном графическом формате для визуализации и графического представления численной информации; • отчет  документ в формате RTF (Расширенный текстовой формат) для вывода текстовой и графической информации.  В соответствии со стандартами среды Windows каждый тип документа выводится в своем собственном окне в рабочей области системы STATISTICA. Как только это окно становится активным, изменяется панель инструментов и меню. В них появляются команды и кнопки, доступные для активного документа. 1.2. Запуск STATISTICA Пуск  Программы  STATISTICA (рис. 1.1.)  а) Basic Statistics and Tables (Основные статистики и таблицы) – запускается модуль системы Basic Statistics and Tables; б) STATISTICA – появится переключатель модулей системы (рис. 1.2), в котором двойным щелчком левой кнопки мыши можно запустить нужный модуль, например, тот же Basic Statistics and Tables. В результате появится Рабочее Окно системы STATISTICA с меню соответствующего модуля (рис. 1.3), которое после щелчка мыши на свободном месте рабочего поля окна сворачивается в правый нижний угол (рис. 1.4). 3 Рис. 1.1. STATISTICA 5.0 в меню Пуск Рис. 1.2. Переключатель модулей STATISTICA 5.0 4 Рис. 1.3. Рабочее окно системы STATISTICA 5.0 Рис. 1.4. Свернутое окно модуля Basic Statistics and Tables  При первом запуске STATISTICA (по умолчанию) автоматически открывается стандартный файл с данными adstudy.sta, который входит в набор примеров, поставляемых с системой (эти файлы находятся в каталоге stat\examples). При следующих запусках автоматически открывается последний файл, с которым вы работали в системе.  В рабочей области может находиться только один файл с исходными данными и неограниченное число файлов с промежуточными результатами и графиками. Исходные данные в системе STATISTICA организованы в виде электронной таблицы. Таблицы с исходными данными в STATISTICA носят особое название SPREADSHEETS и имеют расширение *.sta. Электронная таблица системы SPREADSHEETS состоит из строк и столбцов. В отличие от обычных электронных таблиц, где строки и столбцы равноправны, в STATISTICA они имеют разные смысловые значения. 5 Столбцы электронной таблицы с исходными данными называются Variables (Переменные), а строки Cases (Наблюдения). В качестве переменных обычно выступают исследуемые признаки (величины), а наблюдения – это значения, которые принимают переменные в отдельных измерениях. Система может работать как с численными, так и с текстовыми данными. Аналогично MS Excel они поддерживают различные типы операций с данными, такие как операции с использованием буфера обмена Windows; операции с выделенными блоками значений, в том числе и с использованием метода drag-and-drop, автозаполнение блоков и т.д. Рабочее окно имеет следующую структуру:  верхний заголовок STATISTICA: Basic Statistics and Tables – запущен модуль Basic Statistics and Tables (Основные статистики и таблицы) (см. рис. 1.3). Если бы был запущен другой модуль, то его название указывалось бы в заголовке;  строка меню;  панель инструментов (под строкой меню и справа), соответствующая активному окну в рабочей области. На рис. 1.3, например, панель инструментов соответствует активному (и единственному) в данный момент окну с файлом исходных данных;  рабочая область, занимающая большую часть окна, в которой выводятся все документы системы. На рис. 1.3, в частности, кроме меню модуля Basic Statistics and Tables, открыто окно с заголовком: Data: adstudy.sta 25v*50c – файл исходных данных (Data) с именем adstudy.sta, имеющий 25 столбцов (25v (Variables) – 25 переменных) и 50 строк (50с (Cases) – 50 наблюдений). 1.3. Создание файла данных  Закрыть открытый файл данных, нажав кнопку в правом верхнем углу окна (ненужного) файла данных (рис. 1.5). В окне системы STATISTICA останется только строка меню, расположенная в верхней части окна (рис. 1.6). 6 Рис. 1.5. Рис. 1.6. Рис. 1.7. Создание нового файла данных Исходное положение: Вы находитесь в основном окне системы STATISTICA. Шаг 1. Создание электронной таблицы: В пункте меню File (Файл) выберите команду New Data (Новые данные) (рис. 1.7). В появившемся диалоговом окне New Data: Specify File Name (Новые данные: Определить имя файла) (рис. 1.8) 1) В поле File Name (Имя файла) введите имя нового файла (например, PRIMER1.STA) 7  В системе STATISTICA 5.0 имена файлов (и переменных) задаются латинскими буквами и цифрами не более 8 символов. 2) В поле Drives: (Драйвер (диск)) укажите логическое имя диска для сохранения файла данных: Z:. 3) В поле Directories (Директория) укажите папку для сохранения файла данных: (например) Z:\ММвП. Рис. 1.8. Задание имени файла данных 4) Нажмите кнопку OK в правом углу окна. STATISTICA автоматически откроет пустую электронную таблицу с именем PRIMER1.STA (рис. 1.9). В заголовке окна электронной таблицы автоматически отображается имя файла и его размер (PRIMER1.STA 10v * 10 c). Размер таблицы по умолчанию принят 10 на 10 (10 переменных с именами VAR1, VAR2, …, VAR10 и 10 пронумерованных наблюдений). Рис. 1.9. Пустая электронная таблица для ввода данных 8 Шаг 2. Настройка размеров электронной таблицы: Создадим столько переменных и наблюдений сколько необходимо. Для нашего примера требуется 2 переменных: Абстрактное мышление и Вербальное мышление и 40 наблюдений. 1) Нажмите кнопку Variables (Переменные) на панели инструментов и выберите команду Delete (Удалить). В диалоговом окне Delete Variables (Удаление переменных) укажите диапазон удаляемых переменных (From variable (От переменной)  To variable (До переменной)), как показано на рис. 1.10. Нажмите кнопку OK.  Чтобы упростить эту операцию, можно предварительно выделить переменные (столбцы), которые необходимо удалить. Рис. 1.10. Окно удаления лишних переменных (столбцов) 2) Нажмите кнопку Cases (Наблюдения) на панели инструментов и выберите команду Add (Добавить). В появившемся диалоговом окне Add Cases (Добавление наблюдений)  укажите количество добавляемых наблюдений (строк): Number of Cases to Add (Количество наблюдений для добавления) – 40 и  номер наблюдения, после которого их вставить: Insert after Cases (Вставить после наблюдения) – 10, как показано на рис. 1.11. Нажмите кнопку OK. Рис. 1.11. Окно добавления наблюдений (строк) в таблицу 9 Шаг 3. Подготовка таблицы к вводу данных: Заголовок таблицы. После двойного щелчка на белом поле в таблице под словами: Data: PRIMER1.STA 2v * 40c на экране появится окно Data File Header (Заголовок файла данных), в котором можно задать заголовок таблицы (One-line Data File Header) и дополнительную информацию о данных (Data File Information/Notes) (рис. 1.12). Рис. 1.12. Окно оформления заголовка таблицы Имена переменных. Для оформления имен и других спецификаций переменных можно а) дважды щелкнув на заголовке переменной: , задать спецификации переменных каждой в отдельности (рис. 1.13): Name (Имя): АБСТР (вместо VAR1); Category (Тип): Number (Число); Display Format (Формат отображения): 5 значащих цифр (Column width) и 0 десятичных знаков после запятой (Decimals) (вместо 8 и 3). 10 Рис. 1.13. Диалоговое окно Спецификации переменной (имя, тип, формат и т.д.) б) нажав на панели инструментов кнопку Specs of All Variable (Table) (Спецификации всех переменных (таблицы)), для задания спецификаций всех переменных таблицы одновременно (рис. 1.14). Рис. 1.14. Спецификации переменных Имена наблюдений. Нажмите кнопку Cases (Наблюдения) на панели инструментов и выберите команду Names (Имена). При первом выборе данного пункта появится диалоговое окно Case Name Maneger (Менеджер имен случаев) с запросом длины имен (No case names in this file. Create? Width: 10. (Нет имен наблюдений в этом файле. Создать? Размер: 10) (рис. 1.15). Введите подходящий размер поля имен наблюдений и нажмите кнопу Yes (Да). 11 Рис. 1.15. Рис. 1.16. Ввод имен наблюдений Рис. 1.17. В появившемся диалоговом окне Case Name Maneger (Добавление наблюдений) (рис. 1.16) введите имена наблюдений (респондентов). Нажмите кнопку OK. Для того, чтобы имена наблюдений отображались в окне таблицы данных необходимо нажать на панели инструментов кнопку  Display Case Names on/off (Отображение имен наблюдений (вкл./выкл.)) (рис. 1.17). Шаг 4. Ввод данных в электронную таблицу: Исходные данные наблюдений вводятся в таблицу с клавиатуры. Шаг 5. Сохранение файла данных: Для сохранения всех изменений и данных в таблице нажмите кнопку  Save Data File (Сохранить файл данных) на панели инструментов, расположенной справа окна системы STATISTICA. 12 2. ОПИСАТЕЛЬНАЯ СТАТИСТИКА 2.1. Описательная статистика: вычисление числовых характеристик распределения признака Для вычисления описательных статистик в системе STATISTICA можно выполнить следующую последовательность шагов: Шаг 1. Выделите одну или несколько переменных, для которых необходимо вычислить числовые характеристики. Шаг 2. Нажмите кнопку Quick Basic Stats (Быстрые основные статистики)  последняя кнопка на горизонтальной панели инструментов. На экране появится выпадающее меню (рис. 2.1). Рис. 2.1. Меню кнопки Quick Basic Stats Шаг 3. Выберите верхнюю строку Descriptives of R (Описательные для переменной R). Электронная таблица с основными описательными статистиками для выбранной переменной R (уровень преступности в США, 1960) появится на экране (рис. 2.2). Прокручивая электронную таблицу результатов, вы увидите слева направо следующие описательные статистики: 13 Рис. 2.2. Таблица с описательными статистиками переменной R Valid N – истинное число наблюдений (число наблюдений без пропусков; 1 N Mean – выборочное среднее: X   xi ; N i 1 Confid. 95%  нижняя граница 95% доверительного интервала для среднего; Confid. +95%  верхняя граница 95% доверительного интервала для среднего           P  X  2   0.95 P  X  1.96  X  X  1.96  X  X 2 N N N N   ( P (Confid.  95 %  X  Confid.  95 %)  0.95 ); N Sum – сумма значений переменной:  xi ; i 1 Minimum – минимальное значение переменной ( xmin ) ; Maximum – максимальное значение переменной ( xmax ) ; Range – размах: d  xmax  xmin ; N  ( xi  X ) 2 Variance – несмещенная оценка дисперсии: S 2  Std. Dev. – стандартное отклонение:   S 2 ; 14 i 1 N 1 ; Standard Error – стандартная ошибка дисперсии (стандартное отклонение оценки от среднего значения данной оценки); Skewness – несмещенная оценка коэффициента асимметрии: N N N   ( xi  X ) 3  ( xi  X )3 i 1 ( As  i 1 ;   As   , для симметричных ( N  1)( N  2)  3 N 3 распределений As  0 , при левосторонней, или положительной, асимметрии ( As  0 ) в распределении чаще встречаются более низкие значения признака, а при правосторонней, или отрицательной, асимметрии ( As  0 )  более высокие); Std. Err. Skewness – стандартная ошибка асимметрии; Kurtosis – несмещенная оценка коэффициента эксцесса (“островершинности”): As  2 N N  N ( N  1)  ( xi  X )  3 ( N  1)   ( xi  X ) 2   ( xi  X ) 4 i 1  i 1  Ex  ( Ex  i 1  3, 4 ( N  1)( N  2) ( N  3)  N 4   Ex   , для нормального распределения Ex  0 ; положительный эксцесс (более остро, выше) – Ex  0 – преимущественное появление средних или близких к средним значений; отрицательный эксцесс (более полого, ниже) – Ex  0 – преобладание крайних значений, причем одновременно и более низких, и более высоких); Std. Err. Kurtosis – стандартная ошибка эксцесса. N 4 Шаг 4. Нажмите кнопку (Продолжить…) в левом верхнем углу окна с описательными статистиками. В появившемся меню модуля Basic Statistic and Tables (Основные статистики и таблицы) (рис. 2.3) выберите строку Descriptive statistics (Основные статистики) и нажмите кнопку OK. Рис. 2.3. Меню модуля Basic Statistic and Tables 15 Появится диалоговое окно дополнительных настроек расчета описательных статистик (рис. 2.4). Рис. 2.4. Диалоговое окно дополнительных настроек расчета описательных статистик В этом окне можно:  определить переменные для обработки (рис. 2.5), нажав кнопку (если необходимо отметить переменные не по порядку их следования в таблице, щелкайте клавишей мыши на их именах, придерживая кнопку клавиатуры Ctrl); Рис. 2.5. Выделение переменных для анализа 16  задать вывод длинных имен переменных в расчетных таблицах, для чего в разделе Options (Опции) поставить флажок напротив опции Display long variable names (Отображать длинные имена переменных) (рис. 2.6); Рис. 2.6. Отображение длинных имен переменных при анализе данных  определить необходимый список числовых характеристик для анализа переменных, для чего в разделе Statistics (Статистики) нажать кнопку (Другие статистики) и в появившемся окне сделать нужные отметки (рис. 2.7); Рис. 2.7. Меню Статистики 17 После настройки параметров, для анализа данных нажмите OK или . С настройками, указанными на рис. 2.4. – 2.7., вы получите таблицу описательных статистик для переменных R и NW, приведенную на рис. 2.8. Рис. 2.8. Таблица с дополнительно определенными описательными статистиками переменных R и NW 18 2.2. Построение гистограммы с графиком функции плотности вероятности нормального распределения Для быстрого визуального сравнения гистограммы распределения изучаемого признака с нормальным распределением проделайте следующую последовательность шагов: Шаг 1. Выделите переменную, для которой необходимо построить гистограмму. Шаг. 2. Нажмите кнопку Quick Stats Graphs (Быстрые статистические графики) на вертикальной панели инструментов (слева). Шаг. 3. В появившемся меню выберите строку Histogram of R (Гистограмма для переменной R) и далее: Normal Fit (рис. 2.9). Рис. 2.9. В результате перечисленных действий будет построена гистограмма указанной переменной и график функции плотности нормального распределения с теми же значениями среднего и стандартного отклонения (рис.2.10). Заголовок графического окна: y  47 * 200* normal( x; 905,0851; 386,7627)  сообщает, что построена гистограмма по 47 значениям с интервалом квантования шириной 200 для выделенной переменной ( y ) и кривая нормального распределения со средним X  905.0851 и стандартным отклонением  X  386 ,7627 . 19 Рис. 2.10. Гистограмма с наложенной плотностью нормального распределения (Длина интервала группировки 200) Для настройки параметров гистограммы распределения изучаемого признака можно выполнить следующее: Шаг 1. В меню пункта Analysis (Анализ) модуля Basic Statistic and Tables (Основные статистики и таблицы) системы STATISTICA выберите строку Startup Panel (Стартовая панель) (рис. 2.11). Рис. 2.11. Шаг 2. В появившемся меню модуля Basic Statistic and Tables (Основные статистики и таблицы) (рис. 2.12) выберите строку Descriptive statistics (Описательные статистики) и нажмите кнопку OK. 20 Рис. 2.12. Меню модуля Basic Statistic and Tables Появится диалоговое окно дополнительных настроек расчета описательных статистик (рис. 2.13). Рис. 2.13. Диалоговое окно дополнительных настроек расчета описательных статистик 21 В этом окне можно:  определить переменные для обработки (рис. 2.14), нажав кнопку (если необходимо отметить переменные не по порядку их следования в таблице, щелкайте клавишей мыши на их именах, придерживая кнопку клавиатуры Ctrl); Рис. 2.14. Выделение переменных для анализа  задать вывод длинных имен переменных в расчетных таблицах, для чего в разделе Options (Опции) поставить флажок напротив опции Display long variable names (Отображать длинные имена переменных) (рис. 2.15); Рис. 2.15. Отображение длинных имен переменных при анализе данных  определить число интервалов группировки для построения гистограммы в разделе Categorization (Категоризация): Number of intervals (Количество интервалов) (рис. 2.16). Рис. 2.16. Число интервалов группировки равно 20 Шаг 3. После настройки параметров для построения гистограммы нажмите кнопку 22 . 2. 3. Таблицы частот и частотный анализ (в модуле Basic Statistic and Tables (Основные статистики и таблицы)) В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 2.17). Рис. 2.17. В появившемся меню модуля Basic Statistic and Tables (Основные статистики и таблицы) (рис. 2.18) выберите строку Frequency tables (Таблицы частот) и нажмите кнопку OK. Рис. 2.18. Появится диалоговое окно Frequency tables (Таблицы частот) (рис. 2.19). 23 Рис. 2.19 Нажав кнопку (Переменные), вы откроете окно выбора переменных. Обычным образом, как это делалось раньше, выберите в нем переменные для частотного анализа. Кнопка смотреть таблицу частот (рис. 2.20). (Таблицы частот) позволяет про- Кнопка (Гистограммы) позволяет построить гистограммы выбранных переменных. Кнопка (Описательные статистики) позволяет вычислить описательные статистики. Далее идет группа опций под заголовком: Categorization methods for tables & graph (Методы группировки для таблиц и графиков). Пометьте в этой группе опцию No. of exact intervals (Количество равных интервалов) или All distinct values (Все значения отдельно). 24 В разделе Display options (Опции отображения) настраивается вывод частот. В разделе Test of normality (Критерий нормальности) можно выбрать критерий для сравнения распределения заданных переменных с нормальным (см. рис. 2.19), и выполнить проверку, нажав на кнопку (Критерий проверки гипотезы о нормальном законе распределения) (рис. 2.21). Рис. 2.20. Рис. 2.21. 25 3. ПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА 3.1. Сравнение средних 2-х зависимых выборок (t – критерий Стьюдента) (в модуле Basic Statistic and Tables (Основные статистики и таблицы)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 3.1). Рис. 3.1. Шаг 2. В появившемся меню модуля Basic Statistic and Tables (Основные статистики и таблицы) (рис. 3.2) выберите строку t-test for dependent samples (t-критерий для зависимых выборок) и нажмите кнопку OK. Рис. 3.2. Появится диалоговое окно t-test for dependent samples (t-критерий для зависимых выборок) (рис. 3.3). Рис. 3.3. 26 Шаг 3. В диалоговом окне t-test for dependent samples (t-критерий для зависимых выборок) в разделе Display (Отображение) выберите опцию Detailed table of results (Подробная таблица результатов). Шаг 4. Нажмите кнопку (Переменные), чтобы выбрать переменные для сравнения средних. Откроется окно Select one or two variable lists (Выбрать один или два списка переменных) (рис. 3.4). В левом списке выберите переменную ДО, в правом – переменную ПОСЛЕ. Нажмите OK. После того, как вы вновь вернулись в окно t-test for dependent samples (t-критерий для зависимых выборок), нажмите OK. Рис. 3.4. На экране появится таблица результатов (рис. 3.5). Рис. 3.5. 27 В таблице последовательно представлены данные: Mean (Средние величин DO_F (ДО) и POST_F (ПОСЛЕ)); Std. Dv. (Стандартные отклонения); N (Число наблюдений); Diff. (Разность между средними значениями переменных); Std. Dv. Diff. (Стандартное отклонение разности); t (значение статистики t-критерия); df (число степеней свободы); p (уровень значимости). Если значения в таблице выделены красным цветом – это означает, что различие средних статистически значимо при уровне значимости p  0.05 (Marked differences are significant at p < ,05000). Шаг 5. Визуализация данных. Нажав кнопку (Продолжить…) в левом верхнем углу окна таблицы результатов t-критерия, можно вернуться в диалоговое окно t-test for dependent samples (рис. 3.3). Нажмите кнопку (Графики “ящики с усами”). В появившемся окне Box & Wisker Type (рис. 3.6) определите тип графика: выберите Mean/SE/SD (Среднее/Стандартная ошибка/Стандартное отклонение) и нажмите кнопку OK. На экране появится график “ящики с усами” переменных ДО и ПОСЛЕ (рис. 3.7). Рис. 3.6. Смысл этих графиков довольно прост: точки в центре прямоугольников (ящиков) соответствуют средним значениям переменных (Mean). От этих значений отсчитываются положительная и отрицательная стандартная ошибка ( Std. Err.) – получаются “ящики” и положительное и отрицательное стандартное отклонение ( Std. Dev.)– получаются “усы. Рис. 3.7. 28 3.2. Сравнение средних и дисперсий 2-х независимых выборок (t – критерий Стьюдента и F-критерий Фишера) (в модуле Basic Statistic and Tables (Основные статистики и таблицы)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 3.8). Рис. 3.8. Шаг 2. В появившемся меню модуля Basic Statistic and Tables (Основные статистики и таблицы) (рис. 3.9) выберите строку t-test for independent samples (t-критерий для независимых выборок) и нажмите кнопку OK. Рис. 3.9. Появится диалоговое окно t-test for independent samples (t-критерий для независимых выборок) (рис. 3.10). 29 Рис. 3.10. Шаг 3. В диалоговом окне t-test for independent samples (t-критерий для независимых выборок) задайте в строке Input File – One record per case (use a grouping variable) (Одна запись на наблюдение (используя группирующую переменную)). Шаг 4. Щелчком по кнопке (Переменные) раскройте окно выбора переменных. Сделайте установки, как показано на рис.3.11. Рис. 3.11. В левом списке выберите группирующую переменную (допускается выбор только одной переменной), в правом – зависимые переменные (можно выбрать несколько переменных). Щелкните OK. Вернувшись в окно t-test for independent samples (рис. 3.10), наберите в строке Code for group 1 (Код для группы 1) – 0 (девушки (Ж)), а в строке Code for group 2 (Код для группы 2) – 1 (юноши (М)). 30 Шаг 5. В случае выборок разного объема обязательно отметьтье в разделе Options (Опции) пункт t-test with separate variance estimates (tкритерий в предположении различия дисперсий). Дополнительно можно задать вывод длинных имен переменных в расчетных таблицах, для чего в разделе Options (Опции) поставить флажок напротив опции Display long variable names (Отображать длинные имена переменных). Выполнив все настройки, нажмите OK. На экране появится таблица результатов (рис. 3.12), в которой последовательно будут представлены следующие данные: Рис. 3.12.  Mean G_1: 0 и Mean G_2: 1 – средние по группам 1 (обозначена как 0) и 2 (обозначена как 1) соответственно;  t – value – значение статистики t-критерия, рассчитанное в предположении равных дисперсий в выборках; df – число степеней свободы и p – уровень значимости для t-критерия в данном случае (односторонний критерий);  t separ. var. est. – значение статистики t-критерия, рассчитанное в предположении различия дисперсий в выборках; df – число степеней свобо31 ды и p 2-sided – уровень значимости для t-критерия в данном случае (двeсторонний критерий);  Valid N G_1: 0 и Valid N G_2: 1 – число наблюдений в первой и втрой группах (выборках);  Std. Dev. G_1: 0 и Std. Dev. G_2: 1 – среднеквадратичные отклонения в 1-ой и 2-ой группах;  F-ratio variancs – F-отношение дисперсий (значение статистики Fкритерия Фишера) и p variancs – уровень значимости для F-критерия. Если значения в таблице выделены красным цветом – это означает, что различие средних статистически значимо при уровне значимости p  0.05 (Marked differences are significant at p < ,05000). Чтобы ответить на вопрос о статистической значимости различия дисперсий необходимо проанализировать F-отношение дисперсий (F-ratio variancs – значение статистики F-критерия Фишера) и, в первую очередь, значение p variancs – уровень значимости для F-критерия, которое для вывода о статистически значимом различии должно быть также меньше 0,05. Шаг 6. Визуализация данных. Нажав кнопку (Продолжить…) в левом верхнем углу окна таблицы результатов t-критерия, можно вернуться в диалоговое окно t-test for independent samples (рис. 3.10). Нажмите кнопку (Графики “ящики с усами”). В появившемся окне Box & Wisker Type (рис. 3.13) определите тип графика: выберите Mean/SE/SD (Среднее/Стандартная ошибка/Стандартное отклонение) и нажмите кнопку OK. На экране появятся графики “ящики с усами” выбранных переменных (рис. 3.14). Рис. 3.13. 32 Рис. 3.14. 33 4. НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА: ВЫЯВЛЕНИЕ РАЗЛИЧИЙ В УРОВНЕ ПРИЗНАКА 4.1. Выявление различий в уровне признака для 2-х незав. выборок (U – критерий Манна - Уитни) (в модуле Nonparametric Statistics (Непараметрические статистики)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 4.1). Рис. 4.1. Шаг 2. В появившемся меню модуля Nonparametric Statistics (Непараметрические статистики) (рис. 4.2) выберите строку Mann-Whitney U test (U-критерий Манна - Уитни) и нажмите кнопку OK. Рис. 4.2. Появится диалоговое окно Mann-Whitney U test (U-критерий Манна - Уитни) (рис. 4.3). 34 Рис. 4.3. Шаг 3. Щелчком по кнопке (Переменные) откройте окно выбора переменных (рис. 4.4). В левом списке выберите (независимую) группирующую переменную (допускается выбор только одной переменной), в правом – зависимые (от группирующей) переменные (можно выбрать несколько переменных). Щелкните OK. Рис. 4.4. Вернувшись в окно Mann-Whitney U test (рис. 4.3), в строках Code for group 1 (Код для группы 1) и Code for group 2 (Код для группы 2) наберите коды соотвествующих групп (выборок). Шаг 4. Выполнив все настройки в окне Mann-Whitney U test (рис. 4.3), нажмите OK. На экране появится таблица результатов (рис. 4.5), в которой будут представлены следующие данные: Рис. 4.5. 35  Rank Sum Group 1 и Rank Sum Group 2 – суммы рангов (по возрастанию) для первой и второй групп соответственно, по которым можно определить в какой из групп выше уровень признака;  U – значение статистики U-критерия Манна – Уитни;  (ближайший) p-level – уровень значимости критерия в данном случае (односторонний критерий); и т.д., в том числе и количество наблюдений в первой и втрой группах (выборках): Valid N Group 1 и Valid N Group 2. Примечание: В модуле Nonparametric Statistics (Непараметрические статистики) статистическая значимость различий красным цветом не выделяется, поэтому для решения о принятии альтернативной гипотезы ( H 1 ) необходимо обращать внимание на значение p-level, которое в этом случае должно быть меньше 0,05 (p < ,05). Шаг 5. Визуализация данных. Нажав кнопку (Продолжить…) в левом верхнем углу окна таблицы результатов U-критерия, можно вернуться в диалоговое окно Mann-Whitney U test (рис. 4.3). Нажмите кнопку (Графики “ящики с усами”). В появившемся окне Box & Wisker Type (рис. 4.6) определите тип графика: выберите Median / Quart. / Range (Медиана / Квартили (25%  75%) / Размах (MIN – MAX)) и нажмите кнопку OK. На экране появится график “ящики с усами” выбранных для анализа переменных (рис. 4.7). Рис. 4.6. 36 Рис. 4.7. 4.2. Выявление различий в уровне признака для 3-х и более независимых выборок (H – критерий Крускала - Уоллиса) (в модуле Nonparametric Statistics (Непараметрические статистики)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 4.8). Рис. 4.8. Шаг 2. В появившемся меню модуля Nonparametric Statistics (Непараметрические статистики) (рис. 4.9) выберите строку Kruskal – Wallis ANOVA, median test (аназиз (межгрупповых) вариаций (ANOVA) Крускала – Уоллиса, медианный критерий) и нажмите кнопку OK. Рис. 4.9. Появится диалоговое окно Kruskal – Wallis ANOVA and Median Test (рис. 4.10). 37 Рис. 4.10. Шаг 3. Щелчком по кнопке (Переменные) откройте окно выбора переменных (рис. 4.11). В левом списке выберите (независимую) группирующую переменную, в правом – зависимые (от группирующей) переменные. Щелкните OK. Рис. 4.11. Шаг 4. Вернувшись в окно Kruskal – Wallis ANOVA and Median Test (рис. 4.10), щелчком по кнопке (Коды) откройте окно ввода кодов групп (рис. 4.12). В случае, когда неоходимо сравнить сразу все имеющиеся группы можно просто нажать кнопку (Все) выбора переменных (рис. 4.12) и ОК. Рис. 4.12. 38 В случае выборочного (избирательного) анализа некоторых из имеющихся групп введите (через запятую) соответсвующие коды, при этом кнопка (Обзор) поможет вспомнить их значения, открыв соотвествующее окно (рис. 4.13), в котором будет выведена в том числе и спецификация (описание) группирующей переменной. Рис. 4.13. Шаг 5. Выполнив все настройки в окне Kruskal – Wallis ANOVA and Median Test (рис. 4.10), нажмите OK. На экране в двух таблицах появятся результаты расчетов, отдельно для критерия Крускалла – Уоллиса и для медианного критерия (рис. 4.14). Рис. 4.14. В таблице результатов по критерию Крускала – Уоллиса: Kruscal – Wallis ANOVA by Ranks (рис. 4.15) будут представлены код (Code), количество наблюдений (Valid N) и сумма рангов (Sum of Ranks) для каждой группы, а в заголовке той же таблицы будет приведено расчетное значение критерия H (df  c  1, N   n i ) =… и соответсвующий ему уровень значимости i p … . 39 Рис. 4.15. Примечание: В модуле Nonparametric Statistics (Непараметрические статистики) статистическая значимость различий красным цветом не выделяется, поэтому для решения о принятии альтернативной гипотезы ( H 1 ) необходимо обращать внимание на значение p-level, которое в этом случае должно быть меньше 0,05 (p < ,05). Шаг 5. Визуализация данных. Нажав кнопку (Продолжить…) в левом верхнем углу окна таблицы результатов медианного критерия (Median Test), можно вернуться в диалоговое окно Kruskal – Wallis ANOVA and Median Test (рис. 4.10). Нажмите кнопку (Графики “ящики с усами”). В появившемся окне Select variable for box & wisker plot (рис. 4.16) переменныую, по которой будут строиться графики (как правило, это анализирумая переменная), нажмите OK. Рис. 4.16. Затем в появившемся окне Box & Wisker Type (рис. 4.17) определите тип графика – выберите Median / Quart. / Range (Медиана / Квартили (25%  75%) / Размах (MIN – MAX)) и нажмите OK. 40 Рис. 4.17. На экране появится график “ящики с усами” выбранных для анализа переменных (рис. 4.18). Рис. 4.18. 41 5. НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА: ОЦЕНКА ДОСТОВЕРНОСТИ СДВИГОВ 5.1. Оценка достоверности сдвига в значениях признака (выявление различий в уровне признака для 2-х зависимых выборок (G – критерий знаков)) (в модуле Nonparametric Statistics (Непараметрические статистики)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 5.1). Рис. 5.1. Шаг 2. В появившемся меню модуля Nonparametric Statistics (Непараметрические статистики) (рис. 5.2) выберите строку Sign test (Критерий знаков) и нажмите кнопку OK. Рис. 5.2. Появится диалоговое окно Sign Test (Критерий знаков) (рис. 5.3). 42 Рис. 5.3. Шаг 3. Щелчком по кнопке (Переменные) откройте окно выбора переменных (рис. 5.4). В левом списке выберите одну из зависимых переменныз (как правило, выбирают после воздействия), в правом – вторую (как правило, выбирают до воздействия). Щелкните OK. Рис. 5.4. Шаг 4. Вернувшись в окно Sign Test (Критерий знаков) (рис. 5.3), нажмите OK. На экране появится таблица результатов (рис. 5.5), в которой анализируются следующие данные: Рис. 5.5.  No. of Non-ties – количество ненулевых реакций (сдвигов);  Percent v < V – процент типичных сдвигов относительно всех (ненулевых) сдвигов);  Z – значение статистики (критерия);  p-level – уровень значимости критерия: если p < 0.05, то принимается решение о принятии альтернативной гипотезы ( H 1 ) о статистической значимости различий в уровне признака ДО и ПОСЛЕ воздействия (т.е. о статистической значимости сдвига). 43 Шаг 5. Визуализация данных. Нажав кнопку (Продолжить…) в левом верхнем углу окна таблицы результатов G-критерия знаков, можно вернуться в диалоговое окно Sign Test (Критерий знаков) (рис. 5.3). Нажмите кнопку (“ящики с усами”). В появив- шемся окне выбора переменных (рис. 5.6) нажмите кнопку делить все) и ОК. (Вы- Рис. 5.6. В следующем окне определите тип графика: выберите Median / Quart. / Range (Медиана / Квартили (25%  75%) / Размах (MIN – MAX)) (рис. 5.7) и нажмите кнопку OK. На экране появится график “ящики с усами”, отображающий различие уровней исследуемого признака ДО и ПОСЛЕ воздействия (рис. 5.8). Рис. 5.7. Рис. 5.8. Примечание: Для отображения “типичных” сдвигов и/или их интенсивности в таблице файла (исходных) данных рекомендуется ввести дополнительную переменную (столбец) с именем, например, Shift (Сдвиг), у которой в поле Long name (Длинное имя) ввести формулу для расчета значений этих сдвигов в следующем (для данного случая) виде: = POST_TR – DO_TR (рис. 5.9 – 5.10). 44 Рис. 5.9. Ввод расчетной формулы для сдвигов Рис. 5.10. Файл данных с доп. столбцом 5.2. Оценка достоверности сдвига в значениях признака (выявление различий в уровне признака для 2-х зав. выборок (T – критерий Вилкоксона)) (в модуле Nonparametric Statistics (Непараметрические статистики)) Шаг 1. В меню пункта Analysis (Анализ) выберите строку Startup Panel (Стартовая панель) (рис. 5.11). Рис. 5.11. Шаг 2. В появившемся меню модуля Nonparametric Statistics (Непараметрические статистики) (рис. 5.12) выберите строку Wilcoxon matched pairs test (Критерий (сравнений силы парных различий) Вилкокосона) и нажмите кнопку OK. 45 Рис. 5.12. Появится диалоговое окно Wilcoxon matched pairs test (Критерий Вилкокосона) (рис. 5.13). Рис. 5.13. Шаг 3. Щелчком по кнопке (Переменные) откройте окно выбора переменных (рис. 5.14). В левом списке выберите одну из зависимых переменныз (как правило, выбирают после воздействия), в правом – вторую (как правило, выбирают до воздействия). Щелкните OK. Рис. 5.14. 46 Шаг 4. Вернувшись в окно Wilcoxon matched pairs test (Критерий Вилкокосона) (рис. 5.13), нажмите OK. На экране появится таблица результатов (рис. 5.15), в которой анализируются следующие данные: Рис. 5.15.  Valid N – количество наблюдений (сдвигов);  T – значение статистики T – критерия Вилкоксона ;  Z – значение статистики (критерия);  p-level – уровень значимости критерия: если p < 0.05, то принимается решение о принятии альтернативной гипотезы ( H 1 ) о статистической значимости различий в уровне признака ДО и ПОСЛЕ воздействия (а точнее, о статистической значимости преобладния интенсивности сдвигов в типичную сторону в сравнении с интенсивностями нетипичных сдвигов). Шаг 5. Действия по визуализации данных анализа с помощью критерия Вилкоксона аналагичны соответсвующим действиям в алгоритме Sign Test (см. Шаг 5 в п. 5.1.). 47

ГОУ ВПО «КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра автоматизации исследований и технической кибернетики

Related documents

Products

Support

ГОУ ВПО «КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» Кафедра автоматизации исследований и технической кибернетики

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib