МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ВЛАДИВОСТОКСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И СЕРВИСА

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ
ВЛАДИВОСТОКСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ЭКОНОМИКИ И СЕРВИСА
ИНСТИТУТ ИНФОРМАТИКИ, ИННОВАЦИЙ И БИЗНЕС-СИСТЕМ
КАФЕДРА МАТЕМАТИКИ И МОДЕЛИРОВАНИЯ
МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ
Рабочая программа учебной дисциплины
Основная образовательная программа
080100.62 (38.03.01) «Экономика»
Профиль Макроэкономическое планирование и прогнозирование
Профиль Планирование и прогнозирование в бизнесе
Владивосток
Издательство ВГУЭС
2014
ББК **.**
Рабочая программа учебной дисциплины «Компьютерный анализ данных» составлена
в соответствии с требованиями ООП для студентов направления подготовки 080100.62
(38.03.01) «Экономика» профиль Макроэкономическое планирование и прогнозировании,
профиль Планирование и прогнозирование в бизнесе на базе ФГОС ВПО.
.
Составитель: Мартышенко С.Н., канд. техн. наук, профессор кафедры математики и
моделирования.
Утверждена на заседании кафедры математики и моделирования от 7.02.2011 г.,
протокол № 7, редакция 2014г.
Рекомендована к изданию учебно-методической комиссией Института информатики,
инноваций и бизнес – систем.
.
©
Издательство Владивостокский
государственный университет
экономики и сервиса, 2014
ВВЕДЕНИЕ
Дисциплина «Многомерные статистические методы» рассматривает теоретические и
практические вопросы анализа многомерных статистических данных. Многомерный
статистический анализ следует рассматривать как логическое развитие методов
традиционной математической статистики.
Социально-экономические процессы и явления зависят от большого количества
характеризующих их параметров, что обуславливает трудности, связанные с выявлением
структуры взаимосвязей этих параметров. В подобных ситуациях, когда решение
принимается на основе анализа стохастической, неполной информации необходимо
применение методов многомерного статистического анализа.
Многомерные статистические методы позволяют обоснованно выбрать среди
множества возможных вероятностно-статистических моделей такую, которая наилучшим
образом соответствует исходным статистическим данным, характеризующим реальное
поведение исследуемой совокупности объектов, оценить надежность и точность выводов,
сделанных на основании большого статистического материала.
Таким в дисциплине изучается совокупность глубоко формализованных
статистических методов, базирующихся на представлении исходной информации в
многомерном геометрическом пространстве и позволяющих определять неявные
(латентные), но объективно существующие закономерности в организационной структуре
и тенденциях развития изучаемых социально-экономических процессов и явлений.
Важнейшее место в дисциплине занимают методы многомерной статистической
классификации. Эти методы предназначены для разделения рассматриваемой
совокупности объектов, субъектов или явлений на группы однородные в определенном
смысле. Для решения столь сложных задач классификации применяются кластерный и
дискриминантный анализ.
Дисциплина изучается на старших курсах и завершает цикл дисциплин по
статистическому образованию. Знания и навыки, получаемые студентами в результате
изучения дисциплины, необходимы для подготовки к работе с реальными данными при
выполнении дипломных работ.
1. ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ
1.1 Цели освоения учебной дисциплины
Целью изучения дисциплины «Многомерные статистические методы» является
формирование у студентов фундаментальных теоретических знаний по вопросам
методики и практики применения методов многомерного статистического анализа
данных, а также обучение студентов современным программным средствам в которых
реализованы модули, осуществляющие решение задач многомерного анализа.
В ходе изучения курса у студента должно формироваться представление о конкретных
практических ситуациях, в которых необходимо использование методов многомерного
статистического анализа.
Задачи дисциплины:
- изучение теоретических основ по спектру наиболее распространенных
статистических методов анализа данных и условий их применения;
- изучение концепции и технологии современного анализа данных на компьютере;
изучение принципов работы программных средств, предназначенных для
многомерного статистического анализа данных;
- изучение современных визуальных методов анализа данных и использования их для
статистического вывода и формулировки гипотез о структуре данных;
- выработка умения самостоятельного решения задач по выбору методов анализа в
практических ситуациях;
- получение навыков применения программных систем; предназначенных для
многомерного статистического анализа данных, а также тестировании программных
модулей на модельных данных;
- изучение рынков программного обеспечения по анализу данных.
1.2 Место учебной дисциплины в структуре ООП (связь с другими
дисциплинами)
Дисциплина «Многомерные статистические методы» относится к дисциплинам по
выбору профессионального цикла. Данная дисциплина базируется на компетенциях,
полученных при изучении дисциплин, «Математический анализ», «Теория вероятностей и
математическая статистика», «Информатика», «Эконометрика».
1.3 Компетенции обучающегося, формируемые в результате освоения учебной
дисциплины.
Таблица 1. Формируемые компетенции
Название ООП
(сокращенное
название ООП)
Блок
Компетенции
Знания/ умения/ владения (ЗУВ)
Знания:
Умения:
080100.62
Экономика
Б.3
ПК-1- способен собрать и
проанализировать исходные
данные, необходимые для
расчета экономических и
социально-экономических
показателей,
характеризующих
деятельность
хозяйствующих субъектов
основных свойств и
характеристик
многомерных
случайных величин,
идеологии методов
многомерного
анализа, назначение
и структуру
соответствующих
модулей ППП
STATISTICA.
ставить задачи в
области
прикладного
многомерного
анализа
экономических
данных и применять
многомерные
статистические
методы для их
решения.
Владения: - методами анализа
таблиц
сопряженности,
сравнения средних и
дисперсий,
классификационного
анализа, снижения
размерности
данных, анализа и
упрощения
структуры данных;
-технологией работы
с соответствующими
модулями в ППП
STATISTICA
1.4 Основные виды занятий и особенности их проведения.
Объем и сроки изучения дисциплины.
Дисциплина читается для бакалавров третьего курса направления «Экономика»
профиль Макроэкономическое планирование и прогнозирование, профиль Планирование
и прогнозирование в бизнесе весеннем семестре в объеме 72 учебных часов (2 зачетные
единицы) из них аудиторных 34 часов. На самостоятельное изучение дисциплины
бакалаврам выделяется 38 часов. Промежуточный контроль по дисциплине — зачет.
Удельный вес занятий, проводимых в интерактивных формах, для направления
«Экономика» профиль Макроэкономическое планирование и прогнозирование, профиль
Планирование и прогнозирование в бизнесе составляет 20 процентов аудиторных
занятий.
1.5 Виды контроля и отчетности по дисциплине.
Контроль успеваемости студентов осуществляется в соответствии с рейтинговой
системой оценки знаний студентов.
Текущий контроль предполагает:
- проверку уровня самостоятельной подготовки студента при выполнении
индивидуального и домашнего задания;
- опросы по основным моментам изучаемой темы.
- проведение контрольных работ по блокам изученного материала;
- тестирование остаточных знаний (предварительные аттестации).
Промежуточный контроль знаний студентов осуществляется при проведении
экзамена.
2. СТРУКТУРА И СОДЕРЖАНИЕ УЧЕБНОЙ ДИСЦИПЛИНЫ
2.1 Темы лекций
Тема 1. Многомерные выборки. Предварительный анализ многомерных данных.
(2 часа).
Шкалы измерений. Преобразование признаков измеренных в разных шкалах.
Характеристики признаков, рассчитываемые в предварительном анализе.
Тема 2. Методы моделирования случайных величин. (2 часа).
Метод неравномерной рулетки. Метод отбраковки. Моделирование многомерного
нормального распределения.
Тема 3. Робастное статистическое оценивание. (2 часа).
Грубые ошибки и методы их выявления. Методы вычисления устойчивых
статистических оценок: Пуанкаре, Винзора, Хубера.
Тема 4. Методы статистического оценивания и сравнения многомерных
генеральных совокупностей. (2 часа).
Статистические гипотезы в анализе данных. Проверка гипотез о равенстве вектора
средних значений постоянному вектору. Проверка гипотез о равенстве двух векторов
средних. Проверка гипотез о равенстве ковариационных матриц.
Тема 5. Многомерное шкалирование. (2 часа).
Представление и первичная обработка статистических данных в многомерном
шкалировании. Классическая модель многомерного шкалирования Торгенсона.
Неметрические методы многомерного шкалирования.
Тема 6. Факторный анализ. (2 часа).
Основная модель факторного анализа. Компоненты дисперсии в факторном анализе.
Преобразование матрицы парной корреляции в факторном анализе. Факторное
отображение и факторная структура. Обобщенные факторы.
Тема 7. Кластерный анализ. (2 часа).
Классификация без обучения. Кластерный анализ. Расстояния между объектами и
меры близости в пространстве непрерывных признаков и пространстве бинарных
признаков.
Тема 8. Дискриминантный анализ. (2 часа).
Методы классификации с обучением. Параметрические методы классификации.
Линейный дискриминантный анализ. Дискриминантные функции и их геометрическая
интерпретация. Расчет коэффициентов дискриминантной функции. Дискриминантный
анализ при нормальном законе распределения признаков. Примеры напараметрических
алгаритмов классификации. Оценка информативности признаков.
2.2 Перечень тем практических/лабораторных занятий
На практических занятиях изучаются возможности современных программных
средств при решении задач многомерного статистического анализа. Развиваются навыки
использования программных средств для решения практических задач. Рассматриваются
программные модули многомерного анализа представленные в Ecsel и Statistica.
Тема 1. Методы моделирование данных. (4 часа).
Генерация случайных чисел. Свойства датчика случайных чисел Excel.
Преобразование случайных чисел к различным диапазонам. Генерация выборки
нормального закона путем преобразования случайных чисел. Генерация данных
различных законов распределений средствами Excel. Генерация случайных выборок
методом неравномерной рулетки. Генерация данных методом отбраковки. Генерация
многомерного нормального распределения. Средства визуализации данных при генерации
данных случайных выборок.
Тема 2. Преобразование данных, представленных в различных шкалах
измерения. Предварительный анализ многомерных данных. (4 часа).
Преобразование данных, представленных в различных шкалах измерения.
Определение диапазона значений признаков. Расчет характеристик выборки в
предварительном анализе многомерных данных. Средства визуального анализа в
предварительном анализе.
Тема 3. Методы анализа достоверности данных и исправление ошибок. (4 часа).
Предварительный анализ данных анкетных опросов. Оценка интервьюэров. Анализ
многомерной выборки на отсутствие данных. Выделение выбросов по многомерной
выборке непрерывных признаков. Выделение выбросов по многомерной выборке
бинарных признаков. Обобщенный способ выделения выбросов по многомерным данным.
Средства визуального анализа достоверности данных и повышения достоверности
данных.
Тема 4. Методы проверки статистических гипотез. (4 часа).
Проверка согласование данных выборки конкретному закону распределения по
критерию  2 . Оценка зависимости признаков с помощью критерия  2 . Средства
визуального анализа, используемые в задачах.
Тема 5. Методы проверки статистических гипотез. (4 часа).
Дисперсионный анализ. Нелинейная регрессия. Оценка составляющих дисперсии.
Использование критерия Фишера для оценки качества регрессии. Средства визуального
анализа данных.
Тема 6. Кластерный анализ непрерывных признаков. (6 часа).
Расчет матриц близости объектов и классов по непрерывным признакам. Оценка
функции качества классификации. Построение дендрограмм и другие средства
визуального анализа данных.
Тема 7. Кластерный анализ бинарных признаков. (6 часа).
Расчет матриц близости объектов и классов по бинарным признакам. Оценка функции
качества классификации. Построение дендрограмм и другие средства визуального анализа
данных.
Тема 8. Дискриминантный анализ. (6 часа).
Классификация многомерных выборок с обучением. Оценка качества классификации
с использованием метода скользящего экзамена. Средства визуального анализа данных в
задачах классификации с обучением.
3. ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ
Программой дисциплины предусмотрено чтение лекций, проведение практических
занятий. В течение изучения дисциплины студенты изучают на лекционных занятиях
теоретический материал. На практических занятиях под руководством преподавателя,
решают задачи, разбирают ситуации реальных экономических процессов и явлений.
При проведении практических занятиях применяются следующие интерактивные
методы обучения:
- метод «мозгового штурма»: метод представляет собой разновидность групповой
дискуссии, которая характеризуется сбором всех вариантов решений, гипотез и
предложений, рожденных в процессе осмысления какой-либо проблемы, их последующим
анализом с точки зрения перспективы дальнейшего использования или реализации на
практике;
- метод «кооперативного обучения»: студенты работают в малых группах (3 – 4 чел.)
над индивидуальными заданиями, в процессе выполнения которых они могут совещаться
друг к другу;
- метод «круглого стола»: обеспечение свободного, нерегламентированного
обсуждения поставленных вопросов (тем) на основе постановки всех студентов в равное
положение по отношению друг к другу, системное, проблемное обсуждение вопросов с
целью видения разных аспектов проблемы;
- деловая игра: моделирование
профессиональной
деятельности
и
ролевое
взаимодействие по игровым правилам участвующих в ней специалистов, в определенном
условном времени, в атмосфере неопределенности, при столкновении позиций, с
разыгрыванием ролей и оцениванием.
Для студентов в качестве самостоятельной работы предполагается подготовка
индивидуальных работ с применением современных программных средств, выполнения
домашних заданий, групповая работа над реальными проектами.
4. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ИЗУЧЕНИЮ КУРСА
4.1 Контрольные вопросы для самостоятельной оценки качества освоения
учебной дисциплины.
Тема 1.
1. В чем состоят цели многомерного анализа данных?
2. Дайте формальное описание данных, используемое в многомерном статистическом
анализе и опишите представление данных в электронном виде.
3. Определите основные шкалы измерений в многомерных выборках.
4. Как произвести преобразование данных из одной шкалы в другую?
5. Определите понятие диапазон значений признака и способы определения
диапазона значений.
6. Какие и как рассчитываются основные характеристики многомерной выборки в
предварительном анализе данных?
7. Определите средства визуализации данных в предварительном анализе даны?
Тема 2.
1. Для чего используются модельные данные при решении задач многомерного
анализа?
2. В чем состоит идея метода неравномерной рулетки?
3. В чем состоит идея метода отбраковки?
4. Определите способы моделирования случайных чисел выборок в Excel.
5. Определите принципы моделирования многомерного нормального распределения?
Тема 3.
1. Определите проблему робастности в иногиеном анализе данных.
2. Что понимается под грубыми ошибками и каковы последствия их проявлений в
статистической совокупности?
3. Назовите известные вам критерии робастности.
4. Дайте характеристику алгоритмов определения “ подозрительных” объектов
выборки.
5. Каковы последствия отсутствия значений в многомерной выборке и как с ними
бороться.
6. Какие существуют способы обработки грубых ошибок?
Тема 4.
1. Что понимается под статистической гипотезой и какакие характерные признаки для
нее существуют?
2. Что означает: простая и сложная, одномерная и многомерная статистическая
гипотезы?
3. Каког рода ошибки могут допускаться и чем определяется достоверность выводов
при проверке статистических гипотез?
4. Определите предпосылки применения критерия  2 .
5. Определите предпосылки применения критерия Фишера.
6. Определите предпосылки применения критерия Стьюдента.
7. Приведите примеры ситуаций в которых целесообразно применении критерия
Стьюдента.
8. Приведите примеры ситуаций в которых целесообразно применении критерия  2 .
9. Приведите примеры ситуаций в которых целесообразно применении критерия
Фишера.
Тема 5.
1. Приведите примеры одномерного и многомерного шкалирования.
2. Пречислите основные виды многомерного шкалирования.
3. Назовите основные предположения, лежащие в основе метода Торгенсона.
4. В каких условиях целесообразно применение неметрических методов
шкалирования?
5. Что такое матрица различий профиля?
Тема 6.
1. Определите общую модель факторного анализа.
2. Какие компаненты дисперсии рассматриваютя в факторном анализе?
3. Сформулируйте фундаментальную теорему факторного анализа.
4. Что такое факторная структура и факторное отображение?
5. Какие преимущества получает исследователь с переходом к анализу общих
факторов?
Тема 7.
1. Назовите метрики расстояния между объектами, описываемыми непрерывными
признаками.
2. Назовите метрики расстояния между объектами, описываемыми бинарными
признаками.
3. Назовите метрики расстояния между классами.
4. Что такое функционал качества разбиения?
5. Что такое и как строится дендрограмма?
Тема 8.
1. Приведите формальную постановку задачи дисперсионного анализа.
2. Определите понятие дискриминантнтной функции.
3. Определите понятия обучающей и контрольной выборки.
4. Как оценить точность классификации методом скользящего экзамена?
5. Определите линейную дискриминантную функцию.
4.2. Рекомендации по работе с литературой
В книге Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. «Многомерный
статистический анализ в экономике» в той или иной степени изложены все вопросы
программы, поэтому ее можно рекомендовать, как основной учебник. Но одного этого
учебника для освоения курса совершенно не достаточно, поскольку многие вопросы
программы рассматриваются в этой книге только как краткий обзор, чего совершенно не
достаточно для того чтобы решить какую то практическую задачу.
Для тех студентов, кто забыл некоторые понятия из классической теории статистики
всегда будет полезен классический учебник - Гмурман В.Е. «Теория вероятностей и
математическая статистика»
Теоретические основы дисциплины «Многомерные статистические методы» и
история как науки изложены в книге Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер
М. «Многомерный статистический анализ в экономике».
Без знания методов моделирования случайных выборок невозможно выполнение
большинства лабораторных работ по предмету. Теоретические основы методов
моделирования случайных выборок рассмотрены в книге Клейн Д. «Статистические
методы в имитационном моделировании». Обоснование необходимости использования
моделирования случайных выборок при решении задач многомерного статистического
анализа дается в лекциях по предмету.
Методы исправления грубых ошибок рассматриваются только в специальной
литературе малодоступной для студентов. Основные понятия и постановка задачи
приведены в книге Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М.
«Многомерный статистический анализ в экономике».
Конкретные методы и реализованные алгоритмы рассматриваются в лекциях и
осваиваются при выполнении лабораторных работ.
Методы статистического оценивания рассматриваются практически в каждом
источнике из списка литературы. Однако из всех можно было выделить книгу Болч Б.,
Хуань К. «Многомерные статистические методы экономики» , в которой приведено много
примеров с расчетами.
Методы многомерного шкалирования рассматриваются только в основном учебнике из
предложенного списка рекомендованной литературы: Сошникова Л.А., Тамашевич В.Н.,
Уебе Г., Шеффер М. «Многомерный статистический анализ в экономике».
Математический аппарат факторного анализа целесообразно рассмотреть по двум
книгам: Болч Б., Хуань К. «Многомерные статистические методы экономики» и Дубров
А.М., Мхитарян В.С., Трошин Л.И. «Многомерные статистические методы».
Кластерный и дискриминантный анализ лучше изучать по книгам посвященным
специально этому вопросу: Айвазян С.А., Бухштабер В.М., Енюков И.С. «Прикладная
статистика, Дуда Р., Харт П. «Распознавание образов и анализ сцен» и Жабю М.
«Иерархический кластер анализ и соответствия».
Однако учебные примеры по кластерному и дискриминантному анализу
целесообразно разобрать по учебному пособию Дубров А.М., Мхитарян В.С., Трошин
Л.И. «Многомерные статистические методы».
Для выполнения некоторых работ полезной книгой является книга Елисеевой И.И.,
Семеновой Е.В. «Основные процедуры многомерного статистического анализа».
5. УЧЕБНО-МЕТОДИЧЕСКОЕ И ИНФОРМАЦИОННОЕ
ОБЕСПЕЧЕНИЕ ДИСЦИПЛИНЫ
5.1 Основная литература
1. Боровиков В. Искусство анализа данных на компьютере: Для профессионалов. 2-е
изд. (+CD)/ - СПб.: Питер, 2003.
2. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы: М: Финансы и статистика, 2000.
3. Н. В. Концевая, И. В. Орлова, Е. С. Филонова и др., Многомерный статистический
анализ в экономических задачах: компьютерное моделирование в SPSS. - М.: Вузовский
учебник, 2011.
4. С. А. Айвазян, В. С. Мхитарян, Прикладная статистика в задачах и упражнениях. М.: ЮНИТИ-ДАНА, 2001.
5. Ниворожкина Л, Многомерные статистические методы в экономике. - М.; Ростов
н/Д: Дашков и К*: Наука-Спектр, 2008.
6. А. И. Орлов, Вероятность и прикладная статистика: основные факты. - М.:
КНОРУС, 2010.
7. И. А. Палий, Прикладная статистика. - М.: Высш. шк., 2004.
5.2 Дополнительная литература
1. Айвазян С.А., Бухштабер В.М., Енюков И.С. Прикладная статистика.
Классификация и снижение размерности. – М.: Финансы и статистика, 1989.
2. Болч Б., Хуань К. Многомерные статистические методы экономики / Пер. с англ. –
М.: Статистика, 1979.
3. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы: М: Финансы и статистика, 2000.
4. Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шеффер М. Многомерный
статистический анализ в экономике: Учебное пособие для вузов/Под ред. проф. В.Н.
Тамашевича. – М.: ЮНИТИ-ДАНА, 1999.
5. В. Е. Гмурман, Теория вероятностей и математическая статистика. - М.: Юрайт : ИД
Юрайт, 2012.
6. Дуда Р., Харт П. Распознавание образов и анализ сцен. – М.: Мир, 1976.
7. Елисеева И.И. ,Семенова Е.В. Основные процедуры многомерного статистического
анализа. – Л.: УЭФ, 1993.
8. Жабю М. Иерархический кластер анализ и соответствия. – М.: Финансы и
статистика, 1988.
9. Клейн Д. Статистические методы в имитационном моделировании – М.:
Статистика, 1978.
5.3 Полнотекстовые базы данных - нет
5.4. Интернет-ресурсы
1. www.newbook.ru – книжный магазин.
2. www.boorsprice.ru – книжный магазин
6. МАТЕРИАЛЬНО-ТЕХНИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
ДИСЦИПЛИНЫ
Для качественного проведения лекционных занятий по данной дисциплине
используются аудитории, оснащенные мультимедийным оборудованием.
7. СЛОВАРЬ ОСНОВНЫХ ТЕРМИНОВ
Выбросы - это нетипичные или редкие значения, которые существенно отклоняются
от распределения остальных выборочных данных. Эти данные могут отражать истинные
свойства изучаемого явления (переменной), а могут быть связаны с ошибками измерения
или аномальными явлениями, и поэтому не должны включаться в модель.
Группировка - это процедура, позволяющая вычислить описательные статистики и
корреляции для зависимых переменных, наблюдения которых разбиты на группы,
определяемые одной (или более) группирующей (независимой) переменной. Эта
процедура используется в проверке гипотез или в разведочных методах.
Дискриминантный анализ используется для принятия решения о том, какие
переменные дискриминируют или разделяют объекты на две или более естественно
возникающих групп (его используют как метод проверки гипотез или как метод
разведочного анализа).
Дисперсионного анализа (ANOVA) является проверка значимости различия между
средними с помощью сравнения (т.е. анализа) дисперсий. А именно, разделение общей
дисперсии на несколько источников (связанных с различными эффектами в плане),
позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, с
дисперсией, вызванной внутригрупповой изменчивостью.
Доверительные интервалы для некоторой статистики (например, среднего значения
или линии регрессии) показывают диапазон вокруг значения статистики, в котором
находится истинное значение этой статистики (с определенным уровнем надежности или
доверия).
Интервальная шкала - эта шкала измерений позволяет не только упорядочить
наблюдения, но и количественно выразить расстояния между ними (при этом на шкале не
обязательно присутствует абсолютная нулевая отметка).
Кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя
набор различных алгоритмов классификации. Общий вопрос, задаваемый
исследователями во многих областях, состоит в том, как организовать наблюдаемые
данные в наглядные структуры, т.е. развернуть таксономии (обычно в разведочном
анализе) или определить кластеры схожих объектов
Коэффициент детерминации - квадрат множественного коэффициента корреляции.
Он показывает, какая доля дисперсии результативного признака объясняется влиянием
независимых переменных.
Критерий Вилкоксона является непараметрической альтернативой t-критерию для
зависимых выборок. Он осуществляет проверку гипотезы о параметре положения
(медианы) выборочного распределения. Как правило, такой критерий применяется при
сравнении совпадающих пар данных, например, "до" и "после". В этом случае критерий
осуществляет сравнения разности медиан с нулем
Порядковая шкала измерений позволяет ранжировать значения переменных.
Измерения в порядковой шкале содержат информацию только о порядке следования
величин, но не позволяют сказать "насколько одна величина больше другой", или
"насколько она меньше другой".
Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до
центра тяжести в многомерном пространстве, определяемом коррелированными
(неортогональными) независимыми переменными (если независимые переменные
некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым
расстоянием). Эта мера позволяет, в частности, определить является ли данное
наблюдение выбросом по отношению к остальным значениям независимых переменных.
t-критерий для зависимых выборок. t-критерий для зависимых выборок очень
полезен в тех довольно часто возникающих на практике ситуациях, когда важный
источник внутригрупповой вариации (или ошибки) может быть легко определен и
исключен из анализа.
t-критерий для одной выборки. В t-критерии для одной выборки, наблюдаемое
среднее (из одной выборки) сравнивается с ожидаемым средним популяции (например,
некое теоретическое среднее), а вариация в популяции подсчитывается на основе
вариации в наблюдаемой выборке.
Download