ОПД.Р.9 Многомерные статистические методы

advertisement
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ
федеральное государственное бюджетное образовательное учреждение
высшего профессионального образования
«Мурманский государственный гуманитарный университет»
(ФГБОУ ВПО «МГГУ»)
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС ДИСЦИПЛИНЫ
ОПД.Р.09 МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ.
ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ПОДГОТОВКИ СПЕЦИАЛИСТА ПО
СПЕЦИАЛЬНОСТИ
080116 «Математические методы в экономике»
Утверждено на заседании кафедры
математики и математических методов
в экономике факультета
физико-математического образования,
информатики и программирования
(протокол № 6 от 27 февраля 2013 г.)
Зав. кафедрой _______________О.М. Мартынов
Раздел 1. Программа учебной дисциплины
1. Автор программы:
Давидюк Е.С., старший преподаватель
2. Рецензенты:
Мартынов О.М., кандидат ф.-м. наук, доцент
Верещагин Б.М., кандидат ф.-м. наук, доцент
3. Пояснительная записка:
Цель курса заключается в том, чтобы дать студентам научное представление о
многомерных случайных величинах, а также о методах их исследования. Это необходимо
для изучения целого ряда дисциплин, таких, как «Эконометрика», «Эконометрическое
моделирование» и др.
Задачи курса:
Научить использовать методы корреляционного, дисперсионного, регрессионного,
факторного анализа для построения различных эконометрических моделей;
Выработать навыки работы со статистическими ППП.
Научить содержательно интерпретировать формальные результаты.
Научить использовать результаты анализа построенных моделей для прогноза и
принятия обоснования экономических решений.
Место курса в общей системе подготовки специалиста. Курс базируется на
дифференциальном и интегральном исчислении, на линейной алгебре и теории
вероятностей. Здесь развиваются идеи, с которыми студенты ознакомились при изучении
математической статистики. Является основой для курсов эконометрики, теории рисков и
моделирования рисковых ситуаций.
Требования к уровню освоения содержания дисциплины
Студенты должны знать:
• Основные задачи и этапы многомерного статистического анализа.
• Алгоритм отбора факторов для построения модели.
• Методы исчисления устойчивых (робастных) оценок
• Основные виды коэффициентов корреляции, их особенности.
• Методы проверки значимости коэффициентов корреляции. Интервальное
оценивание.
• Особенности линейной модели множественной регрессии. Метод наименьших
квадратов (МНК).
• Метод главных компонент
• Алгоритм выделения главных факторов
• Методы вычисления расстояний между объектами и их группами.
• Методы классификации наблюдений при наличии обучающих выборок
• Алгоритм вычисления канонических корреляций и канонических величин
Студенты должны уметь:
• Применять методы многомерного статистического анализа в экономических
исследованиях.
• Видеть возможности использования многомерных статистических методов в
профессиональной деятельности.
• Проверять наблюдения на аномальность.
• Производить идентификацию и спецификацию моделей.
• Рассчитывать коэффициенты корреляции.
• Проверять значимость коэффициентов корреляции.
• Строить интервальные оценки параметров связи.
• Получать оценки регрессионных моделей.
• Получать и использовать матрицы индивидуальных значений главных компонент
• Получать и использовать матрицы нагрузок.
• Использовать методы вращения в факторном анализа.
• Определять расстояние между объектами; определять расстояние между
кластерами.
• Проводить линейный дискриминантый анализ при наличии обучающих выборок.
• Вычислять канонические корреляции
• Применять статистические пакеты для решения практических задач.
В подготовке программы использовались:
программа курса «Многомерные статистические методы» Московского
государственного университета экономики, статистики и информатики, составитель д.э.н.,
проф. В.С. Мхитарян, 2004.
программа
курса
«Многомерные
статистические
методы»
кафедры
математического моделирования в экономике Вятский государственного университета,
составитель ст. преподаватель Заречнев В. А., 2005.
Данная программа составлена в соответствии с требованиями Государственного
образовательного стандарта высшего профессионального образования к содержанию и
уровню подготовки выпускника по специальности 080116 Математические методы в
экономике.
4. Извлечение из ГОС ВПО
Многомерные статистические методы.
ОПД.Р.10
назначение, содержание и основные этапы многомерного
статистического анализа. корреляционный анализ многомерной
генеральной совокупности, его назначение и место. методы
многомерных классификаций. классификация при наличии
обучающих выборок, дискриминантный анализ. классификация
без обучения (параметрический случай), расщепление смесей
вероятностных распределений. классификация без обучения
(непараметрический случай), кластерный анализ. основные типы
задач и алгоритмов кластерного анализа. снижение размерности
исследуемых многомерных признаков и отбор наиболее
информативных показателей. метод главных компонент.
основные числовые характеристики и свойства оптимальности
главных компонент. факторный анализ: общий вид линейной
модели, основные задачи и вопросы идентификации. построение
интегрального статистического показателя качества сложной
системы.
5. Объем дисциплины и виды учебной работы
Виды учебной работы в часах
№
п/п
Шифр и
наименование
специальности
Курс
Семестр
Трудоемкость
Всего
аудит.
ЛК
ПР/
СМ
ЛБ
Сам.
работа
1
080116
Математические
методы в
экономике
3
5
109
60
20
20
20
49
6. Содержание дисциплины.
Вид
итогового
контроля
(форма
отчетности)
зачет
6.1. Разделы дисциплины и виды занятий (в часах). Примерное распределение
учебного времени:
Количество часов
№
Наименование раздела, темы
п/п
Общая
Всего
Сам.
ЛК ПР/СМ ЛБ
труд-ть
ауд.
раб.
1
Робастность и аномальность
10
6
2
2
2
4
Множественный
2
2
2
2
6
корреляционный анализ
12
6
Множественный регрессионный
3
4
4
4
6
анализ
18
12
4
Компонентный анализ
10
6
2
2
2
4
5
Факторный анализ
12
6
2
2
2
6
6
Кластерный анализ
12
6
2
2
2
6
7
Дискриминантный анализ
12
6
2
2
2
6
8
Канонические корреляции
12
6
2
2
2
6
Интегральный статистический
9
показатель качества сложной
2
2
2
5
системы
11
6
Всего
109
60
20
20
20
49
6.2. Содержание разделов дисциплины.
Тема 1. Робастность и аномальность.
Предмет и содержание курса «Многомерные статистические методы». Назначение,
содержание и основные этапы многомерного статистического анализа. Применение
многомерных статистических методов в социально-экономических исследованиях.
Особенности анализа количественных и качественных показателей. Проблема
размерности в многомерных методах исследования. Многомерные методы оценивания и
статистического сравнения.
Многомерное нормальное распределение, как основная модель современных
многомерных методов.
Робастность в многомерном статистическом анализе. Оценки Хубера, Пуанкаре и
Винзора. Робастное оценивание при наличии асимметрии распределения экономических
показателей. Проверка наблюдений на аномальность.
Тема 2. Множественный корреляционный анализ.
Корреляционный анализ многомерной генеральной совокупности, его назначение и
место. Оценка ковариационной (корреляционной) матрицы. Оценки частных и
множественных коэффициентов корреляции. Проверка значимости и построение
доверительных областей.
Тема 3. Множественный регрессионный анализ.
Основные задачи регрессионного анализа. Линейная множественная регрессионная
модель. Предпосылки и их нарушение. Выбор адекватного уравнения регрессии. Понятие
о нелинейной регрессии.
Уравнения регрессии в многомерной модели. Оценка вектора коэффициентов
уравнения регрессии и остаточной дисперсии с помощью метода наименьших квадратов.
Тема 4. Компонентный анализ.
Модель, математическое обоснование и алгоритм метода главных компонент.
Собственные векторы и собственные значения корреляционной матрицы и их
использование для получения матрицы весовых коэффициентов.
Квадратичные формы и главные компоненты. Главные компоненты двумерного,
трехмерного и конечномерного пространства.
Получение и использование матрицы индивидуальных значений главных
компонент. Особенности регрессии на главные компоненты.
Использование метода главных компонент в экономических и социологических
исследованиях.
Тема 5. Факторный анализ.
Линейная модель факторного анализа. Различие предпосылок компонентного и
факторного анализа. Основные проблемы факторного анализа. Факторное отображение и
факторная структура. Компоненты дисперсии в факторном анализе. Преобразование
корреляционной матрицы в факторном анализе. Методы расчета общностей. Получение и
использование матрицы нагрузок и матрицы индивидуальных значений.
Метод главных факторов. Получение первого главного фактора. Использование
методов вращения.
Регрессия на общие факторы. Сравнение результатов компонентного и факторного
анализа. Экономическая интерпретация общих факторов. Использование факторного
анализа в социально-экономических исследованиях.
Тема 6. Кластерный анализ.
Задача многомерной классификации объектов исследования. Классификация без
обучения. Расстояние между объектами. Меры близости между объектами. Меры
близости между кластерами.
Классификация признаков на основе матриц коэффициентов статистической связи
между ними.
Иерархические кластерные процедуры. Метод К-средних. Метод параллельных
процедур.
Функционалы качества разбиения на классы. Зависимость выбора метода
классификации от цели исследования. Классификация объектов (субъектов) в социальных
и экономических исследованиях.
Тема 7. Дискриминантный анализ.
Классификация с обучением. Обучающие выборки. Математическое описание
метода дискриминантного анализа.
Линейный дискриминантный анализ при известных параметрах многомерного
нормального закона распределения. Вероятность ошибочной классификации с помощью
дискриминантной функции. Оценка качества дискриминантной функции и
информативности отдельных признаков. Пошаговый дискриминантный анализ.
Применение дискриминантного анализа в социально-экономических
исследованиях.
Тема 8. Канонические корреляции.
Модель метода канонических корреляций. Канонические корреляции и
канонические величины генеральной совокупностей и их оценивание. Интерпретация
первого канонического коэффициента корреляции и соответствующих канонических
величин.
Тема 9. Интегральный статистический показатель качества сложной системы
Индекс развития человеческого потенциала как интегральный показатель качества
жизни населения. Математическая модель ИРЧП.
6.3. Темы для самостоятельного изучения.
№
Наименование раздела
Форма
п/п
дисциплины.
самостоятельной
Тема.
работы
1
2
Модель множественной
регрессии
Прогнозирование в
контрольные
работы
контрольные
Колво
часов
4
6
Форма контроля
выполнения
самостоятельной
работы
проверка
контрольных работ
проверка
3
4
5
6
7
регрессионных моделях
Регрессия на главные
компоненты
Иерархические кластерные
процедуры
Факторный анализ.
Формирование названия общего
фактора
Модель ковариационного
анализа
Линейный дискриминантный
анализ при наличии k
обучающих выборок
работы
контрольные
работы
контрольные
работы
вопросы для
самостоятельного
изучения
вопросы для
самостоятельного
изучения
контрольные
работы
6
4
контрольных работ
проверка
контрольных работ
проверка
контрольных работ
выполнение тестов
6
выполнение тестов
6
6
проверка
контрольных работ
7. Методические рекомендации по организации изучения дисциплины.
7.1. Тематика и планы аудиторной работы студентов по изученному материалу
(практические занятия и лабораторные работы).
Практическое занятие №1. Методы исчисления устойчивых (робастных) оценок:
Пуанкаре, Винзора, Хубера.
Решение задач
По статистическим наблюдениям
проверить на «засорение», используя:
критерий Граббса
критерий Титьена-Мура
рассчитать:
среднюю арифметическую простую
среднюю по Пуанкаре
среднюю по Винзору
сравнить полученные результаты
сделать выводы
Практическое занятие №2. Множественный корреляционный анализ.
1)Решение задач
По представленным данным
оценить параметры генеральной совокупности, которая предполагается нормально
распределенной;
проверить значимость частных коэффициентов корреляции, построить интервальную
оценку
найти точечную оценку множественного коэффициента корреляции и проверить его
значимость
сделать выводы
2)Выполнение тестов
Практическое занятие №3. Множественная линейная регрессия.
1)Решение задач
По статистическим данным
рассчитать матрицу парных коэффициентов корреляции
построить линейную регрессионную модель
проверить значимость коэффициентов регрессии
вычислить множественный коэффициент детерминации
откорректировать модель (если требуется)
проверить значимость полученного уравнения регрессии
сделать выводы
2)Выполнение тестов
Практическое занятие №4. Нелинейные регрессионные модели.
1)Решение задач
По представленным выборочным данным
найти вектор оценок коэффициентов регрессии, представленной
показательной функцией
логарифмической функцией
гиперболой
параболой
сравнить полученные результаты
Практическое занятие №5. Компонентный анализ.
1)Решение задач
По представленным выборочным данным
провести компонентный анализ:
рассчитать выборочные характеристики
нормировать данные
составить и решить характеристическое уравнение
рассчитать матрицы собственных значений и собственных векторов
рассчитать матрицы факторных нагрузок и значений главных компонент
построить уравнение регрессии на главных компонентах
найти вектор оценок коэффициентов регрессии
проверить значимость полученного уравнения регрессии
проверить значимость коэффициентов регрессии
сделать выводы
2)Выполнение тестов
Практическое занятие №6. Факторный анализ.
1)Решение задач
По матрице парных коэффициентов корреляции
вычислить редуцированную корреляционную матрицу методом
наибольшего элемента по строке (столбцу);
среднего коэффициента корреляции;
триад;
первого центроидного фактора
сравнить полученные результаты
вычислить первый и второй главные факторы
сделать выводы
2)Выполнение тестов
Практическое занятие №7. Кластерный анализ.
1)Решение задач
По представленным данным
провести классификацию объектов по иерархическому агломеративному алгоитму с
использованием
обычного евклидова расстояния
взвешенного евклидова расстояния
Хемминогова расстояния
принципа «ближайшего соседа»
принципа центра тяжести
принципа Варда
сравнить полученные результаты
построить дендрограммы
сделать выводы
2)Выполнение тестов
Практическое занятие №8. Дискриминантный анализ.
1)Решение задач
По данным двух обучающих выборок
определить, к какому классу относятся новые объекты
По данным трех обучающих выборок
определить, к какому классу относятся новые объекты
2)Выполнение тестов
Практическое занятие №9. Канонические корреляции.
1)Решение задач
По двум группам статистических данных
вычислить первую пару канонических величин и каноническую корреляцию
оценить значимость канонических корреляций
Практическое занятие №10. Интегральный показатель качества жизни.
1)Решение задач
По статистическим данным Мурманской области
построить интегральный показатель качества жизни населения в 1999-2005 годах
определить тенденцию
сделать выводы
Лабораторная работа №1. Методы исчисления устойчивых оценок.
По статистическим наблюдениям в ППП Maple
проверить на «засорение», используя:
критерий Смирнова-Граббса
критерий Граббса
критерий Титьена-Мура
критерий одновременного обнаружения экстремальных наблюдений
рассчитать:
среднюю арифметическую простую
среднюю по Пуанкаре
среднюю по Винзору
сравнить полученные результаты
сделать выводы
Лабораторная работа №2. Множественный корреляционный анализ.
По представленным данным в ППП Maple
оценить параметры генеральной совокупности, которая предполагается нормально
распределенной;
проверить значимость частных коэффициентов корреляции, построить интервальную
оценку
найти точечную оценку множественного коэффициента корреляции и проверить его
значимость
сделать выводы
Лабораторная работа №3. Множественная линейная регрессия.
По статистическим данным в ППП Maple
рассчитать матрицу парных коэффициентов корреляции
построить регрессионную модель
проверить значимость коэффициентов регрессии
вычислить множественный коэффициент детерминации
откорректировать модель (если требуется)
проверить значимость полученного уравнения регрессии
сделать выводы
Лабораторная работа №4. Нелинейные регрессионные модели.
По представленным выборочным данным в ППП Maple
найти вектор оценок коэффициентов регрессии, представленной
нелинейной функцией, определить вид функции
сравнить полученные результаты
Лабораторная работа №5. Компонентный анализ.
По представленным выборочным данным в ППП Maple
провести компонентный анализ:
рассчитать выборочные характеристики
нормировать данные
составить и решить характеристическое уравнение
рассчитать матрицы собственных значений и собственных векторов
рассчитать матрицы факторных нагрузок и значений главных компонент
построить уравнение регрессии на главных компонентах
найти вектор оценок коэффициентов регрессии
проверить значимость полученного уравнения регрессии
проверить значимость коэффициентов регрессии
сделать выводы
Лабораторная работа №6. Факторный анализ.
По матрице парных коэффициентов корреляции в ППП Maple и Statistica
вычислить редуцированную корреляционную матрицу методом
наибольшего элемента по строке (столбцу);
среднего коэффициента корреляции;
триад;
первого центроидного фактора
сравнить полученные результаты
вычислить первый и второй главные факторы
сделать выводы
Лабораторная работа №7. Кластерный анализ.
По представленным данным ППП Statistica
провести классификацию объектов по иерархическому агломеративному алгоитму с
использованием
обычного евклидова расстояния
взвешенного евклидова расстояния
Хемминогова расстояния
принципа «ближайшего соседа»
принципа центра тяжести
принципа Варда
сравнить полученные результаты
построить дендрограммы
сделать выводы
Лабораторная работа №8. Дискриминантный анализ.
По данным двух обучающих выборок ППП Maple и Statistica
определить, к какому классу относятся новые объекты
По данным трех обучающих выборок
определить, к какому классу относятся новые объекты
Лабораторная работа №9. Канонические корреляции.
По двум группам статистических данных ППП Maple и Statistica
вычислить первую пару канонических величин и каноническую корреляцию
оценить значимость канонических корреляций
Лабораторная работа №10. Интегральный показатель качества жизни.
По статистическим данным Мурманской области ППП Maple
построить интегральный показатель качества жизни населения в 1999-2005 годах
определить тенденцию
сделать выводы
8. Учебно-методическое обеспечение дисциплины.
8.1. Рекомендуемая литература:
Основная литература
1. Айвазян С.А., Мхитарян B.C. Прикладная статистика и основы эконометрики. М.,
ЮНИТИ, 1998.
2. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы.
М., Финансы и статистика, 2000.
3. Мхитарян B.C., Дубров A.M., Трошин Л.И. Многомерные статистические методы в
экономике. М., МЭСИ, 1995.
4. Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шефек М. Многомерный
статистический анализ в экономике. М.:ЮНИТИ, 1999
Дополнительная литература
1. Айвазян С.А., Бежаева Э.И., Староверов О.В. Классификация многомерных
наблюдений. М., Статистика, 1974.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Методы
исследования зависимостей. М., Финансы и статистика, 1983, т.1.
3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика.
Классификация и снижение размерности. М., Финансы и статистика, 1985, т.2.
4. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерный статистический анализ в
экономических исследованиях. М., МЭСИ, 1988.
5. Иберла К. Факторный анализ. М., Статистика, 1980.
6. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды.
М. Наука. 1976.
7. Корнилов И.А. Исследование зависимостей с помощью пакетов программ
статистического анализа для ЕС ЭВМ. М., МЭСИ, 1988.
8. Мандель И.Д. Кластерный анализ. М., Финансы и статистика, 1988.
9. Носко В.П. Эконометрика для начинающих. М. ИЭПП. 2000. 252 с.
10. Смоляк С.А., Титаренко Б.П. Устойчивые методы оценивания. М., Статистика,
1980.
11. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М. Инфра-М. 2003. –
544 с.
12. Харман Г. Современный факторный анализ. М., Статистика, 1972.
9. Материально-техническое обеспечение дисциплины.
9.1. Перечень используемых технических средств: компьютеры на базе процессора Intel
Pentium 2.10 Гц, 256 МВ ОЗУ.
9.2. Перечень используемых пособий: Д Дубров A.M., Мхитарян B.C., Трошин Л.И.
Многомерные статистические методы. М., Финансы и статистика, 2000.
9.3. Перечень видео- и аудиоматериалов программного обеспечения: руководство по
выполнению лабораторных работ в формате pdf; пакеты прикладных программ: Maple 8.09.0; STATISTICA, SPSS.
10. Примерные зачетные тестовые задания.
1. Известно, что при фиксированном значении х3 между величинами х1 и х2
существует положительная связь. Какое значение может принять частный коэффициент
корреляции r12/3
а) -0,8;
б) 0;
в) 0,4;
г) 1,3.
2. По результатам п=20 наблюдений получен частный коэффициент корреляции
r12(3) = 0,8 . Определите, чему при уровне значимости α=0,05 равна разность между
наблюдаемым (r12(3)) и критическим (rkp) значениями коэффициентов корреляции:
а) -0,513;
б) 0,344;
в) 0,700;
г) 0,133.
3. Известно, что х3 усиливает связь между величинами х1 и х2. По результатам
наблюдений получен частный коэффициент корреляции r12(3) = -0,45. Какое значение
может принять парный коэффициент корреляции r12:
а) 0,4;
б) 0,2;
в) -0,8;
г) 1,2.
4. По результатам п=10 наблюдений рассчитан частный коэффициент корреляции
r12(3) = 0,83 и с доверительной вероятностью γ=0,95 найдена интервальная оценка
0,37≤ r12(3)≤0,96. Какое значение принимает верхняя граница доверительного
интервала
а) 0,94;
б) 0,98;
в) 0,39;
г) 0,27.
5. По результатам п=20 наблюдений рассчитан r13(2) = 0,62 и найден при γ =0,95
доверительный интервал 0,23≤ r12(3)≤0,83.
Какое значение примет нижняя граница доверительного интервала для п=10 если γ
и r13(2) остались неизменными:
а) 0,45;
б) 0,20;
в) 0,32;
г) 0,89.
6. Множественный коэффициент корреляции R1(2,3) = 0,8. Определите, какой
процент дисперсии величины x1 объясняется влиянием х2 и х3
а) 28%;
б) 32%;
в) 64%;
г) 80%.
7. По результатам 20 наблюдений найден множественный коэффициент
корреляции R1(2;3) =0,8. Проверьте значимость множественного коэффициента
корреляции, т.е. гипотезу
Но: R1(2;3) =0 при α =0,05 и определите разность между наблюдаемым Fнабл и
критическим Fkp значениями статистики критерия:
а) 2,8;
б) -13,6;
в) 9,4;
г) 11,5.
8. Какое значение может принимать коэффициент детерминации:
а) -0,5;
б) -0,2;
в) 0,4;
г) 1,2.
9. Какое значение может принять множественный коэффициент корреляции:
а) -0,5;
б) -1;
в) 0;
г) 1,2.
10. По результатам n=25 наблюдений получен парный коэффициент корреляции r12
= 0,6. Известно, что х3 занижает связь между х1 и х2. Какое значение может принять
частный коэффициент корреляции r12(3):
а) -0,5;
б) -0,6;
в) 0,5;
г) 0,8.
11. Какие требования в модели регрессионного анализа предъявляются к
распределению ошибок наблюдения εi, а именно к их математическому ожиданию Мεi, и
дисперсии Dεi:
a)Mεi =l;Dεi,=σ2;
б) Мεi =0; D εi =0;
в) Мεi,=0; Dεi = σ 2;
г)Mεi =l;Dεi =0.
12. Что минимизируется согласно методу наименьших квадратов:
n
а)
 ( yi  y )
n
2
б)
i 1
n
 yi  yˆi
в)
i 1
  yi  yˆi 
i 1
n
г)
 ( yi  yˆi )2
i 1
13. Дана ковариационная матрица вектора
 0 
 5.52 0.08 3.45 
   1  ; Sˆb   0.08 0.01 0.04 
 
 3.045 0.04
2.21 
 2

Чему равна оценка дисперсии элемента  2 вектора  , т.е.
а) 5,52;
б) 0,04;
в) 0,01;
г) 2,21.
14. При исследовании зависимости себестоимости продукции y от объема выпуска
x1 и производительности труда х2 по данным n=20 предприятий получено уравнение
регрессии: у - 2,88 - 0,72x1-l,51x2 и среднеквадратические отклонения коэффициентов
регрессии: sb1 = 0,052 и sb2 = 0,5. Можно ли при уровне значимости α=0,05 утверждать, что
значимы коэффициенты регрессии:
а) 1 ;
б)  2 ;
в) оба значимы;
г) оба не значимы.
15. По данным теста 14 определите с доверительной вероятностью γ=0,99 на какую
величину максимально может измениться себестоимость продукции у, если объем
производства x1 увеличить на единицу:
а) -0,6;
б) 0,72;
в) -1,5;
г) -0,83.
16. Уравнению регрессии у= 2,88 - 0,72x1 -1,51x2 соответствует множественный
коэффициент корреляции Ry (, 2) = 0,84 . Какая доля вариации результативного показателя
у (в %) объясняется входящими в уравнение регрессии переменными х1 и х2
а) 70,6;
б) 16,0;
в) 84,0;
г) 29,4.
17. По данным n=15 фирм исследована зависимость прибыли y от числа
работающих x вида у = ˆ0 + ˆ1 х. Была получена оценка остаточной дисперсии ŝ = 2,2 и
2
T
обратная матрица: ( X X )
1
 0.31 0.03 


 0.03 0.05 
2
Определите чему равна дисперсия оценки коэффициента регрессии ŝˆ
1
а) 1,500;
б) 0,110;
в) 0,682;
г) 0,242.
18. По данным n=25 регионов получена регрессионная модель объема реализации
медикаментов на одного жителя y в зависимости от доли городского населения х1 и числа
фармацевтов х2 на 10 тыс. жителей: y = 11,7 + 0,06 х1 +0,42 х2 и среднеквадратические
2
2
отклонения коэффициентов регрессии ŝˆ = 0,04 и ŝˆ = 0,14. Начиная с какого уровня
1
2
значимости α можно утверждать, что у зависит от доли городского населения x1:
а) 0,3;
б) 0,2;
в) 0,1;
г) 0,05.
19. По данным теста 18 определите, чему равна при доверительной вероятности
γ=0,95 верхняя граница интервальной оценки коэффициента регрессии при х2
а) 0,13;
б) 0,2;
в) 0,65;
г) 0,71.
20. Финансовая устойчивость предприятия характеризуется p=8 показателями. В
результате расчетов получены собственные значения трех первых главных компонент:
λ1=4,0; λ2=1,6 и λ3=0,8. Чему равен относительный вклад 2-х первых главных компонент (в
%):
а) 30;
б) 70;
в) 60;
г) 80.
 0.72 0.69 0.08 


21. Дана матрица факторных нагрузок: A  0.88 0.44 0.19 . Чему равен


 0.96 0.12 0.24 


относительный вклад второй главной компоненты f2 в суммарную дисперсию (в %):
а) 74;
б) 37;
в) 4;
г) 23.
22. В каких пределах меняются элементы матрицы факторных нагрузок А:
а)(-1;0);
б) (0,1);
в) (-1, 1);
г)(0;2).
 0.72 0.69 0.08 


23. Дана матрица факторных нагрузок A  0.88 0.44 0.19


 0.96 0.12 0.24 


Чему равен парный коэффициент корреляции между переменной х3 и второй
главной компонентой z2
а) 0,12;
б) 0,96;
в) -0,24;
г) 0,19.
 0.79 0.61

 0.79 0.61
24. Дана матрица факторных нагрузок A  
Чему равен коэффициент корреляции между переменными х (1) и х(2):
а) 0,75;
б) 1,25;
в) 0,25;
г) -0,25.
25. При исследовании взаимосвязи двух показателей х(1)и х(2) получен коэффициент
корреляции r12=0,9. Чему равно собственное значение λ1, соответствующее первой
главной компоненте:
а) 0,1;
6)1,9;
в) 1,8;
г) 0,2.
26. Деятельность п предприятий региона характеризуется четырьмя показателями.
При проведении компонентного анализа по матрице R получены собственные значения,
одно из которых оказалось пропущенным: 1,2; 1,4 и 0,6. Чему равно собственное значение
λ3 соответствующее третьей главной компоненте:
а) 2,5;
б) 1,2;
в) 0,6;
г) 0,8.
27. В кластер S1 входят 4 объекта, расстояние от которых до объекта №5 составляет
соответственно: 2, 5, 6, 7. Чему равно расстояние от объекта №5 до кластера S1, если
исходить из принципа «ближайшего соседа»:
а) 2;
б) 5;
в) 6;
г) 7.
28. Определить по данным теста 1 расстояние от объекта 5 до кластера Si, исходя
из принципа «дальнего соседа»:
а) 2; 6)5; в) 6; г) 7.
29. Чему равно по данным теста 27 расстояние от объекта S1, исходя из принципа
«средней связи»:
а) 2;
б) 5;
в) 6;
г) 7.
30. Расстояние между пятью объектами (n=5) характеризуется матрицей
расстояний:
 0
 2.2

D   3.0

 5.1
 5.8

2.2
0
1.4
5.0
6.4
3.0
1.4
0
6.4
7.8
5.1
5.0
6.4
0
2.0
5.8 
6.4 
7.8 

2.0 
0 
Чему равно расстояние между кластерами S1,2 и S3,4,5, в которые входят
соответственно объекты (1,2) и (3,4,5), если исходить из принципа средней связи:
а) 4,45;
б) 3,37;
в) 4,89; г) 2,86
31. Данные о четырех фирмах, деятельность которых характеризуется
показателями х(1) и х(2), представлены в таблице
i
1
2
3
4
х(1)
1
7
1
9
(2)
х
5
9
3
7
Чему равно расстояние ρE(1,2) между 1-ми 2-м объектами, если в качестве метрики
принять обычное евклидово расстояние:
а) 3,78;
6)9,34;
в) 7,21;
г) 5,19.
11. Примерный перечень вопросов к зачету (экзамену).
1. Предмет и метод многомерного статистического анализа. Роль
многомерных методов статистического анализа в социально-экономических
исследования.
2. Многомерное нормальное распределение. Свойства.
3. Робастное оценивание при наличии ассимметрии распределения
экономических показателей.
4. Методы исчисления устойчивых (робастных) оценок: Пуанкаре, Винзора, Хубера.
5. Виды коэффициентов корреляции. Проверка значимости и построение
доверительных областей.
6. Оценку вектора коэффициентов уравнения регрессии и остаточной
дисперсии с помощью метода наименьших квадратов.
7. Линейная множественная регрессионная модель. Предпосылки
регрессионного анализа.
8. Кластерный анализ как метод многомерной классификации. Методы
определения расстояний между объектами исследования.
9. Определение расстояния между кластерами в кластерном анализе.
10. Характеристики близости объектов и показателей в кластерном анализе.
Функционалы качества разбиения.
11. Иерархические кластер-процедуры.
12. Метод k- средних.
13. Метод параллельных кластер-процедур.
14. Сущность метода дискриминантного анализа. Обучающие выборки.
15. Линейный дискриминантный анализ при наличии k-выборок.
16. Оценка качества дискриминантной функции и информативности отдельных
признаков.
17. Метод главных компонент в ряду методов многомерной классификации.
Регрессия на главные компоненты.
18. Математическая модель метода главных компонент. Алгоритм метода.
Получение матрицы весовых коэффициентов, собственные значения и
собственные векторы.
19. Квадратичные формы и главные компоненты. Главные компоненты
двумерного и трехмерного пространства.
20. Линейная модель факторного анализа. Факторное отображение и
факторная структура.
21. Преобразование матрицы парных коэффициентов корреляции в факторном
анализе. Методы расчета общностей.
22. Метод главных факторов. Получение первого главного фактора.
23. Методы вращения факторной структуры.
24. Модель метода канонических корреляций. Канонические корреляции и
канонические величины генеральной совокупности и их оценивание.
25. Построение интегрального показателя качества сложной системы на
примере социальной системы.
12. Комплект экзаменационных билетов.
13. Примерная тематика рефератов.
Не предусмотрены.
14. Примерная тематика курсовых работ.
Учебным планом не предусмотрены
15. Примерная тематика квалификационных (дипломных) работ.
Учебным планом не предусмотрены
16. Методика(и) исследования (если есть).
нет
17. Балльно-рейтинговая система, используемая преподавателем для оценивания
знаний студентов по данной дисциплине.
Знания студентов по теоретическим вопросам оцениваются по 4-х балльной шкале:
Балл
2
3
4
5
Расшифровка
Неудовлетворительно
Удовлетворительно
Хорошо
отлично
Усвоение практических навыков оценивается по системе «зачет/незачет»
Раздел 2. Методические указания по изучению дисциплины и контрольные задания
для студентов заочной формы обучения.
Заочная форма обучения не предусмотрена.
Раздел 3. Содержательный компонент теоретического материала.
Тема 1. Робастность и аномальность.
Предмет и содержание курса «Многомерные статистические методы». Назначение,
содержание и основные этапы многомерного статистического анализа. Применение
многомерных статистических методов в социально-экономических исследованиях.
Особенности анализа количественных и качественных показателей. Проблема
размерности в многомерных методах исследования. Многомерные методы оценивания и
статистического сравнения.
Многомерное нормальное распределение, как основная модель современных
многомерных методов.
Робастность в многомерном статистическом анализе. Оценки Хубера, Пуанкаре и
Винзора. Робастное оценивание при наличии асимметрии распределения экономических
показателей. Проверка наблюдений на аномальность.
Тема 2. Множественный корреляционный анализ.
Корреляционный анализ многомерной генеральной совокупности, его назначение и
место. Оценка ковариационной (корреляционной) матрицы. Оценки частных и
множественных коэффициентов корреляции. Проверка значимости и построение
доверительных областей.
Тема 3. Множественный регрессионный анализ.
Основные задачи регрессионного анализа. Линейная множественная регрессионная
модель. Предпосылки и их нарушение. Выбор адекватного уравнения регрессии. Понятие
о нелинейной регрессии.
Уравнения регрессии в многомерной модели. Оценка вектора коэффициентов
уравнения регрессии и остаточной дисперсии с помощью метода наименьших квадратов.
Тема 4. Компонентный анализ.
Модель, математическое обоснование и алгоритм метода главных компонент.
Собственные векторы и собственные значения корреляционной матрицы и их
использование для получения матрицы весовых коэффициентов.
Квадратичные формы и главные компоненты. Главные компоненты двумерного,
трехмерного и конечномерного пространства.
Получение и использование матрицы индивидуальных значений главных
компонент. Особенности регрессии на главные компоненты.
Использование метода главных компонент в экономических и социологических
исследованиях.
Тема 5. Факторный анализ.
Линейная модель факторного анализа. Различие предпосылок компонентного и
факторного анализа. Основные проблемы факторного анализа. Факторное отображение и
факторная структура. Компоненты дисперсии в факторном анализе. Преобразование
корреляционной матрицы в факторном анализе. Методы расчета общностей. Получение и
использование матрицы нагрузок и матрицы индивидуальных значений.
Метод главных факторов. Получение первого главного фактора. Использование
методов вращения.
Регрессия на общие факторы. Сравнение результатов компонентного и факторного
анализа. Экономическая интерпретация общих факторов. Использование факторного
анализа в социально-экономических исследованиях.
Тема 6. Кластерный анализ.
Задача многомерной классификации объектов исследования. Классификация без
обучения. Расстояние между объектами. Меры близости между объектами. Меры
близости между кластерами.
Классификация признаков на основе матриц коэффициентов статистической связи
между ними.
Иерархические кластерные процедуры. Метод К-средних. Метод параллельных
процедур.
Функционалы качества разбиения на классы. Зависимость выбора метода
классификации от цели исследования. Классификация объектов (субъектов) в социальных
и экономических исследованиях.
Тема 7. Дискриминантный анализ.
Классификация с обучением. Обучающие выборки. Математическое описание
метода дискриминантного анализа.
Линейный дискриминантный анализ при известных параметрах многомерного
нормального закона распределения. Вероятность ошибочной классификации с помощью
дискриминантной функции. Оценка качества дискриминантной функции и
информативности отдельных признаков. Пошаговый дискриминантный анализ.
Применение дискриминантного анализа в социально-экономических
исследованиях.
Тема 8. Канонические корреляции.
Модель метода канонических корреляций. Канонические корреляции и
канонические величины генеральной совокупностей и их оценивание. Интерпретация
первого канонического коэффициента корреляции и соответствующих канонических
величин.
Тема 9. Интегральный статистический показатель качества сложной системы
Индекс развития человеческого потенциала как интегральный показатель качества жизни
населения. Математическая модель ИРЧП.
Раздел 4. Словарь терминов.
Авторегрессионная модель (иногда — авторегрессивная) [autoregressive model] —
статистическое описание связи значений одного и того же показателя в разные моменты
времени: yt = f(yt-τ); авторегрессия — регрессия некоторого состояния случайного
процесса на предшествующие состояния этого процесса
Адаптирующиеся, адаптивные системы [adaptive systems] — системы, способные к
адаптации. Подразделяются на самонастраивающиеся и самоорганизующиеся системы. В
первом случае в соответствии с изменениями внешней среды меняется способ
функционирования системы (напр., предприятие расширяет выпуск продукции вслед за
увеличением спроса), во втором — меняется структура системы (напр., на заводе создали
отдел стандартизации в связи с возросшими требованиями к качеству изделий).
Активный (условный) статистический прогноз [conditional prediction] — прогноз,
применяемый тогда, когда предусматривается, что лицо, принимающее решение, может
осуществлять различные меры, которые способны воздействовать на прогнозируемые
показатели. Напр., если наблюдается неблагоприятная тенденция к понижению
фондоотдачи, то пассивный прогноз предскажет дальнейшее снижение этого показателя.
Активный же прогноз ответит на вопрос, что будет, если окажется принятой та или иная
программа действий по повышению эффективности фондов
Многомерный
статистический
анализ
–
это
совокупность
глубоко
формализованных статистических методов, базирующихся на представлении исходной
информации в многомерном геометрическом пространстве, и позволяющих определять
неявные (латентные), но объективно существующие закономерности в организационной
структуре и тенденциях развития изучаемых социально-экономических явлений и
процессов.
Шкалирование - метод моделирования реальных процессов с помощью числовых
систем.
Грубые ошибки – резко выделяющиеся из основной массы наблюдения
Корреляционный анализ является одним из методов статистического анализа
взаимозависимости нескольких признаков - компонент случайного вектора х.
Методы оценивания, чувствительные к "грубым ошибкам" называются
неустойчивыми.
Методы оценивания, учитывающие наличие "грубых ошибок" и позволяющие при
этом достаточно точно определять оценки параметров, называются робастными или
устойчивыми. Например, методы Хубера, Винзора, Пуанкаре для симметричных
распределений, метод джеккнайф-оценок для асимметричных распределений и ряд других
методов.
Частный коэффициент корреляции характеризует тесноту линейной зависимости
между двумя признаками при исключении влияния всех остальных признаков, входящих в
модель. Данные коэффициенты корреляции находятся в пределах от -1 до +1, причем чем
ближе коэффициент корреляции к +1, тем сильнее зависимость между признаками. Если
коэффициент корреляции больше 0, то связь положительная, а если меньше нуля отрицательная.
Множественный коэффициент корреляции характеризует тесноту линейной
связи между одним признаком (результативным) и остальными, входящими в модель;
изменяется в пределах от 0 до 1.
Выборочный парный коэффициент корреляции, характеризует тесноту линейной
связи между признаками x j и xi на фоне действия всех остальных признаков.
Результирующая (зависимая, эндогенная) переменная y – признак,
характеризующий результат или эффективность функционирования анализируемой
экономической системы. Ее значения формируются в процессе и внутри
функционирования этой системы под воздействием ряда других переменных и факторов.
В регрессионном анализе результирующая переменная выступает в роли функции,
значения которой определяются факторами, выступающих в роли аргументов. Поэтому по
природе своей y всегда стохастична.
Объясняющие (предикторные, экзогенные) переменные X  ( x1 ,..., xk ) признаки, поддающиеся регистрации, описывающие условия функционирования
изучаемой реальной экономической системы.
Функция y  f ( X ) называется функцией регрессии y по X
Регрессионный анализ - это статистический метод исследования зависимости
случайной величины y от переменных X  ( x1 ,..., xk ) , рассматриваемых в
регрессионном анализе как неслучайные величины независимо от истинного закона
распределения xi , i  1, k .
Условие независимости дисперсии случайного члена от номера наблюдения
называется гомоскедастичностью (что означает одинаковый разброс).
Зависимость дисперсии случайного члена от номера наблюдения называется
гетероскедастичностью.
Компонентный анализ предназначен для преобразования системы k исходных
признаков, в систему k новых показателей (главных компонент). Главные компоненты не
коррелированны между собой и упорядочены по величине их дисперсий, причем, первая
главная компонента имеет наибольшую дисперсию, а последняя, k-я, наименьшую. При
этом выявляются неявные, непосредственно не измеряемые, но объективно
существующие закономерности, обусловленные действием как внутренних, так и
внешних причин.
Факторы, связанные значимыми коэффициентами веса более чем с одной
переменной, называются общими. Общий фактор, связанный значимыми
коэффициентами веса со всеми признаками, называется генеральным.
Кластерный анализ — это совокупность методов, предназначенных для
группировки (кластеризации) совокупности объектов, каждый из которых описывается
набором исходных параметров x1,x2, ..., xk. Целью кластерного анализа является разбиение
множества объектов на заданное или неизвестное число кластеров на основании
некоторого математического критерия качества классификации. Все параметры
одновременно участвуют в группировке, т.е. они учитываются все сразу при отнесении
наблюдения в ту или иную группу.
Раздел 5. Практикум по решению задач.
Примеры решения задач.
Задача №1
На основе данных средней производительности труда (выработка на одного
работающего) 10 предприятий подотрасли. Проверить наличие грубых ошибок.
Выработка рабочих
№ предприятия 1
2
3
4
5
6
7
8
9
10
Выработка
12 11 13 12 14 12 18 15 14 13
Решение
1.
Составим вариационный ряд:
11,12,12,12,13,13,14,14,15,18. Наибольшее значение равно x(10=18.
2. Вычислим среднее значение: x =13,4.
3. Определим оценку среднего квадратического отклонения:
S=1,91.
4.
Наибольшее значение
T(10) 
18  13.4
 2.41
1.91
5.
По табл.8 для N=10 определим Са= С0.05 =2,294.
6. Проверим гипотезу Но
С0.05<Т(10), т.е. 2,294<2,41.
Следовательно, гипотеза об однородности ряда отвергается. Значение выработки на
одного работающего на предприятии № 7 является нетипичным, Это значение можно
считать грубой ошибкой при уровне значимости=0,05.
Задача №2
Деятельность п = 8 карьеров характеризуется себестоимостью 1т. песка (X1),
сменной добычей песка (Х2) и фондоотдачей (Х3). Значения показателей представлены в
таблице.
X1 (тыс.руб.)
30
20
40
35
45
25
50
30
Х2 (тыс.руб.)
20
30
50
70
80
20
90
25
Х3
20
25
20
15
10
30
10
20
Требуется:
1. Оценить параметры генеральной совокупности, которая предполагается
нормально распределенной;
2. При  =0.05 проверить значимость частных коэффициентов корреляции
1,2 / 3 , 1,3/ 2 , 2,3/1 . При  =0.95 построить интервальную оценку для 1,3/ 2 .
3. Найти точечную оценку множественного коэффициента корреляции
 =0.05 проверить его значимость.
1/ 2,3 и при
Решение:
1. Найдем значения средних арифметических ( x j ) и среднеквадратических
отклонений ( s j ) где j =1, 2, 3, а также парных коэффициентов корреляции r12, r13 и r23 по
формулам:
30  20  40  35  45  25  50  30
 34.275 тыс. руб.
8
x2 =48.125 x3 =18.75 s1 =9,49 s2 = 26,68. s3 = 6,48
x1 
x1x2  x1x2 1875  34.375  48.125
= 0.871

s1s2
9.49  26.68
1 n
1
где x1x2   xi1xi 2  (30 * 20  20 *30  40 *50  ...  30 * 25) = 1875
n i 1
8
r12 
В результате расчетов получим
0.871 0.874 
 34.38 
 9.49 
 1
x   48.12  ; s   26.68  ; R   0.871
1
0.879 
 18.75 
 6.48 
 0.874 0.879
1 





2. Предварительно найдем точечные оценки частных коэффициентов корреляции
из выражения
r1,2 / 3  
R12
R11R22
где R12 - алгебраическое дополнение элемента r12 корреляционной матрицы R, а R11
и R22 алгебраические дополнения 1-го и 2-го диагонального элемента этой матрицы
R12  (1)3
R22  (1) 4
0.871
0.879
0.874
1
1
0.874
0.874
1
 0.103 R11  (1) 2
 0.236 r1,2 / 3 
1
0.879
0.879
1
 0.227
0.103
 0.445
0.227 * 0.236
Аналогично находим:
и r23/1 =-0.494
Для проверки значимости частных коэффициентов корреляции найдем rкр.
(  =0.05, v=n-c-2= 5)=0.754, где c- порядок коэффициента корреляции (число
фиксированных признаков). В нашем примере c= 1.
Так как r <rкр.=0.754, то гипотезы Н0:  =0 не отвергаются, т. е. предположение о
равенстве его нулю не противоречит наблюдениям, но п = 8 мало.
Определим интервальную оценку для 1,3/ 2 при  =0.95. Для этого используем Zr13/2=-0.462
преобразование Фишера и предварительно найдем интервальную оценку для Z из
условия:


1
Z   Z   t

nc3

По таблице Z-преобразования Фишера для r13/2=-0.462, учитывая, что Z'(-r)= -Z'(r),
будем иметь Z'(-0,462) = -0.497. По таблице нормального закона из условия
Ф(t)=0.95 найдем t=l.96.

Тогда Z   0.497  1.96

1 
 , откуда Z  [-1.477,0.483].
84
По таблице Z - преобразования для Zmin= -1,477 и Zmax=0.483 найдем интервальную
оценку для 1,3/ 2 : 1,3/ 2  [-0.9,0.45].
Полученная интервальная оценка подтверждает вывод о незначимости частного
коэффициента корреляции 1,3/ 2 , т. к. ноль находится внутри доверительного интервала.
3. Найдем точечную оценку множественного коэффициента корреляции
при
 =0.05 проверим его значимость.
1/ 2 ,3 и
Точечная оценка определяется по формуле:
r1/ 2,3  1 
R
, где R - определитель корреляционной матрицы
R11
R = 1+0.871(-0.879)(-0.874)+0.871(-0.879)(-0.874) - (0.874)2- 0.8712- (-0.879)2 =0.043
r1/ 2,3  1 
0.043
 0.90
0.227
Проверим гипотезу Н0:
1/ 2 ,3 =0
1 2
r1/ 2,3
k

1
Fí àáë. 

1
2
(1  r1/ 2,3 )
nk
0.81
2  10.66 , где с=2. Критическое значение по
0.19
5
таблице F - распределения Fкр. (  =0.05, V1 =2, V2 =5) = 5.79
Т. к. Fнабл.>Fкр., то гипотеза Н0 отвергается, т. е. множественный коэффициент
корреляции не равен нулю ( 1/ 2 ,3  0).
Задача №3
По данным n=20 сельскохозяйственных районов требуется построить
регрессионную модель урожайности на основе следующих показателей:
Y - урожайность зерновых культур (ц/га);
X1 - число колесных тракторов (приведенной мощности) на 100 га;
Х2 - число зерноуборочных комбайнов на 100 га;
Х3 - число орудий поверхностной обработки почвы на 100 га;
Х4 - количество удобрений, расходуемых на гектар;
Х5 - количество химических средств оздоровления растений, расходуемых на
гектар.
Исходные данные для анализа приведены в таблице
Исходные данные для анализа
Номер
Y
X1
X2
X3
X4
X5
наблюдения
1
9.70
1.59
0.26
2.05
0.32
0.14
2
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
8.40
9.00
9.90
9.60
8.60
12.50
7.60
6.90
13.50
9.70
10.70
12.10
9.70
7.00
7.20
8.20
8.40
13.10
8.70
0.34
2.53
4.63
2.16
2.16
0.68
0.35
0.52
3.42
1.78
2.40
9.36
1.72
0.59
0.28
1.64
0.09
0.08
1.36
0.28
0.31
0.40
0.26
0.30
0.29
0.26
0.24
0.31
0.30
0.32
0.40
0.28
0.29
0.26
0.29
0.22
0.25
0.26
0.46
2.46
6.44
2.16
2.69
0.73
0.42
0.49
3.02
3.19
3.30
11.51
2.26
0.60
0.30
1.44
0.05
0.03
1.17
0.59
0.30
0.43
0.39
0.32
0.42
0.21
0.20
1.37
0.73
0.25
0.39
0.82
0.13
0.09
0.20
0.43
0.73
0.99
0.66
0.31
0.59
0.16
0.17
0.23
0.08
0.08
0.73
0.17
0.14
0.38
0.17
0.35
0.15
0.08
0.20
0.20
0.42
Решение. Предварительно, с целью анализа взаимосвязи показателей построена
таблица парных коэффициентов корреляции R.
Y
X1
X2
Х3
X4
X5
1.00
0.43
0.37
0.40
0.58
0.33
0.43
1.00
0.85
0.98
0.11
0.34
0.37
0.85
1.00
0.88
0.03
0.46
0.40
0.98
0.88
0.03
0.28
1.00
0.58
0.11
0.03
0.03
1.00
0.57
0.33
0.34
0.46
0.28
0.57
1.00
Анализ матрицы парных коэффициентов корреляции показывает, что
результативный показатель наиболее тесно связан с показателем X4- количеству
удобрений, расходуемых на гектар (ry4=0.58).
В то же время связь между признаками-аргументами достаточно тесная. Так,
существует практически функциональная связь между числом колесных тракторов (X4) и
числом орудий поверхностной обработки почвы (Х3) – r13=0.98.
О наличии мультиколлинеарности свидетельствует также коэффициенты
корреляции r12=0.85 и r32=0.88
Чтобы продемонстрировать отрицательное влияние мультиколлинеарности,
рассмотрим регрессионную модель урожайности, включив в нее все исходные показатели:
y=3.515 - 0.006X1 + 15.542Х2 + 110Х3 + 4.475Х4 - 2.932Х5
(-0.01)
(0.72)
(0.13) (2.90) (-0.95)
В скобках указаны tнабл(bj), расчетные значения t - критерия для проверки гипотезы
о значимости коэффициента регрессии Н0:  j=0, j=l, 2, 3, 4, 5. Критическое значение
tkp=1.76 найдено по таблице t - распределения при уровне значимости  =0.1 и числе
степеней свободы v=14. Из уравнения следует, что статистически значимым является
коэффициент регрессии только при Х4 так как |t4| =2.90>tkp=l.76. He поддаются
экономической интерпретации отрицательные знаки коэффициентов регрессии при X1и
Х5, из чего следует, что повышение насыщенности сельского хозяйства колесными
тракторами (X1) и средствами оздоровления растений (Х5) отрицательно сказывается на
урожайности. Таким образом, полученное уравнение регрессии не приемлемо.
После реализации алгоритма пошагового регрессионного анализа с исключением
переменных и учетом того, что в уравнение должна войти только одна из трех тесно
связанных переменных (X1, X2 или Х3) получаем окончательное уравнение регрессии:
Y =7.342 + 0.345Х! + 3.
(11.12) (2.09) (3.02)
В уравнение включен X1, как определяющий из трех показателей. Уравнение
значимо при  =0.05, т.к. Fнабл=266>FKp=3.20, найденного по таблице F-распределения при
 =0.05; V1=3 и V2=17. Значимы и все коэффициенты регрессии:в уравнении
|tj|>tKp| (  =0.05; v=17) = 2.11.
Коэффициент регрессии 1 следует признать значимым из экономических
соображений при этом t1=2.09 лишь незначительно меньше tkp=2.11. При  =0.1 tkp =1.74 и
1 статистически значим.
Из уравнения регрессии следует, что увеличение на 1 числа тракторов на 100 га
пашни приводит к росту урожайности зерновых в среднем на 0.345 ц/га (b1=0.345).
Коэффициенты эластичности Э1=0.068 и Э4=0.161 показывают, что при увеличении
показателей X1 и Х4 на 1% урожайность зерновых повышается соответственно на 0.068%
и 0.161%. Ý j  b j
xj
y
Множественный коэффициент детерминации r2у =0.469 свидетельствует о том, что
только 46.9% вариации урожайности объясняется вошедшими в модель показателями (X1
и Х4, то есть насыщенностью растениеводства тракторами и удобрениями. Остальная
часть вариации обусловлена действием неучтенных факторов (Х2, Х3, X5, погодных
условий и др.). Средняя относительная ошибка аппроксимации 10.5% характеризует адекватность модели, также как и величина остаточной дисперсии S =1.97.
Задача №4
По данным о численности (x1) и фонде зарплаты (х2) строительных организаций
провести компонентный анализ.
3
6

x  8

2
7

4
5 
9

3
6 
Решение: Рассчитаем выборочные характеристики переменных:
x1  5.2 s1  2.315
x2  5.4 s2  2.059
х, =5,2
Si=2,315 х2=5,4
s2=2,059
Выборочный коэффициент корреляции равен:
r
x1x2  x1x2 32.4  5.2*5.4

 0.906
s1s2
2.315* 2.059
Преобразуем матрицу X в матрицу нормированных значений Z
 0.950 .0680 
 0.346 0.194 



Z  1.210 1.748 


 1.382 1.166 
 0.778
0.291 

Матрица парных коэффициентов корреляции имеет вид:
0.906 
 1
R
1 
 0.906
Для определения собственных значений матрицы R, рассмотрим
характеристическое уравнение (12).
0.906    0  1   0.906
 1


0
 0.906
1   0   0.906 1  

Отсюда следует,
(1   )2  0.9062  0 или 1    0.906
Т.к. по условию компонентного анализа 1  2 , то 1  1.9062; 2  0.0938
где 1 , 2 соответственно дисперсии и вклад 1-й и 2-й главных компонент в
суммарную дисперсию, равную 1  2  k  2 .
Относительный вклад компонент в суммарную дисперсию равен:
1
1.9062
100%  95.3%
k
2
2
0.094
100% 
100%  4.7%
k
2
100% 
Таким образом,
0 
1.0962

0.0938 
 0
Определим матрицу собственных векторов из уравнения ( R   E )  0 . Откуда
собственный вектор V1 находим из условия:
 1  1 0.906  V11   0 
 0.906 1    V    
0

1  21 
Подставляя полученные значения получим:
1
V1   
1
Нормированный собственный вектор, соответствующий


U1  



1 
2

1 

2
1 , равен
 1 

1
Аналогично найдем собственный вектор V2  
Откуда, 0,9062V 12+0,9062V22=0 или -Vi2=V22, V2=
Нормированный собственный вектор, соответствующий
2 равен:
 1 
 2 

U1  
 1 


 2 
тогда нормированная матрица собственных векторов имеет вид:


U 



1
2
1
2

1 
2   0.707 0.707 

1   0.707 0.707 

2 
Матрицу факторных нагрузок найдем по формуле:
 1
A  U 1/ 2 , где 1/ 2  
 0

0 

2 
Подставив полученные значения, получим:
 0.9763 0.2166 
A

 0.9763 0.2166 
Матрицу факторных нагрузок используют для интерпретации главных компонент,
т.к. элементы матрицы a jv  rjv характеризуют тесноту связи между xj-м признаком и fv
главной компонентой. В нашем примере первая главная компонента тесно связана с
показателями x1 и x2, f1 - характеризует размер предприятия.
Матрицу значений главных компонент F можно получить по формуле:
F  Z ( AT )1  ZU 1/ 2
 0.835 0.624 
 0.077 1.246 


F   1.515 1.544 


 1.305 0.500 
 0.547 1.122 


Как уже отмечалось, матрица F, которую мы получили, характеризует пять
строительных организаций в пространстве главных компонент. Ее можно использовать в
задачах классификации и регрессионного анализа. Например, классификация организаций
по первой главной компоненте f1, характеризующих размер предприятия, позволяет их
ранжировать в порядке возрастания следующим образом: 1; 4; 2; 5; 3, что согласуется с
матрицей X.
Задача №5
В результате решения задачи, имеющей семь признаков, получено два общих
фактора. Необходимо определить:
1) вклады общих и характерного факторов в дисперсию признаков, %;
2) вклад всех семи признаков в каждый общий фактор, %;
3) вклад каждого общего фактора в суммарную дисперсию, построить график
вкладов признаков в каждый из общих факторов, %;
4) составить таблицу относительного вклада факторов в суммарную дисперсию.
Матрица А весовых коэффициентов общих факторов имеет вид:
 0.90 0.80 0.60 0.50 0.50 0.30 0.20 
A

 0.30 0.30 0.30 0.20 0.50 0.60 0.80 
Признаки z j матрицы A отображены на рис.1.
(25)
Рис. 1. Признаки, отображенные в пространстве общих факторов
Пояснения. Первая строка данной матрицы представляет собой вектор весовых
коэффициентов первого общего фактора. Вторая строка матрицы А - вектор весовых
коэффициентов второго общего фактора. Так, а13 является весовым коэффициентом связи
2
между признаком z3 и первым общим фактором, а a13  0.36 - вклад третьей переменной
в дисперсию первого общего фактора.
Решение
1. Определим вклады общих и характерного факторов в дисперсию признаков.
а) вклад первого признака в дисперсию первого фактора составит
2
2
a11  0.902  0.81 , а его вклад во второй фактор - a21
 0.302  0.09 .
Следовательно h1  a11  a21  0.81  0.09  0.90 ,. а d1  1  0.90  0.10
Результаты расчетов представлены в табл. 1.
Таблица 1
2
2
Расчетные значения h j ; d j
2
2
2
2
№ переменной j
a12j
a22 j
h2j  a12j  a22 j
d 2j  1  h2j
А
1
2
3
4
1
0,81
0,09
0,90
0,10
2
0,64
0,09
0,73
0,27
3
0,36
0,09
0,45
0,55
4
0,25
0,04
0,29
0,71
5
0,25
0,25
0,50
0,50
6
0,09
0,36
0,45
0,55
7
0,04
0,64
0,68
0,32
2. Определим вклады признаков:
а) в дисперсию первого общего фактора. За 100% принимаем дисперсию первого
общего фактора. Дисперсия первого фактора равна сумме элементов табл. 2
7
1  V1   a12j  2.44
j 1
Вклад первого признака в дисперсию первого фактора составит
2
a11
0.81

 0.3320  0.33
V1 2.44
б) в дисперсию второго общего фактора. За 100% принимаем дисперсию второго
общего фактора
7
2  V2   a22 j  1.56
j 1
Вклад первой переменной в дисперсию второго фактора
a122 0.09

 0.0577  0.06
V2 1.56
в) составим таблицу вкладов переменных в дисперсию общих факторов (табл. 2).
Таблица 2
Вклады признаков в дисперсии общих факторов
Вклады признаков, %
№
фактора r
z1
z2
z3
z4
z5
z6
z7
1
33
26
15
10
10
4
2
2
6
6
6
2.5
16
23
41
3. Рассчитаем вклады общих факторов в суммарную общность и определим:
а) суммарную общность
7
 h2j  V0  V1  V2  2.44  1.56  4.00
j 1
б) вклад первого фактора в суммарную общность:
V1 / V0  2.44 / 4.00  0.61
в) вклад второго фактора в суммарную общность:
1  V1 / V0  1  0.61  0.39
г) вклады каждого признака в общность первого и второго факторов с точностью
до 1% (табл.3). Для этого надо вклад каждого признака (табл.3) умножить на вес
2
соответствующего фактора в суммарной общности процесса, или значения a1 j и a22 j
(табл.2) разделить на суммарную общность (4,0).
Таблица 3
Вклады признаков с учетом вкладов факторов в суммарную общность
Вклады признаков, %
№ фактора r
z1
z2
z3
z4
z5
z6
z7
1
20
16
9
6
6
2
1
2
2
2
2
1
6
9
16
График вкладов признаков в каждый из общих факторов самостоятельно.
4. Составим итоговую таблицу долей дисперсий факторов (табл.4).
Таблица 4
№
фактора r
А
1
2
3
4
Наименование
дисперсии
1
Дисперсия процесса
(полная дисперсия)
Дисперсия первого
фактора
Дисперсия второго
фактора
Доли дисперсий факторов
Значение
Формула
вклада
2
3
2
7,00
ŝ
Вклад,
%
4
100
7
V1   a12j
2,44
34,86
V2   a22 j
1,56
22,29
4,0
57,14
Общность процесса V0 
(суммарная общность)
j 1
7
j 1
7
 h2j  V1  V2
j 1
7
Vx   d 2j
Суммарная
3,0
42,86
j

1
характерная
дисперсия
Следует отметить, что дисперсия процесса равна 7 и совпадает с числом признаков.
Дисперсия каждого нормированного признака равна 1, поэтому полная дисперсия при
семи показателях равна 7.
Естественно, что Vx  V0  4.0  3.0  7.0 . Необходимо также заметить, что весь
анализ дисперсий был проведен только на основе заданной матрицы весовых
коэффициентов общих факторов. Значит, значение общих факторов однозначно
определяет значения весовых коэффициентов характерных факторов.
5
Задача №6
Провести классификацию п=6 объектов, каждый из которых характеризуется двумя
признаками.
Номер
1
2
3
4
5
6
объекта i
Xil
5
6
5
10
11
10
Xi2
10
12
13
9
9
7
Расположение этих точек на плоскости показано на рис. 2.
Рис. 2
Воспользуемся агломеративным иерархическим алгоритмом классификации. В
качестве расстояния между объектами примем обычное евклидово расстояние. Тогда
согласно (1) расстояние между объектами 1 и 2 равно
12  (5  6) 2  (10  12) 2  2.24 ,
а между объектами 1 и 3 - 13 
(5  5) 2  (10  13) 2  3 ,
очевидно, что ii  0
Аналогично находим расстояния между всеми шестью объектами и строим
матрицу расстояний
2.24
3
5.10 6.08
 0
 2.24
0
1.41
5
5.83

 3
1.41
0
6.40 7.21
D
5
6.40
0
1
 5.10
 6.08 5.83 7.21
1
0

2
2.24
 5.83 640 7.81
5.83 
6.40 
7.81 

2 
2.24 

0 
Из матрицы расстояний следует, что объекты 4 и 5 наиболее близки d4,5=l,00 и
поэтому по методу «ближайшего соседа» объединяются в один кластер.
После объединения имеем пять кластеров
Номер кластера
1
2
3
4
5
(1)
(2)
(3)
(4,5)
(6)
Состав кластера
Расстояние между кластерами будем находить по принципу "ближайшего соседа",
воспользовавшись формулой пересчета (15). Так, расстояние между объектом S1 и
кластером S(4,5) равно 5.10
Мы видим, что расстояние Ρ 1, (4,5) равно расстоянию от объекта 1 до ближайшего к
нему объекта, входящего в кластер S(4,5), т.е. Ρ 1,(45) = Ρ 1,4 =5,10- Тогда матрица расстояний
равна
2.24
3
5.10 5.83 
 0
 2.24

0
1.41
5
6.40


D2   3
1.41
0
6.40 7.81 


5
6.40
0
2 
 5.10
 5.83 6.40 7.81
2
0 

Объединим объекты 2 и 3, имеющие наименьшее расстояние Ρ2.3 =1,41. После
объединения имеем четыре кластера: S(i), S(2,3), S(4,5), S(6).
Вновь найдем матрицу расстояний. Для этого необходимо рассчитать расстояние
до кластера s(2,3)- Для этого воспользуемся матрицей расстояний D2. Например, расстояние
между кластерами s(4,5) и S(2,3) равно:
Проведя аналогичные расчеты, получим
2.24 5.10 5.83 
 0
 2.24
0
5
6.40 

D3 
 5.10
5
0
2 


2
0 
 5.83 6.40
Объединим кластеры S(4,5) и S(6), расстояние между которыми согласно матрице D3
наименьшее.
В результате этого получим три кластера Si,
S(2,3) И
S(4,5,6)Матрица расстояний будет иметь вид
2.24 5.10 
 0

D4   2.24
0
5 
 5.10
5
0 

Объединим теперь кластеры S1 и S23, расстояние между которыми равно 2,24. В
результате получим два кластера: S(i,2,3) S(4,5,6), расстояние между которыми,
найденное по принципу "ближайшего соседа", равно 5
Результаты иерархической классификации объектов представлены на рис. 3 в виде
дендрограммы.
ρ
5.00
2.24
2.00
1.41
1.00
1
2
3
4
Рис. 3. Дендрограмма
5
6
Слева на рисунке приводится расстояние между объединяемыми на данном этапе
кластерами (объектами).
В задаче предпочтение следует отдать предпоследнему этапу классификации, когда
все объекты объединены в два кластера
S(l,2,3)
и
S(4,5,6), что наглядно видно на рис. 2 и 3.
Задача №7
Пусть имеются шесть объектов, которые необходимо разбить на три класса
(кластера) при помощи метода k-средних. Каждый из объектов описывается тремя
переменными Х1, Х2 X3. Исходные значения этих переменных представлены в таблице
Исходные данные
Номер
X1
X2
X3
объекта
1
0,10
10
5,0
2
0,80
14
2,0
3
0,40
12
3,0
4
0,18
11
4,0
5
0,25
13
3,2
6
0,67
15
2,4
В качестве эталонов возьмем первые три объекта (k = 3). Согласно выбранному
правилу классификации запишем исходные значения эталонов и весов:
E10  X 1  (0.10,10,5.0); 10  1

E20  X 2  (0.80,14,2.0); 20  1 — нулевая итерация.
E30  X 3  (0.40,12,3.0); 30  1
На первом шаге берем четвертый объект и определяем его расстояние до каждого
из эталонов по евклидовой метрике:
d41 =1,416, d42 =3,222, d43 = =1,431.
Следовательно, рассматриваемый объект должен быть присоединен к первому
эталону и первый эталон будет пересчитан, а второй и третий не меняются:
10 E10  X 4  0.10  0.18 10  11 5  4 
E 

,
,
  (0.14,10.5,4.5);
2
2
2 
10  1

11  10  1
1
1
где Х4 — вектор значений переменных для четвертого объекта, Е\ — пересчитанное
значение эталона;
На втором шаге проверяем, к какому эталону ближе всего находится пятый объект:
d5l =2.820,
d52=1.656,
d53=1.031
П ятый объект присоединяется к третьему эталону, этот эталон пересчитывается и
вес его увеличивается:
 0.40  0.25 13  12 3  3.2 
2
1
E32  
,
,
  (0.325,12.5,3.1); 3  3  1
2
2
2 

На третьем шаге все рассуждения повторяем для шестого объекта:
d61 =4,994, d62=1.085,
d63=2.619
Пересчитываем второй эталон и его вес:
 0.80  0.67 14  15 2  2.4 
3
2
E23  
,
,
  (0.735,14.5,2.2); 2  2  1
2
2
2 

После того как просмотрены все объекты, кроме первых трех, процесс
«зацикливается», т.е. по тому же правилу осуществляются просмотр и присоединение к
соответствующему эталону каждого из шести объектов. При этом происходит пересчет
эталонов и продолжается наращивание их весов. Результаты расчетов, начиная с
четвертой итерации, представлены в таблице.
Итак, на этом процесс завершается, так как последующее разбиение (интерации
16—21) дали такой же результат, как и предыдущее разбиение (итерации 10—15).
Образованы три кластера: S1 {1}, S2{2, 6}, S3 {3, 4, 5}. Вычисляем центры тяжести
полученных кластеров, причем в общем случае эти центры не совпадают с эталонами:
С1= (0,10; 10; 5,0)
— центр 1 кластера,
С2 = (0,735; 14,5; 2,2) — центр 2 кластера,
С3 = (0,277; 12,00; 3,4) - центр 3 кластера.
После этого строится окончательное разбиение: каждая многомерная точка
относится к тому кластеру, центр которого ближе всех к этой точке.
Для нашего примера определяем поочередно расстояния всех точек (Х1, X2, X3, Х4,
Х5, Х6) до центров трех кластеров.
Как видно из табл. 4, подтверждается полученное разбиение на три кластера: S1
{1}, S2{2, 6}, S3 {3, 4, 5}. На этом алгоритм завершается.
Параметрические данные кластеризации объектов методом k- средних
Номер итерации
Эталоны и их веса
1
2
3
4
(0.127, 7, 4.7)
(0.735, 14.5, 2.2)
(0.325, 12.5, 3.1)
3
2
2
5
(0.127, 7, 4.7)
(0.757, 14.33, 2.133)
(0.325, 12.5, 3.1)
3
3
2
6
(0.127, 7 ,4.7)
(0.757, 14.33, 2.133)
(0.35, 12.33, 3.07)
3
3
3
7
(0.140, 8, 4.3)
(0.757, 14.33, 2.133)
(0.35, 12.33, 3.07)
4
3
3
8
(0.140, 8, 4.3)
(0.735, 14.5, 2.2)
(0.35, 12.33, 3.07)
4
4
3
9
(0.132, 8.4, 4.44)
(0.735, 14.5, 2.2)
(0.35, 12.33, 3.07)
5
4
3
10
(0.126, 5.72, 4.55)
(0.735, 14.5, 2.2)
(0.35, 12.33, 3.07)
6
4
3
11
(0.126, 5.72, 4.55)
(0.748, 14.4, 2.16)
(0.35, 12.33, 3.07)
6
5
3
12
(0.126, 5.72, 4.55)
(0.748, 14.4, 2.16)
(0.36, 12.25, 3.050
6
5
4
13
(0.126, 5.72, 4.55)
(0.748, 14.4, 2.16)
(0.324, 12, 3.24)
6
5
5
14
(0.126, 5.72, 4.55)
(0.748, 14.4, 2.16)
(0.312, 12.17, 3.23)
6
5
6
15
(0.126, 5.72, 4.55)
(0.735, 14.5, 2.2)
(0.312, 12.17, 3.23)
6
6
6
16
(0.122, 8.9, 4.61)
(0.735, 14.5, 2.2)
(0.312, 12.17, 3.23)
7
6
6
17
(0.122, 8.9, 4.61)
(0.744, 14.43, 2.17)
(0.312, 12.17, 3.23)
7
7
6
18
(0.122, 8.9, 4.61)
(0.744, 14.43, 2.17)
(0.324, 12.14, 3.20)
7
7
7
19
(0.122, 8.9, 4.61)
(0.744, 14.43, 2.17)
(0.306, 12.00, 303)
7
7
8
20
(0.122, 8.9, 4.61)
(0.744, 14.43, 2.17)
(0.3, ,12.11, 3.29)
7
7
9
21
(0.122, 8.9, 4.61)
(0.735, 14.5, 2.2)
(0.3, ,12.11, 3.29)
7
8
9
Номер объекта
1
2,6
3,4,5
Расстояния до центров классов
Центры
кластеров
С1
С2
С3
1
0
5,338
5,920
2
5,049
0,542
2,497
Объекты
3
4
2,844 1,416
2,646 3,939
0,418 1,169
5
3,502
1,867
1,020
6
5,664
0,542
3,187
Задача №8
Деятельность каждого производственного объединения отрасли оценивалась по
следующим трем показателям:
• среднегодовой стоимости основных производственных фондов (ОПФ);
• среднесписочной численности промышленно-производственного персонала
(ППП);
• балансовой прибыли.
В отрасли выделены две группы: передовая, состоящая из четырех объединений, и
остальная, включающая пять объединений.
Отрасли передано объединение Z, у которого по принятым трем показателям
получены следующие результаты: стоимость ОПФ - 55,451; численность ППП - 9,592
тыс.человек; балансовая прибыль -12,840.
Определить, можно ли отнести новое объединение к передовой группе
предприятий отрасли.
Решение
1. Запишем исходные данные в виде матриц X и Y согласно (9) и (10).
Исходные данные
Показатели
Стоимость Численность Балансовая
Группа
ОПФ
ППП
прибыль
объединений
224,228
17,115
22,981
151,827
14,904
21,481
Передовая
147,313
13,627
28,669
152,253
10,545
10,199
46,757
4,428
11,124
29,033
5,510
6,091
Остальная
52,134
4,214
11,842
37,050
5,527
11,873
63,979
4,211
12,860
 224.228 17.115 22.981 
 151.827 14.904 21.481 

X 
 147.313 13.627 28.669 


 152.253 10.545 10.199 
 46.751 4.428 11.124 
 29.033 2.210 6.091 


Y   52.134 4.214 11.842 


37.050
5.527
11.873


 63.979 4.211 12.860 


строка матрицы Z: Zr= (55,451
9,592 12,840).
2. Получим векторы средних
168.92025 
 45.7926 


X   14.04775  ; Y   4.778 
 20.8324 
 10.758 




3. Определим оценку ковариационных матриц
1025.61 55.66575
S x  
5.6468625


145.8666 6.60952
S y  
0.371782


28.94475 
10.27365 
44.879675 
22.78694 
0.902484 
5.750302 
4. Получим несмещенную оценку суммарной ковариационной матрицы
 690.25328 27.087914 32.816242 
1
Sˆ 
(4S x  5S y )  
3.4923371 5.2260257 
452

29.752887 

5. Определим обратную матрицу
 0.0020945371 0.017349116 0.00073714 
Sˆ 1  
0.53214303 0.07433441

0.04565381 

6. Найдем вектор оценок коэффициентов дискриминации a
7. Вычислим оценки дискриминантной функции
 12.437003 
 55.346433 
13.486817 
 43.457381 


 ; Uˆ   12.46277 
Uˆ x  Xa 
 39.3990544  y 

13.571031




 36.113833 
 13.555623 


8. Определим средние значения оценок дискриминантной функции
uˆx  43.577047; uˆ y  13.102648
9. Получим константу
1
Cˆ  (43.577047  13.102648)  28.339847
2
10. Определим возможность включения объединения Z в группу •передовых. Так
как матрица Z представлена одной строкой, то Uˆ y обозначим Uˆ z .
Uˆ z  a1z1  a2 z2  a3 z3  23.69
Среднее значение дискриминантной функции меньше чем константа,
следовательно, объединение z не может быть отнесено к группе передовых предприятий
Задачи для самостоятельного решения:
Задача №1
Выработка на одного работающего в строительно-монтажных организациях
описывается логарифмически нормальным распределением. Из чего следует, что
логарифм величины выработки имеет нормальное распределение
P(ln x; m, ) 
1
x 2
e
 (ln x m )2
2 2
, ãäå x  0
с дисперсией  и средней т. В таблице представлены центрированные значения
логарифма выработки.
Центрированные значения логарифма выработки в строительно-монтажных
организациях
ln xi  m №
ln xi  m №
№
ln xi  m №
ln xi  m
ln xi  m №
организ
орган
орган
органи
орган
ации
изаци
изаци
зации
изаци
и
и
и
1
-0,13
4
0,03
7
-0,60 10
-0,02
13
0,04
2
0,08
5
0,21
8
-0,06 11
-0,19
14
0,17
3
0,43
6
-0,09
9
-0,09 12
-0,10
15
0,27
Построить вариационный ряд и выявить не являются ли крайние правое или левое
значения грубыми ошибками.
2
Задача №2
По данным n=10 машиностроительных предприятий методами корреляционного
анализа исследуется взаимосвязь между следующими показателями: x1 - рентабельность
(%); x2 - премии и вознаграждения на одного работника (млн.руб.); х3 - фондоотдача.
№ п/п x1 x2 х3
1 13,26 1,23 1,45
2 10,16 1,04 1,30
3 13,72 1,80 1,37
4 12,82 0,43 1,65
5 10,63 0,88 1,91
6
9,12 0,57 1,68
7 25,83 1,72 1,94
8 23,39 1,70 1,89
9 14,68 0,84 1,94
10 10,05 0,60 2,06
Требуется:
а) рассчитать вектора средних и среднеквадратических отклонений, матрицу
парных коэффициентов корреляции ( x , s, R);
б) проверить при  =0,05 значимость парного коэффициента корреляции 1,2 и
найти
его интервальную оценку с доверительной вероятностью  =0,95;
в) по корреляционной матрице R рассчитать частные коэффициенты корреляции
г) проверить при  =0,05 значимость частного коэффициента корреляции 1,2 / 3 и
определить его интервальную оценку при  =0,95;
д) по корреляционной матрице R вычислить оценку множественного коэффициента
корреляции r1/ 2,3 и при  =0,05 проверить гипотезу Н0: r1/ 2,3 =0.
Задача №3
На основании данных о темпе прироста (%) внутреннего национального продукта
(У) и промышленного производства (X) десяти развитых стран мира за 1992г.,
приведенных в таблице и предположения, что генеральное уравнение регрессии имеет
вид:
страны
Y
X
Япония
3,5
4,3
США
зд
4,6
Германия
2,2
2,0
Франция
2,7
3,1
Италия
2,7
3,0
Великобритания
1,6
1,4
Канада
3,1
3,4
Австралия
1,8
2,6
Бельгия
2,3
2,6
Нидерланды
2,3
2,4
Требуется:
а) определить оценки вектора b и остаточной дисперсии S;
б) при  =0,05 проверить значимость уравнении регрессии;
в) при  =0,05 проверить значимость коэффициентов уравнения;
г) с доверительной вероятностью  =0,9 построить интервальные оценки;
д) с доверительной вероятностью  =0,9 построить интервальные оценки
1
 3
уравнения регрессии в точках, определяемых вектором начальных условий х°=  
1
5
х°=  
Задача №4
По данным n=20 сельскохозяйственных районов провести компонентный анализ и
построить уравнение регрессии урожайности Y на главные компоненты.
Y - урожайность зерновых культур (ц/га);
X1 - число колесных тракторов (приведенной мощности) на 100 га;
Х2 - число зерноуборочных комбайнов на 100 га;
Х3 - число орудий поверхностной обработки почвы на 100 га;
Х4 - количество удобрений, расходуемых на гектар;
Х5 - количество химических средств оздоровления растений, расходуемых на
гектар.
Исходные данные для анализа приведены в таблице
Исходные данные для анализа
Номер
Y
X1
X2
X3
X4
X5
наблюдения
1
9.70
1.59
0.26
2.05
0.32
0.14
2
8.40
0.34
0.28
0.46
0.59
0.66
9.00
2.53
0.31
2.46
0.30
0.31
4
9.90
4.63
0.40
6.44
0.43
0.59
5
9.60
2.16
0.26
2.16
0.39
0.16
6
8.60
2.16
0.30
2.69
0.32
0.17
7
12.50
0.68
0.29
0.73
0.42
0.23
8
7.60
0.35
0.26
0.42
0.21
0.08
9
6.90
0.52
0.24
0.49
0.20
0.08
10
11
12
13
14
15
16
17
18
19
20
13.50
9.70
10.70
12.10
9.70
7.00
7.20
8.20
8.40
13.10
8.70
3.42
1.78
2.40
9.36
1.72
0.59
0.28
1.64
0.09
0.08
1.36
0.31
0.30
0.32
0.40
0.28
0.29
0.26
0.29
0.22
0.25
0.26
3.02
3.19
3.30
11.51
2.26
0.60
0.30
1.44
0.05
0.03
1.17
1.37
0.73
0.25
0.39
0.82
0.13
0.09
0.20
0.43
0.73
0.99
0.73
0.17
0.14
0.38
0.17
0.35
0.15
0.08
0.20
0.20
0.42
Задача №5
С целью изучения помощи факторного анализа взаимосвязей между восемью
показателями по данным n=305 наблюдений была построена матрица парных
2
коэффициентов корреляции R. Требуется определить h j , используя следующие методы:
1) наибольшего элемента по строке (столбцу);
2) среднего коэффициента корреляции;
3) триад;
4) первого центроидного фактора.
Составить таблицу и построить график по полученным результатам. Сравнить
полученные результаты с данными Хармана. (См.: Харман Г. Современный факторный
анализ / Пер. с англ. - М.: Статистика, 1972)
Матрица парных коэффициентов корреляции R представлена в виде треугольной,
хотя она является симметрической.
x2
x3
x4
x5
x6
x7
x8
xg x1
xj
x1
x2
x3
x4
x5
x6
x7
x8
1
0,846
0,805
0,859
0,473
0,398
0,301
0,382
1
0,881
0,826
0,376
0,326
0,277
0,415
1
0,801
0,380
0,319
0,237
0,345
1
0,436
0,329
0,327
0,365
1
0,762 1
0,730 0,583 1
0,629 0,577 0,539
1
Задача №6
По иерархическому агломеративному алгоритму провести классификацию n=4
хозяйств, работа которых характеризуется показателями объема реализованной
продукции: x1 - растениеводства и х2 - животноводства с одного гектара пашни
(млн.руб/га). Построить дендрограмму.
номер хозяйства 1
2 3 4
Хi1
1
7 1 9
Xi2
5
9 3 7
Для этого:
а) в качестве расстояния между объектами принять обычное евклидово расстояние,
а расстояние между кластерами измерять по принципу "средней связи";
б) в качестве расстояния между объектами принять взвешенное евклидово
расстояние с "весами" 1 =0,l,  2 =0,9, а расстояние между кластерами измерять по
принципу "дальнего соседа";
в) в качестве расстояния между объектами принять обычное евклидово расстояние,
а расстояние между кластерами измерять по принципу "центра тяжести".
Задача №7
Раздел 6. Изменения в рабочей программе, которые произошли после утверждения
программы.
Характер
изменений в
программе
Номер и дата
протокола заседания
кафедры, на котором
было принято
данное решение
Подпись заведующего
кафедрой,
утверждающего
внесенное изменение
Подпись декана
факультета (проректора
по учебной работе),
утверждающего данное
изменение
Раздел 7. Учебные занятия по дисциплине ведут:
Ф.И.О., ученое звание и степень Учебный год Факультет
Специальность
преподавателя
Давидюк Е.С.
2006/2007
ПМПЭ
080116 «Математические
методы в экономике»
Давидюк Е.С.
2007/2008
ПМПЭ
080116 «Математические
методы в экономике»
Шеломовский В.В.
2010/2011
ФМОИП
080116 «Математические
методы в экономике»
Давидюк Е.С.
2011/2012
ФМОИП
080116 «Математические
методы в экономике»
Давидюк Е.С.
2012/2013
ФМОИП
080116 «Математические
методы в экономике»
Download