Программа дисциплины САНИ

advertisement
Государственный университет – Высшая школа экономики
Факультет экономики
Отделение статистики, анализа данных и демографии
Программа дисциплины
” Статистический анализ нечисловой информации ”
для направления 080100.62 Экономика: Отделение статистики,
анализа данных и демографии - бакалавриат
Автор – к.э.н. Е.В.Астафьева
Рекомендована секцией УМС
_____________________________
Председатель
_____________________________
«_____» __________________ 2010 г.
Одобрена на заседании кафедры
статистических методов
Зав. кафедрой
___________________В.С. Мхитарян
«____»_____________________ 2010 г
Утверждена УС факультета
_________________________________
Ученый секретарь
_________________________________
« ____» ___________________2010 г.
Москва
2010
1
«Статистический
анализ
нечисловой
информации»
является
основной
дисциплиной, занимающейся проблематикой статистических методов исследования
данных, представленных в виде частотных таблиц.
Целью
дисциплины
представления
измеренных
о
в
методах
является
формирование
исследования
номинальных
природы
шкалах,
а
у
студентов
взаимосвязей
также
развития
научного
признаков,
вероятностно-
статистического мышления, необходимого для успешной исследовательской и
аналитической работы по изучению закономерностей, лежащих в основе сложных
массовых явлений и процессов.
Задачами изучения дисциплины являются усвоение методов количественного
анализа взаимосвязей категоризированных признаков, формирование умений
содержательно интерпретировать полученные результаты.
В процессе изучения дисциплины студенты должны:
Иметь представление: об основных терминах и понятиях статистического
анализа нечисловой информации.
Знать: Определение и классификацию шкал измерений, определение и
свойства таблиц сопряженности, методы проверки гипотезы независимости
признаков, замеренных в номинальных шкалах, вероятностную интерпретацию
и принципы расчета мер тесноты связи между переменными, формулировку
логлинейных моделей и их классификацию, методы проверки адекватности
логлинейных моделей и принципы нахождения оптимальной модели.
Уметь: использовать методы анализа нечисловой информации в практических
задачах.
Дисциплины, знание которых необходимо для изучения данного курса:
математический анализ (дифференциальное и интегральное исчисления); теория
вероятностей; математическая статистика.
2
Дисциплины, для изучения которых необходимы знания данного курса:
статистические методы прогнозирования; многомерные статистические методы;
эконометрическое моделирование.
Курс
имеет
практическую
направленность,
что
реализуется
через
рассмотрение конкретных прикладных задач, иллюстрирующих теоретическое
содержание программы дисциплины. Лекционная часть курса чередуется с
проведением
практических
теоретических положений
занятий,
что
способствует
лучшему
освоению
курса. Лекции и семинары дополнены проведением
контрольных мероприятий (контрольные работы).
3
Тематический план учебной дисциплины
№
Тема
Всего
часов по
дисциплине
Аудиторные часы
Лекции
Практические
занятия
Самостоятельная
работа
Формы
текущего
контроля
Раздел I. Анализ таблиц сопряженности
1 Предмет и содержание
курса «Статистический
1
1
анализ нечисловой
информации»
2 Проверка гипотезы
независимости двух
17
3
4
категоризированных
переменных
3 Анализ тесноты
взаимосвязи двух
28
6
6
категоризированных
переменных
4 Связь и независимость в
многомерных таблицах
10
2
2
сопряженности
Раздел II. Логарифмически-линейный анализ
5 Логарифмическилинейные модели для
таблиц сопряженности
2Х2
6 Логарифмическилинейные модели для
таблиц сопряженности
2Х2Х2
7 Принципы
логарифмическилинейного анализа
многомерных таблиц
14
2
2
-
10
к.р, д.з
16
6
10
к.р, д.з
30
4
8
18
8
2
2
4
108
20
24
64
Базовые учебники
4
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и
статистика, 1982. (http://lib.socio.msu.ru/l/library?e=d-000-00---001ucheb--00-0-00prompt-10---4------0-1l--1-ru-50---20-help---00031-001-1-0windowsZz-125100&cl=CL1&d=HASH01be57578aad79)
2. Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. – М.:
Наука, 1973.
Формы контроля:
Итоговая оценка по учебной дисциплине складывается из следующих
элементов:
№
1
2
3
4
Наименование элемента
Активность работы на лекциях и семинарах
Аудиторные контрольные работы (2 части, на анализ
таблиц сопряженности и логлинейный анализ) – по 80
мин. каждая
Домашняя контрольная работа (5 частей, по темам 2-6)
Экзамен
Обозначение
А
К
D
Э
Каждая форма контроля оценивается по 10-балльной шкале. Итоговая оценка
Z складывается из оценки А за активность на занятиях (10%), К - за аудиторную
контрольную работу (10+10=20%),
D
- за домашнюю
контрольную работу
(3+3+9+5+10=30%) и оценки за экзамен Э (40 %).
Экзаменационный билет состоит из двух теоретических вопросов и трех задач.
За экзамен отличная оценка может быть поставлена только при условии полного
ответа на все 5 вопросов, свободного владения теоретическим материалом и
практическими навыками. Хорошая оценка может быть поставлена только при
условии хороших ответов по крайней мере на 4 из 5 экзаменационных вопросов,
твердого знания основ курса.
Удовлетворительная оценка ставится при
правильных ответах на 3 из 5 экзаменационных вопросов, при этом обязательны
ответ на один теоретический вопрос и решение одной задачи.
Итоговая оценка вычисляется по формуле:
Z=0,1∙A+0,2∙K+0,3∙D+0,4∙Э
5
Результат округляется до целых единиц по правилам математики. Итоговая
оценка выставляется в 5-балльной и 10-балльной системах в ведомость и зачетную
книжку студента. Перевод в 5-балльную систему из 10-балльной системы
осуществляется согласно следующему правилу:
0 ≤ Z ≤ 3 неудовлетворительно,
4≤Z≤5
удовлетворительно,
6≤Z≤7
хорошо,
8 ≤ Z ≤ 10 отлично.
Содержание программы
Раздел I. Анализ таблиц сопряженности
Тема 1. Предмет и содержание курса «Статистический анализ нечисловой
информации»
Предмет и содержание курса «Статистический анализ нечисловой информации».
Шкалы измерений. Иерархическая упорядоченность шкал. Свойства шкал и их
допустимые преобразования. Типы категоризации данных. Определение двумерных
таблиц сопряженности. Частотные и вероятностные таблицы. Классификация
таблиц в зависимости от анализируемых данных. Свойства двумерных таблиц
сопряженности. Маргинальные частоты. Одномерные распределения признаков.
Основная литература:
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Глава 2).
2. Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. – М.: Наука, 1973
(Глава 33).
Тема 2. Проверка гипотезы независимости двух категоризированных
переменных
Дихотомические
переменные.
Таблицы
сопряженности
2Х2.
МНП-оценки
вероятностей таблицы сопряженности 2Х2 и их свойства. Закон распределения
6
выборочных частот таблицы сопряженности 2Х2. Независимость переменных.
Основные характеристики связи. Гипотеза независимости двух дихотомических
переменных.
МП-оценки
вероятностей
таблицы
сопряженности
2Х2
и
теоретические частоты, соответствующие гипотезе независимости. Критерий
независимости (критерий согласия χ2). Ассимтотический критерий независимости
(критерий правдоподобия). Ассимтотический закон распределения статистики χ2инф.
Точный критерий независимости двух дихотомических переменных. Методы отбора
объектов
в
выборку
и
свойства
соответствующих
маргинальных
частот.
Оптимальный критерий независимости для таблиц сопряженности 2Х2. Поправка на
непрерывность в асимптотическом χ2-критерии.
Общий двумерный случай (таблица сопряженности rХs): гипотеза независимости
двух
переменных.
независимости.
Теоретические
Критерии
проверки
частоты,
соответствующие
независимости
двух
гипотезе
переменных.
Представление статистики χ2инф через наблюдаемые и маргинальные частоты.
Частный двумерный случай (таблица сопряженности 2Хs). Биномиальный критерий
однородности. Пуассоновский критерий однородности.
Выявление источников отсутствия независимости. Разбиение χ2 – теоретические
предпосылки и правила построения.
Основная литература:
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Главы 2-3).
2. Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. – М.: Наука, 1973
(Глава 33).
Дополнительная литература:
1. Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив. статистика,
изучение связи между номинал. признаками: Учеб. пособие. – М.: Науч. мир, 2000.
2. Yates F. Contingency tables involving small numbers and the χ2 test. – Supplement to the
Journal of Royal Statistical Society, 1, 217-235.
3. Fisher R. A., The Design of Experiments, Oliver and Boyd, Edinburgh, 1935.
4. Tocher K. D., Extension of the Neyman—Pearson theory of tests to discontinuous variates,
Biometrika, 1950.
5. Roy S. N., Mitra S. K., An introduction to some non-parametric generalizations of analysis of
variance and multivariate analysis, Biometrika, 43, 1956.
7
Тема 3. Анализ тесноты взаимосвязи двух категоризированных переменных
Меры тесноты связи между переменными. Требования, предъявляемые к мерам
связи.
Меры,
основанные
коэффициент
Чупрова,
сопряженности.
непосредственно
коэффициент
Максимальные
на χ2:
Крамера.
достижимые
коэффициент
Свойства
значения
Пирсона,
коэффициентов
коэффициентов
сопряженности. Стандартные ошибки коэффициентов и их интервальные оценки.
Недостатки коэффициентов сопряженности.
Простейшие меры тесноты связи (для дихотомических переменных). Отношение
преобладаний (С) и его свойства. Принцип инвариантности Юла. Коэффициент
ассоциации Юла (Q), его свойства и вероятностная интерпретация. Коэффициент
коллигации (Y), его свойства и вероятностная интерпретация.
Коэффициент
контингенции (V) и его свойства. Связь между простейшими мерами связи и
различия между ними. Стандартные ошибки простейших мер связи.
Коэффициенты с теоретико-вероятностной интерпретацией. Общий подход к
построению
коэффициентов.
Коэффициенты
Гудмена-Краскала
(λ-меры):
вероятностная интерпретация и свойства, недостатки и улучшенные оценки. τ-меры
Гудмена-Краскала: вероятностная интерпретация и свойства. Интервальные оценки
коэффициентов с теоретико-вероятностной интерпретацией.
Меры связи для таблиц с порядковыми данными. Простейшая t-мера (ta): ее свойства
и недостатки. t-меры Кендэла и их свойства. d-меры Сомерса. Мера ГудменаКраскала и ее свойства.
Основная литература:
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Главы 2-3).
2. Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. – М.: Наука, 1973
(Глава 33).
Дополнительная литература:
1. Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив. статистика,
изучение связи между номинал. признаками: Учеб. пособие. – М.: Науч. мир, 2000.
2. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. – М.:
Финансы и Статистика, 1989.
3. Haldane J. B. S., The mean and variance of χ2 when used as a test of homogeneity, when
expectations are small, Biometrika, 31, 1939.
8
4. Goodman L. A., Kruskal W. H., Measures of association for cross classifications. Parts I,
Journal of Amer. Stat. Association, 49, 1954.
5. Goodman L. A., Kruskal W. H., Measures of association for cross classifications. Parts II,
Journal of Amer. Stat. Association, 54, 1959.
6. Goodman L. A., Kruskal W. H., Measures of association for cross classifications. Parts III,
Journal of Amer. Stat. Association, 58, 1963.
Тема 4. Связь и независимость в многомерных таблицах сопряженности
Формирование
многомерных
таблиц
сопряженности.
Определение
многомерных таблиц сопряженности (на примере таблицы сопряженности трех
дихотомических переменных). Частотные и вероятностные таблицы. Свойства
многомерных
таблиц
сопряженности.
Маргинальные
частоты.
Частные
распределения признаков. Анализ связей в трехмерных таблицах: одновременная
независимость, условная независимость, взаимная независимость - определение и
проверяемые гипотезы. Частные меры связи. Кажущиеся связи. Парадокс Симпсона.
Основная литература:
3. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Глава 4).
4. Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. – М.: Наука, 1973
(Глава 33).
Дополнительная литература:
1. Goodman L. A., On methods for comparing contingency tables, Journal of Royal Statistical
Society A, 126. 1963.
2. Goodman L. A., Simultaneous confidence limits for crossproduct ratios in contingency tables,
Journal of Royal Statistical Society В, 26. 1964.
3. Goodman L. A., Simple methods for analysing three-factor interaction in contingency tables,
Journal of Amer. Stat. Association, 59. 1964.
4. Roy S. N., Kastenbaum M. A., On the hypothesis of no «interaction» in a multiway contingency
table, Ann. Math. Statist. 27, 1956.
Раздел II. Логарифмически-линейный анализ
Тема 5. Логарифмически-линейные модели для таблиц сопряженности 2Х2
Понятие логлинейной модели. Насыщенная и ненасыщенные модели (модель
независимости, модель с отсутствием влияния одного из факторов, равновероятная
модель). Оценка параметров моделей. Проверка адекватности логлинейной модели.
9
Выбор
оптимальной
модели.
Проверка
значимости
отдельных
параметров
логлинейной модели.
Основная литература:
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Глава 5).
Дополнительная литература:
1. Мирзоев А.А., Логлинейный анализ социологической информации // Многомерный
анализ социологических данных (методические рекомендации, алгоритмы, описания
программ). – М.: ИСИ АН СССР, 1981.
2. Мирзоев А.А., Применение логлинейного анализа для обработки данных
социологических исследований // Математико-статистические методы анализа данных в
социологических исследованиях. – М.: ИСИ АН СССР, 1980.
3. Толстова Ю.Н., Рыжова А.В. Анализ таблиц сопряженности: использование отношений
преобладаний и логлинейных моделей. Социология: 4M, 16, 2003.
4. Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив. статистика,
изучение связи между номинал. признаками: Учеб. пособие. – М.: Науч. мир, 2000.
5. Миркин Б.Г. Анализ качественных признаков и структур. – М.: Статистика, 1980.
Тема 6. Логарифмически-линейные модели для таблиц сопряженности 2Х2Х2
Насыщенная и ненасыщенные модели (модель условной независимости, модели
условной независимости двух факторов, модели независимости двух факторов
от третьего, модель главных эффектов трех факторов, модели с отсутствием
влияния главного эффекта одного из факторов, модели с отсутствием влияния
главного эффекта одного из факторов и независимостью двух других, модели с
отсутствием влияния главного эффекта двух факторов, равновероятная модель).
Оценка параметров моделей. Проверка адекватности логлинейной модели.
Выбор оптимальной модели. Проверка значимости отдельных параметров
логлинейной модели.
Основная литература:
1. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Главы 6-7).
Дополнительная литература:
1. Мирзоев А.А., Логлинейный анализ социологической информации // Многомерный
анализ социологических данных (методические рекомендации, алгоритмы, описания
программ). – М.: ИСИ АН СССР, 1981.
2. Мирзоев А.А., Применение логлинейного анализа для обработки данных
социологических исследований // Математико-статистические методы анализа данных в
социологических исследованиях. – М.: ИСИ АН СССР, 1980.
10
3. Толстова Ю.Н., Рыжова А.В. Анализ таблиц сопряженности: использование отношений
преобладаний и логлинейных моделей. Социология: 4M, 16, 2003.
4. Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив. статистика,
изучение связи между номинал. признаками: Учеб. пособие. – М.: Науч. мир, 2000.
5. Миркин Б.Г. Анализ качественных признаков и структур. – М.: Статистика, 1980.
Тема 7. Принципы логарифмически-линейного анализа многомерных таблиц
Иерархические модели и основное правило их построения.
Соотношения
между параметрами ненасыщенных моделей и маргинальными суммами таблицы
сопряженности. Методы поиска оптимальной модели.
Основная литература:
2. Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и статистика, 1982
(Главы 6-7).
Дополнительная литература:
6. Мирзоев А.А., Логлинейный анализ социологической информации // Многомерный
анализ социологических данных (методические рекомендации, алгоритмы, описания
программ). – М.: ИСИ АН СССР, 1981.
7. Мирзоев А.А., Применение логлинейного анализа для обработки данных
социологических исследований // Математико-статистические методы анализа данных в
социологических исследованиях. – М.: ИСИ АН СССР, 1980.
8. Толстова Ю.Н., Рыжова А.В. Анализ таблиц сопряженности: использование отношений
преобладаний и логлинейных моделей. Социология: 4M, 16, 2003.
9. Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив. статистика,
изучение связи между номинал. признаками: Учеб. пособие. – М.: Науч. мир, 2000.
10. Миркин Б.Г. Анализ качественных признаков и структур. – М.: Статистика, 1980.
Основная литература:
1.
Аптон Г. Анализ таблиц сопряженности./Пер. с англ. – М.: Финансы и
статистика, 1982.
2.
Кендал М.Дж., Стьюарт А. Статистические выводы и связи./Пер. с англ. –
М.: Наука, 1973.
3.
Мирзоев А.А., Логлинейный анализ социологической информации //
Многомерный анализ социологических данных (методические
рекомендации, алгоритмы, описания программ). – М.: ИСИ АН СССР, 1981.
11
4.
Мирзоев А.А., Применение логлинейного анализа для обработки данных
социологических исследований // Математико-статистические методы
анализа данных в социологических исследованиях. – М.: ИСИ АН СССР,
1980.
5.
Миркин Б.Г. Анализ качественных признаков и структур. – М.: Статистика,
1980.
6.
Толстова Ю.Н. Анализ социологических данных: Методол., дескриптив.
статистика, изучение связи между номинал. признаками: Учеб. пособие. – М.:
Науч. мир, 2000.
7.
Флейс Дж. Статистические методы для изучения таблиц долей и пропорций.
– М.: Финансы и Статистика, 1989.
Дополнительная литература:
1.
Толстова Ю.Н., Рыжова А.В. Анализ таблиц сопряженности: использование
отношений преобладаний и логлинейных моделей. Социология: 4M, 16,
2003.
2.
Goodman L. A., Kruskal W. H., Measures of association for cross classifications.
Parts I, Journal of Amer. Stat. Association, 49, 1954.
3.
Goodman L. A., On methods for comparing contingency tables, Journal of Royal
Statistical Society A, 126. 1963.
4.
Goodman L. A., Simultaneous confidence limits for crossproduct ratios in
contingency tables, Journal of Royal Statistical Society В, 26. 1964.
5.
Goodman L. A., Simple methods for analysing three-factor interaction in
contingency tables, Journal of Amer. Stat. Association, 59. 1964.
6.
Haldane J. B. S., The mean and variance of χ2 when used as a test of homogeneity,
when expectations are small, Biometrika, 31, 1939.
7.
Roy S. N., Mitra S. K., An introduction to some non-parametric generalizations of
analysis of variance and multivariate analysis, Biometrika, 43, 1956.
12
8.
Roy S. N., Kastenbaum M. A., On the hypothesis of no «interaction» in a
multiway contingency table, Ann. Math. Statist. 27, 1956.
9.
Tocher K. D., Extension of the Neyman—Pearson theory of tests to discontinuous
variates, Biometrika, 1950.
10.
Fisher R. A., The Design of Experiments, Oliver and Boyd, Edinburgh, 1935.
11.
Yates F. Contingency tables involving small numbers and the χ2 test. – Supplement
to the Journal of Royal Statistical Society, 1, 217-235.
Тематика заданий по различным формам текущего контроля
Образцы заданий, выполняемых на практических занятиях и
контрольных работах:
1. Для анализа возможности налоговой проверки была осуществлена выборка из 50
крупных и 50 средних и мелких предприятий, результаты которой приведены в
таблице.
Требуется на уровне значимости α = 0,05
проверить
гипотезу
независимости
Не было
проверки
Была
проверка
показателей, используя:
а) критерий согласия;
Крупные
Средние
и мелкие
34
36
16
14
б) критерий правдоподобия;
в) улучшенный критерий согласия.
Какой метод отбора объектов в выборку рассматривается в данной задаче?
2. Для таблицы сопряженности 2Х2 выразить значение статистики критерия
согласия через наблюдаемые и маргинальные частоты.
3. В таблице приведены результаты опроса мнения покупателей о местоположении
13
супермаркета. Требуется:
а) найти точечные оценки простейших
мер
связи
(отношения
преобладаний,
Мужчины
Женщины
коэффициентов ассоциации, коллигации,
Местоположение
Удобное Неудобное
44
36
6
14
контингенции);
б) вычислить интервальные оценки простейших мер связи с надежностью γ =
0,991;
в) найти статистику Чупрова- Крамера и коэффициент сопряженности Пирсона;
г) определить коэффициент Гудмена-Краскала;
д) проинтерпретировать полученные результаты.
4. Для анализа зависимости веса родителей и веса детей была рассмотрена выборка
из 70 семей, результаты которой приведены в таблице.
Требуется на уровне значимости α = 0,01
проверить
гипотезу
Вес детей
Выше
В
нормы
норме
независимости
Выше
нормы
В
норме
Вес
родител
ей
показателей, используя:
а) точный критерий Фишера;
б) ассимтотический критерий.
6
24
1
39
5. По данным таблицы сопряженности, в которой представлено распределение
респондентов по уровню доходов и региону проживания:
а) на уровне значимости α = 0,05
показателей (сравнить результаты,
получаемые
в
соответствии
критерием согласия
с
с критерием
Респонденты
Уровень
доходов
проверить гипотезу независимости
Высокий
Выше среднего
Средний
Ниже среднего
Регион проживания
1
2
3
9
14
23
39
135
34
141
56
57
27
55
20
правдоподобия);
б) вычислить точечные коэффициентов сопряженности и их интервальные оценки с
надежностью γ = 0,97;
14
в)
вычислить
точечные
оценки
коэффициентов
Гудмена-Краскала
и
их
интервальные оценки с надежностью γ = 0,992;
г) вычислить точечные оценки τ-мер Гудмена-Краскала;
д) определить какой прогноз (условный, условный равновероятный или условный
пропорциональный) позволяет получить больший выигрыш при предсказании Yкатегории объекта в случае наличия информации о его X-категории;
д) проинтерпретировать полученные результаты.
6. По данным таблицы сопряженности, в которой представлено распределение
респондентов по уровню образования и уровню доходов, в предположении, что
категоризация переменных носит упорядоченный характер, оценить тесноту
взаимосвязи между ними.
Среднее
Ниже среднего
9
Уровень доходов
Средний
14
Выше среднего
23
Среднее профессиональное
39
135
34
Неоконченное высшее
141
56
57
высшее
27
55
20
Уровень
образования
Респонденты
7. В таблице приведены результаты опроса мнения покупателей о супермаркете.
Респонденты
Мужчины
Женщины
Местоположение
Удобное
Неудобное
Удобное
Неудобное
Уровень цен
Приемлемый
Высокий
145
142
214
20
190
159
111
69
Требуется:
а) провести анализ попарной независимости признаков;
б) определить частный коэффициент ассоциации между полом покупателей,
считающих уровень цен приемлемым, и их мнением о местоположении
супермаркета;
15
в) определить частный коэффициент коллигации между полом покупателей,
считающих местоположение супермаркета неудобным, и их мнением об уровне
цен;
г) определить частный коэффициент контингенции между мнением мужчин о
местоположении супермаркета и их мнением об уровне цен;
д) определить общий коэффициент контингенции между мнением респондентов о
местоположении супермаркета и их мнением об уровне цен;
е) провести анализ взаимной независимости признаков.
8. Для анализа распределения детей по полу и спортивному воспитанию была
рассмотрена выборка из 250 детей, результаты которой приведены в таблице.
Требуется исследовать структуру взаимосвязи показателей с помощью логлинейных
моделей:
а) оценить параметры логлинейных моделей:
- насыщенной модели,
- модели независимости,
- моделей с отсутствием влияния
одного из факторов,
Занимаются
спортом
Не
занимаются
спортом
49
82
51
78
Мальчики
Девочки
- равновероятной модели;
б) проверить адекватность оцененных моделей для уровня значимости α = 0,05;
в) определить оптимальную модель взаимосвязи показателей;
г) проверить значимость параметров логлинейных моделей.
9. В таблице приведены результаты выборочного исследования состояния здоровья
детей региона:
Мальчики
Мальчики
Занимаются
спортом
Да
Нет
Да
Нет
Болеют редко
Болеют часто
250
14
235
11
42
220
59
110
16
Требуется
исследовать
структуру
взаимосвязи
показателей
с
помощью
логлинейных моделей:
а) оценить параметры логлинейных моделей:
- насыщенной модели,
- модели условной независимости,
- моделей условной независимости двух факторов,
- моделей независимости двух факторов от третьего,
- модели главных эффектов трех факторов,
- моделей с отсутствием влияния главного эффекта одного из факторов,
- моделей с отсутствием влияния главного эффекта одного из факторов и
независимостью двух других,
- моделей с отсутствием влияния главного эффекта двух факторов,
- равновероятной модели;
б) проверить адекватность оцененных моделей для уровня значимости α = 0,01;
в) определить оптимальную модель взаимосвязи показателей;
г) проверить значимость параметров логлинейных моделей.
Вопросы для оценки качества освоения дисциплины
1.
Какие шкалы измерений Вы знаете? Приведите примеры переменных,
измеренных в различных шкалах.
2.
Какие допустимые преобразования применимы к различным шкалам? Каковы
статистические характеристики переменных, измеренных в различных шкалах?
Приведите примеры.
3.
Какие способы категоризации переменных Вы знаете? Приведите примеры.
4.
Дайте определение и укажите свойства двумерных таблиц сопряженности. Чем
отличаются таблицы сопряженности для генеральной совокупности и таблицы
сопряженности для выборочных данных.
17
5.
С помощью метода наибольшего правдоподобия определите точечные оценки
вероятностей таблиц сопряженности (частный случай: таблицы 2Х2).
6.
Какому закону распределения подчиняются вероятности таблиц сопряженности
(частный случай: таблицы 2Х2).
7.
С помощью метода наибольшего правдоподобия определите точечные оценки
вероятностей таблиц сопряженности (частный случай: таблицы 2Х2) в
предположении истинности гипотезы независимости между признаками.
8.
Сформулируйте и обоснуйте критерий согласия χ2 для проверки гипотезы о
независимости двух признаков (частный случай: таблицы 2Х2).
9.
Сформулируйте и обоснуйте ассимтотический критерий проверки гипотезы о
независимости двух признаков - критерий правдоподобия (частный случай:
таблицы 2Х2).
10. Какие методы отбора объектов в выборку Вы знаете? Приведите примеры. Чем
отличаются таблицы сопряженности, получаемые в соответствии с этими
методами?
11. Сформулируйте
и
обоснуйте
точный
критерий
Фишера
для
таблиц
сопряженности 2Х2, у которых обе маргинальные частоты фиксированы.
12. Сформулируйте и обоснуйте ассимтотическую формулу критерия Фишера для
таблиц
сопряженности
2Х2,
у
которых
обе
маргинальные
частоты
фиксированы.
13. Сформулируйте и обоснуйте ассимтотическую формулу критерия Фишера для
таблиц
сопряженности
2Х2,
у
которых
одна
маргинальная
частота
фиксирована.
14. Почему при
небольших
объемах выборки нельзя вычислить точную
вероятность совместного распределения частот таблиц сопряженности 2Х2, у
которых либо одна маргинальная частота не фиксирована, либо обе
маргинальные частоты не фиксированы?
18
15. Какая формула используется для вычисления статистики χ2-критерия с учетом
поправки на непрерывность?
16. Как определить вероятности таблиц сопряженности при истинности гипотезы
независимости признаков (таблицы rХs)?
17. Как определить частоты таблиц сопряженности при истинности гипотезы
независимости признаков (таблицы rХs)?
18. Сформулируйте критерий согласия χ2 проверки гипотезы независимости
признаков (таблицы rХs).
19. Сформулируйте критерий правдоподобия проверки гипотезы независимости
признаков (таблицы rХs). Выразите статистику критерия через маргинальные и
наблюдаемые частоты таблицы сопряженности.
20. Сформулируйте и обоснуйте биномиальный критерий однородности (таблицы
2Xs).
21. Сформулируйте пуассоновский критерий однородности (таблицы 2Xs).
22. Сформулируйте основные принципы разбиения χ2.
23. Дайте определение коэффициента сопряженности Пирсона. Каковы его
свойства, недостатки? Как рассчитать интервальные оценки коэффициента
(таблицы rХs).
24. Дайте определение коэффициента Чупрова. Каковы его свойства, недостатки?
Как рассчитать интервальные оценки коэффициента (таблицы rХs).
25. Дайте определение коэффициента Крамера. Каковы его свойства, недостатки?
Как рассчитать интервальные оценки коэффициента (таблицы rХs).
26. Как связаны между собой коэффициенты Пирсона, Чупрова и Крамера?
27. Что такое отношение преобладаний (частный случай: таблицы 2Х2).
28. Сформулируйте принцип инвариантности Юла.
29. Дайте определение коэффициента ассоциации Юла. Каковы его свойства,
недостатки? Как рассчитать интервальные оценки коэффициента.
30. Какова вероятностная интерпретация коэффициента ассоциации Юла?
19
31. Дайте
определение
коэффициента
коллигации.
Каковы
его
свойства,
недостатки? Как рассчитать интервальные оценки коэффициента.
32. Какова вероятностная интерпретация коэффициента коллигации?
33. Дайте определение коэффициента контингенции. Укажите его свойства. В чем
его отличие от коэффициентов ассоциации и коллигации? Как рассчитать
интервальные оценки коэффициента.
34. Что показывает коэффициент Гудмена-Краскала λa?
Каковы его свойства,
недостатки? Какой вид имеет интервальная оценка коэффициента? Как
определить улучшенную оценку λa*? В чем состоит отличие между
коэффициентами λa и λa*?
35. Что показывает коэффициент Гудмена-Краскала λb?
Каковы его свойства,
недостатки? Какой вид имеет интервальная оценка коэффициента? Как
определить улучшенную оценку λb*? В чем состоит отличие между
коэффициентами λb и λb*?
36. Что показывает коэффициент Гудмена-Краскала λ? Укажите его свойства.
37. Что показывают τ-меры Гудмена-Краскала?
В чем состоит их отличие от
коэффициентов λ Гудмена-Краскала?
38. Какие меры связи между признаками, категории которых могут быть
упорядочены?
39. Дайте
определение
простейшей
меры
связи
между
упорядоченными
признаками. Каковы ее недостатки?
40. Что представляют собой t-меры Кендэла? Укажите их свойства.
41. Что представляют собой d-меры Сомерса?
42. Дайте определение меры Гудмена-Краскала для упорядоченных признаков.
Каковы ее свойства?
43. Какова цель логлинейного анализа?
44. Дайте определение и математическая формулировка логлинейной модели. Чем
отличаются насыщенные и ненасыщенные модели?
20
45. Каково основное правило построения иерархических моделей? Приведите
примеры иерархических моделей.
46. Какие логлинейные модели можно построить для таблицы сопряженности 2Х2?
Чем они отличаются? Как определить параметры этих моделей?
47. Какая модель называется адекватной? Как проверить адекватность логлинейной
модели? Какая модель является оптимальной?
48. Сформулируйте
критерий
проверки
значимости
отдельных
параметров
логлинейной модели. Приведите пример.
49. Какие логлинейные модели можно построить для таблицы сопряженности
2Х2Х2? Чем они отличаются? Как определить параметры этих моделей?
50. Какие соотношения выполняются между параметрами ненасыщенных моделей
и маргинальными суммами таблицы сопряженности 2Х2Х2?
Автор программы: _____________________________/ Е.В. Астафьева/
21
Download