МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ УТВЕРЖДАЮ Председатель совета

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Новосибирский национальный исследовательский государственный университет Экономический факультет УТВЕРЖДАЮ Председатель совета __________________ «__»__________200_ г. Программа учебной дисциплины МЕТОДЫ ПРИКЛАДНОЙ СТАТИСТИКИ ДЛЯ СОЦИОЛОГОВ Направление подготовки СОЦИОЛОГИЯ Квалификация (степень) выпускника Бакалавр Автор: Ечевская О.Г., к.соц.н. Лазарева А.Ю., к.соц.н. Новосибирск 2012 Программа дисциплины «Методы прикладной статистики для социологов» составлена в соответствии с требованиями к обязательному минимуму содержания и уровню подготовки дипломированного специалиста (бакалавра, магистра) по Профессиональному циклу дисциплин по направлению «Социология», а также задачами, стоящими перед Новосибирским государственным университетом по реализации Программы развития НГУ. Автор (авторы) Ечевская О.Г., к.соц.н., Лазарева А.Ю., к.соц.н. (ФИО, ученая степень, ученое звание) Факультет Экономический Кафедра Социологии 1. Цели освоения дисциплины (курса) Учебный курс «Методы прикладной статистики для социологов» разработан в соответствии с требованиями к обязательному минимуму содержания и уровню подготовки, определяемому ФГОС ВПО по направлению подготовки «Социология» (квалификация (степень) бакалавр). Курс направлен на формирование у студентов навыков проектирования и реализации социологических исследований, основанных на вторичном анализе статистических данных с применением статистического пакета SPSS, а также освоение студентами основных статистических процедур, реализованных в пакете SPSS.       Общая цель конкретизируется в следующий набор задач: Ознакомить студентов с возможностями и ограничениями статистического пакета SPSS. Сформировать навыки работы с основными процедурами пакета SPSS. Ознакомить студентов с порядком подготовки данных к применению базовых статистических моделей. Научить студентов применять основные статистические методы для анализа различных типов социологических данных и решения различных задач. Дать представления о логике интерпретации результатов статистического анализа. Сформировать навыки структурирования и написания аналитических текстов на основе проведенного статистического анализа. 2. Место дисциплины в структуре образовательной программы Дисциплина относится к профессиональному циклу Б2 (Математический и естественнонаучный цикл, базовая часть), и является частью комплекса дисциплин, направленных на формирование у студентов навыков проектирования количественных исследований (массовых опросов), а также сбора и анализа полученных в результате таких исследований данных. Базовыми для успешного освоения дисциплины являются следующие курсы:   «Основы теории вероятности и математической статистики» (2-3 семестр, забовая часть Б2) «Методология и методы социологического исследования» (3-4 семестр, базовая часть Б.3); Содержательно-методическая взаимосвязь с последующими дисциплинами:   Обработка и анализ данных, а также навыки создания макетов и массивов в пакете SPSS применяются студентами в рамках научно-исследовательской практики на 3 курсе Навыки проверки статистических гипотез, особенно для выявления взаимосвязей, зависимостей, структурирования совокупностей, и ряда других задач, решаемых с помощью статистического пакета SPSS, необходимы при проведении исследований в рамках курсовых работ и дипломных проектов. 3. Компетенции обучающегося, формируемые в результате освоения дисциплины. Для успешного освоения дисциплины обучающийся должен: Знать:  Формат и ограничения аналитического вывода, основанного на количественном анализе статистических данных.  Источники и архивы, размещающие данные исследований и массовых опросов в открытом доступе, возможности описка и условия получения данных.  Структуру и возможности (технические, аналитические, графические) пакета SPSS.  Содержательные и технические задачи, ограничения и области применения основных статистических процедур в социологическом исследовании.  Основные правила представления результатов статистического исследования в формате аналитического отчета. Уметь:      Проектировать социологическое исследование, основанное на вторичном анализе статистических данных. Находить количественные (статистические, опросные), данные в открытых источниках, отбирать массивы для исследования по интересующей студента тематике. Формировать массивы данных самостоятельно, формировать макет и вводить данные в SPSS. Грамотно выбирать и применять основные статистические процедуры, реализованные в SPSS. Производить аналитические обобщения и выводы на основе полученных результатов анализа, грамотно составлять аналитические тексты и отчеты по итогам исследования. Владеть:      Информацией о видах и источниках широко используемых количественных данных (разовых и повторяющихся исследований), а также о способах и условиях доступа к ним. Навыками организации и структурирования исследования, основанного на вторичном анализе данных. Основными техниками и приемами статистического анализа. Основными процедурами анализа данных, реализованными в статистическом пакете SPSS. Навыками представления результатов исследования в формате аналитических текстов. И обладать следующими компетенциями:  способность использовать основные положения и методы гуманитарных и социально-экономических наук при решении профессиональных задач (ОК-9, формируется частично);  способность анализировать социально-значимые проблемы и процессы (ОК-10, формируется частично);  способностью использовать основные законы естественнонаучных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования (ОК-11, формируется частично);  владением основными методами, способами и средствами получения, хранения, переработки информации, навыки работы с компьютером как средством управления информацией (ОК-13, формируется частично).  способность применять в профессиональной деятельности базовые и профессионально-профилированные знания и навыки по основам социологической теории и методам социологического исследования (ПК-1, формируется частично);  способность самостоятельно формулировать цели, ставить конкретные задачи научных исследований в различных областях социологии и решать их с помощью современных исследовательских методов с использованием новейшего отечественного и зарубежного опыта и с применением современной аппаратуры, оборудования, информационных технологий (ПК-2, формируется частично);  способность и готовность участвовать в составлении и оформлении научнотехнической документации, научных отчетов, представлять результаты исследовательской работы с учѐтом особенностей потенциальной аудитории (ПК-3, формируется частично);  умение использовать социологические методы исследования для изучения актуальных социальных проблем, для идентификации потребностей и интересов социальных групп (ПК-5, формируется частично);  умением обрабатывать и анализировать данные для подготовки аналитических решений, экспертных заключений и рекомендаций (ПК-8, формируется частично);  способность и готовность к планированию и осуществлению проектных работ в области изучения общественного мнения, организации работы маркетинговых служб (ПК-9, формируется частично);  способность использовать методы сбора, обработки и интерпретации комплексной социальной информации для решения организационно-управленческих задач, в том числе находящихся за пределами непосредственной сферы деятельности (ПК-11, формируется частично); 4. Структура и содержание дисциплины «Статистический анализ социологических данных». Общая трудоемкость дисциплины составляет 4 зачетных единиц, 144 часа (54 часа аудиторных занятий и 90 часов самостоятельной работы студентов). 2 3 4 5 6 7 8 9 10 11 1. Логика организации социологического исследования и логика анализа данных. Основные виды шкал. Статистические гипотезы и логика их проверки. Основные статистические критерии. Структура пакета SPSS. Основные окна, структура меню, набор процедур. Ввод данных в SPSS. Операции преобразования признаков. Построение простых и сложных типологий. Формирование подвыборок. Анализ простых распределений. Описательные статистики, графики. Анализ перекрестных таблиц. Статистики таблиц сопряженности. Сравнение параметров и распределений в группах. Параметрические методы. Сравнение параметров и распределений в группах - 2. Непараметрические методы. Агрегирование данных в SPSS. Объединение массивов. Корреляционный анализ. Парная и частная корреляция. Построение прогнозных моделей в SPSS. Регрессионный анализ – 1. Линейная регрессия Регрессионный анализ – 2. Бинарная логистическая регрессия. Формы текущего контроля успеваемости (по неделям семестра) практически самостоятельная Форма е занятия работа промежуточной аттестации (по семестрам) 2 Неделя семестра 1 Виды учебной работы, включая самостоятельную работу студентов и трудоемкость (в часах) Семестр № п/п Раздел дисциплины 4 1 2 4 2 2 2 4 4 3 2 2 4 4 4 2 2 12 Отчет №1 4 56 2 4 12 Отчет №2 4 7 2 2 4 4 8 2 2 12 4 9 1 2 4 4 10 1 2 12 4 11 12 2 2 4 4 13 2 2 4 лекции Отчет №3 Отчет №4 1 Основы типологического 4 2 анализа в SPSS. Типологии объектов и признаков, теоретические и эмпирические типологии. Типологический анализ в SPSS-1: Факторный анализ 13 Типологический анализ – 2. Кластерный анализ. Процедуры иерархического и быстрого кластерного анализа. Итого 14 2 15 16 4 2 4 4 54 12 Отчет №5 90 Итоговый тест. Экзамен в компьютерном классе. Содержание отдельных тем подробнее раскрыто далее в заданиях по каждой теме. 5. Образовательные технологии В преподавании используются как традиционные методы преподавания (лекции), в которых излагаются концептуальные основы и базовые теории и инструменты, необходимые для успешного освоения курса, так и широкий спектр форм интерактивных, групповых и индивидуальных форм работы со студентами, в числе которых:      Проекция с помощью мультимедийных средств визуальных материалов для анализа и обсуждения, демонстрация возможностей статистического пакета для анализа данных, визуализация возможностей и ограничений программы. Использование специализированных компьютерных программ и интернета в целях реализщации социологического исследования (пакет SPSS, онлайн-программы и среды для анализа данных (SOFIST)). Интерактивные семинарские занятия в компьютерном классе - освоение методик анализа данных: описательные процедуры (частотные распределения, графики), анализ взаимосвязей (таблицы сопряженности), анализ различий, построение типологических и прогнозных моделей. Дискуссии: обсуждение ключевых вопросов основных тем курса, обсуждение учебных текстов, промежуточных и итоговых работ, разбор возможностей и ограничений методов анализа, интерпретация перекрестных распределений и взаимосвязей. Подготовка аналитических отчетов: самостоятельная формулировка и реализация студентом мини-исследования на основе вторичного анализа данных, содержательная и статистическая интерпретация полученных результатов, подготовка письменного текста, представляющего полученные результаты. 6. Оценочные средства для текущего контроля успеваемости, промежуточной аттестации по итогам освоения дисциплины и учебно-методическое обеспечение самостоятельной работы студентов Балльно-рейтинговая система (БРС) оценивания знаний студентов включает следующие виды промежуточного и итогового контроля: № 1 2 3 4 5 Задание Промежуточный контроль Отчет 1. Преобразование переменных и анализ одномерных распределений Отчет 2. Анализ взаимосвязей признаков, измеренных неметрическими шкалами (таблицы сопряженности: анализ взаимосвязи номинальных и ранговых признаков) Отчет 3. Агрегирование файлов и анализ линейных взаимосвязей между интервальными признаками Отчет 4. Анализ межгрупповых различий (параметрические и непараметрические методы) Отчет 5. «Сложный» метод: типологический анализ (факторный, кластерный) или прогноз (регрессия) Итоговый контроль: Итоговый тест оценки знаний Экзамен Балл в БРС 50 10 10 10 10 10 50 10 40 Требования к подготовке аналитических отчетов: Отчеты выполняются студентами самостоятельно, на основе массивов, предложенных преподавателями, или найденных студентом самостоятельно. В том случае, если студент хочет использовать для написания отчетов свой массив (полученный из источников, не перечисленных ниже), необходимо согласовать возможность и уместность использования данных с преподавателями заранее. Студентам для анализа предлагаются массивы данных следующих опросов: «Российский мониторинг экономического положения и здоровья населения НИУ ВШЭ» – негосударственное лонгитюдное обследование домохозяйств, проводимое с 1992 года. Данные и подробное описание их структуры, логики и методологии сбора доступны по адресу: http://www.hse.ru/rlms. Мониторинг социально-экономических перемен, проводимый АНО «Левада-Центр» (Москва) и доступный в Едином Архиве Экономических и Социологических Данных (ЕАЭСД). Также студенты могут выбрать в соответствии со своими исследовательскими интересами любой массив на сайте ЕАЭСД (http://sophist.hse.ru/). При написании отчетов рекомендуется придерживаться следующей структуры: 1. Постановка исследовательской задачи (формулировка исследовательского вопроса). На основе исследовательского вопроса – формулировка содержательной гипотезы, а также статистических гипотез – нулевой и альтернативной. 2. Отбор переменных (признаков) для проверки сформулированных гипотез. Обоснование выбора переменных. Описание переменных (тип, шкала, если необходимо преобразование признака – содержательное описание проделанных преобразований обязательно). Конструирование интересных содержательных типологий в соответствии с поставленной задачей – приветствуется всегда. 3. Выбор (и обоснование – особенно важно для аналитических заданий) процедур для проверки гипотез. 4. Расчет ключевых таблиц и построение графиков (где необходимо). Таблицы следует оформлять в соответствии с требованиями, приведенными в приложении 3. 5. Описание полученных результатов, ответ на поставленный в начале работы вопрос. 6. В приложении к отчету необходимо представить синтаксис по всем проделанным процедурам. Каждый студент выполняет отчет самостоятельно, не допуская плагиата (не воспроизводя ни полностью, ни частично [без должным образом оформленных ссылок] работу, сделанную другими людьми, т.е., не выдавая чужую работу за свою). В случае обнаружения плагиата в отчете, за работу выставляется отрицательная оценка (-5 баллов); возможность переписать отчет не предоставляется. Плагиат в работе определяется в соответствии с действующим на кафедре Положением о противодействии плагиату, где подробно прописаны формы плагиата и санкции за них. Текст Положения доступен на сайте кафедры в разделе «информационные ресурсы». Преподаватели оставляют за собой право формировать базу выполненных студентами работ по курсу «Методы прикладной статистики для социологов» и использовать ее в целях противодействия плагиату. Оцениваются как аналитическая сторона отчета (корректность полученных выводов), так и формальная (наличие в работе всех необходимых разделов), и «эстетическая» (оформление), а также своевременность сдачи текста. Объем текста отчета – 3-5 страниц (в случае анализа громоздких таблиц, их следует приводить в приложении к отчету, но важно, чтобы основной текст отчета не превышал по объему 3-5 страниц). По каждому отчету, сданному вовремя, студенты получают письменные комментарии от преподавателей. Отчеты, сданные с опозданием, оцениваются, исходя из максимума в 5 баллов, и преподавателями не комментируются. Итоговая оценка по курсу складывается из оценки работы студента в течение семестра и оценки, полученной им за итоговый тест, следующим образом. Практические задания – максимум 50 баллов (5 отчетов, максимум 10 баллов за каждый), итоговый тест – максимум 10 баллов, и устный экзамен в компьютерном классе, в ходе которого студент демонстрирует уровень овладения необходимыми компетенциями (максимум 40 баллов). В результате по сумме всех форм промежуточного и итогового контроля можно набрать максимум 100 баллов, которые затем переводятся в традиционную форму («отлично», «хорошо», «удовлетворительно» и «неудовлетворительно») следующим образом: менее 40 баллов – «неудовлетворительно», 41 - 60 баллов – «удовлетворительно, 61 - 80 баллов – «хорошо», 81 - 100 баллов – «отлично». 7. Учебно-методическое и информационное обеспечение дисциплины а) Основная литература: 1. Бююль А., Цефель П. SPSS: искусство обработки информации: пер. с нем.. СПб: ООО «ДиасофтЮП», 2002. 2. Девятко И. Ф. Методы социологического исследования. М.: Книжный дом «Университет», 2002. 3. Крыштановский А. О. Анализ социологических данных. ГУ-ВШЭ, 2006. 4. Малхотра Н. Маркетинговые исследования. М.: Вильямс, 2003. 5. Наследов А. SPSS: компьютерный анализ данных в психологии и социальных науках. СПб., 2005. 6. Ростовцев П.С., Ковалева Г.Д. Анализ социологических данных с применением статистического пакета SPSS. Учебно-методическое пособие. Новосибирск: НГУ, 2001. 7. Толстова Ю. Н. Анализ социологических данных. М.: Научный мир, 2000. 8. Сигель Э. Практическая бизнес-статистика. М.: Вильямс, 2004. 9. Хили Дж. Статистика: социологические и маркетинговые исследования. СПб.: Питер, 2005. 10. Руководство пользователя SPSS Statistics Base 17.0 (доступно в электронном виде в папке материалов по курсу). б) Дополнительная литература и ресурсы в Интернет: 11. Алексеева А.Ю., Ечевская О.Г., Ростовцев П.С., Ковалева Г.Д. Анализ социологических данных с применением статистического пакета SPSS. Сборник задач. Новосибирск: НГУ, 2003 (адрес в Интернет – http://socionet.ru/publication.xml?h=repec:rus:nsusme:etchevskaya). 12. Англо-русский статистический глоссарий http://www.uran.donetsk.ua/~masters/2002/fvti/spivak/library/book2/book2.htm 13. Мангейм Дж. Б., Рич Р. К. Политология. Методы исследования: Пер. с англ. / Предисл. А.К. Соколова. – М.: Издательство “Весь Мир”, 1997. – 544 с. http://grachev62.narod.ru/Mr/ 14. Сообщество пользователей SPSS в Живом Журнале («SPSS в психологии и социальных науках») http://community.livejournal.com/ru_spss/ 15. Коллекция синтаксиса и скриптов для SPSS (Rayland’s SPSS tools по-русски) http://www.spsstools.ru/ 16. Тексты по статистике http://forum.gfk.ru/texts/ 17. Электронный учебник StatSoft http://www.statsoft.ru/statportal/tabID__44/DesktopDefault.aspx в) Программное обеспечение:  для лекций и практических занятий необходимо мультимедийное оборудование, оснащенное MS Office (PowerPoint, Word, Excel);  Для проведения семинарских занятий, а также для самостоятельной работы студентов необходимы компьютерами, оснащенные статистическим пакетом SPSS, MS Office, с выходом в Internet. Задания к семинарским занятиям Задание 1 Основные возможности пакета Запустить программу SPSS. Из предложенных вариантов выбрать «Type in data» (ввод данных). Оставаясь в открывшемся окне, изучить структуру меню, после чего приступить к процедуре ввода данных. 1. В режиме ввода данных (data view) ввести данные воображаемого опроса 10 человек по анкете из 4 вопросов. 1. Пол (1 – мужской, 2 - женский). 2. Возраст (число полных лет). 3. Материальное положение (1 – высокое, 2 – выше среднего, 3 – среднее, 4 – ниже среднего, 5 – низкое) 4. Наиболее актуальные проблемы (неальтернативный вопрос с возможностью выбрать не более двух ответов):  Доходы  Здоровье  Работа  Семья  Отдых/досуг Неальтернативный вопрос закодируйте двумя способами: дихотомически и списком, для этого создайте две группы переменных, P1_1 – P1_2 – для списочного кодирования, и P2_1 – P2_5 – для дихотомического. Получившийся массив данных должен иметь следующий вид: Nomer 1 2 1 . Pol 1 2 1 . Vozrast Material 25 3 45 1 66 5 . . P1_1 1 2 2 . P1_2 4 4 . . P2_1 1 0 0 . P2_2 0 1 1 . P2_3 0 0 0 . P2_4 1 1 0 . P2_5 0 0 0 2. В режиме просмотра переменных, дать имена созданным переменным, определить метки переменных и ответов (VARIABLE LABEL – метка переменной, VALUE LABLE – метка ответа/подсказки). Вернуться в режим ввода данных, проверить метки переменных (поставив курсор на имя переменной), а также метки подсказок (в меню VIEW отметить VALUE LABELS). Запустить команду подсчета одномерных распределений через меню ANALYZE/ DESCRIPTIVE STATISTICS/ FREQUENCIES для всех переменных. 3. Сохранить созданные данные на рабочий стол под любым удобным именем. 4. Открыть файл N:/SPSS/VCIOM.SAV. При помощи процедуры UTILITIES/VARIABLES просмотреть основные вопросы и кодировки ответов к ним. Сохранить файл в своей директории. 5. Изучить распределение переменной среднедушевого дохода (переменная o15b/5). Для этого использовать процедуру ANALYZE / DESCRIPTIVE STATICTICS / FREQUENCIES (в меню «STATISTICS» отметить расчет среднего значения (MEAN), в меню CHARTS-гистограмму (HISTOGRAM)). Скопировать текст программы для выполнения этого задания (файл команд) в окно синтаксиса (кнопка PASTE). Изучить, как устроен текст программы, а также окно синтаксиса. Запустить выполнение задания из окна синтаксиса (RUN/ALL). 6. Сгруппировать доход на три интервала (высокий, средний, низкий), определив границы интервалов на основе анализа гистограммы. Для группировки переменной использовать команду TRANSFORM/RECODE/INTO DIFFERENT VARIABLES. Скопировать команды в окно синтаксиса, запустить выполнение команды из окна синтаксиса. Построить графическое отображение распределения сгруппированной переменной дохода (для этого выбрать подходящий вид графика в меню GRAPH) В окне результатов вашей работы OUTPUT нажатием левой клавиши мыши выделить ненужные сообщения (в частности, длинную таблицу распределения доходов) и удалить их клавишей Del. Скопировать выдачу в Excel и Word. Задание 2 Основные статистики и преобразование переменных Построение обобщенных признаков и типологий. 1. Открыть файл VCIOM.SAV из личной директории. Пользуясь меню (ANALYZE/DESCRIPTIVE STATISTICS/FREQUENCIES и GRAPH/BAR, PIE, HISTOGRAM) изучить распределения переменных q1 (пол), q2 (возраст) q3 (образование), q4 (семейное положение), o6_o10 (общий заработок респондента в прошлом месяце). Ответить на следующие вопросы:  Поровну ли в выборке мужчин и женщин?  Какова доля населения моложе 35 лет?  Сколько респондентов имеют неполное высшее или высшее образование?  Сколько респондентов не состоит в зарегистрированном браке?  Какова величина среднего и медианного дохода? (работая с доходом, обратите внимание на то, как закодированы неопределенные значения и «избавьтесь» от них (задав пропущенные значения – MISSING VALUES – в режиме просмотра переменных)). 2. При помощи процедуры TRANSFORM/COMPUTE и IF, построить переменную PARTNER – «Типология потенциальных брачных партнеров» со следующими значениями: 1. Идеальный жених. 2. Жених, но с определенными ограничениями. 3. Совсем не жених. 4. Идеальная невеста. 5. Невеста, но с определенными ограничениями. 6. Совсем не невеста. При построении переменной (типологии) копировать все выполняемые команды в окно синтаксиса и запускать команды на выполнение из окна синтаксиса (RUN/ALL, RUN/SELECTION). Для построения классификации используйте любые признаки, которые могут быть важными при выделении типов с Вашей точки зрения. Для изучения и отбора переменных используйте известную уже процедуру UTILITIES/VARIABLES. Постарайтесь получить количественно наполненные и содержательно «небессмысленные» типы. 3. Получить диаграмму распределения по построенной переменной (GRAPH/PIE, BAR) а также диаграммы, на которых будут изображены средние возраст и доход респондентов в полученных группах (GRAPH/ BAR (SIMPLE)= MEAN (q2 o6_o10) BY PARTNER/ MISSING= REPORT). Задание 3 Одномерные частотные распределения Процедуры FREQUENCIES и DESCRIPTIVES. 1. Открыть файл VCIOM.SAV из личной директории. При помощи процедуры TRANSFORM/COUNT построить переменную «Склонность доверять основным институтам» (на основе вопроса 29 – «В какой мере, на Ваш взгляд, заслуживает доверия…?», переменные 29аа – 29аk). При построении переменных копировать все выполняемые команды в окно синтаксиса и запускать команды на выполнение из окна синтаксиса (RUN/ALL, RUN/SELECTION). 2. При помощи процедуры ANALYZE/ DESCRIPTIVE STATISTICS/ FREQUENCIES получить основные характеристики распределения полученной переменной: среднее значение, медиану, моду, стандартное отклонение, минимум, максимум, меры скошенности и пикообразности распределения. Подробно содержательно и статистически проанализировать распределение полученной переменной. 3. Сгруппировать построенную переменную и получить «обобщенный показатель»: высокий, средний и низкий уровень доверия. Границы интервалов выбрать по своему усмотрению на основе анализа распределения. Построить график, отражающий распределение построенной переменной. ??? 4. Аналогичным образом изучить распределение переменной «общий заработок респондента за последний месяц» (ANALYZE/ DESCRIPTIVE STATISTICS/ FREQUENCIES, переменная o6_o10). Проанализировать «исключительные» значения, определить, как закодированы пропущенные значения, сделать преобразования таким образом, чтобы переменная стала пригодной для содержательного анализа. Повторить процедуру FREQUENCIES на скорректированной переменной, убрать отметку «показывать таблицу распределения» (display frequency table). Проанализировать основные характеристики скорректированного распределения. Дать содержательный комментарий по поводу построенного распределения. ??? 5. Сравнить распределения заработка и возраста в группах по уровню доверия. Для этого при помощи процедуры DATA/SPLIT FILE/compare groups расщепить совокупность на группы по уровню доверия, затем запустить процедуру ANALYZE/DESCRIPTIVE STATISTICS/ DESCRIPTIVES на расщепленном файле. Как различаются распределения в полученных группах? В какую группу попадают самые молодые, в какую – самые обеспеченные респонденты? 6. Построить графические отображения распределений возраста и заработка в группах по уровню доверия (GRAPH/HISTOGRAM/). 7. Снять расщепление файла (DATA/SPLIT FILE/analyze all cases). Выбрать любую группу по уровню доверия (DATA/SELECT CASES) и проанализировать распределение скорректированной переменной «общий заработок респондента». Сделать предположение относительно нормальности распределения на основе гистограммы с наложением кривой нормального распределения и показателей скошенности и пикообразности. 8. Построить переменную «логарифм заработка» (TRANSFORM/COMPUTE), получить распределение логарифма заработка, сравнить характеристики распределений логарифмированного и «чистого» заработка. 9. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 4 Исследование распределений. Способы проверки нормальности распределения Процедура EXPLORE. ??? 1. Открыть файл VCIOM.SAV из личной директории. Предварительно избавившись от неопределенных значений (назначить пропущенные значения в режиме просмотра переменных), исследовать распределение переменной «среднедушевой доход» (переменная q15b_5) при помощи процедуры ANALYZE/ DESCRIPTIVE STATISTICS/ EXPLORE. На основе анализа ящичковой диаграммы, определить исключительные значения («выбросы») и избавиться от них (процедура TRANSFORM/RECODE). Повторить анализ распределения на скорректированной переменной, в меню команды запросить выдачу описательных статистик (STATISTICS/DESCRIPTIVES), а также построение графика для проверки нормальности с тестами на нормальность распределения (GRAPH/ NORMALITY PLOTS WITH TESTS). Описать основные характеристики распределения. Совпадают ли формы исследуемого распределения с нормальным? Сделайте вывод на основе анализа показателей скошенности и пикообразности, «глазомерного» метода, анализа Zстатистик. ??? Сравнить результаты, полученные на логарифмированной и исходной переменных: удалось ли в каких-либо группах приблизить распределение к нормальному? ВАЖН О 2. При помощи процедуры ANALYZE/ DESCRIPTIVE STATISTICS/ EXPLORE проанализировать доходные распределения в группах по семейному положению (в меню команды указать в качестве независимой переменной q4 – семейное положение). Описать основные различия распределений в группах (статистически и содержательно), сделать вывод о нормальности распределения доходов в группах. 3. Построить переменную «логарифм дохода» (TRANSFORM/COMPUTE на основе скорректированной переменной), получить распределение логарифма дохода в группах, сделать вывод о нормальности распределений логарифма дохода в группах. В случае обращения к данным процедурам при выполнении самостоятельных заданий по курсу, в отчет обязательно включить как анализ таблиц и коэффициентов, так и анализ графиков: ящичковых диаграмм и нормальной вероятностной бумаги (Normal Q-Q Plot). ??? 4. Предварительно расщепив выборку по переменной «образование», сравнить доходы населения с разным уровнем образования при помощи процедуры ANALYZE/DESCRIPTIVE STATISTICS/ DESCRIPTIVES. Какие группы наиболее однородны по доходам? Можно ли сказать, что образование способствует повышению уровня материальной обеспеченности? 5. Снять расщепление файла. Найти верхний и нижний дециль по доходам (FREQUENCIES/ STATISTICS/ PERCENTILES = 10). Во сколько раз средний доход дециля богатых больше среднего дохода дециля бедных? Рассчитать два коэффициента: коэффициент дифференциации уровней (отношение нижней границы верхнего дециля к верхней границе нижнего дециля), а также коэффициент дифференциации фондов (соотношение средних доходов в верхнем и нижнем децилях). Для расчета второго коэффициента отобрать группы при помощи процедуры DATA/SELECT CASES. Средние по подгруппам посчитать с помощью DESCRIPTIVES. ??? Во сколько раз различаются коэффициенты дифференциации уровней и фондов? Что может означать их соотношение? 6. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 5 ??? Таблицы сопряженности и коэффициенты связи номинальных признаков Процедура CROSSTABS 1. Открыть файл VCIOM.SAV из личной директории. На основе данных по вопросу об источниках денежных поступлений (qO15a, переменные qO15a_1 – qO15a_16), построить переменную SOURCE – «Количество источников денежных поступлений», отражающую количество источников дохода респондента (процедура COUNT). Получить распределение построенной переменной. Сгруппировать значения переменной SOURCE следующим образом: 1 – Респондент имеет один источник дохода. 2 – Респондент имеет 2 источника дохода. 3 – Респондент имеет более 2 источников дохода. Построить график распределения сгруппированной переменной SOURCE (GRAPH/BAR). 2. При помощи процедуры ANALYZE/DESCRIPTIVE STATISTICS/ CROSSTABS получить таблицы сопряженности сгруппированной переменной SOURCE с полом, образованием и семейным положением респондента (переменные q1, q3, q4). В ячейках таблиц получить абсолютные частоты, проценты по строке и столбцу, стандартизованные смещения частот, проверить наличие связи признаков по критерию Xиквадрат, а также оценить силу связи на основе коэффициента Крамера (STATISTICS/CHISQUARE, PHI and CRAMER’S V). Какие из анализируемых характеристик значимо связаны с количеством источников дохода? С какими характеристиками связь наиболее сильная? Какими характеристиками с большей вероятностью обладают респонденты, имеющие более двух мест работы? ??? 3. Построить таблицу сопряженности переменной SOURCE с семейным положением отдельно для мужчин и женщин (LAYER – переменная «пол» в окне установок команды). Получить те же статистики клеток. На основе анализа z-статистик, сделать вывод о том, по-разному ли описывается связь источников дохода и семейного положения для мужчин и женщин? С чем это может быть связано? Какие наиболее яркие различия можно выделить? ??? 4. Сгруппировать переменную «среднедушевой доход» в ранговую переменную, разбив на равные интервалы. Получить таблицу сопряженности сгруппированного дохода с переменной SOURCE. Оценить наличие связи признаков по критерию Хи-квадрат, проанализировать Z-статистики. Получить ранговые коэффициенты связи признаков. Можно ли говорить о наличии линейной связи между признаками? 5. Получить таблицу сопряженности признаков SOURCE и количества человек в семье респондента (переменная q5). Проанализировать таблицу, получить основные коэффициенты связи признаков. Проверить соответствие таблицы ограничению по наполненности клеток, при необходимости сделать преобразования и перестроить таблицу. Проинтерпретировать полученные результаты (описать как статистики по таблице в целом, так и статистики клеток). 6. Получить таблицу сопряженности и рассчитать ранговые коэффициенты связи признаков «доход» (сгруппированная переменная) и «настроение в последнее время» (переменная q9). Обратите внимание, что переменную q9 необходимо предварительно преобразовать, чтобы сделать анализ ранговых коэффициентов осмысленным. 7. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 6 Преобразование данных. Агрегирование данных 1. Открыть файл VCIOM.SAV из личной директории. Используя переменную o6_o10 (общий заработок респондента в прошлом месяце), сравнить заработки мужчин и женщин (расщепить выборку по переменной «пол» и рассчитать средние заработки при помощи процедуры DESCRIPTIVES). 2. Посмотреть в статусной строке, «взвешена» выборка или нет. Допустим, что, по данным государственной статистики, в генеральной совокупности: Категория людей Мужчины не старше 30 Женщины не старше 30 Мужчины старше 30 Женщины старше 30 Генеральная совокупность 20 % 17 % 30 % 33 % Выборочная совокупность ??? Построить соответствующую типологию (переменная polovozr), затем получить распределение по сконструированной переменной. На его основе построить весовую переменную WEIGHT (весовые коэффициенты рассчитать, поделив теоретические вероятности на выборочные). Исправить выборку в соответствии с полученными данными (WEIGHT CASES BY WES). Проверить, удалось ли правильно «взвесить» выборку (процедура FREQUENCIES по переменной polovozr). На взвешенном файле сравнить заработки мужчин и женщин по схеме первого задания. Изменились ли результаты? Если изменились – как именно, и с чем это может быть связано? 3. Снять расщепление файла, затем расщепить выборку по переменной «область» (qobl). При расщеплении указать «Compare groups» в окне команды SPLIT FILE. Сравнить области по уровню доходов (получить средние доходы и квадратичные отклонения по областям при помощи процедуры DESCRIPTIVES). Выбрать любые 5 областей (DATA/SELECT CASES) и сравнить доходы в выбранных областях при помощи процедуры EXPLORE. 4. Упорядочить файл (DATA/SORT CASES) по переменной «область» (qobl). При помощи процедуры DATA/ AGGREGATE, получить агрегированный файл AGGR.SAV, основанный на статистиках по областям (переменная qobl – «Область» – в файле VCIOM.SAV). Файл AGGR.SAV должен содержать переменные:  W1– доля женщин;  WF – доля женщин фертильного возраста (18–40 лет);  W2 – доля мужчин;     W3 – доля лиц с высшим образованием; W4 – средний возраст; W5 – доля лиц, не состоящих в браке; W6 – доля руководителей; W61 – доля рабочих; W62 – доля военнослужащих (основа – qo3),  W7 – доля лиц «в хорошем настроении»,  W8 – доля лиц, имеющих более одного источника дохода,  W9 – доля лиц, оптимистично оценивающих будущее России (основа - q28)  WS – средний доход; WMax– максимальный доход; WMin – минимальный доход. 5. Агрегированный файл следует сохранить в личной директории под именем AGGR.SAV. 6. Открыть агрегированный файл, сравнить области по интересующим вас характеристикам (выбрать 4-5 наиболее интересных характеристик). Для сравнения использовать процедуру analyze/reports/case summaries, основные статистики задать в меню «STATISTICS» в окне установок команды. 7. Описать полученные результаты, в отчет включить наиболее интересные статистические и содержательные выводы, сделанные на основе анализа агрегированных данных. 8. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 7 ??? Коэффициенты ранговой корреляции и коэффициент корреляции Пирсона 1. Открыть файл AGGR.SAV из личной директории. На основе статистик агрегированного файла получить коэффициенты корреляции Пирсона (ANALYZE/CORRELATE/BIVARIATE) между социально-демографическими показателями, показателями настроения и оптимизма, и средним доходом в области. Какие признаки значимо связаны между собой? Насколько сильно? Какой из признаков связан с доходом наиболее сильно? Как Вы считаете, почему? 2. Графически отобразить связь между любыми тремя парами признаков при помощи диаграммы рассеяния (GRAPH / SCATTER/ SIMPLE). Описать построенные графики. 3. Открыть объединенный файл данных (исходный файл с присоединенными агрегированными переменными) и рассчитать коэффициент корреляции Пирсона (ANALYZE/CORRELATE /BIVARIATE) между возрастом респондента и среднедушевым доходом. Предварительно поработать с переменной дохода (q15b_5): избавиться от исключительных и неопределенных значений, построить переменную «логарифм заработка». Получить коэффициенты корреляции для «исходных» и логарифмированных признаков. Построить диаграмму рассеяния, отражающую характер связи признаков, описать полученные результаты. 4. На основе анализа диаграммы рассеяния, сгруппировать значения признака «возраст», разделив на интервалы, на которых взаимосвязь дохода и возраста имеет сходную форму. Расщепить выборку по сгруппированному признаку «возраст», рассчитать коэффициенты корреляции между доходом и возрастом для каждого интервала в отдельности. Сравнить коэффициенты корреляции, рассчитанные для разных возрастных интервалов. 5. Получить коэффициенты ранговой корреляции Спирмена между признаками «Настроение в последнее время» (переменная q9) и «самооценка социального положения» (переменная qo29). Предварительно изучить распределения переменных, при необходимости избавиться от неопределенных ответов. 6. Изучить связь между теми же признаками при помощи статистик таблиц сопряженности (ANALYZE / DESCRIPTIVE STATISTICS / CROSSTABS). Рассчитать коэффициенты связи, предназначенные для анализа ранговых и номинальных переменных. Получить стандартизованные смещения частот, проанализировать наиболее значимые смещения в клетках. Какие комбинации значений признаков выделяются наиболее ярко? 7. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 8 ??? Параметрические методы 1. Изучить распределение среднедушевого дохода. Преобразовать переменную, избавиться от исключительных и неопределенных значений, при помощи процедуры EXPLORE проанализировать распределение на нормальность. 2. При помощи процедуры EXPLORE, проанализировать распределение логарифма доходов в группах по уровню образования. Определить, в каких группах доходы распределены нормально, и отобрать для анализа только эти группы (процедура SELECT CASES). Проверить распределение доходов на нормальность в сформированной подвыборке. 3. Пользуясь процедурой INDEPENDENT SAMPLES T-TEST (тест для независимых выборок), сравнить попарно средние по доходу (на сформированной подвыборке) в группах:  мужчин и женщин;  семейных и несемейных респондентов;  имеющих прекрасное настроение и, напротив, испытывающих тоску и страх;  молодых до 30 лет и старшего возраста. В каких случаях средние различаются существенно? В чем именно состоят различия? 4. Провести одномерный дисперсионный анализ с помощью процедуры MEANS (STATISTICS / COMPARE MEANS / MEANS, STATISTICS / ANOVA TABLE AND ETA) по переменной «логарифм дохода» (Dependent) в группах по переменной «настроение в последние дни» (q9, Independent). 5. С помощью процедуры EXPLORE исследовать распределение доходов в группах респондентов, характеризующихся разным настроением на сформированной подвыборке (для анализа используйте как числовые данные, так и ящичковую диаграмму). Описать наиболее яркие особенности групп. 6. Сгруппировать переменную «логарифм дохода» в ранговую переменную, и рассчитать коэффициенты ранговой корреляции этой переменной с переменными «возраст», «настроение» и «самооценка материального положения» (на сформированной подвыборке). 7. Провести одномерный дисперсионный анализ логарифма доходов (Dependent) с помощью процедуры STATISTICS/ COMPARE MEANS/ ONEWAY по переменной «семейное положение». Ответить на вопрос, существенно ли различаются доходы в указанных группах, а также попарно в рассматриваемых группах, для чего провести сравнение дисперсий (OPTIONS/ HOMOGENITY OF VARIANCE), множественные сравнения (POST HOC, BONFERRONI, SCHEFFE, TUKEY). 8. Содержательно описать результаты парных сравнений. 9. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 9 Непараметрические методы 1. Допустим, что, по данным государственной статистики, трудоспособное население исследуемого региона имеет следующую половозрастную структуру: Мужчины Женщины Всего До 29 лет 9 000 10 000 19 000 30–49 лет 18 000 17 000 35 000 Старше 49 лет 6 000 7 000 13 000 Всего 33 000 34 000 67 000 ??? Предварительно посчитав выборочные пропорции, проверить, репрезентативна ли выборка по полу (тест биномиального распределения: NONPARAMETRIC TESTS/ BINOMIAL); по возрасту (тест Хи-квадрат: NONPARAMETRIC TESTS/ CHI-SQUARE). Построив переменную «половозраст», проверить репрезентативность по половозрастной структуре (NONPARAMETRIC TESTS/ CHI-SQUARE). Какой вывод о репрезентативности выборки можно сделать на основании проведенного анализа? Были ли обнаружены какие либо различия между данными генеральной и выборочной совокупности? Если да, то как это можно объяснить? 2. Проанализировать распределения общего заработка респондентов (переменная o6_o10) и возраста (переменная q2). Проверить нормальность и логнормальность распределений общего заработка респондентов и возраста (преобразованные переменные). Для проверки нормальности использовать тест Колмогорова–Смирнова (NONPARAMETRIC TESTS/ 1-SAMPLE K-S), а также возможности процедуры EXPLORE. 3. Тестом Колмогорова-Смирнова для независимых выборок (NONPARAMETRIC TESTS/ INDEPENDENT SAMPLES K-S) проверить, совпадают ли распределения по доходам и возрасту в группах:  семейных и несемейных респондентов;  мужчин и женщин;  респондентов, оценивающих свое материальное положение выше среднего и ниже среднего;  респондентов, оптимистически и пессимистически относящихся к будущему России. 4. Проверить, совпадают ли распределения по доходам в группах по образованию и профессиональной принадлежности (тест медиан и тест Краскела–Уоллиса в меню NONPARAMETRIC TESTS/ K INDEPENDENT SAMPLES). 5. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 10 Регрессионный анализ: модель линейной регрессии 1. Открыть агрегированный файл AGGR.SAV. По агрегированному файлу данных (объекты – области, переменные – обобщенные статистики по областям) получить коэффициенты корреляции среднего дохода с переменными «средний возраст», «уровень оптимизма» и «настроение в последние дни», а также с интересующими вас социальнодемографическими характеристиками. Также получить коэффициенты частной корреляции дохода с переменными «средний возраст», «уровень оптимизма» и «настроение в последние дни» (ANALYZE /CORRELATE/PARTIAL), контролируя по уровню образования (controlling for q3). 2. На агрегированном файле данных получить уравнение регрессии (REGRESSION/ LINEAR), связывающее уровень дохода в области с отобранными на первом этапе независимыми переменными. ??? Сохранить предсказанные значения и границы доверительного интервала для среднего предсказанного значения, а также остатки. Отобразить в поле рассеяния (GRAPH/ SCATTEGRAM/ OVERLAY) связь независимой и зависимой переменной, линию регрессии и соответствующие доверительные границы. 3. Отобрав на основе корреляционного анализа подходящие переменные, на агрегированном файле данных изучить зависимость уровня оптимизма респондентов (зависимая переменная) от выбранных характеристик (независимые переменные). Сохранить предсказанные значения и их доверительный интервал. Напишите уравнение регрессии. Как можно проинтерпретировать основные коэффициенты? 4. Проанализировать качество построенной модели, при необходимости изменить список включенных в модель переменных и построить новую, более качественную модель. 5. Отобразить графически связь зависимой переменной с наиболее интересным для вас независимым признаком. 6. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 11 Регрессионный анализ: логистическая регрессионная модель 1. Построить модель логистической регрессии для решения следующей задачи: являются ли социально-демографические факторы (пол, возраст, образование, должностной статус, самооценка материального положения), а также любые 2-3 интересных для вас признака определяющими уровень оптимизма респондента по поводу будущего России (q28)? 2. Присвоить несодержательным значениям (например, «затрудняюсь ответить») независимых переменных код неопределенности. Переменные «возраст», «образование» перекодировать в переменные с меньшим числом категорий; провести все необходимые преобразования с отобранными для анализа независимыми переменными. 3. Дать интерпретацию полученной модели, проанализировать основные модельные статистики, оценить вклад участвующих в модели переменных. При необходимости пересмотреть список независимых переменных, провести регрессионный анализ повторно. 4. Проанализировать итоговую модель с точки зрения ее общего качества, а также качества предсказания положительных и отрицательных исходов. 5. Сохранить файл синтаксиса по всем проделанным процедурам. Задание 12 Факторный анализ 1. Открыть файл VCIOM.SAV. На основе данных по вопросу 29а (переменные 29аа – 29аk): «В какой мере, на Ваш взгляд, заслуживает доверия…» провести факторный анализ признакового пространства (ANALYZE / DIMENSION REDUCTION / FACTOR) методом главных компонент с вращением Varimax. Для этого предварительно изучить распределения исходных признаков и преобразовать переменные в соответствии с ограничениями, накладываемыми факторным анализом. Проводимые преобразования переменных, а также логику проводимых преобразований следует описать в отчете. 2. Проинтерпретировать полученные обобщенные представления о существующих в обществе типах доверия основным институтам. Сохранить полученные факторы как переменные. Дать названия факторам. Обозначить метки переменных в массиве данных. ??? 3. Получить коэффициенты корреляции полученных переменных с доходом, возрастом и уровнем образования (CORRELATE/BIVARIATE). Коэффициенты выбрать с учетом существующих ограничений, накладываемых типом переменной. 4. Предварительно проанализировав распределения признаков и проведя необходимые преобразования, проанализировать различия средних по интересным для Вас факторам:  между мужчинами и женщинами (переменная q1);  в профессиональных группах (переменная qo3);  в группах по семейному положению (переменная q4);  в группах, характеризующихся разным настроением (переменная q9). Описать содержание выявленных различий, их статистическую значимость. Как различаются группы по выделенным типам доверия? Где возможно, проиллюстрировать вывод графически (построить графики средних значений факторов в группах). 5. Сохранить массив данных с построенными факторами, а также файл синтаксиса по всем проделанным процедурам. Задание 13 Кластерный анализ 1. Открыть файл с сохраненными результатами факторного анализа. Используя построенные признаки (факторы), построить типологию респондентов по характерным для них типам доверия основным институтам. Для этого на первом этапе отобрать случайным образом 50 объектов и провести иерархический кластерный анализ (CLASSIFY/HIERARCHICAL CLUSTER) на сформированной подвыборке. 2. Проанализировать дендрограмму классификации, определить оптимальное число кластеров, вернуться к исходному массиву и построить кластерную модель (ANALYZE/CLASSIFY/K-MEANS). 3. На основе информации о центрах кластеров, проинтерпретировать построенную модель, дать названия кластерам. Изучить полученные группы по социальнодемографическому составу (пол, возраст, образование, семейное положение). 4. Открыть файл VCIOM.SAV. Изучить распределения ответов на вопрос об обеспеченности товарами длительного пользования (вопрос qo26, переменные qO26_1 – qO26_13: «Имеется ли в Вашем доме…»). На основе данных по вопросу qO26 построить типологию индивидов по обеспеченности основными товарами длительного пользования. 5. Для решения поставленной задачи, на первом этапе случайным образом отобрать 50 объектов из основного массива данных и провести на полученной подвыборке иерархический кластерный анализ (CLASSIFY/HIERARCHICAL CLUSTER). 6. Выбрать оптимальное число кластеров, провести быстрый кластерный анализ (ANALYZE/CLASSIFY/K-MEANS) на всем массиве данных. Построить несколько моделей с разным числом кластеров. Проверить полученные модели на устойчивость, выбрать наиболее устойчивую кластерную модель, дать содержательные названия кластерам. 7. Выбрав подходящий метод для решения задачи на основе ограничений, накладываемых типом переменной, сравнить среднедушевые доходы респондентов в полученных группах. 8. Сохранить файл синтаксиса по всем проделанным процедурам.

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ УТВЕРЖДАЮ Председатель совета

Related documents

Products

Support

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ УТВЕРЖДАЮ Председатель совета

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib