обновленный файл &quot

advertisement
ЗАДАНИЯ К ПРАКТИЧЕСКИМ ЗАНЯТИЯМ.
Темы 10-11. Основы работы с базой данных RLMS. (8 часов)
Занятие 1. Использование данных семейного и индивидуального
файла.
Исходные файлы базы данных на начало занятия. Номера соответствуют номеру раунда.
Файлы для панельных данных
Раунд
5
6
7
8
9
10
11
12
13
14
15
Директория
Год
1994
1995
1996
1998
2000
2001
2002
2003
2004
2005
2006
R5
R6
R7
R8
R9
R10
R11
R12
R13
R14
R15
Файлы
Анкета домохозяйства Индивид. анкета
R5HALL06.SAV
r5iall08.sav
R6HALL06.SAV
r6iall08.sav
R7HALL06.SAV
r7iall08.sav
R8HALL06.SAV
R8IALL10.sav
R9HALL07.SAV
R9IALL10.sav
R0HALL04.SAV
R0IALL07.sav
R1HALL10.SAV
r1iall09.sav
R2HALL07.SAV
R2Iall08.sav
R3Hall06.SAV
R3iall06.SAV
R4HALL03.sav
R4iALL03.sav
R15HALL04.SAV
R15IALL05.SAV
Файлы для непанельных данных (cross-sectional analysis) содержатся в файлах с
названиями типа R5h_os06.sav и r5iall08 (директории 1994SAMPLE на диске). В
поддиректориях 1994SAMPLE находятся файлы семейных и индивидуальных данных,
полученных по адресам одной и той же выборки, сделанной в 1994 году. Эти данные
репрезентируют население России. Сравнительный непанельный анализ между волнами
(cross-sectional analysis) должен осуществляться на массиве только этих семей и индивидов.
Кроме того, в каждой последующей волне исследователи также старались найти всех
людей, участвовавших в исследовании ранее - и когда находили переехавших, то
опрашивали их по их новым адресам (поиск осуществлялся в пределах только одного и того
же населенного пункта). В поддиректориях ALLINDS находятся данные для всех
опрошенных индивидов (как проживающих по адресам выборки 1994 года, так и тех, кто
хотя бы один раз ранее был опрошен по адресу выборки 1994 года, а в данной волне
переехал на другой адрес и был опрошен по этому новому адресу). Это массивы данных для
панельного анализа индивидов - взрослых и детей. Соответствующие этим файлам семейные
данные находятся в поддиректориях ALLHHS.
Файл r5_15i.sav – идентификатор для всех индивидов, хотя бы раз принявших участие
в опросе.
Файл isco88ru.doc – файл кодификатор профессий (ISCO - International Standard Codes
of Occupations, Geneva: International Labor Office, 1990) на русском языке
Общая рекомендация ко всем выполняемым вами заданиям: сохраняйте проделанную
вами работу в виде программ, используя функцию “paste” SPSS. В этом случае вы сможете
дома повторить все сделанное вами в классе. Кроме того, рекомендуется прикладывать
программу к вашим исследованиям.
1.
. Загрузка файлов в вашу директорию.
1. Создать на жестком диске компьютера (директория С:/) свою директорию (фамилия
латиницей).
2. Переписать туда нужные для работы файлы – например, данные одной волны (R14).
1
3. Работа проводится ТОЛЬКО С ФАЙЛАМИ, ПЕРЕПИСАННЫМИ В ВАШУ
ДИРЕКТОРИЮ! Созданные вами файлы (например, синтаксиса) в случае необходимости
сохраняйте в свернутом виде на дискетах.
Каждая семья и каждый индивид в каждой волне исследования имеет свой уникальный
идентификационный номер. В каждом файле есть идентификационные переменные за все
предыдущие волны, позволяющие сливать файлы разных раундов (напр., присоединять к файлу
одного года данные из файлов других лет для отслеживания динамики) и сопоставлять данные по
семьям и индивидам. В семейных файлах есть только идентификаторы семейные, в индивидуальных
– и индивидуальные, и семейные.
Раунд
Год
1994
1995
1996
1998
2000
2001
2002
2003
2004
2005
2006
Идентификаторы
Домохоз-во
Индивид
aid_h
aid_i
bid_h
bid_i
cid_h
cid_i
did_h
did_i
eid_h
eid_i
fid_h
fid_i
gid_h
gid_i
hid_h
hid_i
iid_h
iid_i
jid_h
jid_i
kid_h
kid_i
idind
5
6
7
8
9
10
11
12
13
14
15
все
idind - единый номер индивида для всех волн с 5-й по 14-ю, не меняется от волны к волне –
сплошная нумерация людей, хотя бы раз участвовавших в исследовании, по мере поступления их в
панель.
Идентификатор семьи – 6 знаков, первые два – номер населенного пункта, вторые две –
опросного участка в этом населенном пункте, третьи две – номер семьи на опросном участке.
Идентификатор человека – 8 знаков, первые 6 соответствуют идентификатору семьи,
последние 2 – номер человека в данной семье.
Идентификационные переменные:
aid_i bid_i cid_i did_i eid_i fid_h gid_h hid_h (aid_h bid_h cid_h did_h eid_h
fid_i gid_i hid_i iid_i jid_i)
или для индивида idind + round
round - № раунда (волны, года) – эту переменную нужно будет создать.
site – номер населенного пункта
ssu – номер района
a3 – номер семьи
ОНИ ДОЛЖНЫ ПРИСУТСТВОВАТЬ В КАЖДОМ ВАШЕМ ФАЙЛЕ!
2.
3.
Знакомство с переменными и файлами. Сопоставление с анкетой.
2.1. 3 анкеты: семейная, анкета для взрослых, анкета для детей. 2 файла: семенные данные и
индивидуальные данные.
2.2. Названия переменных: первая буква – номер волны ( 5- a, 6 – b, 7- c, 8 – d, 9- e, 10 – f, 11
– g, 12 – h, 13 – i, 14 – j, 15 - k), вторая буква – номер раздела анкеты (a, b, c, d, e, f, h, i,
j, l, m, n, o, k), цифры – номер вопроса в разделе.
2.3. В дальнейшем имена переменных мы будем «называть» со второй буквы, т.е. имени
раздела, т.к. первая буква меняется от волны к волне. Так, одна и та же переменная j1
будет иметь имена aj1 в пятой волне и hj1 в 12 волне. Первая буква м.б. взята в тексте
заданий в скобки, это значит, что она меняется в зависимости от волны: (h)j1.
(+) Задание 1. Использование данных из «семейного» файла для индивидуального файла
2
(MATCH FILES). На примере 15 раунда. Все ваши действия сохраняйте в виде программ.
3.1. Загрузить файл R15HALL04.SAV (семейный), оставить нужные вам переменные в новом
файле, например командой
SAVE OUTFILE='(директория)\(имя1).sav ' /keep hredid_h to ha3 nfm_03 hf14
/COMPRESSED.
Команду обязательно сохраните в файле синтаксиса. Не забудьте, что все команды
SPSS оканчиваются точкой!!!! Чтобы выполнить команду (или несколько команд)
выделите их мышью и нажмите знак стрелочки под словом run в меню.
Цель: Используя «ключевую переменную (k)id_h (или массив идентификаторов с (k)id_h по
aid_h в будущем, когда вы будете работать с массивами за несколько раундов одновременно)
присоединить к вашему файлу какую-либо переменную из семейного файла. Для этого оба
файла должны быть отсортированы по этой переменной (или по списку переменных, если
несколько раундов).
3.2. Отсортировать созданный файл по выбранной ключевой переменной (k)id_h. Сохранить
изменения в этом файле (сортировку).
3.3. Рассчитать переменную «душевой доход». Для этого нужно: 1) перекодировать в
переменной (k)f14 значения с 999997 по 999999 («затрудняюсь ответить» и т.д.) в миссинги (либо
на листе переменных, либо командой: missing value (k)f14 (999997 to 999999). Либо командой
recode (k)f14 (999997 thru 999999 = sysmis). 2) создать новую переменную compute inc_du
= (k)f14 / nfm_(15). Дайте название (лейбл) созданной переменной: variable label inc_du
‘душевой доход’. Сохранить результаты.
3.4. Загрузить файл R15IALL05.SAV (индивидуальный)
3.5. Создать новый индивидуальный файл, оставив переменные с idind по (k)h6 и, например,
(k)ej1 (или любые другие, кроме текстовых, для примера) и дать ему название
Команда сохранения нужных вам переменных в новом файле.
SAVE OUTFILE='(директория)\(имя2).sav' /keep idind to (k)h6 (k)j1 /COMPRESSED.
3.6. Отсортировать созданный файл по выбранной ключевой переменной (k)id_h. (или в
будущем - ПО ТОМУ ЖЕ СПИСКУ ПЕРЕМЕННЫХ-идентификаторов, если вы работаете
с несколькими волнами) (можно использовать ту же команду) и сохранить файл.
3.7. При помощи ключевой переменной присоединить переменные из семейного файла (MATCH
FILES) (nfm_(15), (k)f14, inc_du). Вы видите, что членам одной и той же семьи приписываются
одинаковые значения этих переменных (т.е. всем членам семьи один и тот же душевой доход).
Сохранить полученный файл.
4. (+) Задание 2. Создать агрегированную переменную «индивидуального» файла и присоединить
ее к семейному файлу (MATCH FILES). На примере 12 раунда. Все ваши действия сохраняйте в
виде программ.
4.1 Загрузить файл созданный вами «короткий» индивидуальный файл.
4.2 Выбрать переменную, по которой вы будете создавать агрегированный признак – например,
занятость (k)j1 (можно посчитать количество занятых в семье; если взять пол – количество
мужчин и женщин в семье, и т.д.). Создать новую переменную «работает ли индивид». Recode
(k)j1 (1=1) (2 thru 5 = 0) (7 thru 9 = sysmis) into employ. В этой переменной 1 – работает, 0
– не работает. Создать файл с агрегированной переменной (суммирование по выбранной и
перекодированной переменной) и идентификатору семьи (AGGREGATE…) (идентификатор
hid_h). Название можно дать свое.
4.3 Открыть семейный файл (можно вспомогательный созданный вами) и на основе
идентификатора присоединить созданную вами переменную из агрегированного файла. Сохранить
результат.
3
Занятие 2. Формирование массивов по разделам анкет за все раунды.
(+) Задание 3. «Склеивание» семейных файлов из разных раундов «по вертикали» (т.е. один
список переменных, данные разных лет подписываются друг под другом – команда merge/add
cases). Все ваши действия сохраняйте в виде программ.
«Склеивание» файлов таким образом нужно для того, чтобы, во-первых, иметь возможность
во всех волнах производить одинаковые изменения (перекодирование переменных, расчет новых
переменных – например, душевого дохода и т.д.), и, во-вторых, оценивать регрессионные модели на
всех совокупности раундов (вводя дамми для номера раунда) или панельные регерессии.
1.1 Для того, чтобы таким образом соединить файлы, нужно чтобы во всех файлах:
А) одинаковые переменные имели одинаковые названия
Б) переменные были сопоставимыми для тех случаев, когда есть отличия между раундами.
Как правило, для этого нужно в файлах более поздних раундов создать переменные, аналогичные
тем, которые использовались раньше (например, просуммировать переменные COMPUTE e6 =
sum(e6.1, e6.2) для 8,9 раундов для сопоставимости с 5,6,7 раундами)
В) были одинаковые миссинги для одной и той же переменной – они м.б. разные в разных
раундах.
Примерно одинаковая структура у раундов 5,6,7 – их можно соединить в один файл наиболее
безболезненно.
Работа будет состоять из нескольких этапов:
1) Для каждого нужного раунда:
1.1) переименовать переменные в файле, убрав первую букву-идентификатор раунда;
1.2) создать переменную-идентификатор номера раунда и единый «семейный»
идентификатор для удобства склеивания индивидуальных и семейных данных за один и тот
же год;
1.3) произвести перекодирование ответов «затрудняюсь ответить» и т.д. в «system
missing» для тех переменных, которые будут преобразованы в п.1.4, также которые будут
рассчитываться (например, «сумма расходов на питание»)
1.4) произвести необходимые преобразования переменных, создав недостающие
переменные (которых не было в предыдущих раундах), или удалив те переменные, которые
не встречаются в других раундах, а также некоторые суммарные переменные (сумма расходов
на питание);
1.5) разбить файл данного раунда на несколько более «коротких» файлов в
соответствии с разделами анкеты (АВ, CD, Е1, EF).
2) «Склеить» короткие файлы разных раундов, но одного и того же раздела в файлы,
содержащие один и тот же набор переменных (например, раздел АВ) и кейсы нескольких раундов
(например, 5-7).
1.
1.2 Переименование переменных 5,6,7 и 12 раунда (12- для сравнения различий в составе
переменных).
Загрузить семейный файл 5 раунда R5hall06.sav. Все переменные этого раунда, кроме
идентификаторов, начинаются с буквы “а”, раунда 6 – “b”, раунда 12 – «h» и т.д. Эту букву в именах
переменных нужно удалить. Команда:
RENAME VARIABLES (…список переменных = список переименованный ).
Переименовывать нужно переменные, начинающиеся с буквы, обозначающей номер раунда
(“а”, раунда 6 – “b”, раунда 12 – «h» и т.д.), т.е. для 5-го раунда - для переменных с aa3 по af14.
Список всех переменных можно сформировать при помощи команды utilities/variables/paste из
командного меню. Удалить из списка те переменные, которые переименовывать не нужно - (ВСЕ
идентификаторы за все раунды, psu, ssu, stsus и т.д). Это список поместить перед знаком равенства в
команде RENAME VARIABLES.
Затем скопировать этот список переменных во вспомогательный файл (это м.б. word и т.д.) и
в этом вспомогательном файле заменить ‘ a’ (пробел_а) на 2 пробела. (Аналогично – первую букву
для других раундов). Некоторые переменные нужно переименовывать по-другому (те, которые
имеют цифру, а не букву в качестве указания на раунд: например, nfm_03 – убирать цифры) – это
лучше сделать вручную.
Сохранить результат в новом файле.
1.3 В этом новом переименованном файле создать переменную «номер раунда»: compute
4
round = 5. и тд., сохранить файл.
1.4 Создать «локальный идентификатор семьи» (не годится для склеивания разных волн, но
годится для склеивания семейных и индивидуальных данных из одной волны) compute id_h =
aid_h. (для 5-й волны); compute id_h = bid_h. (для 6-й волны) и т.д. Сохранить файл.
1.5 То же повторить для раундов 6,7 и 12.
1.6 Сравнить структуру семейных файлов 12 и 5 волн. Для этого перенести в excel списки
переменных и их лейблы (в столбик) и сопоставить их друг другу.
(См. сравнение файлов и анкет за разные годы в файлах sravn_ind_5_14.xls – для
индивидуальных анкет, sravn_sem_5_14.xls – для семейных анкет.)
1.7 Выявить несовпадения имен переменных для раундов 5,6,7 и проанализировать.
1.8 Преобразовать несовпадающие в разных раундах (5-7) переменные (вырезать ненужные,
добавить отсутствующие, перекодировать «затрудняюсь ответить» и т.д.) (см. некоторые
пояснения далее)
1.9 Сохранить файлы 5, 6 и 7 волн по разделам: AB, CD, E1 (питание), EF. В каждом файле
сохранять идентификаторы. Использовать команду (для 5-го раунда, на примере разделов АВ,
CD):
SAVE OUTFILE='(директория)\h5_ab.sav' /keep round id_h redid_h to b10.9.9
/DROP b1.8 b2.8 b3.8 b4.8 b5.8 b6.8 b7.8 b8.8 b9.8 b10.8 /COMPRESSED.
SAVE OUTFILE='(директория)\h5_cd.sav' /KEEP= round id_h aid_h psu ssu status
popul site a3 nfm c1 to c9.11c c9.101a c9.101b c9.12a to d21 /DROP c8 c11.7
/COMPRESSED.
Добавить следующую запись в предыдущую команду, если Вы еще не удалили эти
переменные:
/DROP c9.1c c9.2c c9.3c c9.4c c9.5c c9.6c c9.7c c9.8c c9.9c c9.10c c9.11c c9.12c
и т.д. для разделов E1 (питание), EF
1.10 Повторить переименование и разбивку для всех раундов.
1.11 Соединить «короткие» файлы (по разделам) по всем раундам (начиная с более старшего),
так, чтобы в одном файле содержались данные за все годы по конкретному разделу.
Для этого сначала загрузить файл h6_ab.sav; затем, использовав команду меню data add
cases (имя добавляемого файла h5_ab.sav) , переместить все несовпадающие переменные из
левого окна в правое, и сохранить команду в файл синтаксиса при помощи опции «past».
Вы должны получить примерно следующую команду:
ADD FILES /FILE=* /FILE='(директория)\h5_ab.sav'.
EXECUTE.
Выполните ее и проверьте, присоединились ли данные 5-го раунда к 6-му раунду при помощи
команды построения простых распределений для переменной round (сохранить команду
FREQUENCIES VARIABLES=round /ORDER= ANALYSIS.). У вас должно получиться, что она
принимает 2 значения – 5 и 6, примерно по 3800 семей в каждом раунде. Сохранить полученный
файл как h5_6_ab.sav.
Зтем загрузить файл h7_ab.sav и аналогичным способом «приклеить» к нему файл
h5_6_ab.sav, проверив полученный результат.
1.12
Дать файлам имена:
h5_7_ab.sav – разделы A, B – общие данные и родственные связи
h5_7_cd.sav - разделы C,D – имущество и ЛПХ
h5_7_e1.sav - раздел E1 - питание
h5_7_ef.sav - разделы E,F – расходы и доходы
1.13 Повторить шаги 1.2 – 1.12 для раундов 8-14 самостоятельно .
(Некоторые пояснения по преобразованию файлов 5-6-7 раундов и 8-14 раундов
2. . Работа с файлом 567-раунды.
2.1 Удалить переменные с9.1с, с9.2с, с9.3с, …, с9.11с (За сколько можно сегодня купить…)
2.2 Удалить переменные b1.8 b2.8 b3.8 b4.8 b5.8 b6.8 b7.8 b8.8 b9.8 b10.8 (семейное
положение членов домохозяйства) – или эти переменные можно удалить потом при помощи
команды drop при сохранении файла по разделам
5
2.3 Удалить переменные
C11.7
C9.7.1A
C9.7.1B
Ваша семья продала мотоцикл, мотороллер, мопед?
У Вас есть грузовой автомобиль?
СКОЛЬКО ЛЕТ грузовому автомобилю?
278
259
260
2.4 (для склеивания с 8-м и далее раундами) Переименовать переменные
Старые имена E13.3.1A E13.3.1B (Имена в 7 раунде)
Новые имена E13.31A E13.31B (Дать новые имена, как в 8 раунде)
2.5 Перекодировать переменные (расходы на питание) чтобы посчитать сумму расходов на
питание и на алкоголь
E1.1C, E1.2C, …, E1.56C
Сделать миссинги вместо
Для 5,6,7 раундов
7
8
9
затрудняюсь ответить
отказ от ответа
нет ответа
9997,00
9998,00
9999,00
затрудняюсь ответить
отказ от ответа
нет ответа
Для 8 раунда
DO IF (round = 7) .
MISSING VALUES e1.1c e1.2c e1.3c e1.4c e1.5c e1.6c e1.7c e1.8c e1.9c e1.10c
e1.11 e1.12c e1.13c e1.14c e1.15c e1.16c e1.17c e1.18c e1.19c e1.20c e1.21c e1.22c
e1.23c e1.24c e1.25c e1.26c e1.27c e1.28c e1.29c e1.30c e1.31c e1.32c e1.33c
e1.34c e1.35c e1.36c e1.37c e1.38c e1.39c e1.40c e1.41c e1.42c e1.43c e1.44c
e1.45c e1.46c e1.47c e1.48c e1.49c e1.50c e1.51c e1.52c e1.53c e1.54c e1.55c
e1.56c(7 8 9).
END IF .
DO IF (round = 8) .
MISSING VALUES e1.1c e1.2c e1.3c e1.4c e1.5c e1.6c e1.7c e1.8c e1.9c e1.10c
e1.11 e1.12c e1.13c e1.14c e1.15c e1.16c e1.17c e1.18c e1.19c e1.20c e1.21c e1.22c
e1.23c e1.24c e1.25c e1.26c e1.27c e1.28c e1.29c e1.30c e1.31c e1.32c e1.33c
e1.34c e1.35c e1.36c e1.37c e1.38c e1.39c e1.40c e1.41c e1.42c e1.43c e1.44c
e1.45c e1.46c e1.47c e1.48c e1.49c e1.50c e1.51c e1.52c e1.53c e1.54c e1.55c e1.56c
(9997 9998 9999).
END IF .
2.6 Сделать две суммарные переменные: сумма расходов на питание, кроме алкоголя и табака и
сумма расходов на алкоголь и табак
COMPUTE e1_sum = sum (e1.1c , e1.2c , e1.3c , e1.4c , e1.5c , e1.6c , e1.7c , e1.8c
e1.9c , e1.10c , e1.11c , e1.12c , e1.13c , e1.14c , e1.15c , e1.16c , e1.17c , e1.18c
e1.19c , e1.20c , e1.21c , e1.22c , e1.23c , e1.24c , e1.25c , e1.26c , e1.27c , e1.28c
e1.29c , e1.30c , e1.31c , e1.32c , e1.33c , e1.34c , e1.35c , e1.36c , e1.37c , e1.38c
e1.39c , e1.40c , e1.41c , e1.42c , e1.43c , e1.44c , e1.45c , e1.46c , e1.47c , e1.48c
e1.49c , e1.50c , e1.51c ).
EXECUTE.
,
,
,
,
,
COMPUTE e1_ sum1 = sum ( e1.52c , e1.53c , e1.54c , e1.55c , e1.56c).
EXECUTE.
3. Работа с файлом 8 раунда. (для самостоятельного разбора)
3.1 Новые переменные для файла 8 волны – появились в файле.
A3.3 C11.13 C9.6.2A C9.6.2B C9.7AA C9.7AB E13.21A E13.21B E13.3A E13.3B F13.3A
F13.3B F14.1 F14.2 F14.3
3.2 Для того, чтобы в 8 раунде создать те переменные, которые были в 5-6-7 раундах менее
6
подробными (в 8 раунде – расходы на одежду для взрослых и детей отдельно, в 5-6-7 раундах –
расходы на одежду взрослых и детей вместе), нужно сначала перекодировать переменные
E6.1 E6.2
F12.6AB
F12.6BB F1210AB F1210BB
Сделать миссинги вместо
999997,00
999998,00
999999,00
затрудняюсь ответить
отказ от ответа
нет ответа
Команда:
RECODE e6.1 e6.2 f12.6ab f12.6bb f1210ab f1210bb (SYSMIS=SYSMIS) (999996 thru
999999=SYSMIS) (99996 thru 99999=SYSMIS) .
EXECUTE .
ИЛИ:
MISSING VALUES e6.1 e6.2 f12.6ab f12.6bb f1210ab f1210bb (99996 thru 99999).
3.3 Создать новые переменные e6 f12.6a f12.6b для совпадения с раундами 5-6-7
COMPUTE e6 = sum(e6.1, e6.2) .
COMPUTE f12.10a = f1210aa .
IF (f1210ba = 1) f12.10a = 1 .
COMPUTE f12.10b = sum (f1210ab, f1210bb) .
COMPUTE f12.6a = f12.6aa .
IF (f12.6ba = 1) f12.6a = 1 .
COMPUTE f12.6b = sum (f12.6ab, f12.6bb) .
EXECUTE .
Конец пояснения)
3.4 (Программы (команды) переименования переменных по раундам, сохранения
«коротких» файлов по разделам, и «склеивания» коротких файлов по разделам можно
скачать из Интернет - программы)
7
Темы 12-13. Данные о доходах и расходах семей. (8 часов)
Занятие 3. Доходы семьи: преобразование переменных.
Исходные файлы на начало занятия.
Склееные (с переименованными переменными) файлы по всем раундам скачать в созданную
вами директорию (все файлы – в одну и ту же папку).
h_5_15_ab.sav – разделы A, B – общие данные и родственные связи
h_5_15_cd.sav - разделы C,D – имущество и ЛПХ
h_5_15_e1.sav - раздел E1 - питание
h_5_15_ef.sav - разделы E,F – расходы и доходы.
А также файл синтаксиса doxody_5_14_ucheb_zanatie3 и файл «статистика 2006».
Идентификационные переменные :
round - № раунда (волны, года)
aid_h, bid_h, cid_h, did_h, eid_h, fid_h, gid_h, hid_h, iid_h, jid_h, kid_h –
идентификационный номер семьи в раунде
id_h – создаваемы идентификационный номер семьи (для склеивания инд. и семейных
данных в пределах одного раунда)
site – номер населенного пункта
ssu – номер района
a3 – номер семьи
ОНИ ДОЛЖНЫ ПРИСУТСТВОВАТЬ В КАЖДОМ ВАШЕМ ФАЙЛЕ!
Характеристики населенного пункта и общие (также рекомендуется сохранять в каждом
файле)
psu - первичная единица отбора (имя региона, области)
status – тип поселения
popul - численность населения в нас.пункте
origsam - Адрес первоначальной выборки?
Inwgt - Постстратификационный вес для данной семьи или индивида в данной волне
Задание 4.
1. Работа с файлом доходов и расходов – h_5_15_ef.sav
Расчет суммарных доходов семьи (сумма доходов, указанных по разным источникам). Для
этого нужно ответы (затрудняюсь, нет ответа, отказ) перекодировать в «пропуски ответов» (т.е. точка
в данных) и потом произвести суммирование.
1.1 Для всех переменных доходов перекодировать ответы
затрудняюсь ответить
отказ от ответа
нет ответа
в миссинги, учитывая, что для разных раундов – разные значения миссингов (для 5, 6, 7
раундов – чаще всего 7,8,9, для 8 раунда – 99999, для 9,10, 11, 12 раунда- 99999997, для раундов 13-15
– см. самостоятельно).
Для того, чтобы сделать это корректно, нужно обязательно посмотреть, как эти данные
выглядят в файле, и определить, какие миссинги в каком раунде. Если файл уже склеен, можно
отсортировать его по двум переменным одновременно: раунд и нужная переменная дохода (по
убыванию), и тогда все миссинги (девятки) будут расположены сверху каждого раунда.
Команды перекодировки будет выглядеть примерно так:
DO IF (round = 8) .
RECODE
f12.1b f12.2b f12.3b f12.4b f12.5b f12.6b f12.6ab f12.6bb f12.7b f12.8b
f12.9b f12.10b f1210ab f1210bb
(999997=SYSMIS) (999998=SYSMIS) (999999=SYSMIS) .
END IF .
8
EXECUTE .
(в файле синтаксиса doxody_new_5_15_ucheb.sps приведены все команды перекодирования по
всем раундам).
Посмотрите, нет ли ошибок в данных! Для семьи № 800009 (did_h) в 8-ом раунде явно не
учтена деноминация для переменной f14 (очень большое значение). Нужно либо вообще удалить это
значение, либо убрать последние три цифры.
1.2 Аналогично файлу о доходах и расходах сделать преобразования в файле с данными о личном
подсобном хозяйстве (ЛПХ). Загрузить файл h_5_15_cd.sav и произвести перекодирование для
переменных d10 d13 d16 d18 d21.
Команды перекодировки будут выглядеть примерно так:
DO IF (round = 5) .
RECODE
d10 d13 d16 d18 d21
(9=SYSMIS) (7=SYSMIS) (8=SYSMIS) .
END IF .
EXECUTE .
(в файле синтаксиса doxody_5_15_ucheb_zanatie3.sps
перекодирования по всем раундам).
приведены
все
команды
1.3 (+) Переменные доходов от личного подсобного хозяйства + идентификаторы round и id_h
сохранить во вспомогательном файле h_5_15_d1.sav. Отсортировать файлы. При помощи
идентификаторов доклеить эти переменные (d10 d13 d16 d18 d21)в файл h_5_15_ef_mis.sav
1.4 Рассчитать переменную суммарных доходов семьи (используя команду sum).
В программном файле doxody_5_15_ucheb_zanatie3.sps приведены команды расчета четырех
переменных для суммарных доходов:
doxody – суммарные номинальные денежные поступления (включая доходы от сельского
хозяйства, потраченные сбережения, взятые в долг деньги)
doxody1 – суммарные номинальные денежные поступления (включая доходы от сельского
хозяйства и потраченные сбережения, исключая взятые в долг деньги)
doxody2 – суммарные номинальные денежные поступления (включая доходы от сельского
хозяйства, исключая потраченные сбережения и взятые в долг деньги)
doxody3 'денежные поступления за вычетом взятого в долг, потраченных сбережений,
проданного имущества, полученных от возврата долгов.
Сравнить рассчитанные доходы и общие доходы семьи, которые называет респондент (вопрос
f14). Обратите внимание, что довольно много семей за все раунды указывают свои суммарные
доходы, равные нулю! Сравните переменные с учетом и без учета взятых в долг денег, и с тратой и
без траты сбережений. Подумайте, какую переменную доходов использовать, или как сформировать
новую (среднее из них, минимум или максимум, с учетом взятых в долг денег или без).
1.5 Создать переменную дефлятора (среднероссийские данные): на основании данных об
индексах цен в среднем по России за 1995-2006 годы.
Индексы потребительских цен (в разах) декабря к декабрю предыдущего года:
1995 – 2,3 (учесть также деноминацию)
1996 – 1,218 (учесть также деноминацию)
1997 – 1,110 (учесть также деноминацию)
1998 – 1,844
1999 – 1,365
2000 – 1,202
2001 – 1,186
2002 – 1,151
2003 – 1,120
2004 – 1,117
2005 – 1,109
2006 – 1,090
9
При умножении любой стоимостной переменной на эту переменную цены должны
пересчитываться к уровню 2006 года, т.е. для раунда 15 переменная дефлятора должна быть равна 1,
для 14 раунда – 1,090, для 13 раунда – 1,090*1,109 и т.д. Использовать команду COMPUTE. В файле
синтаксиса приведен пример расчета переменной дефлятора для приведения к ценам 2006-го года.
Учтите, что в данных есть два пропущенных года: 1999 и 1997, хотя при расчете дефлятора ИПЦ для
соответствующих лет пропускать нельзя. Для 1994-1996 нужно также учесть деноминацию, т.е.
разделить дефлятор на 1000.
Другой способ.
В файле statistics_2006.sav содержатся некоторые переменные госстатистики по регионам
(уровень безработицы, рождаемость, и пр.). В том числе есть рассчитанный по регионам дефлятор,
приводящий все цены к уровню 2006 года. Для этого нужно переменную присоединить к вашему
рабочему файлу при помощи ключевых переменных round, psu (до этого оба файла нужно
отсортировать по этим переменным). После этого умножение любой стоимостной переменной
(например, доходов, заработной платы и т.д.) на дефлятор (def_2006) даст вам пересчет этой
переменной в цены 2006 года.
1.6 (+) Рассчитать переменные душевого дохода (деление переменной суммарного дохода на
количество членов семьи, или с учетом поправочных коэффициентов шкалы эквивалентности) с
учетом дефлятора для каждой из рассчитанных Вами переменных дохода (doxody, doxody1,
doxody2, doxody3), а также переменной f14. Для этого каждую такую переменную нужно
умножить на дефлятор (любой из двух) и разделить на количество человек в семье.
Рассчитать средние значения душевого дохода по годам и посмотреть на его динамику при
помощи команды MEANS. Сравнить также показатели душевых доходов, рассчитанные разными
методами (на основании doxody, doxody1, doxody2, doxody3) . Выявить отклонения (смотри
стандартные отклонения).
Формула для расчета шкалы эквивалентности: вместо количества человек в семье суммарный
доход делится на величину, равную = 1 + (количество взрослых – 1)*0,7 + (количество детей)*0,5.
Сравнить душевые доходы со шкалой эквивалентности и без. (Если количество детей
неизвестно, считать всех по взрослому коэффициенту).
1.7 Расчет показателя "номер квентильной группы по душевому доходу". Этот показатель
рассчитывается в рамках каждого года отдельно, иначе в низкодоходную группу могут попасть
семьи одного и того же раунда (если в нем были более низкие доходы), а в высокодоходную –
другого раунда. Либо, что еще хуже, одни и те же семьи за разные раунды попадут в одну и ту же
квентильную группу…. Выберите один из показателей душевого дохода, рассчитанный вами
ранее. Например
RANK VARIABLES= df14 (A) BY round /NTILES (4) /PRINT=YES /TIES=MEAN .
Переменная получает имя ndf14 и показывает, в какую группу (1 – низкодоходные семьи, 5
– высокодоходные) попала семья в данном году.
1.8 (+) Рассчитать средние значения душевого дохода по годам и по квентильным группам и
посмотреть на его динамику (при помощи команды MEANS).
1.9 Рассчитать средние значения доли доходов по разным направлениям по квентильным группам
(для фиксированного года) и интерпретировать результат (можно построить график)
1.10
(+)Установить фильтр для какого-либо конкретного года. На основе переменных о %
дохода из разных источников построить модель факторного анализа. На основе модели подумать о
количестве необходимых кластеров. На тех же переменных рассчитать модель кластерного
анализа. Посмотреть средние значения доли доходов из разных источников по кластерам.
10
Занятие 4. Расходы семьи. Преобразование переменных и анализ.
Задание 5.
Необходимые на занятии файлы поместить в свою директорию:
h_5_15_ef_mis.sav полученный в конце прошлого занятия
rasxody_5_15_ucheb_4zan.sps
1. Работа с файлом доходы и расходы семьи – h_5_15_ef_mis.sav – полученный в конце прошлого
занятия.
Преобразование переменных о расходах.
1.1 Для всех переменных расходов перекодировать ответы
затрудняюсь ответить
отказ от ответа
нет ответа
в миссинги, учитывая, что для разных раундов – разные значения (для 567 – чаще всего 7,8,9,
для 8 – 99999, для 9,10 – 99999997 и т.д.). Для того, чтобы сделать это корректно, нужно обязательно
посмотреть, как эти данные выглядят в файле, и определить миссинги. (на основе кросс-таблиц).
Пример команды (см. программный файл rasxody_5_15_ucheb_4zan.sps)
DO IF (round = 11) .
RECODE
e3 e4 e6.1 e6.2 e7.1b e7.2b e7.3b e7.4b e7.5b e7.6b e7.7b e7.8b e7.9b e7.10b e8.1b
e8.2b e8.3b e9.1b e9.2b e9.3b e9.4b e9.4.1b e9.5b e9.6b e9.7b e11 e12.1 e12.2 e13.1b
e13.2b e13.21b e13.22b e13.23b e13.24b e13.31b e13.32b e13.33b e13.34b e13.4b
e13.5b e13.6b e13.7b e13.8b e15 e17 e19.1b e19.2b e19.3b e19.4b e19.5b
(999996=SYSMIS) (999997=SYSMIS) (999998=SYSMIS) (999999=SYSMIS) .
END IF .
EXECUTE .
1.2 Перекодировать в нулевые нереально низкие расходы (например, 20 руб. на покупку
автомобиля и т.д.).
1.3 Перекодировать в нулевые значения миссинги при отсутствии данного вида расходов. Как
правило, вопрос с буквой «а» (например, e19.5a) говорит о том, был ли данный вид расходов, а с
буквой “b” – о сумме расходов (например, e19.5b). Пример команды:
DO IF (e19.5a = 2) .
RECODE e19.5b (SYSMIS=0) .
END IF .
1.4 (для самостоятельной работы дома)
1.5 Рассчитать переменную суммарных расходов семьи (используя команду sum), и внимательно
учитывая, за какой период расходы (неделя, месяц, три месяца – все привести к месяцу).
COMPUTE rash_s=sum (d18, e4, e6/3,
e7.1b/3, e7.2b/3, e7.3b/3, e7.4b/3, e7.5b/3, e7.6b/3, e7.7b/3, e7.8b/3, e7.9b/3, e7.10b/3,
e8.1b, e8.2b, e8.3b,
e9.1b, e9.2b, e9.3b, e9.4b, e9.4.1b, e9.5b, e9.6b, e9.7b, e11,
e13.1b, e13.2b, e13.21b, e13.22b, e13.23b, e13.24b, e13.31b, e13.32b, e13.33b,
e13.34b, e13.4b, e13.5b, e13.6b, e13.7b, e13.8b,
e15, e17, e19.1b, e19.2b, e19.3b, e19.4b, e19.5b).
1.6 (+1) Сравнить переменные рассчитанных расходов и разные переменные доходов (общие
доходы семьи, которые называет респондент (вопрос f14), и рассчитанные на прошлом занятии).
Подумайте, как представить сравнение доходов и расходов (графически, при помощи таблиц и
11
т.д.) – творческая работа. Вы можете рассчитать разницу между доходами и расходами
(абсолютную или в %), или сравнить средние доходы и расходы в динамике и по квентильным
группам, и т.д.
Создать группу переменных, примерно по предлагавшейся на лекции группировке для
структуры расходов (укрупненные группы в %) - доля расходов по каждому направлению. (см. файл
синтаксиса rasxody_5_15_ucheb_4zan.sps ).
1.7 Создать переменную «номер квентильной группы» по уровню душевого дохода (по годам, с
учетом дефлятора), к которой принадлежит семья для каждого раунда. (Сделано в занятии 3).
1.8 Рассчитать переменную «количество детей до 18 лет в семье» в файле по разделу АВ.
Присоединить эту переменную к файлу по разделам EF.
1.9 (+2) Рассчитать средние значения доли расходов по разным направлениям по квентильным
группам и интерпретировать результат. Проанализировать структуру доходов и расходов в
зависимости от количества человек и детей в семье. (можно построить графики)
Задание 6.
2. Мобильность семей по доходу.
2.1 Описать мобильность семей по доходам (переход из одной квентильной группы в другую –
матрица – кросс-таблица % по строке). Учесть, что слияние файлов разных лет затрудняется тем,
что иногда одной семье прошлого года соответствует 2 семьи этого года, например, если семья
разделилась, или переехала… Кроме того, если семья переехала, то под тем же номером в
следующем году будет находиться семья, живущая по старому адресу, а старая семья получит
новый номер. Поэтому всегда нужно начинать с более «молодого» раунда и приклеивать данные
за более старый; например, если анализируется мобильность за 2006 – 2000 годы, нужно взять
данные за 2006 год и к нему приклеить данные за 2000 год на основании идентификатора 2000-го
года (fid_h).
Сначала построить переменную "идентификатор прошлого раунда". Посмотрите на кейс
32443 (в 12 раунде семья с номером 1410252 и убедитесь, что действительно взят идентификатор
предыдущего года).
2.2 Сохраните «короткий» файл с переменными round id_h ndush_d. Откройте его и сделайте
преобразования переменных:
COMPUTE round = round + 1 .
EXECUTE .
rename variable (id_h ndush_d = id_h_1 ndush_d1).
Отсортируйте по первым двум переменным и сохраните результат.
2.3 Откройте снова «большой» файл по разделу EF, отсортируйте его по round id_h_1 и при
помощи ключей round id_h_1 приклейте к данным переменную ndush_d1.
2.4 (+3) Постройте самостоятельно матрицы перехода по всем годам с 1994-2006.
2.5 Постройте самостоятельно матрицы перехода за два раунда. (для этого нужно повторить шаги
2.1 – 2.4 для лага в 2 раунда).
2.6 (+4) Для успевших сделать задание 2.4. Установить фильтр для какого-либо конкретного года.
На основе переменных о % расходов на разные цели построить модель факторного анализа. На
основе модели подумать о количестве необходимых кластеров. На тех же переменных рассчитать
модель кластерного анализа. Посмотреть средние значения доли расходов на разные цели по
кластерам.
12
Тема 14. Данные файлов по индивидуальным анкетам. (4-8 часа)
Занятие 5. Данные файлов по индивидуальным анкетам.
Файлы для индивидуальных данных
Раунд
5
6
7
8
9
10
11
12
13
14
15
Директория
Год
1994
1995
1996
1998
2000
2001
2002
2003
2004
2005
2006
R5
R6
R7
R8
R9
R10
R11
R12
R13
R14
R15
Файлы
Анкета домохозяйства Индивид. анкета
R5HALL06.SAV
r5iall08.sav
R6HALL06.SAV
r6iall08.sav
R7HALL06.SAV
r7iall08.sav
R8HALL06.SAV
R8IALL10.sav
R9HALL07.SAV
R9IALL10.sav
R0HALL04.SAV
R0IALL07.sav
R1HALL10.SAV
r1iall09.sav
R2HALL07.SAV
R2Iall08.sav
R3Hall06.SAV
R3iall06.SAV
R4HALL03.sav
R4iALL03.sav
R15HALL04.sav
R15IALL05.sav
Файл r5_15i.sav – идентификатор для всех индивидов, хотя бы раз принявших участие
в опросе.
Исходные файлы на начало занятия.
zanatie_5_6_indiv_R5_15.SPS – синтаксис
ind_j_5_15_labor_mis.sav – данные по разделу труд
ind_j_5_15_educ_dammy.sav – данные по образованию
rodstvenniki5_15.sav – данные о родственных связях (родители, супруг)
h_5_15_param_fam.sav – некоторые характеристики семьи
sravn_ind_5_15.xls – сравнение индивидуальных анкет по годам
1.
«Склеивание» индивидуальных файлов из разных раундов «по вертикали» (т.е. один список
переменных, данные разных лет подписываются друг под другом – команда merge/add cases).
Все ваши действия сохраняйте в виде программ.
Процедуры аналогичны работе с семейными файлами: переименование переменных, разбивка
файла каждой волны на «кусочки», соответствующие разделу (или 1-2 разделам, или части раздела, в
зависимости от его размера), приведение переменных из разных волн в соответствие (одинаковые
миссинги, слияние, чистка, и пр.), затем слияние файлов за все волны одного и того же раздела. Для
раздела J специфика в том, что он очень велик, и много текстовых переменных. Для удобства он
разбит на 2 части – все переменные по теме «труд» и переменные по теме «образование». Текстовые
переменные удалены, т.к.к занимают много места.
Итоговые файлы с данными на сайте:
ind_i_5-15.sav – раздел I– «Миграция»
ind_j_5_15_lab.sav - раздел J - «Труд» полностью
ind_j_5_15_educ.sav - раздел J образование
ind_k_5_15.sav - раздел K «Дети»
ind_l_5_15.sav – раздел L , «медицинское обслуживание»
ind_m_5_15.sav – раздел M «оценка здоровья»
ind_n_5_15.sav – раздел N для женщин
ind_o_5_8.sav - раздел O «бюджет времени» только для 5,6,7,8 раундов
Вы можете скачать вспомогательные файлы:
файл сравнения переменных за разные волны для индивидуальной анкеты sravn_ind_5_15.xls
файлы переименования переменных по раундам rename_ind_5_15 (архив)
файлы слияния переменных из разных раундов по разделам match_ind_5_15 (архив)
13
файл
преобразования
zanatie_5_6_indiv_R5_15.SPS
переменных
по
разделу
доходы,
труд,
образование
Основные идентификаторы для склейки данных: round, idind, id_h
Задание 8. Корректирование переменной «национальность», добавление переменной
«диплом»
Скачать файл ind_j_lab5_15_mis.sav - данные по разделу J – файл о занятости, очищенный
от «затрудняюсь ответить» и т.д.
Посмотрите кросс-табличку переменой i4 по раундам (количество кейсов). Вы увидите, что в
некоторых раундах общее количество опрошенных намного меньше, чем в других (то есть много
"дыр" - отсутствия ответов).
Это происходит потому, что в 8, 10 и некоторых других раундах переменная i4 –
национальность – спрашивалась только у новых респондентов, нужно заполнить дыры», т.е. в итоге
создать файл, где каждому индивиду соответствует только 1 национальность (без идентификатора
раунда). (Предварительно отсортировать данные по переменной идентификатор индивида).
Затем эту переменную приклеить к рабочему файлу, обратив внимание на то, что он должен
быть отсортирован только по одной переменной - idind, и она же будет ключом при
склеивании (в SPSS-14 это можно сделать автоматически).
AGGREGATE
/OUTFILE='(директория)\ethnic_5-14_unic.sav'
/BREAK=idind
/i4_1 = MIN(i4).
Задание 8а. Создание переменных «регион», «тип населенного пункта».
См. синтаксис
Задание 8 b. Данные по образованию.
Приклеить из файла ind_j_educ5_15_dammy.sav
переменные об образовании (все),
предварительно отсортировав по переменным round, idind.
Переменные об образовании нескольких видов:
1) Максимальный уровень полученного диплома (кратко и подробно);
2) по каждому уровню образования есть данные:
- количество лет обучения на данном уровне (например, если вузов несколько, все
суммируется, включая неоконченные);
- количество диплома об окончании данного уровня (например, если окончил 2 вуза…);
- оконченное ли образование – 0 «не учился», 1 «есть диплом», 2 «не окончил».
Сохранить полученный файл с приклеенными данными об образовании
КОММЕНТАРИИ:
В скачанном файле создан целый набор переменных, измеряющих заработки человека
(дефлированные, к уровню 2006 г.):
1) на первом месте работы
2) на втором месте работы
3) на втором месте работы + приработки (вторичная занятость)
4) на всех трех местах работы
По каждому виду работы есть переменная «выплаченная за последние 30 дней заработная
плата» (соответствует переменным j10, J40, j57). Кроме того, есть «контрактная ЗП» – заработная
плата с учетом задержек ее выплаты, т.е. сумма выплаченных денег + сумма задолженности / кол-во
месяцев задолженности).
Например, для суммы всех заработков:
14
COMPUTE szarpl_i = sum( j10, j40, j57 ) * def_2006.
variable label szarpl_i 'дефл.суммарная ЗП от 2-х работ и приработков'.
COMPUTE сzarpl_i = sum( j10, j15/j16, j40, j45/j46, j57 ) * def_2006 .
variable label сzarpl_i 'дефл.суммарная контр. (с уч.задержек) ЗП от 2-х работ и
приработков'.
EXECUTE .
Однако если человек не получил на данном месте работы денег, и задолженности не было,
для него такая переменная будет «миссингом», хотя реально сумма полученных денег равна 0. Для
разных целей могут быть нужны как переменные, где такие нулевые значения пропущены (например,
в уравнении Минцера), так и переменные, где отсутствие заработков выражено нулем (например, это
может быть так в моделях факторов рождаемости). В этом случае, если человек работал, но денег не
получил, миссинг перекодируется в 0.
Сохранить более короткий файл для дальнейшей работы с необходимыми переменными
round idind id_h region status1 psu ssu status h5 age marst occup site i4_1 dipl1
dipl2 j1 j2code j7 j8 j9 j10 j32 j37 j38 j39 j40 j56 j57 j59 j60 j73 j75 j76 j77 j87 j88 j89 j79 j81 j82
j84.1 j90 def_2005 f_dox_id j60_d szarpl_i сzarpl_i szrp_oi сzrp_oi
и загрузить его для дальнейшей работы. (основной рабочий файл на все занятие)
Задание 9. Создание переменной «параметр индивида в будущем раунде».
Очистить переменную «время работы» от слишком больших значений (больше 400 часов в
неделю),
Создать переменную «экономическая активность» (работает, не работает и ищет работу безработный, не ищет работу – экономически не активный). При этом учтем, что человек,
ответивший, что у него нет работы (переменная j1), может иметь приработки (j56). Нет
определенности, считать ли такого человека занятым.
Строим несколько переменных:
J77_a - наличие у человека работы (даже если он в отпуске или декрете) или приработков;
Poisk – ищет ли человек работу на основе вопросов j81 (хотел бы найти) и j82 (обращался
куда-то в поисках работы) (в 5 раунде эти вопросы задавались только тем, у кого не было работы).
ek_akt – экономическая активность, со значениями:
1 'есть работа'
2 'есть т.прираб., ищет работу'
3 'есть т.прираб., не ищет раб.'
4 'нет работы никакой, ищет'
5 'нет работы никакой, не ищет'
Создать новую переменную «проф.группа (oсcupation) на 1-м месте Работы» (т.к. попадаются
ошибки в готовой переменной occup) из переменной j2code (четырехзначный код вида работы). Для
этого исходную переменную разделить на 1000 и взять целую часть от частного (останется только
первая цифра). Сделать лейблы для значений.
(1 +)Сохранить новый короткий файл с переменными round, inind, «семейный статус»,
«экономическая активность», «проф.группа на 1-м месте работы» - для отслеживания динамики по
этим переменным. Произвести преобразование переменных в этом коротком файле.
COMPUTE round = round - 1.
EXECUTE .
Обратите внимание, что самое большое значение переменной «раунд» в этом файле – 13, то
есть данные за этот период присоединятся к прошлому году, и будут представлять собой данные
«будущего года». Содержательные переменные надо переименовать, чтобы не путать с переменными
текущего периода.
rename variables ( marst ek_akt occup_p = marst_1 ek_akt1 occup_p1).
Отсортировать его, сохранить, закрыть и приклеить к основному короткому файлу.
15
(2 +) Построить матрицы перехода индивида по трем переменным: семейное положение,
экономическая активность и должность на первом месте работы.
Задание. 10. «Приклеивание» переменных – характеристик супруга.
Сохранить короткий файл с переменными round idind i4_1 dipl1 dipl2 j60_d j77_a ek_akt
occup_p .
Загрузить его, и переименовать переменную idind в id_supr, остальным переменным
добавить индекс (например, s).
Отсортировать по round (A) id_supr (A). Сохранить.
Вернуться в файл ind_j_5_14_kor.sav.
Приклеить к нему из файла «родственники» идентификатор супруга id_supr, а также
идентификаторы родителей и количество собственных детей.
Отсортировать по переменным round (A) id_supr (A). и приклеить данные по супругу.
Сохранить.
(3 +) Задание 11. Приклеивание основных характеристик семьи.
Отсортировать файл по переменным round (A) id_h (A), сохранить. Приклеить данные о
составе и доходах семьи из файла h_5_12_param_fam.sav.
Приклеить региональные данные.
Создать переменные:
- доходы супруга (у кого нет супруга, перекодировать в 0)
- доходы остальных членов семьи (если получается меньше 0, перекодировать в 0).
- дамми- переменные
Занятие 6. Регрессионный анализ.
Загрузить файл - результат прошлого занятия (приклеенные данные по супругу и семье).
Задание 12. (1+). Модель предложения труда: логистическая регрессия вероятности быть
занятым в раунде Т.
Создание переменных и дамми для регрессии: статус занятости, доходы супруга (=0, если нет
супруга), доходы остальных членов семьи (доходы семьи все - доходы респондента - доходы
супруга); если они меньше 0, перекодировать в 0.
Расчет логарифмов переменных доходов (+ 1, т.к. логарифм от 0 - не существует, логарифм от
1 = 0).
Создать переменные "мужской пол=1", "женат=1".
Создать дамми-переменные для регрессий - по номинальным переменным. Дамми по проф.
группам для респондента и супруга; если супруга нет - переменная =0.
Создать дамми для переменной «регион» и «раунд».
Перед регрессией - проверка основных характеристик всех переменных (N, среднее,
минимум, максимум). Таблицу количества кейсов и средних значений тех переменных, которые
входят в регрессию, необходимо включить в ваше эссе.
DESCRIPTIVES VARIABLES=zanat age jenat vo sso male lg_dox_s lg_dox_o nfm ikdet1
ikdet3 ikdet6 ikdet17 round region status1 b_v_reg regzrp_i /STATISTICS=MEAN MIN MAX.
Логистическая регрессия: вероятность иметь работу в году Т. Необходимо использовать
рассчитанные дамми-переменные.
LOGISTIC REGRESSION VAR=zanat
/METHOD=ENTER age jenat vo sso male lg_dox_s lg_dox_o nfm ikdet1 ikdet3 ikdet6 ikdet17
b_v_reg lg_regz round6 round7 round8 round9 round10 round11 round12 sever centr volga kavkaz
ural zapsib dvost gorod selo
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .
16
Дать интерпретацию всем коэффициентам в таблице результатов регрессии: коэффициент,
значимость, экспонента.
Посмотреть, что изменится в предсказании, если в команде CUT(.5) заменить .5 на большее
или меньшее число.
Задание 13. (2+). Рассчитать регрессию с количественной зависимой переменной простейший вариант уравнения Минцера. Зависимая переменная – логарифм заработной платы,
независимые переменные – пол, стаж (или возраст), стаж (или возраст) в квадрате, уровень
образования, характеристики работы, контрольные переменные (аналогично регрессии «вероятность
иметь работу»).
Перед оцениванием модели проверка основных характеристик всех переменных (N, среднее,
минимум, максимум).
Дать интерпретацию всем коэффициентам в таблице результатов регрессии: коэффициент,
значимость, стандартные коэффициенты. Оценки для мультиколлинеарности.
Задание 14. Регрессия «вероятность перехода по статусу занятости в следующем году».
Выбрать тех, кто был «неактивным» в году Т, и рассчитать мультиномиальную регрессию
вероятностей: 1) остаться неактивным 2) стать безработным
Сначала выбрать тех, кто был неактивным в году Т (команда select cases).
Проверка основных характеристик всех переменных (N, среднее, минимум, максимум)
DESCRIPTIVES VARIABLES=st_zan1 jenat male round region status1 dipl2 st_zans age
lg_dox_s lg_dox_o lg_dox nfm ikdet1 ikdet3 ikdet6 ikdet17 /STATISTICS=MEAN MIN MAX .
Затем оценить мульноминальную регрессию. Команда – «мультиномиальная регрессия».
Верхнее окошко команды - factors - разлагает номинальные независимые переменные на дамми.
Нижнее – для количественных переменных. Дамми-переменные можно помещать и в верхнее, и в
нижнее окно.
За базовую категорию зависимой переменой принимается последняя (в данном случае 3 занятый)
NOMREG
st_zan1 BY jenat male round region status1 dipl2 st_zans
WITH age lg_dox_s lg_dox_o lg_dox nfm ikdet1 ikdet3 ikdet6 ikdet17 b_v_reg lg_regd
/CRITERIA = CIN(95) DELTA(0) MXITER(100) MXSTEP(5) CHKSEP(20) LCONVERGE(0)
PCONVERGE(1.0E-6) SINGULAR(1.0E-8)
/MODEL
/INTERCEPT = INCLUDE
/PRINT = PARAMETER SUMMARY LRT .
Задание 15. Пересчитать регрессию так, чтобы получить вероятности 1) стать безработным, 2)
стать занятым (для этого перекодировать зависимую переменную)
Задание 16. (3+) Рассчитать регрессию для тех, кто был занятым в году Т: вероятность стать
экономически неактивным и безработным. Включить в регрессию переменные по характеристикам
работы (occupation code….)
Задание 17. (4+) Факторный или кластерный анализ по переменным для какого-либо года.
Файл ind_j_5_15_labor_mis.sav . Перед этим переменные необходимо очистить от значений
«затрудняюсь ответить» и т.д. (в файле это не сделано).
А) J133.1 - J133.9 – ответы на вопрос «на какие средства вы собираетесь жить, когда
достигнете пенсионного возраста» (С 2003 г.)
Б) J79.1.1 – J791.13 – мотивация труда (только за 2006 год)
В) J117.01- J117.17 степень согласия индивида с высказываниями (самооценка, например «Я
не могу справиться со своими проблемами») (только 2003, 2004, 2005 годы).
Тема 15. Реализация мини-проектов. (6-10 часов)
17
Занятия 7-8.
Написание мини-проекта по выбранной теме.
18
Download