Stata: стандартизация данных, унификация шкал, импортирование данных Stata .

advertisement
Stata: стандартизация данных, унификация шкал, импортирование данных
Запустите пакет Stata, нажав на кнопку
.
pwd // узнать место расположение программной директории, в которой располагается
пакет Stata. На экране появится похожая запись:
. pwd
E:\programs\Stata10
можно заменить программную директорию (по
умолчанию) на Вашу с помощью команды cd (change directory), в кавычках указав
целиком путь. Скажем, создав папку «Me». В такой папке можно хранить собственные
файлы для быстрого доступа к ним и удобства сохранения результатов (массивов данных,
графиков, летописей и пр.).
cd
"E:\programs\Stata10\Me"
//
Некоторые полезные команды для начала и завершения работы в Stata:
capture log close //1 закрыть предыдущую «летопись», если она была начата.
log using filename, replace text // начать новую летопись (filename, выделенное
курсивом, предполагает, что Вы зададите свое название файла)
clear all // стереть все
Загрузите данные, например, через интерфейс или с помощью команды use filename.dta
save "filename.dta" // сохранить изменения в файле filename.dta в своей директории
(в нашем случае – в папке «Me»)
log close // закрыть летопись
exit // выйти из Stata.
1) Стандартизация данных
Результатом стандартизации данных является приведение значений переменной к такому
виду, что среднее значение равно 0, а стандартное отклонение – 1 по следующей формуле:
x x
z i
.
s
summarize varname // получить описательные статистики.
В памяти пакета после команды summarize сохраняются последние результаты. Они
хранятся в памяти как особого рода объекты, обращаться к которым можно через команду
r(название объекта). Например,
display r(mean) // показывает на экране среднее значение по выборке (команда
display – это команда вывода на экран; команда r(mean) – это команда вызова среднего
значения, сохраненного после запуска команды summarize.
display r(sd) // вывод на экран стандартного отклонениа
О том, какие еще статистики доступны, можно узнать, используя Справку:
help summarize
Для стандартизации значений переменной используется команда, реализующая указанную
выше формулу:
generate varnameSN = (varname - r(mean))/r(sd) // , где varnameSN – любое Ваше
название новой переменной. Так была создана новая переменная, которая имеет нулевое
среднее и единичную стандартную ошибку.
Это утверждение можно проверить, получив описательные статистики новой переменной:
summarize varnameSN
Шрифтом courier new выделяются команды. Двойным слешем отделяются комментарии к командам,
они набраны шрифтом Times New Roman.
1
Stata: стандартизация данных, унификация шкал, импортирование данных
2) Приведение данных к унифицированным десятибалльным шкалам (от 0 до 10)
a) В случае, когда большее значение показателя означает лучшее качество, используется
формула
xi  min( x)
~
xi  10 
.
max( x)  min( x)
b) В случае, когда большее значение показателя означает худшее качество, используется
формула
max( x)  xi
~
xi  10 
max( x)  min( x)
c) В случае, когда существует иное оптимальное (не минимальное или максимальное)
значение показателя, используется формула


xi  xopt
~

xi  10  1 
 max xopt  xmin , xmax  xopt 


Команды в Stata будут следующими:
a) В числителе 10  ( xi  min( x)) , в знаменателе max( x)  min( x)
summarize varname
generate newvarname = 10*(varname - r(min))/(r(max) - r(min))
summarize newvarname
b)
summarize varname
generate newvarname2 = 10*(r(max) - varname)/(r(max) - r(min))
summarize new2varname
c)
обозначить через a оптимальное значение (в данном случае для
примера считает, что оптимальное значение равно 123 – но это только пример; в Вашем
случае это может быть другое число).
scalar a = 123 //
summarize varname
scalar b = r(max)
–
a
//
обозначить через b максимальное отклонение от
–
a
//
обозначить через c максимальное отклонение от
оптимального значения
scalar
c
=
r(min)
оптимального значения
di b
di c
// необходимо увидеть на экране полученные значения и выбрать из них
наибольшее. Допустим, это b. Далее по указанной формуле (с):
generate newvarname3 = 10*(varname - a)/b
summarize newvarname3
После унификации всех переменных нулевое и десятибалльное значения соответствуют
наихудшему и наилучшему качеству анализируемых показателей.
3) Импортирование данных формата txt (текстового редактора «Блокнот»)
Например, нам необходимо открыть в Stata базу данных «Институты и выборы» (Regan,
Clark): http://www.hse.ru/jesda/mathbase/databases/db_13
Stata: стандартизация данных, унификация шкал, импортирование данных
clear all
insheet using "E:\docs\msa\filename.txt" //
команда insheet импортирует файл
filename.txt из указанной папки. Важно задать полный путь к массиву и указать
расширение файла, а также избегать русскоязычных слов в указании пути.
insheet using filename.txt // команда insheet импортирует файл filename.txt из
Вашей директории (оттуда, где лежит Stata).
insheet using filename.txt, names // опция names указывает пакету на то, что
информацию в первой строке в массиве необходимо воспринимать как имена переменных
insheet using filename.txt, names delimiter(";") // опция delimiter указывает
на то, каким образом было задано разделение столбцов/переменных. Последнее
специфицируется в кавычках. Это могут быть точки, запятые и пр.
Если в ряду значений переменной встречаются нечисловые значения и пропуски, то пакет
будет воспринимать переменную (весь ряд) как текстовую, а не количественную.
Это можно изменить следующим образом:
replace varname = "" if real(varname) == . // заменить на пропуски все
нечисловые значения в переменной varname.
generate new = real(varname) // создать новую переменную new, скопировав все
числовые значения старой с помощью команды real, аргументом которой будут значения
переменной varname.
drop varname // удалить старую переменную varname.
rename new varname // переименовать переменную. После команды rename следует имя
старой переменной (new), затем – новой (varname).
Подробнее можно узнать в справке (help
http://www.stata.com/support/faqs/data/newexcel.html
insheet),
а
также
по
ссылке:
4) Импортирование данных формата sav (пакета SPSS)
clear all
findit usespss // найти пакет usespss.
Пройти по ссылке: usespss from http://fmwww.bc.edu/RePEc/bocode/u
Напротив INSTALLATION FILES кликнуть на (click here to install)
После завершения установки появится installation complete. Далее
можно закрыть
окно справки. Установленный пакет готов к использованию.
usespss using "E:\docs\msa\filename.sav" [, clear] //
открыть файл в формате sav
с указанием пути расположения файла.
usespss
using
filename
[,
clear]
//
открыть файл в формате sav из Вашей
директории (оттуда, где лежит Stata).
desspss using filename [, clear] // получить описание файла.
save "filename.dta" // сохранить файл в формате dta
Подробнее можно узнать в справке (help usespss).
Download