Инструкция по подготовке информационных массивов

advertisement
Инструкция по подготовке информационных массивов
Базы данных ИДЕМ НИУ ВШЭ
1. Общие положения
1.1.
Информационный массив (ИМ, data cube) – минимальная единица
подготовки и загрузки информации в Базу данных, содержит значения
ОДНОГО демографического показателя из ОДНОГО источника.
1.2.
ИМ готовится в соответствии с Описанием информационных
массивов БД ИДЕМ НИУ ВШЭ
1.3.
ИМ состоит двух частей – метаописания и собственно массива
значений, их подготовка производится в виде файла MS Excel
2. Используемые файлы и массивы
2.1.
При подготовке конкретного массива рекомендуется использовать
образцы информационных массивов, ссылки на которых расположены на
странице для разработчика http://db.demoscope.ru/bd_devel.php.
2.1.1. Выбор образца информационного массива производится с учетом его
размерности: двухмерный, трехмерный,… массив. Рекомендуется в
качестве прототипа ИМ использовать массив, наиболее близкий к
новому по набору категорий.
2.1.2. Для использования образца – прототипа ИМ рекомендуется при
подготовке
очередного
информационного
массива
каждый
раз
сохранять на компьютере этот прототип заново, поскольку в процессе
разработки Базы данных форматы и структура информационных
массивов
постоянно
совершенствуются
и
могут
частично
видоизменяться, модернизироваться. Тем самым достигается цель
использовать самую последнюю версию прототипов информационных
массивов.
2.1.3. При отсутствии требуемого образца информационного массива на
странице разработчика рекомендуется использовать один из других уже
имеющихся в базе данных информационных массивов, доступных на
странице разработчика Базы данных http://db.demoscope.ru/bd_devel.php
в разделе «Информационные массивы».
2.2.
При
подготовке
метаописания
информационного
массива
рекомендуется использовать образец метаописания, ссылка на который
расположена
на
странице
для
разработчика
http://db.demoscope.ru/bd_devel.php.
2.3.
При подготовке информационного массива требуется также в
директории компьютера, где он формируется, иметь файлы нормативносправочной информации, содержащей кодификаторы показателей и
категорий. Данных файлов – два: sprav.xls и sprav_2.xls. Ссылки на эти
файлы содержится на странице http://db.demoscope.ru/bd_devel.php. Оба из
этих
файлов
должны
быть
сохранены
в
директории
подготовки
информационных массивов Базы данных перед их формированием.
3. Имена файлов
3.1.
Имена
соответствии
файлов
с
информационных
макетом:
первые
массивов
три
присваиваются
латинских
буквы
в
фамилии
ответственного лица, подчеркивание, трехзначный порядковый номер
файла у данного лица со значащими нулями.
3.2.
Пример:
участник
разработки
Базы
данных
Иванов
И.И.,
подготовивший четыре информационных массива, дает очередному пятому
массиву имя «IVA_005».
4. Подготовка метаописания
4.1.
В
метаописании
массива
должны
быть
заполнены
клетки,
отмеченные в образце зеленым цветом. Остальные клетки (белые,
красные)
должны
остаться
неизменными.
Коды,
формируемые
автоматически средствами Excel, отмечаются косой сиреневой линейкой.
4.2.
Все описатели в столбце «А» должны иметь «1».
4.3.
В строке с названием показателя должно быть указано его
«стандартизованное»
название.
Для
выбора
корректного
наиболее
подходящего названия данного показателя рекомендуется использовать
файл
нормативно-справочной
информации
sprav.xls,
рабочий
лист
«показатели». Если название показателя указано правильно, в строке «№
показателя» (код 3) и «код показателя» (код 4) появляются указанные
описатели информационного массива. Если название показателя указано
неверно, данные описатели приобретают значения «#Н/Д». В этом случае
необходимо исправить название показателя, если в нем имеется ошибка. В
случае, если требуется «новый» показатель, отсутствующий на данный
момент в справочнике показателей, об этом необходимо сообщить лицу,
отвечающему за ведение НСИ Базы данных.
4.4.
В строке «Название информационного массива» (код 2) необходимо
сформулировать
содержащим
«свободное»
название
описание
показателя,
период
массива,
и
обязательно
основные
разрезы
(категории). Если данное название оказывается слишком длинным,
необходимо
использовать
сокращения
наиболее
употребительных
терминов, например, «РФ» вместо «Российская Федерация», «нас.» вместо
«население», «по посел.» вместо «по городскому и сельскому населению»,
и т.п.
4.5.
Размерность
автоматически
информационного
на
основании
числа
массива
(код
5)
использованных
формируется
категорий
по
вертикали и горизонтали. Ее необходимо лишь проконтролировать.
4.6.
В строке «Число переменных по вертикали» (код 100) необходимо
указать число категорий, значения которых изменяются в строках данного
информационного массива.
4.7.
В строке «Число переменных по горизонтали» (код 200) необходимо
указать число категорий, значения которых изменяются в столбцах данного
информационного массива.
4.8.
Для каждой из категорий по вертикали необходимо указать
название категории. Для первой категории код строки 111, для второй –
121,
третьей
–
131,…
Название
категории
должно
быть
указано
«стандартизованным». Для выбора корректного наиболее подходящего
названия данной категории используется файл нормативно-справочной
информации sprav.xls, рабочий лист «категории». Если название категории
указано правильно, в строке «№ категории» (код 1N2) и «код категории»
(код 1N3) появляются указанные описатели информационного массива.
Если название категории указано неверно, данные описатели приобретают
значения «#Н/Д». В этом случае необходимо исправить название
категории, если в нем имеется ошибка. В случае требуемой «новой»
категории, то есть такой, которая отсутствует на данный момент в
справочнике категорий, об этом необходимо сообщить лицу, отвечающему
за ведение НСИ Базы данных.
4.9.
Для каждой из категорий по горизонтали также необходимо указать
название категории. Для первой категории код строки 211, для второй –
221,
третьей
–
231,…
Название
категории
должно
быть
указано
«стандартизованным». Для выбора корректного названия данной категории
используется файл НСИ sprav.xls, рабочий лист «категории». Если
название категории указано правильно, в строке «№ категории» (код 2N2) и
«код
категории»
(код
2N3)
появляются
указанные
описатели
информационного массива. Если название категории указано неверно,
данные
описатели
приобретают
значения
«#Н/Д».
В
этом
случае
необходимо исправить название категории, если в нем имеется ошибка,
опечатка или неточность. В случае требуемой «новой» категории, то есть
такой, которая отсутствует в справочнике категорий, об этом необходимо
сообщить лицу, отвечающему за ведение НСИ Базы данных.
4.10.
Для каждой из категорий по вертикали необходимо указать число
строк данной категории, имеющих различные значения. Для первой
категории код строки 114, для второй – 124, третьей – 134,…
4.11.
Для каждой из категорий по горизонтали необходимо указать число
столбцов данной категории, имеющих различные значения. Для первой
категории код строки 214, для второй – 224, третьей – 234,…
4.12.
В строке Источник (код 14) указывается название источника,
использованного для формирования значений в данном массиве. В
качестве источника может служить База данных, организация, книга, файл,
интернет-страница.
4.13.
В строке Линк на источник (код 15) необходимо указать URL -
интернет-адрес данного источника.
4.14.
В строке Единица измерения (код 16) указывается единица
измерения данного показателя в данном массиве.
4.15.
В строке Дата получения информации из источника (код 17)
необходимо указать дату в формате ДД.ММ.ГГ.
4.16.
Формирование описателя Дата загрузки в Базу данных (код 18)
производится автоматически в момент загрузки в Базу данных и не требует
участия персонала, подготавливающего информационный массив.
4.17.
В строке Ответственное лицо (код 19) указывается фамилия, И.О.
лица, готовившего данный массив. Данный описатель может быть
использован
в
случае
необходимости
уточнить
или
исправить
метаописание, собственно информационный массив, либо номативносправочную информацию.
4.18.
Описатель Имя файла (код 20) должен указывать на текстовый файл,
в который сохраняется данный Excel файл информационного массива.
4.19.
В описателе Краткое описание в свободном формате (код 21)
необходимо указать основные характеристики файлов источника и их
форматы, метод формирования запросов к исходной базе данных.
4.20.
В описателе Дата издания (код 22) необходимо указать год издания
источника ИМ. Пример: в случае Демографического ежегодника – год
публикации, в случае базы данных UN population prospects – год
пересмотра.
4.21.
В описателе Тип источника (код 23) требуется уточнить формат и
способ получения информации из источника: база данных, электронная
версия бумажной публикации, результат расчетов ИДЕМ, и т.п.
5. Подготовка собственно информационного массива
5.1.
Все содержательные строки информационного массива в столбце
«А» должны иметь код строки «2», «3», «4» или «5».
5.2.
Все содержательные столбцы информационного массива в должны
иметь код столбца «2», «3», «4» или «5». Код столбца содержится в первой
строке с кодом «2».
5.2.1. Код
«2»
используется
для
обозначения
строки
или
столбца,
содержащего порядковый номер категории, который формируется
автоматически по значению категории.
5.2.2. Код
«3»
используется
для
обозначения
строки
или
столбца,
содержащего код категории, который формируется автоматически по
значению категории средствами функций Excel.
5.2.3. Код
«4»
используется
для
обозначения
строки
или
столбца,
содержащего значение данной категории. Категории переменных по
вертикали располагаются в информационном массиве справа налево в
порядке их описания в метаописании. Категории переменных по
горизонтали располагаются в информационном массиве сверху вниз в
порядке их описания в метаописании.
5.2.4. Код
«5»
используется
для
обозначения
строки
или
столбца,
содержащего значение показателя. Таким образом, ВСЕ значения
показателя в данном информационном массиве должны находиться на
пересечении строки с кодом «5» и столбца с кодом «5».
5.3.
Последовательность
состоит из следующих этапов
формирования
информационного
массива
5.3.1. Формирование значений категорий по вертикали. Производится из
исходного или рабочего массива путем операции Windows Copy-Paste
Special (Values).
5.3.2. Формирование значений категорий по горизонтали. Производится из
исходного или рабочего массива путем операции Windows Copy-Paste
Special (Values).
5.3.3. Формирование значений показателя. Производится из исходного или
рабочего массива путем операции Windows Copy-Paste Special (Values).
Вставленные значения показателя должны быть отформатированы во
всех клетках данного массива одинаковым образом в соответствии с его
единицей измерения и точностью значений. Пример: коэффициент
суммарной рождаемости 1,2 при наличии трех знаков после запятой
должен иметь формат 1,200.
6. Предоставление информационного массива для загрузки в Базу
данных
6.1.
Информационный массив сохраняется в виде файла книги MS Excel
версии 97-2003 (расширение XLS).
6.2.
Информационный массив предоставляется для проверки
форматирования и кодирования, их уточнения и загрузки в Базу данных
лицу, ответственному за загрузку информационных массивов, по
электронной почте с указанием темы: База данных – Автор – Имя файла. В
2011-2012 гг. это лицо – К.В.Решетников (ИДЕМ НИУ ВШЭ).
6.3.
В письме указываются при необходимости новые категории, их новые
значения, название показателя, которые требуют расширения или
корректировки нормативно-справочной информации Базы данных.
Проект Научного Фонда НИУ ВШЭ «Учитель-Ученики»
2011 - 2012 гг. «Разработка Базы данных демографических
показателей по регионам России и странам мира», грант №
11-04-0039.
Версия Инструкции – 1.0 от 28.02.2011.
Инструкцию подготовил: Сороко Е.Л.
Download