Инструкция по проверке информационных массивов и их

advertisement
Инструкция по проверке информационных массивов
и их загрузке в Базу данных ИДЕМ НИУ ВШЭ
1. Общие положения
1.1.
Информационный массив – минимальная единица подготовки и
загрузки информации в Базу данных, содержит значения ОДНОГО
демографического показателя из ОДНОГО источника.
1.2.
Информационные массивы готовятся в соответствии с Описанием
информационных массивов БД ИДЕМ НИУ ВШЭ
1.3.
Массив состоит двух частей – метаописания и собственно массива
значений, их подготовка производится в виде файла MS Excel.
1.4.
Перед
загрузкой
информационного
массива
в
Базу
данных
производится проверка его структуры, кодирования и соответствия
нормативно-справочной информации Базы данных в соответствии с
настоящей инструкцией.
2. Используемые файлы, массивы, документы
2.1.
При проверке информационного массива используются образцы
массивов их метаописания, ссылки на которых расположены на странице
для разработчика http://db.demoscope.ru/bd_devel.php.
2.2.
В директории компьютера, где производится проверка и подготовка
информационного массива к загрузке в Базу данных, должны содержаться
файлы
нормативно-справочной
информации
с
кодификаторами
показателей и категорий: sprav.xls и sprav_2.xls.
2.3.
Подготовленный информационный массив должен быть подготовлен
в соответствии с Инструкцией по подготовке информационных массивов
Базы данных ИДЕМ НИУ ВШЭ.
3. Проверка метаописания
3.1.
При проверке метаописания информационного массива необходимо
удостовериться в правильности форматов метаописания и соответствия
заполненных описателей состоянию справочников Базы данных.
3.2.
В
метаописании
массива
должны
быть
заполнены
клетки,
отмеченные в образце зеленым цветом. Остальные клетки (белые,
красные)
должны
остаться
неизменными.
Коды,
формируемые
автоматически средствами Excel, отмечаются косой сиреневой линейкой.
3.3.
Проверяется требование того, что все описатели в столбце «А»
должны иметь «1».
3.4.
В строке с названием показателя (код 1) должно быть указано его
«стандартизованное» название. Текущее состояние справочника названий
показателей находится в файле нормативно-справочной информации
sprav.xls, рабочий лист «показатели». Если название показателя указано
правильно, в строке «№ показателя» (код 3) и «код показателя» (код 4)
средствами
Excel
автоматически
появляются
указанные
описатели
информационного массива. Если название показателя указано неверно
(неточно, некорректно, с опечаткой), данные описатели приобретают
значения «#Н/Д». В этом случае необходимо исправить название
показателя, если в нем имеется ошибка. В случае, если в данном
информационном массива содержится «новый» показатель, отсутствующий
на
данный
момент
в
справочнике
показателей,
производится
корректировка справочника показателей (sprav.xls, лист «показатели»).
3.5.
В строке «Название информационного массива» (код 2) содержится
«свободное» описание массива, обязательно содержащим название
показателя, период и основные разрезы (категории). При проверке массива
необходимо убедиться в правильности формулировки его названия,
соответствия содержимого массива и наименованию показателя.
3.6.
Размерность
автоматически
информационного
на
основании
числа
массива
(код
5)
использованных
формируется
категорий
по
вертикали и горизонтали. Данный описатель должен быть проверен по
смыслу размерности данного массива и при необходимости исправлены
строки с кодами 100 и 200.
3.7.
В строке «Число переменных по вертикали» (код 100) должно быть
указано число категорий, значения которых изменяются в строках данного
информационного массива. Необходимо убедиться, что это натуральное
число от 1 до 9.
3.8.
В строке «Число переменных по горизонтали» (код 200) должно быть
указано число категорий, значения которых изменяются в столбцах данного
информационного массива. Необходимо убедиться, что это натуральное
число от 1 до 9.
3.9.
Для каждой из категорий по вертикали должно быть указано
название категории. Для первой категории код строки 111, для второй –
121,
третьей
–
131,…
Название
категории
должно
быть
указано
«стандартизованным» из файла нормативно-справочной информации
sprav.xls, рабочий лист «категории». Если название категории указано
правильно, в строке «№ категории» (код 1N2 – 112, 122, 132,…) и «код
категории» (код 1N3 – 113, 123, 133,…) средствами Excel автоматически
формируются указанные описатели информационного массива. Если
название категории указано неверно, данные описатели приобретают
значения «#Н/Д». В этом случае должно быть исправлено название
категории, если в нем имеется ошибка. В случае, если для данного
информационного массива требуется «новая» категория, на данный
момент
отсутствующая
в
справочнике
категорий,
производится
корректировка справочника категорий (sprav.xls, лист «категории»).
3.10.
Для каждой из категорий по горизонтали также должно быть указано
название категории. Для первой категории код строки 211, для второй –
221,
третьей
–
231,…
Название
категории
должно
быть
указано
«стандартизованным». Для выбора корректного названия данной категории
используется файл НСИ sprav.xls, рабочий лист «категории». Если
название категории указано правильно, в строке «№ категории» (код 2N2) и
«код категории» (код 2N3) средствами Excel автоматически формируются
указанные описатели информационного массива. Если название категории
указано неверно, данные описатели приобретают значения «#Н/Д». В этом
случае необходимо исправить название категории, если в нем имеется
ошибка, опечатка или неточность. В случае требуемой «новой» категории,
на данный момент отсутствующей в справочнике категорий, производится
корректировка справочника категорий (sprav.xls, лист «категории»).
3.11.
Для каждой из категорий по вертикали должно быть правильно
указано число строк данной категории, имеющих различные значения. Для
первой категории код строки 114, для второй – 124, третьей – 134,… При
необходимости данный описатель необходимо исправить.
3.12.
Для каждой из категорий по горизонтали должно быть правильно
указано число столбцов данной категории, имеющих различные значения.
Для первой категории код строки 214, для второй – 224, третьей – 234,… При
необходимости данный описатель необходимо исправить.
3.13.
В строке Источник (код 14) указывается название источника,
использованного для формирования значений в данном массиве. В
качестве источника может служить База данных, организация, книга, файл,
интернет-страница. Необходимо проверить зрительно заполнение данного
поля.
3.14.
В строке Линк на источник (код 15) необходимо указать URL -
интернет-адрес данного источника. Необходимо проверить зрительно
заполнение данного поля.
3.15.
В строке Единица измерения (код 16) указывается единица
измерения данного показателя в данном массиве. Проверяется зрительно
заполнение поля и его соответствие содержимому информационного
массива.
3.16.
В строке Дата получения информации из источника (код 17)
необходимо указать дату в формате ДД.ММ.ГГ. Необходимо проверить
заполнение поля, его формат и значение даты.
3.17.
Формирование описателя Дата загрузки в Базу данных (код 18)
производится автоматически в момент загрузки в Базу данных и не требует
участия персонала. С этой целью используется функция Сегодня().
3.18.
В строке Ответственное лицо (код 19) указывается фамилия, И.О.
лица, готовившего данный массив. Используется в случае необходимости
уточнить или исправить метаописание, собственно информационный
массив, либо нормативно-справочную информацию.
3.19.
Описатель Имя файла (код 20) должен указывать на текстовый файл,
в который сохраняется данный Excel файл информационного массива.
Проверяется правильность данного поля.
3.20.
В описателе Краткое описание в свободном формате (код 21)
указываются основные характеристики источника, форматы файлов, метод
формирования запросов к исходной базе данных. Необходимо проверить
заполнение поля и его корректность.
3.21.
В описателе Дата издания (код 22) указывается год издания
источника информационного массива. Проверяется формат и значение
года.
3.22.
В описателе Тип источника (код 23) требуется уточнить формат и
способ получения информации из источника: база данных, электронная
версия бумажной публикации, результат расчетов ИДЕМ, и т.п.
4. Проверка информационного массива
4.1.
Все содержательные строки информационного массива в столбце
«А» должны иметь код строки «2», «3», «4» или «5». Проверяется
выполнение
данного
условия,
при
необходимости
уточняется
и
исправляется.
4.2.
Все содержательные столбцы информационного массива содержат
код столбца «2», «3», «4» или «5». Код столбца содержится в первой строке
с кодом «2». Проверяется выполнение данного условия, при необходимости
уточняется и исправляется.
4.2.1. Код
«2»
используется
для
обозначения
строки
или
столбца,
содержащего порядковый номер категории, который формируется
автоматически по значению категории. Формула для формирования
данного описателя однотипна для всех категорий. Поэтому при
использовании
категорий,
которые
ранее
встречались
в
других
информационных массивах, они используются в качестве прототипа для
формирования для данного описателя. В случае «новой» категории, для
значения категории в клетке Z45 формула для его порядкового номера в
клетке
Z43
имеет
вид:
=ПОИСКПОЗ(Z45;'BD\xls\[sprav_2.xls]KAT'!$B$3:$B$99;0), где ‘BD\xls\’ –
поддиректория для xls-файлов в директории Базы данных ‘BD’, ‘KAT’ –
название рабочего листа файла НСИ [sprav_2.xls] для этой категории, B3
– первая строка в справочнике этой категории, B99 – последняя строка
этого справочника (заменить в случае необходимости 99 на нужную
величину, равную 2+длина справочника).
4.2.2. Код
«3»
используется
для
обозначения
строки
или
столбца,
содержащего код категории, который формируется автоматически по
значению категории средствами функций Excel. Формула однотипна для
всех категорий. Для категорий, которые ранее встречались в других
информационных массивах, они используются в качестве прототипа для
формирования для данного описателя. В случае «новой» категории, для
значения категории в клетке Z45 формула для его кода в клетке Z44
имеет
вид:
=ИНДЕКС('BD\xls\[sprav_2.xls]KAT'!$D$3:$D$99;ПОИСКПОЗ(Z45;'BD\xls\[
sprav_2.xls]KAT'!$B$3:$B$99;0)), где ‘BD\xls\’ – поддиректория для xlsфайлов в директории Базы данных ‘BD’, ‘KAT’ – название рабочего листа
файла НСИ [sprav_2.xls] для этой категории, B3 – первая строка в
справочнике этой категории, B99 – последняя строка этого справочника
(заменить в случае необходимости 99 на нужную величину, равную
2+длина справочника), D3:D99 – столбец значений кодов для данной
категории.
4.2.3. Код
«4»
используется
для
обозначения
строки
или
столбца,
содержащего значение данной категории. Категории переменных по
вертикали располагаются в информационном массиве справа налево в
порядке их описания в метаописании. Категории переменных по
горизонтали располагаются в информационном массиве сверху вниз в
порядке их описания в метаописании. Проверяется выполнение данных
требований.
При
необходимости
исправляется,
например,
путем
перестановки столбцов.
4.2.4. Проверка значений категорий путем выявления кодов категории,
имеющих значение «#Н/Д» в столбце слева от нее (в строке над ней).
Может быть несколько причин неправильного значения категории: А)
опечатка (например, «Москоская область»). В этом случае необходимо
исправить опечатку. Б) лишний пробел (например, «оба пола»). В этом
случае необходимо убрать лишние пробелы. В) сокращения (например,
«Эвенкийский авт.окр.»). Необходимо заменить на полное название,
имеющееся
в
справочнике
регионов.
Г)
Синоним
(например,
«республика Молдова»). Д) Новое значение, на данный момент
отсутствующее в справочнике данной категории. В случаях Г) и Д)
необходимо произвести корректировку НСИ.
4.2.5. Код
«5»
используется
для
обозначения
строки
или
столбца,
содержащего значение показателя. Таким образом, ВСЕ значения
показателя в данном информационном массиве должны находиться на
пересечении строки с кодом «5» и столбца с кодом «5». Проверяется
выполнение данного требования.
4.2.6. Проверка форматирования значений показателя. Формат во всех
клетках данного массива должен быть одинаковым в соответствии с его
единицей измерения и точностью значений. Пример: коэффициент
суммарной рождаемости 1,2 при наличии трех знаков после запятой
должен иметь формат 1,200. Число мигрантов при единице измерения
«человек» должен иметь формат целого числа.
5. Подготовка файлов для загрузки в Базу данных
5.1.
Информационный массив подготавливается и сохраняется в виде
файла книги MS Excel версии 97-2003 (расширение XLS). В качестве
исключения возможен формат последних версий MS Excel (расширение
XLSX).
5.2.
Проверенный информационный массив сохраняется в виде
текстового файла с разделителем табуляция без каких-либо
преобразований и без изменения имени [в MS Excel выполнить «Сохранить
как», тип файла – Текстовые файлы (с разделителем табуляция),
«Сохранить», «Сохранить книгу в данном формате?» - «Да», «Закрыть
окно», «Сохранить изменения в файле?» - «Нет»]. Текстовый файл
сохраняется в директории Базы данных «txt».
5.3.
Ведение списка информационных массивов производится с
использованием файлов «list». Основной список – файл «list.xlsx». Новый
информационный массив занимает в данном списке одну строку, которая
должна быть добавлена в список. В столбце «A» должно находиться число
«2». В столбце «B» - название информационного массива (из кода 2
метаописания), в столбце «C» - имя Excel файла информационного
массива, в столбце «D» - имя текстового файла информационного массива,
в столбце «E» - порядковый номер информационного массива в Базе
данных, равный порядковому номеру предыдущего массива, загруженного
в Базу данных, плюс 1. Строка, относящаяся к данному массиву,
копируется также в рабочий лист с именем по первым двум буквам
фамилии ответственного лица в файле «list_all.xlsx» вслед за предыдущем
массивом данного лица.
5.4.
Подготовка файлов списка массивов «list». Подготовленный файл
«list.xlsx» сохраняется также в двух форматах: «list.xls» (Excel файл 972003) и текстовый файл «list.txt» (в поддиректории «txt»).
5.5.
Подготовка текстового файла списка показателей «indicators.txt»
производится из рабочего листа «показатели» файла «sprav.xls» в формате
«текстовый файл с разделителем табуляция».
6. Загрузка файлов в Базу данных
6.1.
По FTP-протоколу в директорию «xls» загружаются следующие
файлы: информационный массив в формате «xls», файлы списка массивов
«list.xlsx», «list.xls», «list_all.xlsx», «list_all.xls», скорректированные файлы
НСИ «sprav.xls» и «sprav_2.xls».
6.2.
По FTP-протоколу в директорию «txt» загружаются следующие
файлы: информационный массив в формате «txt», файл списка массивов
«list.txt», файл показателей «indicators.txt».
6.3.
Общая схема загрузки файлов на сервер может быть представлена
на рисунке 1.
Рис.1. Схема загрузки файлов Базы данных на сервер на примере
информационного массива iwa_001.
6.4.
После загрузки производится тестирование доступа к загруженным
информационным массивам и файлам через web-интерфейс Базы данных.
Проект Научного Фонда НИУ ВШЭ «Учитель-Ученики»
2011 - 2012 гг. «Разработка Базы данных демографических
показателей по регионам России и странам мира»,
грант № 11-04-0039.
Версия Инструкции – 1.0 от 17.03.2011.
Инструкцию подготовил: Сороко Е.Л.
Download