i020100r

advertisement
2.4. Методология координации и ротации
выборочных статистических наблюдений
за малыми предприятиями
(на базе статистического регистра)
СПЕЦИФИКА ТЕХНОЛОГИИ ОТБОРА ИЗ ЕДИНОЙ СПИСОЧНОЙ ОСНОВЫ
Обычно требуется одновременное проведение нескольких выборочных обследований предприятий, организуемых на основе
регистра. Необходимо обеспечить координацию (то или иное согласование) выборок и ротацию их элементов (изменение
состава наблюдаемых единиц в выборке при периодических обследованиях). Для достижения приемлемой точности оценок
изучаемых показателей должны учитываться изменения в составе единиц исследуемой совокупности, вызванные
демографическими процессами слияния и дробления, возникновения новых и ликвидации существующих предприятий.
Для решения поставленной задачи потребовалось создание вероятностной модели отбора элементов в выборку,
учитывающей специфику организации выборочных обследований предприятий. В основу разработанной и внедренной в
статистическую практику Государственного комитета Российской Федерации по статистике методики координации и
ротации выборок положено обобщение алгоритма последовательного случайного отбора. Созданная модель основана на
следующих принципах:
все выборки берутся из единой списочной основы;
случайный характер отбора обеспечивается процедурой рандомизации списочной основы;
демографические процессы в генеральной совокупности учитываются выбранной процедурой рандомизации;
ротация единиц в выборках и координация разноплановых выборок сводятся к алгебре множеств на единичном интервале;
методы оценивания показателей такие же, как и для случая статичной основы выборки (при необходимости с заменой
безусловной вероятности на условную).
ПОСЛЕДОВАТЕЛЬНЫЙ ПРОСТОЙ СЛУЧАЙНЫЙ ОТБОР БЕЗ ВОЗВРАЩЕНИЙ (ППСОБВ)
Рассмотрим конкретный прием для получения простой случайной выборки без возвращений объема n из совокупности
объема N. С каждой единицей в регистре свяжем случайное число так, чтобы их совокупность была равномерно
распределена на интервале (0, 1). Обозначим через xi случайное число i-й единицы. Все xi должны быть взаимно
независимы. Упорядочим совокупность единиц (предприятий) регистра по возрастанию значений xi. Первые n единиц в
этом списке составляют желаемую выборку. Результатом данного метода отбора будет простая случайная выборка.
Основная идея возможности обеспечить координацию и ротацию выборок состоит в том, чтобы присвоенные случайные
числа были постоянно связаны с единицами. Для каждой единицы регистра используется одно и то же случайное число для
отбора в каждом выборочном обследовании - постоянное присвоенное случайное число (ПСЧ). Новым предприятиям,
включаемым в регистр, присваиваются новые постоянные случайные числа xi, независимые и отличные от уже
существующих ПСЧ. Исключаемые из регистра предприятия (ликвидированные) удаляются также со своими ПСЧ.
Для каждого нового периода выборочного обследования выборка извлекается путем ППСОБВ, используя в качестве
случайных чисел ПСЧ. Таким образом, ППСОБВ всегда производится из актуализированного регистра. Тем не менее
получается значительное совпадение с самой последней выборкой, так как стабильные единицы имеют одни и те же ПСЧ.
Однако нет уверенности в том, что все устойчивые единицы останутся в выборке, так как в новой выборке число вновь
включенных в регистр единиц может быть больше числа единиц старой выборки, удаленных из регистра. Это может быть
вызвано просто самим случайным выбором, либо на самом деле в совокупности может оказаться больше включенных, чем
удаленных предприятий. Хотя устойчивые единицы могут как выбыть из новой выборки, так и войти в нее, однако чаще
всего они остаются, обеспечивая определенное совпадение единиц выборки в периодах наблюдения (см. рисунок 1):
х - присвоенные случайные числа устойчивых единиц;
o - присвоенные случайные числа удаленных единиц в период времени 2;
+ - присвоенные случайные числа вновь включенных единиц
Рис.1. Совпадение последовательных выборок
Очевидно, что благодаря симметрии равномерного распределения xi можно взять, например, последние n единиц, так как
отбор первых n единиц слева либо справа от любой фиксированной точки а в интервале (0, 1) обеспечит проведение
ППСОБВ. Если справа (слева) от исходной точки а ПСЧ недостаточно, можно просто продолжить отбор справа (слева) от
точки 0 (точки 1), как это показано на рисунке 2.
Рис. 2. Выбор из произвольной точки
С целью уменьшения совпадения между выборками объемов n1 и n2 двух обследований нужно выбрать две константы a1 и
a2 в интервале (0,1). И затем взять n1 единиц с ПСЧ, ближайшими справа или слева от a1, в качестве первой выборки и n2
единиц с ПСЧ справа или слева от a2 в качестве второй выборки. Если точки a1, a2 и направления отборов выбраны верно,
результатом станут непересекающиеся по единицам выборки, т.е. их негативное согласование (см. рисунок 3). Если
генеральная совокупность достаточно велика - N >> (n1 + n2), всегда можно выбрать точки a1 и a2 таким образом, что
выборки, вероятнее всего, окажутся непересекающимися. С другой стороны, когда N < (n1 + n2), этого достичь
невозможно, однако можно уменьшить их совпадение.
Рис. 3. Негативное согласование выборок
Если N достаточно велико, то аналогичным образом можно негативно согласовать любое число выборок. Для наилучшего
пересечения выборок двух обследований рекомендуется использовать одинаковые исходные точки и направления отбора
для каждого из них.
КООРДИНАЦИЯ (СОГЛАСОВАНИЕ В ПРОСТРАНСТВЕ ЕДИНИЦ)
ВЫБОРОК С РАЗНЫМ ПЛАНОМ
При организации выборочного обследования генеральная совокупность единиц наблюдения, как правило, расслаивается.
Поэтому имеется конечное число слоев, в каждом из которых осуществляется ППСОБВ. Для каждого обследования
используются одни и те же исходная точка а и направление отбора во всех слоях.
Если для двух обследований используются разные планы выборки (расслоения) одной и той же генеральной совокупности,
то в случае, когда исходные точки различны и направления отбора выбраны должным образом, выборки все равно
окажутся негативно согласованными (при достаточном количестве единиц основы). Это объясняется тем, что "малое" (либо
какое бы то ни было) случайное число в одном слое, по всей вероятности, также окажется "малым" и в другом слое (см.
рисунок 4). Степень достигаемого негативного согласования зависит, естественно, от выборочных долей в слоях.
По этой же причине может быть получено позитивное согласование двух выборок, даже если они имеют различные планы,
применительно к последовательным выборкам одного и того же обследования. Это означает, что можно, в случае
необходимости, изменить план обследования (доли отбора или расслоение генеральной совокупности), но все равно старые
и новые выборки в основном будут совпадать между собой.
Также очевидно, что для единицы в старой выборке, у которой изменяется принадлежность к слою (вследствие изменения
размера либо вида деятельности), по-прежнему сохраняется значительная вероятность включения в новую выборку, так
как используются одни и те же параметры последовательного отбора во всех слоях.
х - присвоенные случайные числа единиц, включенных в слой i обследования 1;
о - присвоенные случайные числа единиц, включенных в слой j обследования 2;
a1 - точка отбора обследования 1;
a2 - точка отбора обследования 2
Рис. 4. Согласование выборок с различным планом
ПОСЛЕДОВАТЕЛЬНОЕ ВЫЧЕРКИВАНИЕ ЕДИНИЦ, ВЫХОДЯЩИХ ЗА РАМКИ ОБСЛЕДОВАНИЯ
Регистр содержит значительное число единиц, выходящих за рамки конкретного обследования. Однако можно
осуществлять ППСОБВ, пропуская ПСЧ единиц, выходящих за рамки данного обследования, продолжая отбор до тех пор,
пока не будет достигнут заранее определенный объем выборки n. Благодаря независимости ПСЧ, эта "чистая" выборка
будет обладать тем же самым распределением вероятности, как если бы единиц, выходящих за рамки обследования,
вообще не было. В результате получена последовательная выборка размера n из генеральной совокупности единиц,
входящих в рамки обследования.
ИНТЕРВАЛЬНЫЙ ОТБОР
В качестве альтернативы использованию последовательного отбора можно включать в выборку все единицы с ПСЧ из
некоторого фиксированного подинтервала (0,1).
Интервальный отбор приводит к случайному размеру выборки m. Если требуется получить выборку объема n из
генеральной совокупности объема N, то интервал должен иметь длину n/N. Тогда вероятность включения для каждой
единицы составит n/N, а m будет иметь математическое ожидание n. На рисунке 5 показана зависимость между
интервальным и последовательным отборами.
Рис. 5. Интервальный и последовательный отборы (n = 4, N = 16, m = 3)
Недостатком этой процедуры является случайный объем выборки. Если требуемые доли отбора в слоях невелики,
изменчивость объема выборки может вызвать серьезные отклонения от оптимального размещения. Вероятность извлечения
выборки объема 0 в некотором слое отнюдь не пренебрежимо мала.
При значительном n фактический объем выборки m имеет менее важное значение с точки зрения эффективности. Однако с
практической точки зрения случайный объем выборки может стать проблемой, когда проводится обследование с
обусловленным объемом выборки.
Еще одной проблемой, связанной с интервальным отбором, является то, что обычная несмещенная оценка по среднему на
единицу обладает весьма невысокой точностью применительно к интервальному отбору. В качестве альтернативы в этом
случае общепринято использовать для оценки среднего генеральной совокупности среднее по выборке. Из-за случайного
размера выборки эта оценка представляет собой отношение случайных переменных; она является лишь аппроксимацией
несмещенной оценки, а ее дисперсия лишь приближенно известна.
Однако возможно осуществлять оценку, обусловленную реальным объемом выборки. Рассмотрев распределение
вероятности для интервального отбора, обусловленного объемом m, видно, что это - распределение обычной
последовательной выборки с фиксированным объемом m (m 0). Поэтому, отталкиваясь от объема выборки m, можно
осуществлять любого рода оценки, как если бы это была последовательная выборка.
Согласованные интервальные выборки ведут себя сходно с согласованными последовательными выборками. Отличия
заключаются только в следующем.
Теоретически возможно сохранять интервал отбора для того или иного обследования неизменным из года в год,
обеспечивая полное совпадение между устойчивыми единицами. На практике же N будет ежегодно изменяться, из-за чего
доля n/N для разных лет, даже если n остается неизменным, тоже будет изменяться. Таким образом, в действительности
совпадение устойчивых единиц не будет полным, однако, по всей вероятности, более значительным, чем при
последовательном отборе.
При интервальном отборе возможно добиться строгого негативного согласования между выборками, если сумма длин их
интервалов отбора не превышает 1. В случае ППСОБВ возможно лишь сделать совпадения неправдоподобными, но не
абсолютно невозможными.
Таким образом, интервальный отбор обеспечивает лучшее позитивное и негативное согласование, чем ППСОБВ. Это
преимущество интервального отбора должно уравновесить недостаток, связанный со случайным размером выборки. Вполне
возможно сочетать эти два метода так, чтобы последовательная выборка оказалась согласованной с интервальной
выборкой путем использования в обоих случаях одних и тех же ПСЧ.
ПРАКТИЧЕСКОЕ ИСПОЛЬЗОВАНИЕ МЕТОДОЛОГИЧЕСКИХ РЕКОМЕНДАЦИЙ
ДЛЯ ОСУЩЕСТВЛЕНИЯ КООРДИНАЦИИ И РОТАЦИИ ВЫБОРОЧНЫХ ОБСЛЕДОВАНИЙ МАЛЫХ ПРЕДПРИЯТИЙ
При разработке методики учитывалась необходимость обеспечения автоматической координации выборок при
формировании их на региональном уровне1). Технология присвоения предприятиям постоянных случайных чисел и
последовательный отбор в слоях позволили решить эту задачу.
Статистической основой всех обследований предприятий, начиная с 1998 г., является Генеральная совокупность объектов
статистического наблюдения. Поэтому всем единицам этого информационного массива были присвоены постоянные
случайные числа - реализации равномерно распределенной на единичном интервале случайной величины.
Начиная с 1999 г., во время ежегодной актуализации Генеральной совокупности объектов статистического наблюдения
(декабрь - январь) всем вновь зарегистрированным в прошедшем году предприятиям также присваиваются их постоянные
случайные числа.
В 1998 г. координировались три обследования деятельности малых предприятий, осуществлявшихся на основе
унифицированных форм федерального государственного статистического наблюдения №№ П1, П2 и П4:
№ П-1 "Сведения о производстве и отгрузке товаров, работ и услуг";
№ П-2 "Сведения об инвестициях";
№ П-4 "Сведения о численности, заработной плате и движении работников".
Объемы выборок этих обследований варьировались по регионам и составили в целом по России порядка 14,4% объема
Генеральной совокупности объектов статистического наблюдения.
Все эти обследования имели одинаковый план и для непосредственного формирования списка выборочной совокупности
использовался последовательный простой случайный отбор в слоях.
1)
Проблема заключалась в том, чтобы обеспечить координацию выборочных обследований в условиях, когда выборки
формируются на разных компьютерах, возможно не связанных между собой.
Точки отбора
Рис. 6. Параметры формирования выборочных совокупностей обследований
малых предприятий на основе унифицированных форм №№ П1, П2 и П4 в 1998 г.
Такой выбор точек начала и направлений отбора приводит к тому, что в выборки могут быть включены только единицы с
ПСЧ в интервале [0,0.5]. В следующем году для обеспечения ежегодной ротации параметры отбора единиц изменяются так,
чтобы отбор осуществлялся из совокупности единиц со значениями ПСЧ в правой половине единичного интервала и т.д.
(см. рисунок 6).
Фактически вся совокупность предприятий состоит из двух массивов. Подсовокупность крупных (значимых) единиц
наблюдается как в год t-1, так и в год t и возможно в нескольких обследованиях. Сравнительно небольшие единицы
обычно относятся к многочисленным слоям. В них в полной мере осуществляются и координация выборок, и ротация
единиц наблюдения.
Возможности координации и ротации ограничены в первую очередь количеством единиц генеральной совокупности.
Применение методики координации в следующих регионах России: Республика Коми, Республика Мордовия, Чувашская
Республика, Республика Саха (Якутия), Мурманская, Новгородская, Брянская, Владимирская, Ивановская, Кемеровская,
Магаданская области, - дало положительный результат.
В этих регионах возможности координации выборок ограничены сравнительно небольшим количеством единиц генеральной
совокупности (2-7 тысяч). Тем не менее в среднем 60% единиц выборочной совокупности наблюдается только в одном из
трех обследований.
Таким образом, внедрение в практику разработанной методики по координации и ротации выборочных обследований
предприятий дало положительный результат в части сокращения нагрузки на респондентов по представлению
статистической информации.
Download