1.

advertisement
ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ - ВЫСШАЯ ШКОЛА ЭКОНОМИКИ
ФАКУЛЬТЕТ ЭКОНОМИКИ
КАФЕДРА СТАТИСТИКИ
2005-2006 учебный год
СОЦИАЛЬНО-ЭКОНОМИЧЕСКАЯ СТАТИСТИКА
Тема 1. Теория статистического наблюдения
Лекция 6 - 7. Статистические показатели как результат вторичной обработки
результатов наблюдения: возможности структурного и динамического анализа
совокупности
Как было показано в предыдущих лекциях, самая первая, важнейшая задача
статистического исследования – это анализ структуры совокупности.
Структура
–
взаимное
расположение
групп,
связи
между
которыми
определяют специфику изучаемой совокупности. Свойство зависимости структуры:
∑w=1, поэтому графически целесообразно изображать структуру в виде круговых или
столбиковых диаграмм.
Структуру совокупности можно исследовать по распределению признака,
измеренного в любой шкале, причём предпочтительно использование качественных шкал,
так как целью структурного анализа является описание закономерностей формирования
наблюдаемой совокупности единиц, то есть проведение типологизации элементов
совокупности и выделение приоритетного, доминантного и малозначимого типов единиц.
Система показателей для измерения структуры и различий структуры включает
индивидуальные и обобщающие характеристики:
1) индивидуальные: доля wi, накопленная доля, абсолютное ∆w и относительное iw
изменение долей групп, коэффициенты координации, коэффициенты нагрузки.
2) обобщающие:
а) характеристики свойств одной структуры – система обобщающих показателей
распределения, в т. ч. экстремальных значений показателя в совокупности в целом и по
группам, средний уровень варьирующего показателя (с учётом асимметричности
распределения), характер вариации и форму распределения (см. лекции 2-5).
б) обобщающие индексы сравнения двух структур (во времени или пространстве);
кафедра статистики ГУ-ВШЭ
ООИ
в) обобщающие индексы сравнения нескольких (более двух) структур (во времени или
пространстве).
Рассмотрим обобщающие индексы сравнения двух и более структур.
Для обобщённого анализа изменения структуры совокупности во времени или
измерения пространственных различий по двум сравниваемым уровням используют
различные обобщающие показатели структурных сдвигов.
К
наиболее
простым
обобщающим
показателям
абсолютного
значения
структурных сдвигов относятся и индекс различий, который, в отличие от большинства
других коэффициентов, имеет не только нижнюю, но и верхнюю границу изменения:
I р азл =
1
∑ d1 − d 0 ,
2
где d1,0 - показатели удельного веса, выраженные в простом кратном отношении.
Очевидно, что максимальная сумма модулей изменения долей может быть равна 2.
Это возможно в гипотетической ситуации, когда в одном периоде вся совокупность
сосредоточена в одной группе, а в следующем периоде – в другой. Поэтому теоретически
индекс различий может иметь верхнюю границу равную 1, однако в реальной
действительности он всегда меньше 1. Если изменений в структуре не происходило,
индекс различий будет равен 0. Таким образом, чем ближе значения индекса различия к 1,
тем более значительны изменения структуры.
В международной статистической практике наиболее часто рассчитывают:
1) линейный коэффициент абсолютных структурных сдвигов (Казинца)
(чтобы избежать взаимопогашения разных по знаку изменений долей при агрегировании,
применяют модули отклонений долей групп)
Sd =
∑d
1
− d0
n
,
где d1, d0 – удельные веса (в %) отдельных элементов совокупности в
рассматриваемом и предыдущем периоде;
n - число выделяемых элементов совокупности.
2) квадратический коэффициент абсолютных структурных сдвигов (Казинца):
(чтобы избежать взаимопогашения разных по знаку изменений долей при агрегировании,
применяют квадраты отклонений долей групп)
Sσ =
кафедра статистики ГУ-ВШЭ
ООИ
∑(d
1
− d0 )
n
2
.
где d1, d0 – удельные веса (в %) отдельных элементов совокупности в
рассматриваемом и предыдущем периоде;
n - число выделяемых элементов совокупности.
Линейный и квадратические коэффициенты абсолютных структурных сдвигов
показывают, на сколько процентных пунктов в среднем отклоняются друг от друга
сравниваемые удельные веса. При отсутствии сдвигов в структуре совокупности эти
показатели равны 0. Верхней границы изменения коэффициенты не имеют: чем больше
изменения
структуры,
тем
выше
значения
коэффициентов.
Использование
квадратического коэффициента предпочтительнее, так как он более чутко реагирует на
сильные колебания структуры.
Для оценки существенности структурных различий в относительном выражении в
международной аналитической практике широко применяются интегральные индексы
Салаи и Гатева, учитывающие численность совокупности, количество выделенных групп
и различный вклад групп в общий объём изучаемого признака, а также коэффициент
корреляции рангов Спирмена. С помощью обобщающих показателей структурных
сдвигов изучаются не только различия двух совокупностей (например, в региональном
разрезе), но и дается оценка динамики изменения структуры. В этом случае
соответствующие показатели должны трактоваться как обобщающие показатели
структурных изменений в динамике.
Интегральный коэффициент структурных сдвигов К.Гатева учитывает интенсивность
изменений по отдельным группам и удельный вес групп в сравниваемых структурах:
k=
∑ (w
∑ (w
1
2
1
− w0 )
2
+ w0
2
),
0<k<1
Интегральный коэффициент структурных различий Салаи учитывает интенсивность
изменений по отдельным группам, удельный вес групп в сравниваемых структурах, а
также число групп:
I=
∑ ((w
1
− w0 ) / (w1 + w0 ))
2
k
, 0<I<1, k – число групп,
Коэффициент ранговой корреляции Спирмена:
кафедра статистики ГУ-ВШЭ
ООИ
ρ=1-6*∑d²/k(k²-1)
или – при наличии связанных рангов –
ρ = (n *
где
(n 2 − 1)
n * (n 2 − 1)
n * (n 2 − 1)
− ∑ d 2 − A − B) / (
− 2 A) * (
− 2 B)
6
6
6
A = U3 - U;
B = V3 – V;
U, V – количество связок в каждой из анализируемых структур.
Коэффициент корреляции рангов Спирмэна (ρ) может принимать значения в
пределах от 0 до ±1. Когда ранги результативного признака полностью совпадают с
рангами факторного признака, то каждое значение Nx=Ny и Σd²=0. Соответственно в
формуле Спирмэна р==1, т. е. можно говорить почти о полной прямой связи.
Если ранги идут строго в противоположном направлении, т е первому рангу фактора х
соответствует п-й ранг (последний) результативного признака у, второму рангу х
соответствует п —1 ранг у и т д., то в этом случае его максимальная величина будет
равна
n(n 2 − 1)
3
6∑ d 2
2
и, следовательно, n(n − 1) может иметь максимальное значение 2.
И тогда, по формуле Спирмэна, ρ =—1, что свидетельствует почти о полной обратной
связи между х и у. Если же связь между изменениями х и у отсутствует (ρ == 0), то,
очевидно, в этом случае должно наблюдаться равенство
Следует иметь в виду, что этот эмпирический показатель, даже если он получает
крайние значения 1 и 0, нельзя безоговорочно расценивать как свидетельство
функциональной связи или абсолютного отсутствия зависимости.
Если же учесть, что расчет его прост, то станет понятным, почему многие отдают ему
предпочтение.
Рассмотрим расчет коэффициента корреляции рангов на конкретном примере (см.
табл. 1 ниже, связанные ранги отсутствуют).
кафедра статистики ГУ-ВШЭ
ООИ
что свидетельствует об очень тесной связи между изменением производственных фондов фактора (х) и валовой продукции - результата (у):
Статистические методы допускают одновременное сопоставление нескольких
структур (во времени или пространстве).
Коэффициент неравномерности распределения:
k неравн =
K *L
2
* ∑ (wi − p ) , 0< k неравн <1
K−L
где p – доля групп при абсолютно равномерном распределении, p =
1
;
K
K – количество групп в сравниваемых структурах,
L – количество доминантных групп, принимается равным Lmax по всем
сравниваемым структурам для обеспечения сопоставимости полученных по каждой
структуре коэффициентов неравномерности.
Коэффициент неравномерности показывает, насколько значительно отличается
каждая из сравниваемых структур от эталона – структуры равномерного распределения,
следовательно, сопоставление коэффициентов неравномерности позволяет одновременно
сравнивать неограниченное количество структур (как в пространстве, так и во времени).
0< k неравн <1,
k неравн → 0 ⇒ равномерное распределение, т.е. разнообразие в структуре
k неравн →1 ⇒ усиление однообразия в структуре, т.к. неравномерное распределение
кафедра статистики ГУ-ВШЭ
ООИ
Для анализа структуры совокупности важно оценить форму распределения
1) коэффициент асимметрии по Пирсону;
2) коэффициент асимметрии по Линдбергу Kas Lindb = (d>xaver – 0,5)*100%;
3) коэффициент асимметрии на основе момента распределения 3-го порядка Kas; и
оценка существенности Kas для n наблюдений
4) коэффициент эксцесса
Для оценки уровня дифференциации и концентрации используется аппарат
анализа рядов распределения.
1) ДК =
l9
l1
2) ФК =
x10% max
x10% min
3) Коэффициент Лоренца L = (∑ d − p )/ 2 ,
где d – доля i-й группы в общем объеме признака, в кратном отношении,
p – частость i-й группы в общем объеме признака, в кратном отношении
0<L<1; L → 0 ⇒ равномерное распределение
4) Коэффициент Джини
5) Коэффициент Херфиндаля-Хиршмана
Для атрибутивного признака мера неопределённости, или неравномерности структуры
измеряется на основе коэффициентов энтропии.
k
H ( x ) = −∑ p( xi ) * log 2 p( x2 ) - абсолютная энтропия, где xi - доля единиц i-й
i =1
категории. Величины p ( xi ) , log 2 p ( x2 ) определяются по таблице, составленной для этих
вероятностей.
Свойства абсолютной энтропии:
а) 0 ≤ H ( x) ≤ H max , где
H (x) =0 – все единицы в одной категории, нет неопределенности.
k
1
1
H max = −∑ log
, k – число категорий распределения,
k
1 k
H max - энтропия равномерного распределения.
кафедра статистики ГУ-ВШЭ
ООИ
б) сравнить энтропии нескольких распределений As можно, если:
k Ai
= k Ai
Для сравнения энтропии по распределениям (структурам) с различным числом
категорий используется относительная энтропия H * =
H ( x)
H max
В общем случае, мы можем сопоставлять структуру совокупности не только с
другой взаимосвязанной структурой в пространстве или во времени, но и с некоторым
теоретически существующим эталоном, характеризующимся определёнными свойствами,
то есть с теоретическим распределением.
Сравнение эмпирической структуры распределения, полученной в результате
статистического наблюдения, с теоретическим распределением тем более важно, что при
анализе структуры распределения непрерывного признака (а также дискретного,
возможный шаг изменения которого очень мал по сравнению с интервалом ряда) часто
бывает нужно заменить ступенчатую гистограмму—всю или на отдельном участке
непрерывной линией. Эта линия должна изобразить идеальное изменение плотности
распределения при дроблении интервала группировки и одновременном увеличении числа
наблюдений. Без такого увеличения многие малые интервалы оказались бы пустыми,
другие - содержащими один - два случая, что только мешало бы отражению в полученном
ряду закономерности вариации.
Если речь идет об участке вариации, охватывающем отдельные интервалы, то
задача может решаться с помощью того или иного интерполяционного приема—вроде
примененных для вычисления моды, медианы, квартилей и др. Подбор кривой для всего
распределения в целом — задача гораздо более сложная. Она может решаться как чисто
описательная путем подбора кривой, дающей некоторые основные характеристики
распределения, близкие к вычисленным, на основании фактических данных.
кафедра статистики ГУ-ВШЭ
ООИ
Существуют наборы таких кривых, при использовании которых надо по
имеющимся показателям («параметрам») выбрать наиболее подходящую из данного
набора (кривые Пирсона, кривые Шарлье).
В других случаях ставится гораздо более сложная и важная задача — выбрать
тот вид кривой распределения, который возникает в результате действия такого
механизма, определяющего изменчивость наблюдаемого признака в совокупности, какой
имеет место (строго или хотя бы приблизительно) для вариации того признака, о
распределении которого идет речь. Далее возникает задача эмпирической проверки
приемлемости выбранной кривой для представления этого распределения, т.е. проверки
того, действительно ли различия между данного вида кривой и эмпирическим
распределением настолько малы, что эти различия можно считать случайными, а не
закономерными.
В качестве теоретического распределения часто используется нормальное
распределение, распределение Пуассона и некоторые другие распределения.
Нормальное распределение полностью определяется двумя параметрами- х и σ,
т.е. нормальные распределения отличаются друг от друга положением на оси х центра
распределения (рис. 13) и разбросом вариантов около этого центра (рис. 14).
Условия возникновения абсолютного нормального распределения в чистом виде в
социально-экономической
области
встречаются
редко.
Но
нередко
возникают
распределения, хотя и не отвечающие строго нормальному, но имеющие с ним некоторые
сходные черты. Такое сходство часто обусловлено уже тем, что крайние значения
вариантов, близкие к Хтin и Хтax, встречаются много реже, чем серединные.
Объективную оценку близости эмпирических частот к теоретическим, вообще,
любой эмпирической структуры к некоторой эталонной, можно получить с помощью
критериев близости, называемых критериями согласия.
Существует ряд таких критериев, предложенных разными учеными. Остановимся
на одном из первых разработанных критериев—критерии Пирсона.
Критерий Пирсона χ 2 («хи»-квадрат) рассчитывается по формуле:
кафедра статистики ГУ-ВШЭ
ООИ
где f—эмпирические частоты,
fm — теоретические частоты.
Для оценки близости эмпирического распределения к теоретическому
определяют вероятность достижения χ2 данной величины Р(χ2) при случайных
отклонениях частот. Если вероятность Р(χ2) значительно отличается от нуля
(оказывается больше, чем 0,05), то отклонения фактических частот от теоретических
можно считать случайными.
Если же Р(χ2) <0,05, то отклонения нельзя считать случайными и эмпирическое
распределение является принципиально отличным от рассчитанного теоретического.
Величина χ2 зависит не только от величины отклонений эмпирических от
теоретических частот, но и от их количества, т. е. от числа групп, на которые разбита
совокупность. Чем больше групп выделено в совокупности, тем больше слагаемых входят
в величину χ2, а значит, тем больше она может оказаться даже при случайном характере
отклонений эмпирических частот от теоретических.
Поэтому таблицы вероятностей определенных значений χ2 рассчитаны для разного
числа степеней свободы варьирования эмпирического ряда частот. Причем число степеней
свободы (К} определяется как разность между числом групп в совокупности,
уменьшенным на единицу, и числом общих характеристик теоретического распределения,
принятых равными соответствующим эмпирическим.
Так, для нормального распределения число степеней свободы К=п—3, где п—
число групп.
Таблицы Р(χ2) для различных χ2 и К приведены в Приложении к учебникам,
рекомендованным в рамках изучения курса.
Для оценки близости эмпирического и теоретического распределений на основе
рассчитанного χ2 можно воспользоваться и таблицами другого типа (см. Приложение), в
которых для различного числа степеней свободы k и определенного уровня значимости (α)
указаны критические значения χ2.
Если фактическое значение χ2 оказывается меньше табличного (критического), то
расхождения считаются случайными.
Существуют и другие критерии для оценки соответствия эмпирического
распределения некоторому теоретическому. Например, часто используется критерий
Колмогорова, равный отношению максимальной абсолютной величины разности
накопленных частот в сравниваемых распределениях к квадратному корню из числа
кафедра статистики ГУ-ВШЭ
ООИ
наблюдений. Критерий Колмогорова слабо чувствителен к виду закона распределения и
подвержен влиянию помех в исходной выборке, но прост в применении. Для
распределения вероятностей этого критерия также имеются таблицы.
Критерий Мизеса имеет ряд общих свойств с критерием Колмогорова: оба
основаны непосредственно на результатах наблюдения и не требуют построения
статистического ряда, что повышает объективность выводов; оба не учитывают
уменьшение числа степеней свободы при определении параметров распределения по
выборке, а это ведет к риску принятия ошибочной гипотезы. Их предпочтительно
применять в тех случаях, когда параметры закона распределения известны априори,
например, при проверке датчиков случайных чисел. В качестве меры различия
теоретической функции распределения F(x) и эмпирической Fn(x), в соответствии с
критерием Мизеса используется средний квадрат отклонений по всем значениям
аргумента x:
Статистика критерия Мизеса:
При неограниченном увеличении n существует предельное распределение
статистики критерия. Задав значение доверительной вероятности можно определить
2
критические значения ωn
2
и, соответственно, nωn . Проверка гипотезы о законе
распределения осуществляется обычным образом: если фактическое значение критерия
окажется больше табличного критического или равно ему, то согласно критерию Мизеса с
уровнем значимости α гипотеза Но о том, что не существует статистически значимого
различия между эмпирической и теоретической структурами, то есть что закон
распределения элементов наблюдаемой совокупности Fn(x) соответствует F(x), должна
быть отвергнута.
Оценка существенности различий обобщающих показателей
сравниваемых структур
Для проверки нулевой гипотезы H 0 о несущественности различий между
средними величинами ( x =
∑x* f
∑f
t-критерий Стьюдента:
кафедра статистики ГУ-ВШЭ
ООИ
) в двух сравниваемых структурах используется
H 0 : x1 = x0
Порядок расчета:
1. Оцениваем t факт =
x1 − x0
δ 12 / (n1 − 1) + δ 02 / (n0 − 1)
2. Находим критическое, пороговое значение t табл при α=0,05 (5%-ном уровне
значимости) и df = n1 + n0 − 2
3. Если t факт > t табл , то H 0 отвергается и принимается альтернативная гипотеза о
существенности различий средних величин в группах.
Проверка нулевой гипотезы
показателями вариации ( V =
δ
x
)
H0
о несущественности различий между
в двух сравниваемых структурах также
осуществляется на основе t-критерия Стьюдента:
H 0 : V1 = V0
Порядок расчета:
1. Оцениваем t факт =
V1 − V0
V12 / 2 * n1 + V02 / 2 * n0
, где V1 ,V0 - оценка дисперсии в
сравниваемых структурах, n1 , n0 - численность единиц в сравниваемых структурах.
2. Находим критическое, пороговое значение t табл при α=0,05 (5%-ном уровне
значимости) и df = n1 + n0 − 2
3. Если t факт > t табл , то H 0 отвергается и принимается альтернативная гипотеза о
существенных различий в уровне вариации показателя.
Проверка нулевой гипотезы H 0 о несущественности различий между двумя
структурами по доле единиц совокупности, имеющих значение признака на
заданном уровне также осуществляется на основе t-критерия Стьюдента:
H 0 : w1 = w0
Порядок расчета:
кафедра статистики ГУ-ВШЭ
ООИ
t факт =
1.Оцениваем
w1 − w0
w1 (1 − w1 ) / (n1 − 1) + w0 (1 − w0 ) / (n0 − 1)
,
где
w1 (1 − w1 ), w0 (1 − w0 ) - дисперсия альтернативного признака в сравниваемых структурах,
w1 - число единиц, имеющих заданное значение признака в структуре 1, w0 - число
единиц, имеющих заданное значение признака в структуре 0, n1 , n0 - число единиц в
группах.
2. Находим критическое, пороговое значение t табл при α=0,05 (5%-ном уровне
значимости) и df = n1 + n0 − 2
3. Если t факт > t табл , то H 0 отвергается и принимается альтернативная гипотеза о
наличии существенных различий в доле единиц определенного типа.
Для проверки нулевой гипотезы H 0 о равенстве дисперсий (xi) в нескольких
структурах одним из самых мощных критериев считается критерий Бартлетта
(несколько дисперсий одновременно, не ограничен парными сравнениями)
M = ln (xарифм ) * ∑ n − ( xгеом )
Порядок расчета критерия:
1.
Вычисляется средняя арифметическая из дисперсий сравниваемых групп:
(X
)= ∑ x *n
∑n
i
арифм
i
i
2.
Находим натуральный логарифм полученной средней арифметической
3.
Определяется
4.
Вычисляется средняя геометрическая из дисперсий сравниваемых групп
ln (xарифм )
(∑ n)* ln(x
арифм
)
(xгеом ) = ∑ (ni * ln xi )
5.
Определяется M = ln (xарифм ) * ∑ n − ( xгеом )
6.
Отношение M / C распределено как χ 2 с числом степеней свободы df=m-1,
где m – число групп (асимметричное одновершинное распределение, стремящееся к
кафедра статистики ГУ-ВШЭ
ООИ
нормальному при возрастании числа степеней свободы). Число С зависит от числа
наблюдений и количества групп (при n>50:
С = 1 + (Σ 1/ni – 1 / Σni)/ 3*(m-1)
Если отношение M / C превысило табличное значение χ 2 с числом степеней свободы
df=m-1 и соответствующим уровнем значимости (α =1% или α = 5%), то H 0 отвергается и
принимается альтернативная гипотеза о наличии существенных различий в дисперсии
признака по структурам различных типов (как в пространстве, так и во времени).
Вообще, изучение изменений явлений во времени является следующей (после
анализа структуры и структурных различий) важной задачей статистики. Эта задача
решается при помощи составления и анализа рассмотренных выше (см. лекции 2-5) рядов
динамики (или временных рядов) по результатам проведения лонгитюдных наблюдений.
Рассмотрим подробнее основные этапы изучения динамики развития процессов.
Ряд
динамики
представляет
собой
числовые
значения
определенного
статистического показателя в последовательные моменты или периоды времени.
Числовые значения того или иного статистического показателя, составляющие
динамический ряд, называются уровнями ряда.
Ряды динамики, как правило, представляют в виде таблиц или графически. При
графическом изображении динамического ряда на оси абсцисс строится шкала времени, а
на оси ординат — шкала уровней ряда (арифметическая или иногда логарифмическая).
Закономерность в изменении уровней ряда в одних случаях проявляется
довольно наглядно, в других она может затушевываться колебаниями, вызываемыми случайными или другими причинами. Во всех случаях одной из первых задач исследования
является выявление основной тенденции в изменении уровней, именуемой «трендом».
Таким образам, ряды динамики тех или иных изучаемых показателей могут
отражать различные процессы изменения. Уровни любого ряда являются результатом
взаимодействия самых различных факторов, одни из которых могут действовать
длительно, другие — кратковременно, одни являются главными, определяющими
тенденцию изменений, а другие — случайными затушевывающими ее и т. д.
Поэтому, чтобы сделать правильные выводы о закономерностях развития того или
иного показателя, надо суметь отделить главную тенденцию изменения от колебаний,
вызванных
влиянием
случайных
кафедра статистики ГУ-ВШЭ
ООИ
кратковременных
причин,
для
чего
каждый
динамический ряд следует подвергнуть тщательному анализу и в случае необходимости
математической обработке.
В зависимости от вида показателей уровней ряда и ряды динамики обычно
подразделяют на ряды абсолютных, относительных и средних величин (показателей).
При этом ряды динамики абсолютных величин рассматриваются как исходные, а
ряды относительных и средних величин как производные
Кроме
того,
уровни
(показатели)
рядов
динамики
могут
относиться
к
определенным моментам или интервалам времени.
В зависимости от этого в статистике различают:
1) моментные ряды,
2) интервальные ряды.
Моментным называется ряд, уровни которого характеризуют величину явления
по состоянию на определенные моменты времени.
Интервальным называется такой ряд, уровни которого характеризуют
величину изучаемого показателя за определенный период времени. Отличительной
особенностью интервальных рядов абсолютных величин является то, что уровни их
можно дробить и складывать. Так, зная выпуск продукции по месяцам, можно сложить
эти показатели, и полученная сумма будет характеризовать выпуск продукции за год.
Если же каждый месячный уровень разделить на продолжительность месяца, то новые
уровни дадут нам примерное представление о среднесуточном выпуске продукции по
месяцам. Подобные действия с уровнями моментного ряда лишены смысла.
Возможность суммирования уровней интервальных рядов абсолютных величин.
Позволяет строить ряды с нарастающими итогами.
На основе рядов абсолютных величин могу быть построены динамические ряды
относительных и средних величин.
При изучении явлений общественной жизни в статистике приходится иметь дело с
различными видами динамических рядов. Однако, с какими бы рядами динамики ни
приходилось иметь дело, основным требованием, предъявляемым к анализируемым
рядам, является сопоставимость их уровней.
Несопоставимость уровней может возникнуть по различным причинам, основными из
которых можно назвать следующие.
1. Изменение территории, которую характеризуют те или иные показатели.
2. Изменение даты учета. Например, если учет основных средств в течение ряда лет
проводился по состоянию на 1 октября, а затем — на 1 января, то соединение в один ряд
кафедра статистики ГУ-ВШЭ
ООИ
показателей стоимости основных средств за ряд лет с разной датой даст несопоставимые
уровни.
3. Изменение методологии учета или расчета показателей. Например, если в одни годы
среднюю производительность труда считали по товарной продукции, а в другие — по
валовой,
то
такие
уровни
будут
несопоставимы.
Или
если
в
одни
годы
производительность труда рассчитывалась на одного рабочего, а в другие — на одного
работника промышленно-производственного персонала, то соединить такие данные в
один ряд нельзя — они также несопоставимы.
4. Изменение цен (для стоимостных показателей).
5. Различная продолжительность периодов, к которым относятся уровни.
Могут быть и другие причины несопоставимости. При этом, говоря об изменении
территории, к которой относятся показатели за разное время, следует иметь в виду, что
вопрос о сопоставимости может решаться по-разному в зависимости от целей
исследования. Например, с изменением границ какой-то области часть населения и часть
предприятий отошли к другой области. В этом случае, если ставится задача изучения
изменения. Численности населения (или объема промышленного производства) в связи с
изменением границ области, не только можно, но и должно сопоставлять данные в разных
границах. Если же ставится задача изучения темпов естественного прироста населения
или темпов развития промышленности, то сравниваемые показатели должны относиться к
одним и тем же территориальным границам.
Следовательно, прежде чем анализировать динамический ряд» надо, исходя из цели
исследования, убедиться в сопоставимости уровней ряда и, если последняя отсутствует,
добиться ее дополнительными расчетами.
Решение вопроса о сопоставимости уровней особенно важно при так называемом смыкании рядов.
Под смыканием рядов динамики понимают объединение в один ряд (более
длинный) двух или нескольких рядов, уровни которых исчислены по разной методологии или в разных границах. При этом для осуществления смыкания необходимо,
чтобы для одного из периодов (переходного) имелись данные, исчисленные по разной
методологии (или в разных границах). Для этого находим соотношение между
несопоставимыми показателями переходного периода. Умножая на полученный
коэффициент, приводим изучаемые ряды динамики в сопоставимый вид.
Каждый динамический ряд состоит из n-го числа варьирующих во времени
показателей. Обычно первый член ряда называют начальным уровнем (yо или y1), а
последний — конечным (yn)кафедра статистики ГУ-ВШЭ
ООИ
В качестве обобщенной характеристики показателей, изменяющихся во времени,
служит средний уровень ряда (у), именуемый средней хронологической. Методы
исчисления среднего уровня различны для интервальных и моментных рядов.
Для интервальных рядов средний уровень рассчитывается как средняя арифметическая
из отдельных уровней:
у=
∑y
n
i
,
где yi — отдельные уровни ряда,
п — число уровней.
Аналогично рассчитывается средний уровень и в рядах средних величин,
рассчитанных на основе интервальных рядов.
Средний уровень для моментных рядов рассчитывают, используя приём двойного
осреднения: сначала рассчитывают среднюю арифметическую между соседними
уровнями ряда и относят её к соответствующему периоду времени, а затем оценивают
общую среднюю для всего исследуемого периода в целом.
Таким образом, расчет среднего уровня для моментного ряда с равными
интервалами, содержащего п уровней, можно произвести по формуле:
Эта средняя известна в статистике как средняя хронологическая для моментных рядов
с равноотстоящими интервалами. Для расчета по этой формуле среднего уровня в
моментных рядах половина крайних уровней суммируется со всеми остальными и
затем полученная сумма делится на число единичных периодов осреднения.
В случае же неравных интервалов между датами среднюю хронологическую для
моментных рядов следует рассчитывать как среднюю арифметическую взвешенную из
средних между двумя датами, приняв в качестве весов отрезки времени между датами.
Отдельные уровни ряда отличаются от своего среднего уровня (варьируют).
Естественно поэтому в динамических рядах определять (измерять) вариацию уровней
ряда при помощи известных уже нам показателей: среднего квадратического
отклонения (σ) и коэффициента вариации (V)
кафедра статистики ГУ-ВШЭ
ООИ
Коэффициент вариации (V) может использоваться как относительный показатель,
главным образом, для сравнения колеблемости в нескольких рядах динамики.
И средний уровень ряда, и среднее квадратическое отклонение, и коэффициент
вариации — обобщающие показатели динамического ряда.
При изучении рядов динамики важно проследить за направлением и размером
изменений уровней во времени. С этой целью для динамических рядов рассчитывают
такие показатели, как коэффициенты роста; абсолютные приросты и темпы роста и
прироста.
Коэффициент роста (Ту) — относительный показатель, получающийся в
результате деления двух уровней одного ряда.
В зависимости от выбора базы сравнения, коэффициенты роста могут
рассчитываться как цепные, когда каждый уровень сопоставляется с уровнем
предыдущего периода, и как базисные, когда все уровни ряда сопоставляются с
уровнем одного какого-то периода, принятого за базу сравнения. Часто это бывает
начальный уровень ряда, но может быть и уровень любого другого периода.
Соответственно, цепные коэффициенты роста характеризуют интенсивность развития
в каждом отдельном периоде, а базисные — интенсивность развития за любой отрезок
времени, отделяющий заданный уровень от базисного.
Показатели роста, как относительные величины, могут выражаться в виде
коэффициентов, т. е. простого кратного отношения (если база сравнения принимается
за единицу) или в процентах, то есть в форме темпов роста (если база сравнения
принимается за 100 единиц).
Выраженные в коэффициентах показатели роста характеризуют, во сколько раз
уровень данного периода больше или меньше уровня какого-то другого периода. При
процентном выражении темп роста показывает, сколько процентов составил уровень
данного периода по сравнению с уровнем другого определенного периода.
Между цепными и базисными темпами роста существует непосредственная связь,
позволяющая, в случае необходимости, переходить от одних к другим, т. е. от цепных
темпов роста к базисным и наоборот.
В частности, для коэффициентов роста характерно следующее:
а) произведение цепных коэффициентов роста равно базисному,
б) результат деления двух базисных коэффициентов роста
коэффициенту (промежуточному).
кафедра статистики ГУ-ВШЭ
ООИ
равен цепному
Относительные показатели роста широко используются при анализе динамики
экономических процессов. В дополнение к ним рассчитываются абсолютные приросты и
темпы прироста.
В некоторых случаях (например, для показателей, характеризующихся резкими колебаниями) в качестве
базы сравнения принимается средняя величина за более длительное время (например, пятилетие и т. п.).
Абсолютный прирост (∆y) рассчитывается как разность между двумя уровнями ряда.
Он показывает, на сколько (в единицах измерения показателей ряда) уровень одного
периода больше или меньше какого-либо предшествующего, и, следовательно, может
иметь знак «+» (при увеличении уровней) или «—» (при уменьшении уровней).
Вычитая из каждого уровня предыдущий (∆y = yi - yi-1), получаем абсолютные приросты
за отдельные периоды ряда. Но можно из каждого уровня вычитать начальный (∆y = yi-y1).
В этом случае получаем накопленные итоги прироста показателя с начала изучаемого
периода.
Для
относительной
оценки
значений
абсолютных
приростов
рассчитываются
показатели темпов прироста.
Темп прироста (Тпр) — относительный показатель, показывающий, на сколько
процентов один уровень больше (или меньше) другого, принимаемого за базу сравнения.
Этот показатель можно рассчитать: 1) путем вычитания 100% из темпа роста или 2) как
процентное отношение абсолютного прироста к тому базисному уровню, по сравнению с
которым абсолютный прирост рассчитан.
Разделив абсолютный прирост на темп прироста (за соответствующий период),
получаем показатель абсолютного значения 1 % прироста (а), т. е.
Абсолютное значение 1% прироста равняется одной сотой предыдущего уровня.
Нетрудно видеть, что для базисных приростов и темпов прироста расчет этого показателя не имеет смысла, так как при сравнении всех накопленных приростов с
одним и тем же первоначальным уровнем для всех периодов будет получаться одно и
то же значение 1% прироста.
Приведенные
выше
показатели
являются
основными
характеристиками,
используемыми при анализе рядов динамики. Они позволяют судить об изменении
уровней в абсолютном и относительном выражении.
Для каждого из названных выше показателей в свою очередь могут
рассчитываться обобщающие показатели в виде средних величин.
кафедра статистики ГУ-ВШЭ
ООИ
Так, по данным о цепных абсолютных приростах за ряд лет средний годовой
абсолютный прирост рассчитывается как средняя арифметическая простая, т. е.
Этот же показатель можно получить на основе накопленного абсолютного прироста
за 5 лет, т. е. по формуле
где п — число уровней ряда, а п —1 — длина периода, для которого рассчитывается
средний абсолютный прирост.
Из индивидуальных цепных темпов роста, т. е. рассчитанных по отношению к
предыдущему периоду, средний темп роста исчисляется по средней геометрической. Так,
если коэффициенты роста, выраженные в долях от единицы, обозначить через Т1, Т2, ...,
Тп, то средний коэффициент роста (Т) выразится как:
Основания для применения этой формулы вытекают из следующего. Предполагается,
что при замене годовых темпов роста средним (одинаковым для всех лет) конечный
уровень ряда должен сохраниться неизменным. Этот конечный уровень равен начальному,
умноженному на произведение темпов роста:
Если все коэффициенты роста заменим их средней величиной Т, то общий объём роста
показателя за период не изменится, и мы получим yп=yоT n . Отсюда очевидно, что
средний коэффициент роста может быть получен как простая средняя геометрическая
(см. лекции 4-5):
Поскольку подкоренное выражение можно рассматривать как базисный коэффициент
роста, рассчитанный по отношению к первому периоду, то последняя формула применима
не только для исходных абсолютных значений показателя в динамическом ряду, но и для
коэффициентов роста, рассчитанных по отношению к одной и той же базе.
Как видим, величина среднего коэффициента роста зависит от значения крайних
уровней ряда. Следовательно, один и тот же средний коэффициент роста, можно получить
для рядов с одинаковыми крайними уровнями, но совершенно различным характером
кафедра статистики ГУ-ВШЭ
ООИ
изменения. Поэтому, прежде чем рассматривать средний коэффициент роста изучаемого
показателя для какого-либо периода, нужно тщательно проанализировать его с точки
зрения возможности осреднения коэффициентов изменения данного явления в отдельные
отрезки времени. В случае необходимости длительные и неодинаковые по характеру
изменения периоды времени следует разбить на несколько частей, для которых расчет,
средних темпов роста будет иметь смысл.
Средние темпы прироста рассчитываются на основе средних темпов роста путем
вычитания 100% (относительной величины базы сравнения).
При статистическом анализе и сопоставлении стохастически взаимосвязанных рядов
динамики,
характеризующих
различные
социально-экономические
явления,
рассчитывают коэффициент опережения. Он показывает, во сколько раз один ряд
динамики растет быстрее другого, и определяется сопоставлением коэффициентов роста
двух рядов. Коэффициенты опережения можно также определить путем сопоставления
темпов прироста:
Эмпирическая динамика ряда включает три компонента: тенденцию, или тренд f(t)
(долговременное движение), кратковременное систематическое движение Itсез (сезонную
волну) и несистематическое случайное движение εt (независимый от фактора времени
информационный шум). Изучая динамические ряды, исследователи с давних времен
пытаются
разделить эти
компоненты и
выявить,
главным
образом,
основную
закономерность развития явлений в отдельные отрезки времени, т. е. выявить общую
тенденцию в изменении уровней ряда, освобожденную от действия случайных факторов.
Ŷt = f(t) + Itсез+εt
кафедра статистики ГУ-ВШЭ
ООИ
С этой целью ряды динамики сглаживают различными методами.
1). Простейший способ обработки ряда с целью выявления закономерности изменения его
уровней состоит в определении итоговых или средних показателей для укрупненных
интервалов времени.
2). Довольно часто при обработке динамического ряда с целью определения тенденции
развития применяют сглаживание способом скользящей средней. Суть этого способа,
заключается в замене фактических уровней рядом подвижных (скользящих) средних,
которые рассчитываются для определенных последовательно подвижных (скользящих)
интервалов осреднения и относятся к середине каждого из них. Сглаживание указанным
способом можно производить по интервалу осреднения любой длины, в зависимости от
целей анализа и структуры исходных данных (см. лекции 4-5). Так, например, осреднение
по интервалу длиной в 1 год позволяет устранить влияние сезонной компоненты.
3). Более совершенным способом сглаживания динамических рядов с целью установления
основной тенденции развития является выравнивание по аналитическим формулам
(или аналитическое выравнивание).
При этом способе каждый фактический уровень yt рассматривается как сумма двух
слагаемых yt=f(t)+ εt, где f(t) — систематическая составляющая, отражающая тренд и
выражаемая определенным уравнением, а εt — случайная составляющая величина. Задача
выравнивания сводится к определению на основе фактических данных вида функции уt=
f(t), отысканию ее параметров по эмпирическим данным и расчету «теоретических»
уровней по найденной формуле. Простейшими формулами, выражающими тенденцию
развития (тренд) являются:
1) прямая вида уt=a0+ a1t,
где yt — теоретический уровень (читается: «игрек», выровненный по t),
t— время,
ао и at — параметры прямой;
2) показательная функция yt=аоа1t (обозначения те же);
3) парабола 2-го порядка yt=ao+a1t+a2t2.
Выбор вида функции тренда существенно облегчает визуальный анализ внутригодовой и
общей динамики показателя, построенный на основе исходной информации и на основе
очищенного от кратковременных колебаний ряда скользящих средних. Расчёт параметров
кафедра статистики ГУ-ВШЭ
ООИ
функции чаще всего проводят методом наименьших квадратов.
Выравнивание по прямой
Выравнивание по прямой дает эффект, как правило, в тех случаях, когда абсолютные
приросты в среднем более или менее постоянны (критерий постоянства первых
разностей), т. е. когда уровни ряда изменяются приблизительно в арифметической
прогрессии.
Параметры a0 и a1 для искомой прямой рассчитываются путем решения системы
нормальных уравнений, полученных способом наименьших квадратов.
Вычисления упрощаются, если (при равных интервалах) отсчет времени t вести от
середины ряда. При нечетном числе уровней ряда серединная точка (год, месяц)
принимается за 0; тогда предшествующие периоды обозначаются соответственно через —
1, —2, —3 и т. д., а последующие за средним периоды соответственно через +1, +2, +3 и т.
д.
При четном числе уровней ряда два серединных момента времени принимаются за —1
и +1, а величина интервала принимается за 2 (так, что, считая от середины ряда, t=1,3, 5
...).
В этом случае Σt=0.
При выравнивании рядов динамики по прямой значение коэффициента регрессии (a1),
по существу, характеризует средний абсолютный прирост показателя по годам или другим
периодам времени, принятым за единицу отсчета (t).
Выравнивание по показательной функции
Выравнивание по показательной функции производится, в основном, когда ряд отражает развитие в геометрической прогрессии, т. е. когда темпы роста, рассчитанные по
отношению к предыдущему периоду, более или менее постоянные.
При выравнивании ряда по показательной функции пользуются уравнением
Нетрудно заметить, что логарифм показательной функции меняется по линейной
функции.
Поэтому, заменив уровни ряда их логарифмами, параметры а0 и а1 можно
определить через их логарифмы, решая систему нормальных уравнений, которая в этом
случае выглядит так
кафедра статистики ГУ-ВШЭ
ООИ
Если выравненные уровни близки к эмпирическим, значит, показательная функция
подходит для отражения тренда.
Значение коэффициента а1 при выравнивании рядов динамики по показательной
функции вида yt=a0a1
t
практически характеризует средний темп роста исследуемого
показателя.
Выравнивание по параболе 2-го порядка
При выравнивании по параболе 2-го порядка
yt=a0+a1t+a2t 2 параметры a0, a1 и a2
определяются из системы нормальных уравнений, отвечающей требованию способа
наименьших квадратов (6.31), которая при Σt=0 имеет вид
Аналогично
могут
использоваться
и
другие
аналитические
формулы
для
выравнивания динамических рядов. И чаще всего параметры исковой функции
отыскиваются по способу наименьших квадратов.
Выравнивание при помощи ряда Фурье
Особое место в аналитическом выравнивании
динамических рядов занимает
выравнивание при помощи ряда Фурье, который выражается уравнением:
Выравнивание по приведенной формуле дает эффект в тех случаях, когда в
эмпирическом ряду наблюдается периодичность изменения уровней. Показатель, в
приведенном уравнении определяет гармонику ряда. Обычно при выравнивании по ряду
Фурье рассчитывают несколько гармоник (чаще четыре) и затем уже определяют, какая из
них наилучшим образам отражает периодичность изменения уровней ряда.
Параметры уравнения теоретических уровней, определяемых по ряду Фурье, находят,
как и в других случаях, по способу наименьших квадратов.
кафедра статистики ГУ-ВШЭ
ООИ
Не излагая здесь вывода, приведем готовые формулы, используемые для вычисления
указанных выше параметров уравнения ряда Фурье:
Последовательные значения t (времени) выражаются в радианной мере или в градусах и
определяются от 0 с увеличением (приростом), равным
2π
,
n
где п — число уровней
эмпирического ряда.
Выравнивание по ряду Фурье часто дает хорошие результаты в рядах, содержащих
сезонную волну. Рассчитываются уравнения с применением второй, третьей и четвертой
гармоник и проверяется близость теоретических значений к эмпирическим.
Выравнивание играет важную роль в анализе рядов динамики. Правильный подбор
типа кривой для определения тренда может иметь не только теоретический, но и
практический интерес, в частности при прогнозировании.
Однако надо заметить, что обработка радов динамики любым из указанных способов
только тогда дает действительный эффект, когда наблюдение охватывает достаточно
большое число уровней ряда.
Выявление и измерение сезонных колебаний
Внутригодовые уровни многих показателей существенно зависят от сезонности. Так,
например, расход электроэнергии в быту в летние месяцы значительно меньше, нежели в
зимние. Потребление мясных продуктов больше в зимние месяцы, производство многих
видов продуктов (сахара, растительного масла я др.), связанных с переработкой
сельскохозяйственной продукции, увеличивается в месяцы, непосредственно следующие
за окончанием уборки урожая, цены на рынке на овощи в отдельные месяцы далеко не
одинаковы и т. д.
При графическом изображении таких рядов сезонные колебания наглядно проявляются в повышении или
снижении уровней в определенные месяцы года.
Кроме того, знание особенностей сезонных колебаний для тех или иных показателей может быть использовано при решении многих практических задач (планирование выпуска продукции по месяцам там, где она
испытывает влияние сезонности, потребности в рабочей силе, оборудовании и т. п.). Поэтому изучение и
измерение «сезонной волны» является одной из важных задач при анализе рядов динамики.
кафедра статистики ГУ-ВШЭ
ООИ
Для измерения, «сезонной волны» в статистике рассчитывают индексы сезонности.
Простейшим способом исчисления последних является нахождение процентных
отношений уровня каждого месяца к среднемесячному период в целом (метод постоянной
средней) или за год (метод переменной средней). Более точной является оценка индексов
сезонности в форме относительного отклонения от соответствующей скользящей средней.
Таким образом, индекс сезонности представляет собой относительную величину
фактического значения показателя от значения, не содержащего кратковременных
колебаний , т. е.
Iсез =
yi
х100%.
y
Сезонная волна – это ряд средних значений индексов сезонности, полученных по
внутригодичным
интервалам
(на
основе
простой
средней
арифметической,
модифицированной средней арифметической или медианы). Учитывая свойства средней
величины, для большей надежности результатов сезонную волну оценивают на основе
индексов сезонности по данным не менее чем за три года. При этом для каждого месяца
(или квартала) рассчитывается средняя величина уровня за три года, которая и
сопоставляется с общим среднемесячным уровнем за три года или же для каждого года
отдельно рассчитываются помесячные индексы сезонности, из которых рассчитывается
затем средний индекс для каждого месяца. В экономическом анализе используются и
другие, более сложные методы расчета индексов сезонности: на основе процентных
отношений уровня каждого месяца к теоретическим (выровненным по теоретической
аналитической формуле) значениям ряда динамики.
Понятие об автокорреляции
Во многих рядах динамики наблюдается определенная зависимость уровней данного
периода от предшествующих уровней (с лагом, равным 1, 2, 3 или более уровней).
Например, численность населения за определенный год зависит (при прочих равных
условиях) от численности в предшествующие годы; численность поголовья скота в
каждый
год
зависит
от
поголовья,
в
предшествующие
годы;
урожайность
сельскохозяйственных культур в определенные годы связана с урожайностью предшествующих лет и т. п.
Зависимость между последовательными уровнями ряда динамики называется
автокорреляцией.
Автокорреляцию можно измерить при помощи коэффициента автокорреляции (rа),
исчисляемого на основе формул парного линейного коэффициента корреляции.
кафедра статистики ГУ-ВШЭ
ООИ
Для расчета коэффициента автокорреляции параллельно с исходными уровнями ряда (уt)
записываются уровни, сдвинутые на один период (yt-1) или (yt+1). И тогда формулу
коэффициента автокорреляции можно записать следующим образом:
Если значение последнего уровня мало отличается от первого, то, чтобы сдвинутый ряд
не укорачивался, его можно условно дополнить, принимая уп=у1.
Тогда уt= yt-1 и σy t =σy t −1 поскольку рассчитываются они для одного и того же ряда.
И при такой замене формула коэффициента автокорреляции принимает следующий вид:
или
Иногда приходится исследовать вопрос о наличии или отсутствии автокорреляции не
между самими уровнями ряда, а между их отклонениями от тренда или от среднего
уровня. В этом случае сумма таких остаточных величин и средняя из них равна 0.
Нетрудно видеть из приведённых формул, что для рядов, у которых y =0, коэффициент
автокорреляции можно выразить формулой:
Поскольку обычно через у обозначают уровни ряда, то, чтобы не вносить путаницы в
обозначения, для остаточных величин предпочтительнее использовать символ εt. Тогда
для них:
Как отмечено выше, коэффициент автокорреляции может рассчитываться не только
между соседними уровнями, т. е. сдвинутыми на один период, но и между сдвинутыми на
любое число единиц времени (m). Этот сдвиг, именуемый временным лагом, определяет
и порядок коэффициента автокорреляции: коэффициент автокорреляции первого порядка
(при m==1), второго порядка (при m=2) и т. д.
Из формулы коэффициента автокорреляции видно, что при m=0, т. е. когда ряд
коррелирует с самим собой, rа=1. По мере сдвига уровней ряда, т. е. по мере увеличения m
теснота зависимости, или уровень автокорреляции между ними будет изменяться.
кафедра статистики ГУ-ВШЭ
ООИ
Ряд коэффициентов автокорреляции, рассчитанных для разных сдвигов времени (m),
называют коррелограммой. Коррелограмму легко изобразить графически, принимая на
оси абсцисс значения m, а на оси ординат — значения rа. Исследование коррелограммы
позволяет выявить особенности развития процесса, отраженного в наблюдаемом
динамическом ряду значений показателя. Для оценки наличия или отсутствия
автокорреляции по найденному значению коэффициента автокорреляции используются
специальные таблицы.
В этих таблицах для разного числа членов ряда (п) и разных уровней значимости
определена
критическая
область
значения
положительного
или
отрицательного
коэффициента автокорреляции, которая и служит критерием проверки нулевой гипотезы
об отсутствии статистически значимой взаимосвязи между уровнями ряда. Для решения
вопроса о наличии или отсутствии автокорреляции в исследуемом ряду фактическое
значение коэффициента автокорреляции сопоставляется с табличным (критическим)
значением при 5%-ном или 1%-ном уровнях значимости (вероятности допустить ошибку
при принятии нулевой гипотезы о независимости уравнений ряда – см. лекцию 6).
Статистическое оценивание гипотезы происходит по общей схеме: если фактическое
значение коэффициента слишком велико (больше табличного, критериального значения
коэффициента rатабл), то мы не можем пренебречь его отличием от нуля и отвергаем
нулевую гипотезу об отсутствии связи между уровнями ряда. Если фактическое значение
коэффициента автокорреляции меньше табличного, то гипотеза об отсутствии
автокорреляции в ряду может быть принята. Если же фактическое значение больше
табличного, то делается вывод о наличии автокорреляции в ряду.
Допустим, в некотором динамическом ряду, построенном по результатам 10
последовательных наблюдений, мы получили фактическое значение коэффициента
автокорреляции rа=+0,5. Необходимо сравнить его с табличным значением для
положительных коэффициентов. Для п ==10 при 5%-ном уровне значимости критическое
значение коэффициента
автокорреляции равно 0,36 (см. таблицу). Поскольку
рассчитанное нами фактическое значение больше табличного (0,5>0,36), то можно
сделать вывод о наличии автокорреляции в нашем ряду, то есть о значимой зависимости
значений показатели от уровней, достигнутых в прошлых периодах. При 1%-ном уровне
значимости для п==10 критическое значение коэффициента автокорреляции равно 0,525.
Следовательно, с 1%-ным уровнем значимости
Во многих экономических исследованиях при решении различного рода задач
приходится изучать динамику нескольких показателей одновременно, т. е. рассматривать
параллельно несколько динамических рядов. Естественно, что в этих случаях можно
кафедра статистики ГУ-ВШЭ
ООИ
встретить ряды, у которых колебания уровней взаимообусловлены. Например, динамика
цен на какую-либо продукцию земледелия на рынке в известной степени связана с динамикой урожайности данной продукции; в свою очередь, динамика урожайности или
валовых сборов зависит от динамики количества осадков, динамика перевозок грузов
зависит от динамики производства продукции промышленности и сельского хозяйства и
т.п.
При изучении такого ряда рядов динамики может возникнуть необходимость
измерить зависимость между рядами динамики, вернее, определить, насколько колебания уровней одного ряда зависят от колебания уровней другого ряда. Эта задача
решается путем коррелирования рядов динамики, т. е. путем исчисления коэффициента
корреляции между ними.
Коррелируя ряды динамики, следует учитывать, что уровни в каждом ряду в большинстве случаев не независимы и между ними существует автокорреляция, которая искажает
характер и тесноту зависимости между изучаемыми показателями. Поэтому, прежде чем
коррелировать ряды динамики (по уровням), необходимо проверить каждый из рядов на
наличие
или
отсутствие
автокорреляции
в
них
(при
помощи
коэффициента
автокорреляции, описанного выше). В случае наличия автокорреляции между уровнями
ряда последняя должна быть устранена.
Есть несколько способов исключения автокорреляции рядов динамики. Один из
способов исключения автокорреляции заключается в том, что коррелируются не сами
уровни, а отклонения фактических уровней от выравненных, отражающих тренд, т. е.
коррелируются остаточные величины. Для этого каждый ряд динамики выравнивают по
определенной характерной для него аналитической формуле (т. е. находят xt и yt), затем из
эмпирических уровней вычитают выравненные (т. е. находят dx=x— xt и dy=y—yt) и
определяют тесноту зависимости между рассчитанными отклонениями dx и dy.
Проверка остаточных величин на автокорреляцию
При исчислении коэффициента корреляции между остаточными величинами предполагается, что отклонения фактических уровней от выравненных (т. е. dx и dy) являются
случайными величинами, не зависящими от времени, т. е. что между ними отсутствует
автокорреляция. Однако, если недостаточно точно подобрано уравнение тренда. или по
другим причинам, остаточные величины могут содержать автокорреляцию, тогда их
коррелировать нельзя.
Поэтому, прежде чем коррелировать отклонения dx и dy, необходимо в каждом ряду
проверить эти остаточные величины на отсутствие автокорреляции в них. Для этого
кафедра статистики ГУ-ВШЭ
ООИ
можно воспользоваться коэффициентом автокорреляции для рядов с нулевым значением
среднего уровня. Если обозначить отклонения от тренда в любом ряду динамики
символом εt(Σεt ==0), то коэффициент автокорреляции для остаточных величии выразится
следующей формулой:
Вывод об отсутствии автокорреляции в остаточных величинах можно сделать в том
случае, если фактическое значение rа окажется меньше табличного для данного числа
наблюдений (n) и принятого уровня значимости.
Для проверки автокорреляция в остаточных величинах также можно использовать
критерий Дарбина-Уотсона, обозначаемый символом d и рассчитываемый по формуле:
Этот
показатель
можно
связать
с
предыдущей
формулой
коэффициента
автокорреляции для остаточных величин. Так, если предположить, что
то возведя в квадрат числитель критерия d, можно записать
Вычитаемая
из
единицы
дробь
является
не
чем
иным,
как
коэффициентом
автокорреляции, записанным выше-(rа). Очевидно, что если автокорреляция отсутствует,
т. е. rа=0, то значение d будет равно 2. Соответственно, если имеет место полная
автокорреляция, то дробь (т. е. rа) будет равна 1 или —1, а значение d равно 0 или 4.
Для более точного суждения о возможности принятия (или непринятия) гипотезы об
отсутствии автокорреляции в остаточных величинах (εt) составлены таблицы, в которых
для разного числа наблюдений (п) и разных уровней значимости определены верхние (d2)
и нижние (d1) критические границы критерия d, позволяющие принять или отвергнуть
гипотезу об отсутствии автокорреляции.
кафедра статистики ГУ-ВШЭ
ООИ
Для проверки гипотезы об отсутствии автокорреляции в остаточных величинах
рассчитанная по формуле величина d сравнивается с d1 и d2 табличными (см.
Приложение). При этом: 1) если d>d1 (до 4—d2), то гипотеза об отсутствии
автокорреляции принимается, 2) если d< d1, то гипотеза об отсутствии автокорреляции
отвергается; 3) если d1<d<d2 или находится в пределах между (4—d2) и (4—d1), тo ничего
определенного сказать нельзя и требуется дальнейшее исследование для уточнения
(например, уточнение уравнения тренда, увеличение числа наблюдений и пр.), 4) если d>
(4— d1), то имеет место отрицательная автокорреляция.
Коррелирование последовательных разностей
Решить задачу исключения влияния систематической тенденции при коррелировании
рядов
динамики
можно
и
другим
способом,
в
частности
путем
корреляции
последовательных разностей уровней каждого ряда. Алгебраически легко показать, что
при переходе от уровней к их разностям исключается влияние общей тенденции на
колеблемость.
Если исходить из того, что каждый фактический уровень является результатов главной
тенденции (тренда)
и случайных остаточных факторов, т. е. y=yt+εt, где yt —
выравненное значение, определяющее
тренд; εt — отклонение фактического уровня от
выравненного значения, то при изменении ряда по прямой (yt=ао+a1t), обозначая
последовательно моменты времени через t=1, 2, 3, , можно записать:
Так как во всех этих разностях присутствует одна и та же постоянная величина а1, то
очевидно, что колебания рассчитанных разностей (∆) зависят только от εt, т. е. при этом
влияние общей тенденции (тренда) механически исключается.
Если уровни ряда изменяются по параболе 2-го порядка, т. е если yt=аo+ a1t+a2t2,
тогда получим:
кафедра статистики ГУ-ВШЭ
ООИ
Как видно, первые разности содержат кроме постоянного а1 еще и переменные слагаемые
(Зa2, 5a2, 7a2).
Чтобы добиться устранения влияния общей тенденции, на основе первых разностей
рассчитаем вторые разности:
Как видно из расчетов, колебания вторых разностей определяются только величинами
εt, так как 2a2 — величина постоянная во всех вторых разностях.
Таким образам, если возникает необходимость определять корреляцию между двумя
рядами с исключением влияния общей тенденции в каждом ряду, то можно коррелировать
последовательные разности уровней: при изменении уровней по прямой — первые
разности, при изменении по параболе 2-го порядка — вторые разности, при изменении по
параболе п-го порядка — п-e разности.
Корреляция рядов динамики с лагом
Изучая корреляцию между рядами динамики, следует иметь в виду, что в целом ряде
случаев изменение уровней одного ряда может вызвать изменение уровней другого ряда
только через определенный интервал времени. Например, увеличение (или снижение)
производства многих товаров в данном периоде вызовет увеличение (или уменьшение)
объема товарооборота через определенный промежуток времени, изменение цен на рынке
на определенную продукцию земледелия может вызвать изменение (увеличение или
сокращение) посевных площадей под данной культурой через год, увеличение числа
браков в данном году может привести к увеличению числа родившихся через год и т. д.
Поэтому, чтобы правильно оценить влияние изменения уровней одного ряда на другой,
необходимо сдвигать один ряд относительно другого на определенный промежуток
времени (лаг) и коррелировать ряды с лагом. Это может быть сдвиг на 1 месяц, на 3
месяца, на полгода, на год, на 2 года и т. д. Предварительный нормативный
(качественный, логический) анализ должен помочь исследователю определить этот лаг.
кафедра статистики ГУ-ВШЭ
ООИ
Скользящие коэффициенты корреляции
Коэффициент корреляции, рассчитываемый для измерения тесноты зависимости
изменения уровней двух рядов, является своего рода средним, обобщающим показателем.
Однако для длительного периода эта зависимость не является постоянной, она может
меняться во времени. Поэтому, чтобы судить о том, в какие периоды зависимость между
изменениями уровней двух рядов слабее или сильнее, рекомендуется рассчитывать серию
скользящих коэффициентов корреляции для определенного интервала (по аналогии с
расчетом скользящей средней при выравнивании динамических рядов). На основе расчета
таких скользящих коэффициентов корреляции можно выявить те периоды, когда
зависимость усиливается или уменьшается, и, зная эти периоды, легче объяснить
изменение этой зависимости в конкретных экономических или других условиях
отмеченного периода.
Вопрос о так называемой ложной корреляции, или мультиколлинеарности
С корреляцией рядов динамики тесно связан вопрос о так называемой ложной
корреляции.
Противопоставление
ложной
корреляции
истинной
было
впервые
сформулировано К. Пирсоном по поводу «лицевых индексов». В самой общей форме речь
идет об утверждении, что ложной является любая корреляция, имеющая своим
происхождением наличие любого общего элемента — слагаемого, множителя и т. д.
Однако не следует понимать этот тезис формально: приоритет нормативного,
теоретического анализа содержания процесса и условий его развития отвергает
формальное противопоставление, так как, в конечном счете, приводит к парадоксальному
тезису, что ложной является всякая корреляция, в основе которой имеется объективная
связь явлений. Это хорошо понятно на простом примере относительных величин. Если
имеются три абсолютных показателя экономической деятельности по отрасли: количество
предприятий, валовой выпуск, объём инвестиций, то, при отнесении двух последних
величин к первой получаем средний размер выпуска на 1 предприятие и средний объём
инвестиций на 1 предприятие. Полученные относительные показатели имеют в своей
статистической структуре общий элемент, однако экономическая теория доказывает, что
говорить в этом случае о ложности корреляции между ними нелепо. На самом деле, речь
идёт о необходимости оценки и исключения так называемой мультиколлинеарности, то
есть о наличии взаимных влияний факторных признаков друг на друга, помимо
взаимосвязей и взаимодействий между показателями-факторами и результирующим
показателем. Для исключения мультиколлинеарности рекомендуется использовать
кафедра статистики ГУ-ВШЭ
ООИ
специальные
статистические
программные
пакеты,
предусматривающие
анализ
динамических рядов.
Чтобы судить о реальной значимости взаимосвязей между показателей, имеется
только один путь — анализ механизма связи, ее природы. Это особенно важно при
коррелировании рядов динамики. Из изложенного выше утверждения некоторые авторы
делают вывод о том, что вообще во избежание ложной корреляции можно коррелировать
только отклонения от теоретических уровней. Ведь если тренд двух рядов выражается
линейными функциями yt =аo+ait; хt=bo+b1t, то легко увидеть, что в любом случае между
хt и yt имеется линейная функциональная связь:
следовательно, коэффициент корреляции между рядами равен единице. Поэтому ряд
авторов полагает, что связь между x=хt+dx и y=yt+dy при независимости dx и dy не имеет
иного происхождения, кроме наличия у обоих рядов тренда.
И действительно, если вычислить коэффициент корреляции между изменением
возраста (в годах) какого-либо индивида и численностью населения мира, то он окажется
довольно высоким, из чего никак нельзя сделать вывод о том, что этот индивид (и его
старение) — причина роста населения всего мира (или наоборот). Однако было бы
неверно объявить ложной связь динамики, например, поголовья молочного стада и
производства молока на сельскохозяйственном предприятии, хотя эта связь тоже
проявляется, прежде всего, именно в сходстве трендов.
Таким образом, нет общего формального правила для объявления корреляции
для рядов динамики ложной или истинной. Ключ к решению вопроса и здесь только в
анализе существа явления. В этом анализе всегда надо помнить, что так или иначе
корреляция измеряет всего лишь соответствие друг другу колебаний, вариаций, а отнюдь
не прямым образом причинно-следственную связь явлений.
Изучая и анализируя ряды динамики, исследователи с давних пор стремились на
основе выявленных особенностей изменения явлений в прошлом предугадать поведение
рядов в будущем, т. е. пытались строить различные прогнозы путем экстраполяции
(продления) рядов динамики.
Нахождение по имеющимся данным за определенный период времени некоторых
недостающих значений признака внутри этого периода называется интерполяцией.
Нахождение значений признака за пределами анализируемого периода называется
экстраполяцией.
Применение экстраполяции для прогнозирования должно основываться на
предположении, что найденная закономерность развития внутри динамического ряда
кафедра статистики ГУ-ВШЭ
ООИ
сохраняется и вне этого ряда. Это означает, что основные факторы, сформировавшие
выявленную закономерность изменения уровней ряда во времени, сохранятся и в
будущем.
Экстраполяцию ряда динамики можно осуществить различными способами. Но
независимо от применяемого способа каждая такая экстраполяция обязательно
основывается на предположении о том, что закономерность (тенденция) изменения
изучаемого явления, выявленная для определенного периода времени в прошлом,
сохранится
на
ограниченном
отрезке
времени
в
будущем.
Поэтому
любому
прогнозированию в виде экстраполяции ряда должно предшествовать тщательное
изучение длительных рядов динамики, которое позволило бы определять тенденцию
изменения. А так как в действительности тенденция развития в свою очередь может
изменяться, то данные, получаемые путем экстраполяции ряда, надо рассматривать как
вероятностные, как своего рода оценки. Статистические методы прогноза не должны и не
могут ни подменять планирование, ни даже предвидеть плановые решения.
Рассмотрим некоторые простейшие приемы экстраполяции рядов динамики,
помогающие прогнозировать те или иные показатели на определенный отрезок времени в
будущем.
1. Если при анализе ряда динамики обнаруживается, что абсолютные приросты
уровней примерно постоянны, то в этом случае можно рассчитывать средний абсолютный
прирост (как среднюю арифметическую) и последовательно прибавлять его к последнему
уровню ряда столько раз, на сколько периодов экстраполируется ряд.
2. Если за исследуемый ряд лет (или другие периоды) годовые коэффициенты роста остаются болееменее постоянны, то в этом случае можно рассчитать средний коэффициент роста и последний уровень ряда
умножить на средний коэффициент роста в степени, соответствующей периоду экстраполяции.
3. Учитывая, что между изменениями нескольких показателей существует
зависимость, можно экстраполировать один ряд динамики на основе имеющихся сведений
об изменении второго ряда, связанного с ним.
Так, например, определив зависимость между изменением объема капитальных
вложений и объемом выпускаемой продукции в той или иной отрасли, можно
экстраполировать данные о производстве продукции на основе данных о намечаемых
капиталовложениях; зная, какой будет численность детей через t лет (по таблицам
смертности), можно определить возможное потребление детских товаров и т. д.
4. Можно экстраполировать ряды на основе выравнивания их по определенной
аналитической формуле. Зная уравнение для теоретических уровней и подставляя в него
значения t за пределами исследованного ряда, можно рассчитать для данных t
вероятностные yt.
кафедра статистики ГУ-ВШЭ
ООИ
Так как, выравнивая ряды динамики по аналитическим формулам, мы главным
образом определяем тренд, то при прогнозировании иногда целесообразно поступить
следующим образом: выравняв ряд по той или иной формуле и определив тренд, найти
отклонение фактических уровней от выравненных. Затем можно попытаться определить
закономерность (тренд) изменения во времени этих отклонений, т. е. найти для их
изменения свою формулу. После этого экстраполировать оба ряда, накладывая их вместе.
Пользуясь этим методом, следует помнить, что экстраполяция динамического
ряда на основе уравнения, полученного при выравнивании, только тогда может дать
оценки, близкие к действительности, если в эмпирическом ряду случайные колебания,
выражающиеся в разности (y—yt) и измеряемые средним квадратическим отклонением,
будут небольшими и если между случайными отклонениями отсутствует автокорреляция.
5.
Иногда
при
прогнозировании
можно
основываться
на
экстраполяции
авторегрессионной функции уровней ряда. При этом методе изучаемый ряд динамики анализируется с точки зрения автокорреляции.
Очевидно, что чем больше автокорреляция между уровнями ряда, тем больше
оснований для расчета будущих показателей на основе имеющихся. При этом
автокорреляция должна быть исчислена для разных разрывов между уровнями. Установив
наличие автокорреляции между уровнями ряда (с определенным лагом), можно найти
уравнение, выражающее эту автокорреляционную зависимость, и, пользуясь им, экстраполировать ряд.
Перечисленные методы прогнозирования не являются исчерпывающими, а даны
лишь как наиболее часто используемые, простейшие. При составлении прогнозов
уровней социально-экономических явлений обычно оперируют не точечной, а
интервальной оценкой, рассчитывая так называемые доверительные интервалы
прогноза. Границы интервалов определяются по формуле:
Прогнозы могут строиться на длительный период (долгосрочные прогнозы) и на
небольшие отрезки времени (краткосрочные прогнозы). Естественно, что и методы
прогнозирования при этом могут и должны различаться. Так, например, при
долгосрочном прогнозе урожайности (на 5—10 лет) следует исходить из динамики
средней многолетней урожайности и экстраполировать найденную для нее модель
кафедра статистики ГУ-ВШЭ
ООИ
аппроксимирующей
функции.
Для
краткосрочных
же
прогнозов
более
важно
исследование влияния факторов, определяющих изучаемый показатель. Например, при
прогнозировании урожайности в текущем году важно изучить состояние на определенный
момент многих факторов, влияющих на урожайность (количество влаги в почве весной,
количество внесенных удобрений, качество семян и т. п.), и, зная зависимость
урожайности от них в виде уравнения связи, установленного по данным наблюдения в
прошлом, строить прогноз. В этом случае прогноз изучаемого показателя строится как бы
по факторам-симптомам, т. е. по состоянию отдельных факторов на данный период
определяется состояние прогнозируемого показателя в будущем. Для этого больше
подходит метод экономических индексов.
Экономическое прогнозирование требует, прежде всего, хорошего знания
изучаемого явления и владения различными методами обработки динамических рядов,
которые бы в каждом отдельном случае помогли обнаружить общую закономерность
изменения (тренд), периодичность в повышении или снижении уровней (если она имеет
место), случайные колебания, автокорреляцию и корреляцию между отдельными рядами.
кафедра статистики ГУ-ВШЭ
ООИ
Download