5

advertisement
1
БИОМЕТРИЯ
Лекция
2 семестр
5
. 2007-02-26, 2008-04-16, 2011-04-05
Рассмотренные выше статистические методы изучают множества вариант, которые
характеризуют свойства объекта исследования независимо друг от друга, при этом порядок
получения вариант никак не учитывается. Однако во многих случаях информация о
последовательности появления новых значений изучаемой случайной величины представляет
большую ценность, поскольку позволяет сформировать представление как об общих
закономерностях наблюдаемого явления, так и о механизмах его осуществления.
Совокупность данных, расположенных в порядке получения, называется временным
рядом. Несмотря на название, ряд может быть сформирован и в том случае, если за шкалу
отсчета взять пространственные единицы, например расстояния (так образуется
регионализированная, или пространственная, переменная). Аналогично ряд можно построить,
учитывая градацию другого признака, фактора среды (дозы, экспозиции). Для обозначения
упорядоченных последовательностей данных используется общий термин временной ряд.
Примерами таких последовательностей могут служить наблюдения за токами сердца
(кардиограмма), измерения подвижности животных (суточная активность), оценки
численности популяций (волны жизни), значения спектральной яркости в полоске пикселей
космического снимка (изменение отражательной способности растений и других объектов на
профиле поверхности Земли), серия расстояний от центра округлого объекта до его
поверхности (радиальный рельеф), показатели видового разнообразия биоценозов при
разном поражении природы по мере удаления от источника выбросов (деградация,
сукцессия). Одним из вариантов представления информации о природе является
космический снимок, поверхность территориально упорядоченных значений, состоящая из
множества рядов.
1.
2.
3.
4.
5.
6.
Рассмотрим следующие задач, решаемые методами исследования временных рядов:
Статистическая характеристика выборочного ряда (средняя, дисперсия);
Выявления основных тенденций изменения рядов путем сглаживания (скользящая
средняя, фильтр, сплайн);
Описание монотонных направленных изменений, трендов (уравнения линейной и
полиномиальной регрессии);
Оценка повторяемости значений ряда, т. е. периодичности процесса (автокорреляция,
компонентный анализ);
Выделение периодических слагаемых изучаемого ряда (разложение Фурье, спектральный
анализ).
Выявление однородных областей и перепадов в значениях ряда (производные,
расщепляющие окна, полувариограмма);
Структура ряда
Временной ряд состоит из множества значений некой переменной величины
(функции y), измеренной обычно через равные промежутки времени  = ti – ti–1; где ti –
момент замера под номером i. Время t выступает в роли аргумента функции y(t) или yt.
Функцию y часто называют сигналом. Единицы измерения оси абсцисс для характеристики
2
времени выражаются в секундах, часах, годах и пр., для отображения пространства
используются метры, км, пиксели снимка, для отображения градиента – конкретные
концентрации, дозы. Общее количество значений ряда (объем выборки, или число отсчетов)
составляет n (во многих руководствах обозначается буквой L).
Вообще говоря, характер отношений между изучаемой переменной y и временем t
может быть различным – от строго функциональной зависимости (линейный рост или
периодические измерения) до абсолютно случайной вариации. Чаще наблюдается один из
промежуточных вариантов, когда некое периодическое изменение сигнала y искажено
трендом и размыто случайным варьированием. Какое именно значение примет переменная y
в следующий момент времени, определяется той или иной вероятностью. Поэтому говорят,
что y – величина случайная. Упорядоченное множество случайных величин yi и связанных с
ним распределений вероятностей называется случайным процессом. Естественно, что для
изучения временных рядов применимы статистические процедуры.
Модель варианты временнóго ряда
Изменение значений y временного ряда происходит по многим причинам. На ней
отражаются как некие постоянно действующие факторы, обеспечивающие поддержание
определенного уровня величины, так и время от времени «подключающиеся» причины,
направленно смещающие значения от средней, а также множество неопределенных
обстоятельств, создающих случайный «шум» в передаче сигнала. Каждое значение
изучаемой величины yi несет на себе отпечаток нескольких разнородных воздействий и
поэтому может быть представлено в виде суммы вкладов постоянных (тр.), периодических
(пер.) и случайных (сл.) факторов в общий результат (yТр., yПер., yСл. – доли конкретного
значения функции, связанные с действием разных факторов): yi =  yТр. +  y Пер. +  y Сл.
Это выражение представляет собой общую модель варианты, отдельного значения
ряда. Компонент одного типа может быть несколько (на это указывает значок Σ).
Гармоника 1
Гармоника 2
Тренд
Белый шум
Временной ряд
7
6
5
4
3
2
1
0
-1
-2
1
4
7
10 13 16 19 22 25 28 31 34 37 40 43
Рис. 5.1. Типичные компоненты временнóго ряда
По существу, количественное исследование временнóго ряда направлено на то, чтобы
разделить все значения на эти компоненты и тем самым оценить их роль в формировании
особенностей динамики изучаемой функции y. В результате анализа из каждой варианты
«извлекают» долю, связанную с действием того или иного фактора, поэтому весь
исходный ряд распадается на множество рядов, зависящих от параллельно идущих
процессов. Биологический смысл такого исследования состоит в поиске внешних и
внутренних факторов, ответственных за каждую из слагаемых. С технической стороны мы
из одного ряда получаем несколько рядов, которые в сумме дают исходный (рис. 9.1.3).
3
Случайная компонента yr представляет собой ряд независимых друг от друга
значений и называется «белый шум». Частота появления тех или иных значений целиком
определяется видом заданного распределения вероятностей. В биологической практике
белый шум обычно имеет нормальное распределение. В некоторых ситуациях исследование
«чистых» случайных рядов имеет смысл, если на разных участках ряда изменяются вид или
параметры распределения изучаемой случайной величины.
Наиболее общими и простыми характеристиками случайной величины выступают
средняя арифметическая (M), которая показывает, вокруг какого значения варьирует
изучаемая переменная, и стандартное отклонение (S) или дисперсия (S2), характеризующее
среднюю величину отклонения множества значений переменной y от своего среднего
уровня. Большое значение в анализе имеет размах изменчивости, или амплитуда, – диапазон
значений между минимальным и максимальным значениями величины: A = ymax – ymin. В
нашем примере эти величины составили M = 0.25, S = 0.272, A = 1.3.
Важным этапом анализа является поиск и исправление «выскакивающих» значений,
связанных обычно с ошибками наблюдений или записи сигнала. Быстро выявить артефакты
позволяет сравнение средней арифметической с медианой, которая является «робастой»
оценкой средней. Медиана есть значение, которое расположено посередине ранжированного
(т. е. упорядоченного по величине значений) ряда, она делит его пополам (п. 4.1). В среде
Excel для оценки параметра служит одноименная функция =МЕДИАНА(). Если
распределение изучаемой переменной строго симметрично, то значения медианы и средней
совпадут. При появлении в выборке нескольких сильно отклоняющихся (высоких) значений
средняя смещается (увеличивается), тогда как медиана почти не меняется. По величине
отличий этих параметров можно судить о наличии в ряду «выскакивающих» значений и о
возникающей по этой причине асимметрии распределения. Сравнение средней и медианы
для исходных оценок численности (M = 2.16, Mе = 1.61) дает большее расхождение – 26%.
Обычная цель биометрического анализа рядов состоит в том, чтобы всеми путями
избавиться от подобных флюктуаций, отфильтровать, освободить от него содержательные
регулярные компоненты и тренд.
Постоянные компоненты ряда yc можно определить как доли значений признака,
дающих одинаковый или со временем монотонно изменяющийся вклад в величину каждой
варианты ряда. Возможно существование нескольких постоянных слагаемых. Первая
компонента есть средняя арифметическая ряда (M), величина, вокруг которой наблюдается
варьирование данных. Вторая – это тренд, прямая или кривая линия, выражающая
изменение (увеличение или уменьшение) изучаемой переменной. Линейный тренд
обеспечивает однонаправленное изменение функции, криволинейные тренды меняют свое
направление на разных отрезках ряда. Временнóй ряд, который не содержит трендов, то есть
не изменяет своих статистических свойств во времени, называется стационарным. В общем
случае стационарный ряд можно получить, если от исходных значений переменной отнять
значения, соответствующие тренду. Перед анализом периодичности из ряда необходимо
вычитать тренд, специально превращать в стационарный.
Периодическая компонента yp – это ряд, значения которого через некоторые
промежутки времени (периоды, T) повторяются (причем независимо от характера их
изменения в пределах этих промежутков). Это явление выражают уравнением:
f(t) = f(t+aT) или yt = yt+aT ,
где t – некий момент времени, T – период, отрезок времени, через который значения ряда
повторяются, a – целое число, показывающее, что повторение значений происходит
многократно, f(t) = yt – способы написания изучаемой функции y, зависящей от времени t.
Аналогичное условие периодичности (yx = yx+aX) можно сформулировать и для случая,
когда ось абсцисс формируется не временем, а характеристиками пространства или
выраженностью фактора x. В этом случае расстояние X между двумя смежными точками, в
4
которых обнаруживаются пики (одинаковые значения) функции y, правильнее называть
длиной волны, оставив термин период только для обозначения того временнóго интервала,
через который процесс формирования функции y производит одинаковые значения. Для
простоты мы не будем следовать этой демаркации.
Очищенная от стохастического шума и тренда регулярная компонента ряда может
иметь различную форму, которая, как правило, определяется тем обстоятельством, что сама
она представляет собой сумму (суперпозицию) нескольких слагающих ее гармоник
(гармоника – элементарная периодическая составляющая временнóго ряда). Обычно
отдельную гармонику представляют как синусоиду (или косинусоиду) в виде графика
волнообразной кривой линии. Поскольку эта функция применяется для анализа рядов,
рассмотрим ее характеристики подробнее.
Выявление тренда
Задача определить тренд означает превращение исходного ряда варьирующих
значений в серию величин, образующих плавную (лучше – прямую) линию, исключив все
случайные и периодические составляющие, вызывающие варьирование. Делается это для
того, чтобы общая тенденция изменения значений стала очевидной и поддавалась
биологической интерпретации. Найденные значения тренда можно вычесть из каждого
значения временнóго ряда (тогда из остатков сформируется стационарный ряд) и затем
приступить к исследованию его периодических и случайных составляющих. Найти тренд
можно разними средствами, в первую очередь, с помощью простого регрессионного анализа.
Более сложные методы (гармонический анализ, спектральный анализ, компонентный анализ,
имитационное моделирование) «попутно» выявляют и тренд, хотя предназначены для других
целей.
Обычно генеральную тенденцию изменения величины y выражают с помощью
регрессионного уравнения и графика линейного тренда вида y’ = at + b. Достаточно быстро
это можно сделать с помощью Excel (рис. 9.2.1). Вводим наши данные в столбцы A2:A29 и
B2:B29 значения временнóй оси t и значения функции y. Далее строим точечную диаграмму
(в качестве независимого признака берем t, а в качестве зависимого – y). Затем, выделив
несколькими щелчками мыши точки данных на диаграмме, даем команду Добавить линию
тренда (из контекстного меню или пункта главного меню Диаграмма); при этом на вкладке
Параметры нужно поставить галочку в окне Показывать уравнение на диаграмме.
Рассчитать значимость коэффициентов позволяет регрессионный анализ (в среде Excel
запускается по команде Сервис \ Анализ данных \ Регрессия). Расчеты уравнения
линейного тренда в изменении численности полевок, показали отсутствие значимости
коэффициента регрессии a (полученное значение ta = 0.196 меньше табличного
t(0.05, df = 20) =2.01, уровень значимости  = 0.84 >> 0.05). Направленных изменений в динамике
популяций доказать не удалось.
Уравнение криволинейного тренда можно получить с помощью той же процедуры
добавления линии тренда к заранее построенной диаграмме (рис. 9.2.1). Однако для оценки
значимости коэффициентов приходится прибегать к внешней программе статистической
обработки, например StatGraphics. У нас в уравнении параболы (полином второй степени)
y’ = –0.0127· t² + 49.768· t – 48848 оба коэффициента регрессии оказались незначимыми, то
есть криволинейный тренд также не прослеживается.
Для отображения однотипной устойчивой тенденции используют полиномы не выше
второй степени. Если же задача состоит в том, чтобы отобразить более частные особенности
хода изучаемого процесса, можно пойти по пути увеличения длины (порядка) полинома,
вводя в уравнение члены высоких степеней.
5
25
N
N
y = 0.0228x - 36.558
y = -0.0127x2 + 49.768x - 48848
20
15
10
5
0
1945
1950
1955
1960
1965
1970
1975
1980
Рис. 5.2. Линейный и полиномиальный тренды временнóго ряда численности полевки
Чем выше степень полинома, тем более «извилистым» становится его график,
учитывающий все более частные изменения изучаемой функции. Как известно, линия
полинома k – 1 степени пройдет через все точки ряда, состоящего из k вариант. При
кажущейся пластичности метод имеет существенные недостатки. Полином высоких степеней
невозможно биологически интерпретировать, поскольку в конструкции уравнения не
заложено никаких особенных теоретических предположений; это просто математический
способ аппроксимации (приблизительного описания) множества эмпирических точек. Если
ряды достаточно длинные, то полином не годится даже для сглаживания, т. к. либо
уравнение становится слишком громоздким, либо сглаживание получается слишком грубым.
Для выявления частных тенденций динамики ряда и его сглаживания пользуются другими
методами, например сплайном.
Простой плавный тренд выявляется для того, чтобы дать ему причинное
биологическое (содержательное) объяснение. Обычно наличие тренда обусловлено
градиентом некоего фактора среды, монотонно возрастающего (снижающегося) со временем
или в пространстве. Так, рост общего антропогенного пресса на какой-либо территории
(вырубки, гари, застройка, дороги, беспокойство от посещений и пр.) всегда приводит к
снижению численности лесных обитателей (при сохранении сезонной и эндогенной ритмики
жизни популяций). Другим ярким примером может служить распространение
промышленных выбросов. По мере удаления от точечного источника концентрация
загрязнителя снижается (пространственный градиент), а при длительных наблюдениях в
одной точке – возрастает (временнóй градиент). В соответствии с уровнем загрязнения будет
ухудшаться и состояние биотических компонентов природы.
Объяснив тренд, можно приступать к исследованию других (периодических и
случайных) составляющих временнóго ряда. При этом часто практикуется процедура
вычитания тренда yост. = yi – y’ из ряда, а затем выполняется анализ остатков.
Сглаживание и фильтрация
Помимо «жестких» линейных и криволинейных тенденций изменения функции y со
временем, большой интерес представляют характерные черты ее плавного хода на отдельных
участках ряда, «незашумленного» случайным варьированием. Предварительное выявление
основных локальных тенденций, в том числе и периодичности во временнóм ряду,
составляет предмет разведочного анализа. Основными инструментами выявления частных
особенностей процесса (после вычитания тренда) служат сглаживание, фильтрация, сплайн.
Аналогично тому, как общая средняя арифметическая (M), рассчитанная по всем значениям,
представляет величину функции y для всего ряда, можно рассчитать локальные средние для
нескольких соседних значений ряда (Mi), которые будут характеризовать значение функции в
6
ограниченный период времени (или в ограниченной зоне пространства). Последовательно
рассчитывая локальные средние для соседних участков одинаковой длины (k), мы получаем
множество локальных значений Mi, которые названы скользящими средними.
В расчетах скользящих средних участвуют наборы из небольшого нечетного числа
вариант исходного ряда (k = 3, 5, 7), результат усреднения приписывается моменту времени,
соответствующего центральной варианте. Каждый новый набор из k значений получают,
смещаясь от начала предыдущего набора на один временнóй шаг, т. е. исключив из прежнего
набора одну левую варианту и добавив одну правую варианту.
Можно, например, получить первое значение, усредняя первые три варианты ряда
`y2 = M2 = (y1 + y2 + y3) / 3,
второе получают от усреднения второй, третьей и четвертой вариант:
`y3 = M3 = (y2 + y3 + y4) / 3 и т. д.
Сглаженные ряды скользящих средних оказываются короче, чем исходные, поскольку
для расчета крайних значений (у нас yi и yn) не хватает информации. Общая формула
определения нового объема ряда такова: n* = n – (k – 1); при сглаживании «по тройкам»
имеем n* = 30 – (3 – 1) = 28.
В среде Excel создать линию скользящих средних можно, если построить диаграмму
ряда, выделить точки и добавить линию тренда с помощью контекстного меню, выделив на
вкладке Тип картинку Линейная фильтрация (рис. 9.3.1).
Для того чтобы подчеркнуть важность центрального момента времени на каждом
интервале сглаживания, в формулы скользящих средних вводят весовые коэффициенты; в
этом случае сумму произведений весов на значения вариант из локального набора делят на
сумму весов. Распространены формулы сглаживания «по тройкам» и «по пятеркам»:
Mi = (yi–1 +3yi + yi+ 1) / 5; Mi = (yi–2 + 3yi–1 + 7yi + 3yi+1 + yi+ 2) / 15.
Ниже показаны и другие формулы с большим числом членов. Иногда весовые
коэффициенты заранее делят на их сумму, тогда они принимают вид дробей. Например, те
же формулы сглаживания по тройкам и пятеркам примут следующий вид:
Mi = 0.2·yi–1 + 0.6·yi + 0.2·yi+1;
Mi = 0.07yi–2 + 0.2yi–1 + 0.47yi + 0.2yi+1 + 0.07yi+ 2.
Чем длиннее локальный сегмент сглаживания (окно) и чем меньше весовые
коэффициенты, тем более пологий ход покажет скользящая средняя (рис. 9.3.2).
Численность
25
фильтр по 3
20
фильтр по 5
15
фильтр Шеппарда–Тодда
10
5
1975
1973
1971
1969
1967
1965
1963
1961
1959
1957
1955
1953
1951
1949
0
Рис. 5.3. Результаты сглаживания по тройкам Mi = 0.2·yi–1 + 0.6·yi + 0.2·yi+1,
по пятеркам Mi = 0.07yi–2 + 0.2yi–1 + 0.47yi + 0.2yi+1 + 0.07yi+ 2
и с помощью фильтра Шеппарда–Тодда
Mi = –0.0857yi–2 + 0.3428yi–1 + 0.4857yi + 0.3428yi+1 – 0.0857yi+ 2
7
Необходимо иметь в виду, что скользящие средние Mi так специфически искажают
исходные значения yi, что это приводит к смещению сглаженного ряда вправо относительно
исходного.
Прием сглаживания также носит название фильтрация. Термин «фильтр»
позаимствован из электротехники: это аналоговые устройства, которые усиливают одни
виды электромагнитных волн (полезные сигналы) и задерживают (гасят) другие виды
(помехи, шум). Математические фильтры также используются для выявления во
временных рядах локальных «всплесков» (волны) значений функции y. В общем это и есть
наборы весовых коэффициентов для расчета скользящих средних. Таков, например,
известный фильтр Шеппарда–Тодда:
Mi = (–3yi–2 + 12yi–1 + 17yi + 12yi+1 – 3yi+ 2) / 35 или
Mi = –0.0857yi–2 + 0.3428yi–1 + 0.4857yi + 0.3428yi+1 – 0.0857yi+ 2.
Главная особенность математических фильтров
0.6
состоит в том, что весовые коэффициенты для их формул
строятся, исходя из определенных теоретических
0.4
соображений с помощью определенных функций.
Например, фильтр Шеппарда–Тодда есть квадратичное
0.2
уравнение (полином второй степени), натянутое на пять
0
смежных точек (это парабола, расположенная ветвями
вниз) (рис. 9.3.3).
1
2
3
4
5
Двигая фильтр вдоль ряда входных значений со –0.2
Рис. 9.3.3. Форма фильтра
смещением на 1 шаг («прикладывая» его к
Шеппарда–Тодда
последовательной череде сегментов, например, длиной 5
значений от yi–2 до yi+2), вычисляют выходные значения
нового ряда Mi. Функция данного фильтра состоит в усилении волн некоторого типа.
Наибольшее значение на выходе фильтра будет получено в том случае, когда пять значений
на входе будут по пропорциям повторять соотношения весовых коэффициентов, то есть
когда форма волны в пределах данного отрезка ряда повторит форму фильтра (всплеск) (в
примере это наблюдается, например, для значений за 1967–1971 гг., рис. 9.3.2). Напротив,
минимальное значение фильтр выдаст в области вогнутости на графике (данные за 1969–
1973 гг.). Другие соотношения смежных значений будут давать промежуточные сглаженные
величины.
Важно подчеркнуть, что рассмотренный фильтр Шеппарда–Тодда усиливает лишь
довольно короткие и пологие, пятичленные, волны. Для выявления более широких или более
крутых волн предложены разнообразные фильтры, разработанные в том числе и на основе
полиномов более высоких (третьей – пятой) степеней. Некоторые из них приведены в
таблице 9.3.1, другие можно найти в литературе (Дэвис, 1990, с. 305). Входной сегмент ряда,
который используется для расчета одного выходного сглаженного значения, называют
апертурой или окном, а длину этого сегмента – шириной окна, размером апертуры,
размерностью фильтра. Многие из фильтров обладают выдающимися качествами, широко
используются и несут свои названия, например, фильтры Гаусса, Тьюки, Бартлетта, «ящик»,
«пила» и др.
В некоторых случаях стандартных полиномиальных фильтров может оказаться
недостаточно для выявления характерных пропорций между значениями ряда. Тогда
фильтры специально изготавливают, находя нужные веса методом наименьших квадратов
(предполагающим составление и решение уравнений) или прямой подгонкой (с помощью
процедуры оптимизации).
Рассмотренный выше (п. 9.2) аппарат полиномиальной аппроксимации лежит в
основе еще одного эффективного, но «безыдейного» метода сглаживания: сплайн – это
кривая линия, огибающая экспериментальные точки (аппроксимирующая изучаемую
функцию), составленная из отрезков полиномов 3–5-го порядка, последовательно
8
построенных на коротких сегментах ряда. Сплайн построен при условии, что концы частных
полиномов смыкаются, образуя непрерывную линию. Меняя степень полиномов, можно
добиться большей общности (грубости) линии или большей точности (адекватности всем
точкам). Кусочно-полиномиальный сплайн не имеет статистического смысла, он всего лишь
позволяет ликвидировать избыточное варьирование, обеспечивая регулируемый уровень
сглаживания данных и тем самым облегчая поиск содержательных тенденций изменения
функции y. Один из простых вариантов построения сплайна состоит в том, чтобы в среде
Excel построить линейную диаграмму, дважды кликнуть на линии и на вкладке Вид панели
Формат ряда данных поставить галочку в поле Сглаженная линия.
Download