речного стока

advertisement
Глава 2. ИССЛЕДОВАНИЕ ЗАКОНОМЕРНОСТЕЙ
ФОРМИРОВАНИЯ СЕЗОННОЙ ДИНАМИКИ
РЕЧНОГО СТОКА
Современное развитие географических наук от уровня описания к
уровню объяснения определяет необходимость поиска и количественной
формулировки законов, управляющих природными процессами в различных пространственно-временных масштабах. В гидрологической литературе рассматриваются как детерминистические [Кучмент, 1980; Коваленко, 1993; Kondratyev, Mendel, 1996; Krzystofovicz, 1999; Комлев, 2002; Виноградов, 2005], так и стохастические [Афанасьев, 1976; Дружинин, Хамьянова, Лобановская, 1977; Шелутко, 1984; Степанов, Федоров, Хаустов и
др., 1987; Писарский, 1987; Иванов, 1991; Болгов, 1995; Бережных, Резников, 1996; Абасов и др., 2000] подходы к этой проблеме. В данной главе
будет сделана еще одна попытка исследования закономерностей и особенностей формирования стока рек в Байкальском регионе. При решении
данной задачи будут использованы положения информационного моделирования и вытекающие из них методы поиска и оценки множественных
взаимосвязей между переменными. Краткое описание этих методов приведено в первом параграфе главы.
§ 2.1. ИНФОРМАЦИОННО-ВЕРОЯТНОСТНЫЕ МЕТОДЫ
ПОИСКА И ИССЛЕДОВАНИЯ ВЗАИМОСВЯЗЕЙ
МЕЖДУ ПЕРЕМЕННЫМИ
В настоящее время не потеряла своей актуальности давняя проблема
выявления закономерностей по данным о значениях совместных реализаций достаточно большого числа переменных. Такие задачи возникают при
обработке результатов многофакторных экспериментов, данных комплексных наблюдений за природными системами, при моделировании и
оптимизации недостаточно изученных технологических процессов, в медицинских исследованиях и так далее. Несмотря на то, что данной задаче
было уделено достаточно много внимания [Пановский, Брайер, 1972;
Дрейпер, Смит, 1973; Кендалл, Стьюарт, 1973; Ивахненко, 1975; Жуковская, Мучник, 1976; Дубров, 1978; Аптон, 1982; Лбов, 1981; Загоруйко,
Елкина, Лбов; 1985; Журавлев, Гуревич, 1989; Многомерный статистический анализ ..., 1990; Wang, Li, 2002; Андреева, Краснощеков, Назимова,
2003; www.gmdh.net/gmdh.htm и многие др.], гигантское разнообразие
возможных вариантов ее постановки и решения оставляют широкое поле
для новых попыток.
33
В связи с повсеместным внедрением в повседневную практику персональных компьютеров, в этой области статистических исследований появились новые особенности. Во-первых, это возможность массового использования алгоритмически сложных и вычислительно громоздких методов анализа многомерных данных, ранее применявшихся, как правило,
только специалистами по математической статистике. Во-вторых, это подготовка исходной информации в виде баз данных и использование специальных алгоритмических средств их контроля, что, в целом, повышает
надежность первичных материалов и, соответственно, результатов их анализа.
2.1.1. Вероятностное описание, типизация, подготовка и контроль исходной информации
Географические данные часто представляют собой оценки тех или
иных параметров геосистем. Эти оценки, обычно, имеют различную степень точности и достоверности. Решение даже простейших задач интерпретации таких данных наблюдений [Афанасьева, Игнатов, 1992] требует
вероятностной интерпретации их результатов. Необходимость учета погрешности в данных и возможность использования этой информации для
уточнения гидрологических расчетов показаны А.В.Рождественским с соавторами [1990]. Особенно важным является правильное вероятностное
представление результатов прогнозирования [Абасов, 2002]. Особенностью рассматриваемых далее методов является использование для задания
оценок значений переменных распределений или плотностей распределений вероятности, то есть вероятностных моделей представления данных.
Этот подход является более универсальным по сравнению с числовым
описанием значений переменных. Он открывает новые алгоритмические
возможности решения стандартных задач обработки данных и позволяет
разработать эффективные программные средства. Их применение дает
возможность повысить результативность статистических оценок по малым
выборкам и исследований многомерных статистических данных. Вычислительные затраты, необходимые для реализации этих методов, в настоящее время практически не имеют существенного значения, вследствие
широкого распространения и сравнительной дешевизны высокопроизводительных персональных компьютеров.
Вероятностное описание данных измерений.
В основе применяемого математического аппарата лежит способ задания числового значения переменной с помощью распределения или
плотности распределения вероятности ri(x) того, что значение переменной
34
в i-й реализации равняется x. Кроме того, будем полагать, что вероятность
pi истинности информации о значении переменной, содержащейся в оценке ri(x), может быть меньше единицы. Функцию ri(x) назовем функцией
оценки значения переменной x или просто функцией значения. В теории
нечетких множеств [Аверкин, 1986] подобные функции принято именовать функциями принадлежности. Однако класс этих функций шире класса
плотностей распределения вероятности, поэтому здесь для ri(x) будет использоваться другое название. Введенные понятия и выбор в качестве аппарата описания взаимосвязи между переменными оценки их совместного
распределения вероятностей развивают принципы более полного учета
информации о данных измерений при обработке малых выборок [Гаскаров, Шаповалов, 1978] и являются основополагающими парадигмами для
методов, обсуждаемых в данном параграфе работы.
При вероятностном подходе к заданию данных измерений, последние
описываются набором функций ri(x), приближенно определяющих значения переменных в каждой из реализаций, и соответствующим набором
оценок их достоверности pi. В тех случаях, когда значения контролируемых характеристик измерены абсолютно точно функция значения, определяющая значение переменой, превращается в дельта-функцию Дирака. Если данные достоверны, то pi =1. Когда вид распределения ri(x) неизвестен,
но есть некоторая информация о поведении ошибки измерения, то функция значения может быть аппроксимирована подходящей функцией известной математической структуры. Наиболее часто встречающимся приближенным описанием данных измерений непрерывно изменяющихся переменных является их интервальное (х = хi   хi) представление [Великанов, 1962]. Оно эквивалентно использованию равномерной плотности распределения на заданном интервале в качестве функции значения переменной. Другим распространенным описанием значений переменных является
использование информации о математическом ожидании значения переменной и дисперсии (стандартного отклонения) ошибки ее измерения. Такой подход информационно эквивалентен [Вентцель, 1962; Корн, Корн,
1977] применению нормального распределения в качестве функции значения.
При представлении географических данных часто их точность и достоверность игнорируются. Формально это эквивалентно утверждению о
том, что все ri(x) представляют собой дельта-функции, а pi =1. Очевидно,
что во многих случаях это не так, поэтому дифференцированный учет
названных параметров исходных материалов позволяет получать более
35
надежные статистические выводы. Игнорирование же этого может приводить к противоречивым или даже абсурдным результатам. По этим причинам оценка точности и достоверности данных оказывается весьма полезным делом. Эффективность такого подхода была неоднократно проверена
и подтверждена [Игнатов, 2000] при его использовании в разнообразных
задачах обработки и интерпретации эмпирической информации.
Типизация материалов наблюдений.
Исследуемые переменные могут носить качественный или количественный характер. Количественные характеристики могут быть дискретно или непрерывно изменяющимися. Бывает их также подразделяют [Боровиков, 2003] на порядковые, интервальные и относительные. Качественные характеристики еще называют номинальными или категориальными.
Значения качественной переменной могут быть совпадающими или неизмеримо различными. Различия между значениями количественной переменной измеряются по соответствующей числовой шкале. Такое разделение данных позволяет более правильно выбрать способ их алгоритмической обработки при анализе и моделировании таблиц совместных реализаций переменных. Кроме того, учет ошибок измерений и достоверности
оценок позволяет адекватнее оценивать информативность исходных данных и дифференцированно обрабатывать каждое значение с учетом его
погрешности и достоверности. Принятое здесь более подробное вероятностное описание исходных данных позволяет также унифицировать в
рамках одних и тех же методических решений исследование, как полных
таблиц данных, так и таблиц с отсутствием сведений о значениях тех или
иных переменных в отдельных реализациях. При создании баз данных их
структура должна позволять записывать информацию о типе переменных,
о характере приближенности оценок их значений в совместных реализациях и об их достоверности.
Нормативная ошибка измерения в общем случае может быть описана
функцией приближенного значения переменной. Но такая подробная информация о поведении ошибок, как правило, отсутствует. Для количественных характеристик чаще всего имеет место «минмаксная» оценка
размера области, в которой находится фактическое значение переменной в
соответствующей реализации с вероятностью близкой к единице, или информация об ошибке игнорируется. Поскольку подавляющее число данных относится к двум последним случаям, то для запоминания информации о приближенном значении переменной чаще всего требуется не более
двух чисел, которые будут определять параметры соответствующих функ36
ций значения. Для отражения уровня достоверности каждого измерения
необходимо использовать еще одно число. Ошибка измерения качественных переменных чаще всего игнорируется. В противном случае для ее
приближенного задания требуется использовать функцию распределения
вероятностей по возможным значениям этой переменной, и для такого
описания потребуется, как правило, более двух независимых чисел. Игнорирование информации о величине ошибки формально эквивалентно ее
нулевому значению. Факт отсутствия информации о значении переменной
в данной реализации можно описывать, задавая величину ошибки сравнимой с областью безусловной изменчивости переменной, или нулевой достоверностью оценки. Таблицы, в которых количество пропусков существенно превышает число измеренных значений, целесообразно составлять таким образом, чтобы требовалось вносить только известные данные.
Правильно выбранная структура базы данных позволяет, при минимальном ее объеме, адекватно отобразить имеющуюся информацию о значениях переменных. При этом также минимизируются затраты труда операторов по занесению исходных материалов, и, соответственно, уменьшается число опечаток в данных, которые практически всегда имеют место
при наборе достаточно больших массивов чисел.
Предварительный анализ и контроль исходной информации.
При статистических исследованиях, опирающихся на информацию,
содержащуюся только в исходных числовых данных, большое значение
имеет отсутствие сбоев в используемых материалах. Под сбоем здесь понимается отклонение хранящегося в памяти компьютера значения переменной от ее фактического значения на величину, существенно превышающую нормативную ошибку измерения. Наличие сбоев в данных, в значительной мере, ухудшает результаты исследования, поэтому минимизация
их числа является важной составной частью всей работы.
Опыт работы с данными позволяет сформулировать несколько типичных приемов выявления сбоев. Первый заключается в контроле формы
представления чисел и структуры расположения информации в базе данных. Второй - в тестировании наблюдаемого размаха области изменчивости переменных. Третий – в подозрении на “сбойность” точек, лежащих в
минимальных по вероятности квантилях гистограмм их безусловных распределений. Четвертый – в проверке выполнения известных соотношений
между переменными, и пятый – в выявлении точек, существенно выпадающих из вновь устанавливаемых эмпирических закономерностей.
37
Рассмотрим пример выявления сбоев в данных по последнему критерию. При подготовке матрицы данных для анализа взаимосвязи ландшафтных характеристик, в нее непреднамеренно были занесены значения
двух линейно связанных между собой переменных. Естественно, эта зависимость сразу была выявлена уже на начальном этапе анализа данных, однако, три точки (рис.2.1.1) не легли на общую прямую. Это обстоятельство
дало возможность выделить аномальные объекты, проверить их на наличие соответствующих сбоев и исправить допущенные ошибки в подготовке данных.
Рис.2.1.1. Пример
выявления сбоев в
исходных данных с
использованием обнаруженной закономерной связи между
переменными.
a - график фактической взаимозависимости между коэффициентом горизонтального расчленения местности (Х8) и
суммарной длиной
водотоков (Х2) на
соответствующей
площади; б - точки,
положение которых
отражает значения
переменных Х8 и
Х2, занесенные в
базу данных.
Совокупность применения названных пяти приемов выявления грубых ошибок на этапах подготовки и анализа данных, хотя и не гарантирует их полной надежности, но позволяет свести число сбоев к приемлемому
с точки зрения интерпретации результатов минимуму. Вторым важным
следствием контроля правильности исходной информации является предварительное разделение объектов на типичные и аномальные. Группа типичных данных является материалом для выявления скрытых закономер-
38
ностей статистическими методами. В группе аномальных объектов следует
искать, в первую очередь, причины их аномальности.
2.1.2. Моделирование взаимосвязей между переменными на основе использования оценок совместных и условных распределений вероятности
Решая задачу анализа данных о значениях совместных реализаций достаточно большого числа переменных, целесообразно перейти к такой
форме представления имеющейся эмпирической информации, при которой процесс выявления закономерностей становится алгоритмически достаточно простым. Опыт исследований [Чавчанидзе, Кумсишвили, 1961;
Березин, 1965; Schuster, 1969; Демаков, Потекун,1970; Добровидов, 1971;
Гаскаров, Шаповалов, 1978] показывает, что подобной формой математического описания данных наблюдений может выступать ядерная оценка
[Parzen, 1962] совместного распределения вероятностей входящих в таблицу переменных. На основании достоверных материалов приближенных
измерений такая оценка может быть представлена в виде [Игнатов, 1986]:
 1 n k
f ( z )   rij ( z j ) ,
n i 1 j 1
(2.1.3.1)
где n - число совместных реализаций, k - число переменных, rij(zj) –
функция, обладающая свойствами одномерного распределения или
плотности распределения вероятностей, описывающая значение и
ошибку i-го измерения j-й переменной. Конкретный вид функции rij(zj)
определяется типом переменной и характером информации о значении
измерения.
Учет возможной недостоверности данных приводит к модификации функций rij(zj) к виду [Игнатов, 2000]:
rij ( z j )   pij  rij ( z j )  r0 ( z j ) 1  pij  ,
где r0(zj) - достоверная, но чаще всего полностью неопределенная оценка
значения переменной. Для сокращения записи обозначения исходной и
модифицированной функций значения приняты одинаковыми. В дальнейшем под rij(zj) будет подразумеваться только модифицированная (достоверная) функция значения.
Так как, в соответствии с одним из основных положений теории вероятности, совместное распределение полностью описывает взаимозависимость между переменными, то его оценка в форме (2.1.3.1) может высту-
39
пать в качестве математической основы моделирования стохастических
взаимосвязей между исследуемыми параметрами.
Формула (2.1.3.1), также как и таблица исходных данных, описывает
оценку взаимосвязи между переменными в неявной форме, но, в отличие
от последней, позволяет найти явную оценку зависимости любой из переменных в виде условного распределения:
m
n

f ( y x )   ri ( y ) rij ( x j )
i 1
n
m
 rij ( x j ) ,
(2.1.2.2)
i 1 j 1
j 1

где y - произвольная компонента вектора z , рассматриваемая как зависи
мая переменная, а x - вектор размерности m<k, образованный компонентами xj, рассматриваемыми как аргументы функции y.
Выражения (2.1.2.1) и (2.1.2.2) концептуально определяют подход к
вероятностному моделированию взаимосвязей между переменными на основе многомерных материалов наблюдений. Методические же его детали
разрабатываются на алгоритмическом уровне при создании программных
средств, оперирующих с реальными данными. Далее будут рассмотрены
наиболее важные фрагменты таких решений.
2.1.3. Методические приемы поиска скрытых многофакторных
зависимостей
Учитывая существование довольно широкого толкования терминов
«закон» или «закономерность», уточним смысловое содержание последнего для придания большей определенности его использованию в данном
контексте. Под закономерностью будем понимать некоторое свойство
системы, наличие которого ограничивает разнообразие ее возможных
состояний.

Будем определять состояние системы вектором переменных z . Ха
рактер изменчивости компонент вектора z описывается функцией сов
местного распределения f (z ) . Закономерные ограничения разнообразия
могут быть разложены на ограничения, связанные с видом независимых
(безусловных) распределений каждой из компонент f(y) и ограничения,

описываемые отклонениями условных распределений f ( y / x ) от безусловных.
Оценивание вида f(y) является типовой задачей одномерной статистики и имеет ряд классических решений: эмпирическое распределение, гистограмма, полигон частот, аппроксимация стандартной функцией и т.д.
40
Если такая оценка от выборки к выборке статистически устойчива, то
можно говорить о существовании соответствующей закономерности.
Для решения задач моделирования значительно более важным явля
ется выявление закономерных отклонений f ( y / x ) от f(y), обусловленных

наличием зависимости y от x . Эта операция является одной из основных в
области многомерного анализа данных. Сложность решения этой задачи
связана, главным образом, с двумя проблемами. Первая заключается в том,

что при оценивании f ( y / x ) по реальным данным, их часто оказывается
недостаточно для установления значимых различий между оценками

f ( y / x ) и f(y). Вторая связана с тем, что наличие закономерности выражается через совершенно определенный, но неизвестный список аргументов
стохастической функции у. Отыскание правильной комбинации предикторов среди множества возможных очень трудоемкая и далеко не всегда однозначно решаемая задача.
Полностью преодолеть названные сложности практически невозможно. Но вполне реально разработать достаточно эффективные алгоритмы,
предназначенные поиска значимых отклонений оценок условных распределений от безусловных. Первым приемом, позволяющим повысить стати
стическую достоверность оценки f ( y / x ) , является уменьшение точности

задания многомерного аргумента x . Это информационная плата за такое
повышение. Для того, чтобы на одной и той же выборке данных, более

точно оценить функцию f ( y / x ) , необходимо менее точно задать значение

x . Это можно сделать с помощью соответствующих функций значения
v(xj), также обладающих свойствами плотностей распределения вероятно
стей. Тогда формула для вычисления оценки f ( y / x ) преобразуется к виду:
m
n

f ( y  x) 
 ri ( y)  v( x j )  rij ( x j )  dx j
i 1
j 1 X j
n
m
  v( x j )  rij ( x j )  dx j
,
(2.1.4.1)
i 1 j 1 X j
где Xj – область изменчивости соответствующего аргумента

Второй прием заключается в огрублении оценки f ( y / x ) , выполняемой путем замены ее менее подробным описанием, например: условным
средним или гистограммой с малым числом классов.
Критерии взаимосвязанности переменных.
41

При наличии закономерной зависимости y от x оценка условного

распределения f ( y / x ) , построенная по одной части выборки, дает возможность сделать более точное или более информативное предсказание
значений yi в оставшейся части выборки по сравнению с безусловной их


оценкой. При этом значение x , в f ( y / x ) должно быть в определенном

смысле близким к соответствующему значению xi . Такое свойство зависимостей позволяет выявлять их присутствие в анализируемых многомерных данных. Сравнение независимых предсказаний и измерений одних и
тех же характеристик позволяет с той или иной степенью уверенности, судить о наличии или отсутствии статистической или закономерной взаимозависимости между исследуемыми переменными.
Характер представления исходных данных - ri(y) и соответствующие

их независимые оценки по модели - f ( y / xi ) позволяют сформулировать
множество разнообразных критериев, отражающих меру соответствия
предсказаний и измерений одной и той же переменной. При их вычислении каждое измеренное значение сравнивается с его независимым предсказанием по модели.
При выборе используемого критерия желательно, чтобы он объективно и понятно отражал предсказательную способность модели. Опыт работы с различными критериями показывает, что практически ни один из них
не является универсальным, удовлетворяющим всем желаемым требованиям. Поэтому, при анализе взаимозависимости реальных данных, целесообразно использовать сразу несколько характеристик, которые в совокупности дают достаточно полное представление о предсказательных возможностях той или иной прогностической модели. Рассмотрим ряд таких
критериев. Они применяются в авторском пакете программ, предназначенном для анализа взаимосвязей между переменными [Игнатов, 1996]. В
рамках этого пакета оценка ri(y) задается равномерным распределением с
центром в yi и размахом 2dyi (для качественных переменных размах равен

нулю), а f(y) и f ( y / xi ) аппроксимируются гистограммами с одинаковой
шириной классов dy. При построении точечных прогнозных оценок для

качественных переменных рассчитывается мода m y ( xi ) , показывающая
положение максимального по вероятности класса гистограммы, аппрок

симирующей f ( y / xi ) , а для количественных - среднее значение y ( xi ) . С
использованием перечисленных характеристик вычисляются следующие
показатели.
42
Вероятность правильного предсказания по безусловному распределению (Р1), показывающая возможность предсказаний с выбранной точностью dy в предположении, что y - независимая переменная. Рассчитывается
как среднее значение вероятностей классов гистограммы безусловного
распределения, в которые попадает фактическое значение yi,. Вероятность
Р1 возрастает с ростом dy и неравномерностью распределения f(y).
Вероятность правильного предсказания (Р2) по условному распределению. Рассчитывается аналогично Р1, но по гистограмме условного рас
пределения f ( y / xi ) . При наличии зависимости P2 > Р1. Разность Р2 - Р1
показывает повышение вероятности правильного предсказания за счет использования модели. Может также использоваться отношение Р2/Р1. Вероятностные критерии применяются, в первую очередь, в отношении качественных и дискретных переменных.
Коэффициент корреляции (R) между значением измерения yi и сред
ними значением предсказания y ( xi ) . Рассчитывается по стандартной
формуле и является критерием, эффективным при выявлении слабых зави
симостей y (x ) .
Дисперсионный критерий (F), определяемый как разность между
единицей и отношением условной и безусловной дисперсии изменчивости
зависимой переменной. Первая вычисляется осреднением квадрата разности между предсказанными и измеренными значениями переменных, вторая стандартным способом.
Разностный линейный критерий:
L
1 n

(1  dyi Dy)  (1  2  y ( xi )  yi Dy) ,

n i 1
где Dy - половина размаха области изменчивости переменной y. Он является более устойчивым по сравнению с коэффициентом корреляции и дисперсионным критерием по отношению к отдельным сбоям в многомерной

зависимости y (x ) и учитывает точность исходных данных.
Кроме числовых показателей, интегрирующих степень зависимости

y (x ) по всей выборке данных, целесообразно использовать также визуальные критерии - графические изображения разверток по реализациям

значений yi, dyi и y ( xi ) . Такие развертки позволяют дифференцированно
проанализировать, какая часть выборки хорошо согласуется с проверяемой моделью зависимости, а какая - нет. Объекты, выпадающие из общей
тенденции, являются подозрительными на наличие сбоев в описывающих
43
их значениях переменных. Однако они могут быть и истинно аномальными объектами, требующими особого внимания и анализа.
Устойчивость критериев предсказательной способности проверяемых моделей.
В силу ограниченности выборки данных, на которой производится

проверка зависимости y (x ) , и неравномерности распределения аргументов значения числовых критериев могут случайно достигать сравнительно

больших величин при полном отсутствии взаимосвязи между y и x . С другой стороны, числовые критерии могут быть значительно меньше единицы, даже при наличии детерминированной зависимости между исследуемыми переменными. Характер распределения критериев зависит от многих факторов. Теоретическая его оценка достаточно затруднительна, но
наличие дешевых вычислительных ресурсов позволяет без особых проблем выполнить ее эмпирически. Для этого, используя те же данные о зна
чениях аргументов, от которых проверяется наличие зависимости y (x ) ,

целесообразно сформировать множество реализаций независимых от x
переменных, обладающих тем же безусловным распределением, что и y.
Также нужно сформировать множество реализаций переменных, детерми
нировано зависящих от многомерного аргумента x и достаточно гладких
на области его изменения. После этого нужно рассчитать значения тестируемых на устойчивость критериев. Далее следует повторить эту операцию для всех проверяемых гипотез и сделать эмпирическую оценку распределений критериев на основе произведенных расчетов.
На рис.2.1.2 показаны результаты численных экспериментов по оценке случайного поведения корреляционного критерия, описывающего
предсказательную способность многофакторной модели. В этих экспериментах распределения всех независимых переменных были заданы равномерными. Значения зависимых переменных вычислялись как линейные
функции своих аргументов. При таких специально сформированных исходных данных достигается максимальное различие оценок значений критериев, соответствующих наличию и отсутствию зависимости. На реальных материалах, при той же длине выборок, взаимное наложение функций
значений критериев существенно возрастает, как за счет неравномерности
распределений исследуемых переменных, так и за счет отсутствия гладких
детерминированных связей между ними.
Проведенные расчеты показывают, что размах флуктуаций критерия
относительно нуля, при отсутствии зависимости, определяется только
длиной выборки и не связан с числом формальных аргументов случайной
функции. Случайные же отклонения критерия от единицы, при наличии
44
фактической детерминированной связи функции от своих аргументов, зависят от их числа и возрастают с его увеличением.
Рис.2.1.2. Области 95%-й обеспеченности корреляционного критерия (R) предсказательной способности многофакторных моделей.
1 – область значений критерия для моделей полной независимости функций от
выбранных аргументов; 2 – область значений критерия для полностью зависимых (детерминированных) функций; L - число аргументов зависимых переменных; N - число
совместных реализаций переменных, использованных при построении модели.
Алгоритмы поиска оптимальных моделей
При анализе многомерных взаимосвязей между переменными для
каждой из них естественной представляется задача нахождения списка аргументов, максимизирующего один из рассмотренных выше числовых
критериев. На первый взгляд решение этой задачи могло бы быть найдено
при полном переборе всех возможных комбинаций. Число таких комбинаций равняется 2k-1-1, где k - число переменных в таблице наблюдений.
45
Случайный характер значений критериев, определяющих предсказательную способность пробных моделей, требует использования выборок
достаточной длины для достоверного выделения искомого максимума на
фоне флуктуаций. Причем эта длина должна быть тем больше, чем больше
число комбинаций перебора, так как вероятность случайного появления
больших значений критериев при увеличении списка проверяемых комбинаций возрастает. Время вычислений в зависимости от длины выборки n
увеличивается, при указанных выше способах вычисления критериев,
пропорционально n2. Названные причины ограничивают по вычислительным затратам применимость метода полного перебора множеством сравнительно коротких таблиц данных с ограниченным числом переменных.
Однако, при малом объёме эмпирической информации значимо выделяются только близкие к детерминированным зависимости, обладающие небольшим числом аргументов. Но их присутствие в данных не является типичным случаем для задач поиска закономерностей статистическими методами. Таким образом, реальные многомерные данные, при поиске скрытых в них устойчивых взаимосвязей методом полного перебора, требуют
вычислительных затрат, которые оказываются слишком большими даже
для современных компьютеров. Например, оценка требуемых затрат времени на полный анализ взаимосвязей между характеристиками леса (матрица данных 35 переменных на 1300 совместных реализаций) составила
десятки тысяч лет непрерывной работы персонального компьютера [Агеенко, Волкова, Игнатов, 1995].
Известен ряд подходов к ограничению множества пробных моделей
[Дрейпер, Смит, 1973; Ивахненко, 1975; Герцекович, Луцик, 1982; Бруссиловский, Розенберг, 1983], но, основываясь на авторском опыте исследований, можно сказать, что среди них наиболее эффективным для поиска
правильного списка предикторов оказывается метод последовательного
подключения аргументов. Суть этого метода заключается в том, что сначала выполняется полный перебор всех однофакторных моделей и по максимуму критерия предсказательной способности выбирается первый аргумент. Затем проверяются все двухфакторные модели, включающие в список своих предикторов, в обязательном порядке, выбранный на первом
шаге аргумент; потом - трехфакторные, включающие лучшую пару и так
далее. Наиболее вероятным считается список аргументов, при котором достигается максимальная точность предсказаний зависимой переменной. В
уже упомянутом авторском пакете программ реализован алгоритм, пред-
46
ставляющий собой настраиваемый компромисс между методами последовательного подключения аргументов и полного их перебора.
Оценка вероятности нахождения правильной модели при ограниченном переборе пробных комбинаций аргументов.
Препятствием, уменьшающим эффективность применения методов с
ограниченным перебором комбинаций аргументов, является наличие случайной связности зависимой переменной с одним или более ложными
предикторами. Такая связность может быть эквивалентна по силе совокупной зависимости от группы истинных аргументов или быть даже более
сильной, по сравнению с нею. Причем, чем длиннее список фактических
аргументов, тем меньший, в среднем, процент изменчивости функции обусловливается каждым из них, и тем труднее они выделяются среди ложных предикторов. В методе последовательного подключения такая случайность приводит к сбоям в процессе поиска фактических аргументов
зависимой переменной. Для увеличения надежности получения правильного результата полезно применять дополнительные приемы. Например,
можно расширить класс проверяемых моделей по сравнению с базовым
методом последовательного подключения аргументов, оставляя на каждой
итерации увеличения числа предикторов не одну наилучшую модель, а две
или более. Можно также, привлекая экспертные оценки, ограничить список возможных аргументов или назначить обязательные предикторы. Возможность использования этих приемов поддерживается пакетом программ, реализующих описываемый метод. Кроме того, процесс выбора оптимальной модели протоколируется и может быть подвержен критическому анализу со стороны специалиста, решающего конкретную задачу с использованием названых программных средств.
На рис.2.1.3 представлены результаты численных экспериментов по
оценке вероятностей нахождения истинных аргументов. Условия этих
экспериментов (по характеру распределения и типу зависимости переменных) были такими же, что и в пункте 2.1.6. Расчеты поля вероятности,
изображенного на рисунке, выполнялись следующим образом: для каждого числа реализаций формировалось множество таблиц совместных значений 22-х переменных с заданным характером связей между ними. Затем,
по методу последовательного подключения переменных, находился список аргументов, обеспечивающий наилучшую предсказательную способность эмпирической модели. Если перечень предикторов в этом списке
совпадал с фактическим, то результат эксперимента считался успешным.
По относительной доле успеха таких экспериментов оценивалась вероят-
47
ность нахождения правильного списка аргументов. Как можно видеть на
рис.2.1.3, для обеспечения в нашем случае устойчивого (по уровню вероятности 0.95) поиска правильной двухфакторной модели требуется не менее тридцати совместных реализаций, трехфакторной - семидесяти и четырехфакторной - ста пятидесяти реализаций.
Рис.2.1.3. Оценка поля
вероятности нахождения
истинного списка аргументов линейной детерминированной функции
при их поиске среди 22-х
потенциально возможных
(смысл параметров L и N
пояснен в комментарии к
рис.2.1.2).
Визуализация многомерной регрессии.
При интерпретации многомерных моделей зависимости переменных
от оптимального списка их аргументов очень важно иметь возможность
получения информации о топологическом характере этой зависимости в
наглядной для исследователя форме.
Существует особенность человеческого восприятия, заключающаяся в
том, что такой формой является изображение функции не более чем двух
аргументов. Поэтому для передачи информации о характере многомерной
регрессии целесообразно её представление в виде семейства таких функций. Визуализация функции одного аргумента представляет собой ее график, а двух аргументов – семейство графиков или карту. Поскольку в общем случае оптимальная многомерная модель может быть и одномерной,
то более универсальным представлением является семейство кривых. Поэтому выберем двумерные сечения (в форме семейства графиков) многомерных регрессий как способ их визуализации на экране компьютера или
распечатки на бумаге. Для этого будем использовать два подхода.
Первый сводится к:
48
 разбивке области изменчивости выбранных аргументов на ряд градаций;
 выбору по соответствующим условиям группы данных, соответствующих каждому заданному интервально, приближенному значению двумерного аргумента;
 построению условных зависимостей (в виде условного распределения или условного среднего) от одного аргумента при заданном
значении второго.
При визуализации условных средних удобно использовать их кусочно-линейную аппроксимацию, соединяя прямыми линиями точки, задаваемые средними значениями аргумента и функции (пояснение см. на рис.
2.1.4). Управляя выбором числа степеней свободы, при такой аппроксимации можно, практически не навязывая форму кривых, обеспечить их достаточную гладкость. Кроме того, для получения более регулярного вида
сечений статистически недостоверные вершины ломаных линий можно
игнорировать. Вывод на экран компьютера последовательности двумерных сечений и подбор их желаемой гладкости позволяет получить достаточно подробное представление о характере исследуемой многомерной
зависимости.
Рис. 2.1.4. Пояснение к
способу проведения
условных кусочнолинейных регрессий
при их визуализации.
а – выбранные из исходной совокупности
по заданному условию
данные; б – точки,
координаты которых
задаются условными
средними аргумента и
функции; в –линия
регрессии.
При втором подходе визуализируемая регрессия получается на основе
соответствующего задания точности аргументов в формуле (2.1.3.1) и
49
свертке условного распределения до условного среднего. В результате получается двух- или одномерное сечение многофакторной зависимости.
2.1.3. Содержательная интерпретация результатов анализа
Главным результатом статистического анализа многомерной информации является отыскание и приближенное описание устойчивых связей
между переменными в исследуемой выборке данных. Эти связи могут
быть проинтерпретированы как эмпирические закономерности, ограничивающие наблюдаемое разнообразие таких данных, и использованы в различных прикладных задачах. Кроме того, естественно попытаться объяснить наблюдаемые эффекты. Этот этап, естественно, трудно поручить
ЭВМ, так как он заключается в высказывании содержательных предположений - гипотез, из которых должно логически вытекать наблюдаемое поведение многомерных эмпирических зависимостей. Совокупность таких
гипотез составляет содержательную модель исследуемых процессов. По
классификации, описанной в пункте 1.1.2, такая модель относится типу 3.
Содержательная модель обычно складывается из практически достоверных положений, основывающихся на существующем уровне знаний об
исследуемом объекте, и новых постулатов, справедливых лишь в той мере,
в какой они обусловлены и обоснованы их согласованностью с данными
анализируемой выборки. В информационном плане такая модель, как правило, богаче объясняемых с её помощью связей. Это связано с тем, что, по
своему смыслу, входящие в неё положения описывают моделируемые эффекты, но в то же время совокупность следствий, вытекающих из этих
концепций, может быть более многообразной по сравнению с тем, что
наблюдалось в соответствующих исходных данных. Такое свойство модели объяснения определяет её прогностические возможности. Однако необходимо помнить, что предсказания, получаемые на ее основе, являются, в
определенной мере, гипотетичными и требуют проверки их достоверности.
Чтобы содержательную модель можно было использовать для решения практических задач, ее нужно преобразовать к позволяющему это делать типу. Чаще всего в качестве такого типа выбирается математическая
модель. Структура соотношений между переменными этой модели должна
логически строго выводиться из принятых постулатов. При таком выводе
эта структура находится, обычно, с точностью до набора параметров,
смысл которых определяется логикой вывода, а значения оцениваются с
привлечением исходных данных наблюдений. Построенная содержательная математическая модель может применяться для проверки заложенных
50
в неё гипотетических положений и для прогностических расчетов значений зависимых переменных.
2.1.4. Программный модуль для исследования эмпирических закономерностей и примеры его использования
Разработанные алгоритмы вероятностного и статистического моделирования были реализованы в виде специального пакета программ, работающих под DOS [Игнатов, 1996]. Головное окно этого пакета показано на
рис.2.1.5.
Рис. 2.1.5. Головное окно программного модуля, написанного для работы
под DOS, предназначенного для формирования и исследования
матриц совместных значений переменных в целях выявления
устойчивых взаимосвязей между ними.
Основное ядро этого пакета заключено в программе, реализующей
пункт меню «Проверка гипотез о взаимосвязи переменных». Эта программа, в соответствии с описанными в данном параграфе принципами и методическими приемами, для выбранных переменных в автоматическом режиме перебирает возможные комбинации аргументов, формирует модели,
основывающиеся на формуле (2.1.3.1), организует их проверку по предсказательной способности и осуществляет отбор лучших моделей.
Созданные программные средства были применены к решению ряда
задач гидрологического и географического характера. Исходные данные
51
для рассмотренных далее примеров были подготовлены и переданы автору
Федоровым В.Н. и Е.Н.Агеенко и использованы с их согласия. При анализе этих материалов не ставилась цель фундаментального изучения соответствующих проблем. Рассмотренные примеры приведены для иллюстрации возможностей разработанного алгоритма и пакета программ. Понятно, что каждая из этих задач может быть проработана более детально,
как это было, например, сделано для данных о состоянии лесов в бассейне
р.Голоустная [Агеенко, Волкова, Игнатов, 1995] или при исследовании
ландшафтных особенностей формирования стока, результаты которого
описаны в § 2.3 настоящей главы.
Формирование паводкового стока реки.
В качестве первой из таких задач была проанализирована матрица
данных «осадки-сток», переданная автору В.Н.Федоровым, задающая совместные реализации паводкового суточного стока реки (переменная Х1) и
суточных осадков в день измерения стока и за несколько предыдущих
дней. По критерию наилучшей предсказательной способности (см. графический критерий на рис.2.1.6) в списке предикторов паводкового стока
были оставлены суммы осадков за два предыдущие дня (переменные Х3 и
Х4). Причем объединение этих двух аргументов в один путем их суммирования не улучшало предсказательной способности модели.
Рис.2.1.6. Развертка по реализациям измеренных (а) и предсказанных (б) значений паводкового стока.
На рис.2.1.7 изображена оценка вида регрессии этой зависимости от
двух названных аргументов. Конечно, делать какие-либо категоричные
выводы по этим результатам, в силу их малой статистической обеспеченности, преждевременно. Но, тем не менее, высокая предсказательная способность модели и характер зависимости X1=F(X4,X3) обусловливает целесообразность содержательного анализа структуры зависимости стока от
52
осадков (см. рис.2.1.7) или дополнения и дальнейшего статистического
исследования данных.
Рис. 2.1.7. Оценка зависимости паводкового стока (Х1) от осадков за два предыдущих
дня (Х3 и Х4). Х4 сумма осадков за соответствующий вчерашний день, Х3 - сумма
осадков за позавчерашний, по отношению ко дню измерения
стока, день. Значения
Х3: а - (0-9) мм, б (10-18) мм, в - (>18)
мм; г – точки, отражающие значения измерений переменных
Х1 и Х4.
Анализ закономерностей восстановления лесных экосистем в бассейне реки Голоустной.
При решении этой задачи были использованы материалы Государственного Комитета СССР по лесному хозяйству [Таксационное описание... , 1986]. Выборка из них сделана Агеенко Е.Н. При подготовке данных территория бассейна реки Голоустной была разделена на двадцать
шесть естественных элементарных водосборов, из которых случайным образом были выбраны восемь. Эта территория, площадью 2300 км2, была
разбита сеткой с шагом 500 м. Восемь выделенных водосборов включали в
себя 1297 квадратов площадью по 0.25 км2, в каждом из которых с лесоустроительных карт были считаны таксационные описания взрослого леса
и подроста: их интегральных (высота, возраст и запас леса) и структурных
(запасы каждой отдельной породы) характеристик. Полная информация о
наименованиях и значениях выбранных переменных и анализ их взаимосвязей приведены в монографии [Агеенко, Волкова, Игнатов, 1995]. Здесь
приводятся фрагменты этой работы, показывающие возможности приме-
53
нения разработанного алгоритма для поиска закономерных эффектов на
фоне действия большого числа возмущающих факторов.
Осреднение по большому числу реализаций и построение линий регрессии без навязывания их математической структуры позволяют увидеть
(рис. 2.1.10 и 2.1.11) сукцессионную динамику восстановления структуры
леса. Изображенные на рисунках графики демонстрируют конкурентный
выигрыш березы над сосной в процессе развития молодого леса после вырубки. Несмотря на слабовыраженную зависимость их структурных долей
от возраста (корреляционный критерий 0,42 и 0,58 соответственно), регулярное поведение условных средних позволяет сделать определенные выводы. Приведенные графики показывают, что на возрастном интервале от
0 до 50-60 лет доля березы увеличивается с 20-22% до 37-39%. На том же
интервале доля сосны уменьшается с 33-35% до 23-24%. Эти результаты
говорят о том, что формирование нормальной для данного региона структуры леса (с преобладанием хвойных пород) начинается не сразу после
вырубки, а примерно на 70-90 лет позднее. Этот важный для восстановления леса вывод, в силу большой изменчивости входных данных, удается
надежно сделать только после специфической обработки по описанным в
данном параграфе алгоритмам большой статистической выборки.
Рассмотрение матрицы критериев парной взаимосвязи переменных
позволяет выделить несколько групп статистически значимых зависимостей, обладающих высокой предсказательной способностью. Ряд из них,
таких как взаимосвязь запасов модальных в структуре леса или подроста
пород и соответствующих суммарных запасов, является тривиальной и не
заслуживает какого-либо специального анализа. Ряд же зависимостей,
например, таких как зависимости высоты и запасов леса от его возраста
имеет смысл рассмотреть более подробно, так как они могут отражать некоторые общие закономерности динамики развития лесных сообществ.
На рис.2.1.12 изображена кривая регрессии, описывающая зависимость средних запасов леса от его возраста. Вид этой кривой (линейный
рост до 90 лет и резкое прекращение роста после) отражает, по-видимому,
действие какого-либо фактора, ограничивающего максимальную биомассу
(запас) леса. Этим фактором может быть, например, характерный для данного региона приток солнечной энергии, ограничивающий возможности
лесного сообщества по поддержанию общего количества биомассы растений. Не исключаются, конечно, и другие причины наблюдаемой картины
разрыва в скорости прироста древесины.
54
Математическая модель наблюдаемого характера зависимости запасов леса от возраста может быть задана формулой:
55
Рис.2.1.10. Зависимость средних запасов сосны (Х4,
дес.куб.м / га) от возраста леса (Х2, лет)
Рис.2.1.11. Зависимость средних запасов березы
(Х5, дес.куб.м / га) от возраста леса (Х2, лет)
56
Рис.2.1.12. Зависимость запасов леса (Х3, десятков .куб.м / га)
от его возраста (Х2, лет).
Рис.2.1.13. Зависимость высоты леса (Х1, м)
от его возраста (Х2, лет).
57
V 3 * X 2, если V 3 * X 2  X 3 max 
X3  
,
если V 3 * X 2  X 3 max 
 X 3 max ,
где: X2 – возраст леса (годы), X3 – средний запас леса (м3/га), V3 – средняя
скорость прироста запаса леса, X3max – средний для данного района максимальный запас леса.
Причем по графику на рис.2.1.12 можно определить параметры этих
соотношений: скорость прироста запасов древесины в молодом сукцессионном лесу (V3) примерно равняется 2 м3/год/га, а уровень ограничения
запасов (X3max) составляет около 200 кубических метров на гектар.
На рис.2.1.13 показана другая сильно выраженная (мера связи 0.93)
зависимость высоты леса от его возраста. В этом случае также наблюдается возрастное замедление прироста средней высоты, однако характер
ограничения роста здесь существенно более плавный, чем в предыдущем
случае. Закономерность прироста средней высоты леса (Х1) может быть
описана уравнением:

dX 1
X1 
; при X 1 0   0 ,
 V 1  1 
dX 2
X 1max 

математическая структура которого является простой и содержательно более понятной по сравнению с аппроксимирующим выражением, типа
уравнения
Стрэнда,
использованного
И.Ф.Новосельцевой
и
И.А.Коротковым [Леса среднего Приангарья, 1977] для описания возрастной динамики средней высоты древостоя. Параметры этой модели, определенные по данным наблюдений, составляют: скорость прироста высоты
леса V1 = 23 см/год и предельная высота X1max = 24 м.
Полезную информацию может принести не только наличие регулярных зависимостей, но и полное их отсутствие. В частности, в данном примере отсутствие статистически выделяемых зависимостей параметров леса
от экологических условий, описываемых переменными X34 - уклон и X35
- экспозиция, позволило сделать достаточно правдоподобный вывод о существенном расхождении фактического положения на местности одних и
тех же узлов сетки, формально имеющих совпадающие координаты на
разных картах.
58
Download