Устойчивая мера близости для построения сетевых структур

advertisement
Устойчивые процедуры построения сетевых структур
фондовых рынков.
В.А.Калягин, А.П. Колданов, П.А.Колданов.
Введение: Тенденции развития финансовых рынков представляют
особый интерес, особенно в связи c финансовыми кризисами. Для
количественного измерения характеристик финансовых рынков применяются
различные методы (выделение трендов, анализ отраслевых индексов и др.).
Вместе с тем, известные количественные характеристики развития не дают
полного представления о реальных процессах, происходящих на рынке. В
связи с этим, актуальным является развитие альтернативных подходов к
анализу финансовых рынков. Один из таких подходов связан с анализом
рынка, как сложной сети, в которой финансовые активы являются узлами, а
связи между активами (мера близости активов) определяют веса ребер между
узлами сети. Такой подход показал свою эффективность при анализе
фондовых рынков и рынков валют [1,2,3]. При этом в качестве структурных
характеристик рынка используются известные в теории графов структуры
(минимальное остовое дерево, пороговый граф, клика, независимое
множество и др.), а в качестве меры близости, как правило, используется
корреляция Пирсона. Исследования в этом направлении демонстрируют в
настоящее время всплеск активности и число публикаций на эту тему
устойчиво растет. В этих публикациях, в основном рассматриваются два типа
задач: задачи построения вычислительных алгоритмов анализа больших
массивов данных и задачи применения этих алгоритмов к анализу
конкретных рынков.
В соответствии с современной точкой зрения цены, доходности и
другие характеристики акций фондового рынка принято рассматривать как
случайные величины [6]. Поэтому сетевая модель фондового рынка
представляет собой сеть случайных величин, а мера близости определяется
мерой зависимости между случайными величинами. Подчеркнем, что
исходными данными для построения сетевой модели фондового рынка и
идентификации её структурных характеристик являются наблюдения за
ценами акций. Поэтому алгоритмы идентификации сетевых структур следует
рассматривать, как статистические процедуры. Такой подход позволяет
исследовать статистические свойства алгоритмов идентификации сетевых
структур, такие как: вероятности ошибочных и правильных решений;
оптимальность и устойчивость соответствующих статистических процедур.
Свойства этих процедур определяются, в том числе, выбранной мерой
зависимости между случайными величинами.
Постановка задачи. Рассмотрим сложную систему, представленную
полным взвешенным графом G. Предположим, что вершины графа G
характеризуются случайными величинами X 1 ,..., X N , а вес ребра между
1
вершинами i и j задан некоторой мерой зависимости  ( X i , X j ) между
случайными величинами X i , X j : i, j  1, N . Эволюция системы описывается
набором наблюдений xi (t ) : t  1, n; i  1, N , где xi (t )  наблюдаемое значение
случайной величины X i в момент t. В прикладных работах (см. например
[1,2,3]) в качестве меры зависимости (близости) традиционно используется
коэффициент корреляции Пирсона  P . Известно [4], что классические
статистические процедуры, основанные на коэффициенте корреляции
Пирсона, обладают хорошими свойствами, если совместное распределение
случайных величин X 1 ,..., X N является нормальным. Вместе с тем,
статистические исследования фондовых рынков опровергают гипотезу
многомерной нормальности
[5]. Значительно более общими и
перспективными являются модели многомерных распределений с
плотностью, постоянной на эллипсоидах (elliptically contoured distribution)
[6]. Это определяет актуальность задачи построения статистических
процедур идентификации, устойчивых в этом классе распределений. В
настоящей работе предложена устойчивая статистическая процедура
построения порогового графа.
Под пороговым графом понимается граф, получаемый из полного
взвешенного графа G удалением ребер, веса которых не превышают
пороговое значение  0 . Веса оставшихся ребер полагаются равными 1.
Теоретические основы процедур построения отсеченного графа, как
статистических процедур  со многими решениями, предложены в [7]. Такие
процедуры представляют собой совместное применение тестов вида:
  ij , t ij  с
, где  ij - решение о проведении ребра между i-ой и j-ой
1
 ij , t ij  c
 ij  
вершиной,  ij1 - решение о не проведении ребра между i-ой и j-ой вершиной,
t ij - некоторая статистика, пороговое значение c определяется из уравнения:
P (t ij  c)   , где  - заданный уровень значимости.
0
В настоящей работе изучаются статистические процедуры построения
порогового графа для двух мер близости: традиционно используемого
коэффициента корреляции Пирсона между флуктуациями доходностей акций
и мерой близости, основанной на вероятности совпадения знаков
доходностей.
Связь между мерами. В настоящем разделе показано, что в классе
распределений, плотность которых постоянна на многомерных эллипсоидах,
существует функциональная связь между коэффициентом корреляции
Пирсона и вероятностью совпадения знаков доходностей пар акций,
одинаковая для всех распределений из рассматриваемого класса с заданной
ковариационной матрицей. Эта связь определяет взаимно однозначное
соответствие между структурами графов, построенных на основе
2
коэффициентов корреляции Пирсона и вероятности совпадения знаков
доходностей.
Рассмотрим в качестве меры зависимости случайных величин X i , X j
вероятность совпадения их знаков  iS, j  PX i X j  0 в предположении, что
математические ожидания X i , X j известны и равны 0. Меры такого типа
изучались в [8,9]. В [10] мера  i,S j использовалась в сетевом анализе
фондовых рынков. Покажем, что в классе распределений с плотностью,
постоянной на многомерных эллипсоидах значение меры  i,S j не зависит от
функционального вида распределения.
Определение 1 [4]: случайный вектор X  ( X 1 ,..., X N ) имеет
распределение с плотностью, постоянной на многомерных эллипсоидах
(elliptically contoured distribution), если плотность вероятности X имеет вид:
g ( x   )' 1 ( x   ), где  - положительно определенная матрица.
Обозначим класс таких распределений C ( g ;  , ) .
f ( X ) |  |

1
2
Теорема 1. Если случайный вектор X  ( X 1 , X 2 ) имеет плотность
a
f ( x1 , x 2 )  11
a12
a12
a 22

1
2


g a 11 x12  2a12 x1 x 2  a 22 x 22 , то  iS, j  PX i X j  0 не зависит от g .
Доказательство теоремы 1 проводится по следующей схеме:
1)
c
С Т AC   11
 c12
Существует
c21  a11

c22  a12
U 
матрица
с 
с
С   11 12  ,
 с21 с22 
такая
что
a12  c11 c12   1 0 


.
a22  c21 c22   0 1 
c
c  X 
2) Пусть     11 12  1  . Событие X 1  0, X 2  0 ( X 1  0, X 2  0)
 V   c21 c22  X 2 
эквивалентно
c12
c
c
c
V  U  11 V , ( 11 V  U  12 V ). Данные двойные неравенства
c22
c21
c21
c22
определяют углы в системе координат (u, v) с вершиной в т.(0,0).
3) f ( x1 (u, v), x2 (u, v))  d  g (u 2  v 2 ) , поэтому вероятность попадания
случайного вектора (U ,V ) в угол с вершиной в т.(0,0) градусной меры 
равна

и не зависит от функции g .
2
Известно, что корреляция Пирсона также не зависит от g [4]. Поэтому
из этой теоремы, в частности, следует существование взаимно-однозначного
соответствия между коэффициентом корреляции Пирсона  i,Pj и мерой  i,S j для
3
всех распределений из C ( g ;  , ) при фиксированных  ,  . Для нормального
распределения эта зависимость приведена в [11]. Поэтому, если пороги для
построения пороговых графов связаны соотношением  0S   arcsin  0P  , то
1
2
1

пороговый граф в сети корреляции Пирсона совпадает с пороговым графом в
знаковой сети для всех распределений из C ( g ;  , ) при фиксированных  ,  .
Устойчивые статистические процедуры построения порогового
графа. Рассмотрим две статистические процедуры построения порогового
графа. Первая процедура  P заключается в следующем: ребро между i-ой и jой вершиной добавляется в пороговый граф, если соответствующий
выборочный коэффициент корреляции Пирсона rij больше заданного порога,
  ij , rij  с P
т.е.  ij   1
. Описанная процедура традиционно используется в
P
 ij , rij  c
сетевом анализе фондового рынка. Вторая процедура  S предполагает
проведение ребра между i-ой и j-ой вершиной, если частота f ij события
P
X
i
X j  0 больше заданного порога, т.е.  ij
S
  ,
  ij1
 ij ,
f ij  c S
. Такая процедура
f ij  c S
использовалась в [10] для сетевого анализа фондового рынка.
В теории построения процедур со многими решениями процедуры, в
которых решение о проведении или не проведении ребра между вершинами
принимается независимо от результатов проведения ребер между другими
вершинами, называются одношаговыми. Известны также процедуры
последовательного добавления ребер, в которых решение на каждом шаге
зависит, в том числе, от решений, принятых на предыдущих шагах. Такие
процедуры называются многошаговыми (stepwize). Хорошо известными
представителями таких процедур являются процедура Холма (stepdown) и
процедура Хочберга (stepup).
Для предварительной оценки устойчивости одношаговых процедур
были проведены экспериментальные исследования. В качестве входного
параметра  была использована матрица корреляций, вычисленная по
реальным данным рынка США (период наблюдения - с 3.01.2011 по
31.12.2013, N=83). В качестве распределений из класса C ( g ;  , )
использовались смеси (с параметром  ) многомерного нормального
распределения с корреляционной матрицей  и
многомерного
распределения Стьюдента
с тремя степенями свободы с такой же
корреляционной матрицей  . Оценка условного риска ( n  400,  0  0,65 ) для
одношаговых статистических процедур  P и  S построения порогового
графа (графа рынка) как функция  показана на рисунке.
4
Сплошной линией изображен условный риск (взвешенная сумма
вероятностей неправильных решений) процедуры  S , линией со звездой условный риск процедуры  P . Как видно из рисунка, качество процедуры  P
существенно зависит от вида распределения. Наименьший условный риск эта
процедура имеет для многомерного нормального распределения (   1 ).
Условный риск процедуры  S в этом эксперименте не зависит от  .
Теоретическое обоснование этого результата приведено ниже.
Теорема 2: пусть случайный вектор X  ( X 1 ,..., X N ) имеет эллиптическое
распределение
с
плотностью
Тогда
f ( X ) |  | g ( x   )' 1 ( x   ).
вероятности p(i1 ,..., i N ) : P(i1 X 1  0,..., i N X N  0) не зависят от g для любых

1
2
ik {1,1}, k  1, N
Теорема 3: пусть случайный вектор X  ( X 1 ,..., X N ) имеет эллиптическое
распределение с плотностью f ( X ) |  | g ( x   )' 1 ( x   ). Тогда для
одношаговой статистической процедуры, а также для многошаговых
статистических процедур идентификации Холма и Хочберга вероятности
правильной идентификации и функция риска определяются матрицей  и не
зависят от g .

1
2
Заключение. Для построения сетевых моделей традиционно
используется коэффициент корреляции Пирсона. Однако эта мера близости
не является единственно возможной. В докладе для построения сетевой
модели обсуждается использование меры близости, основанной на
вероятности совпадения знаков. Показано, что такие сетевые структуры, как
5
пороговый граф в сетях корреляции Пирсона и знаков, теоретически
совпадают при согласованном выборе порогов. Однако статистические
процедуры идентификации пороговых графов по конечному объему
наблюдений приводят к разным результатам. Экспериментально показано,
что статистические свойства (функция риска, вероятность ошибочной
идентификации) процедур идентификации порогового графа, основанных на
выборочном коэффициенте корреляции Пирсона, зависят от вида функции
плотности из класса эллиптических распределений. В частности, функция
риска в 3 раза больше для распределения Стьюдента, чем для нормального
распределения. Теоретически доказано, что статистически свойства
процедуры, основанной на частоте совпадения знаков, не зависят от вида
плотности из класса эллиптических распределений. Последнее определяет
преимущества процедуры, основанной на частоте совпадения знаков, для
идентификации порогового графа как в знаковой сети, так и в сети Пирсона.
Литература.
1. Mantegna R.N., Hierarchical structure I financial market. European
Physical Journal,1999, Series B 11, 193–197.
2. Tumminello M., Aste T., Matteo T. Di, Mantegna R., A tool for filtering
information in complex systems. Proceedings of the National Academy
of Sciences of the United States of America, 2005, 102, 10421-10426.
3. Boginsky V., Butenko S., Pardalos P.M. Statistical analysis of financial
network. Computational Statistics & Data Analysis, 2005, 48, 431–443.
4. Anderson T.W. An Introducion to Multivariate Statistical Analysis,
2003, third ed. Wiley-Interscience, New York.
5. Shiryaev A.N. Essential of Stochastic Finance. Facts, Models, Theory,
Adv.Ser.Statist.Sci.Appl.Probab., 2003, 3 River Edge, NJ:World
Scientific.
6. Gupta A.K., Varga T., Bodnar T. Elliptically contoured model in
statistics and portfolio theory. 2013, Springer.
7. Koldanov A.P., Koldanov P.A., Kalyagin V.A., Pardalos P.M. Statistical
procedures for the market graph construction. Computational Statistics &
Data Analysis, 2013, 68, 17-29.
8. Kruskal W.H. Ordinal measures of dependence. Journal of the American
Statistical Association, 1958, 53, 814-861. doi: 10.2307/2281954
9. Lehmann E. L. General concepts of dependence. The Annals of
Mathematical
Statistics,
1966,
37,
5,
1137-1153.
doi:10.1214/aoms/1177699260.
10.Bautin G.A., Kalyagin V.A., Koldanov A.P., Koldanov P.A., Pardalos
P.M. Simple measure of similarity for the market graph construction //
Computational Management Science, 2013, 10:105-124, DOI
10.1007/s10287-013-0169-3 .
11.Kramer Г. // Математические методы статистики. 1975, 2-е издание,
Изд-во «Мир», Москва.
6
7
Download