Правительство Российской Федерации федеральное государственное автономное образовательное учреждение высшего профессионального образования

advertisement
Правительство Российской Федерации
федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"
Факультет экономики
Кафедра прикладной математики и моделирования в социальных системах
Допускаю к защите
Заведующий кафедрой ПМиМСС,
к. э. н., доцент кафедры
ПМиМСС,
Потапов Д. Б.
________________________
(Подпись)
«______» _________________ 2014 г.
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
На тему: МОДЕЛИРОВАНИЕ КРЕДИТНОГО РИСКА ПРИ “Peer-toPeer” КРЕДИТОВАНИИ
Студент группы Э-10-2
Мальцев Александр Игоревич
________________________
(Подпись)
Научный руководитель
преподаватель
кафедры прикладной математики
и моделирования в социальных
системах
Порошина Агата Максимовна
________________________
(Подпись)
Пермь, 2014
Оглавление
Введение ........................................................................................................................................... 5
1. Теоретическое обоснование ....................................................................................................... 7
1.1 Оценка кредитного риска при потребительском кредитовании ........................................... 7
1.2 Анализ peer-to-peer кредитования как области исследования ............................................ 10
2. Постановка исследовательской проблемы .............................................................................. 17
3. Методология исследования ...................................................................................................... 20
3.1 Предварительный анализ данных .......................................................................................... 20
3.2 Дескриптивный анализ данных .............................................................................................. 23
3.3 Корреляционный анализ данных ........................................................................................... 26
3.4 Регрессионный анализ данных ............................................................................................... 27
3.5 Обсуждение вопроса эндогенности ....................................................................................... 30
3.6 Интерпретация результатов .................................................................................................... 36
4. Описание результатов ............................................................................................................... 38
Заключение..................................................................................................................................... 42
Список использованной литературы ........................................................................................... 44
Приложения ................................................................................................................................... 47
2
Аннотация
Объем потребительского кредитования в США на данный момент составляет более
$3 трлн., в это же время бурно развивается область «peer-to-peer» (P2P) кредитования, так,
например, объем выданных кредитов крупнейшей американской P2P заемной компании
Lending Club составляет $4 млрд. Однако на данный момент сравнительно немного работ
посвящено оценке кредитного риска при “peer-to-peer” кредитовании, оценка которого
характеризуется рядом особенностей по сравнению с традиционным кредитованием..
Термин P2P кредитование означает процесс кредитования между физическими лицами на
онлайн-платформе без участия традиционных финансовых посредников, таких как
коммерческие банки. В работе предложен способ моделирования кредитного риска при
P2P кредитовании, в результате которого будут определены факторы, оказывающие
влияние на кредитный риск при данном виде кредитования. Оценка кредитного риска
проводится путем оценки вероятности дефолта заемщика на данных, предоставленных
американской P2P заемной компанией Lending Club за 2008-2011 гг. с помощью
построения модели бинарного выбора, а именно модели пробит и модели пробит с
инструментальными переменными. Модель пробит с инструментальными переменными
строится с целью корректировки модели на эндогенность некоторых факторов, а именно
уровня использования возобновляемых заемных средств заемщиком. Инструментальными
переменными выступают изначальный показатель, усредненный по группам кредитного
риска и коэффициент отношения долга к доходу заемщика. В результате моделирования
получено, что основными факторами, оказывающими влияние на кредитный риск
заемщика, являются показатели кредитного риска, используемые в США и компаний
Lending Club в частности, ставка процента по кредиту, доход заемщика, ставка
рефинансирования, установленная Центральным Банком США на момент подачи заявки
на кредит, кредитная история заемщика, а также упомянутый ранее уровень
использования возобновляемых заемных средств заемщиком. Практическим приложением
работы
является
использование
результатов
моделирования
для
формирования
инвестиционных портфелей кредиторов, а также использование опыта по моделированию
эндогенности при оценке кредитного риска коммерческими банками при разработке
систем риск-менеджмента для потребительского кредитования.
3
Abstract
Consumer lending in the United States currently accounts for more than $ 3 trillion. At
the same a new branch of consumer lending – «peer-to-peer» (P2P) lending is developing
rapidly, for example, the volume of loans given of largest American P2P lending company
Lending Club accounts for more than $ 4 billion. However, there are quite a few studies
considering credit risk evaluation in P2P lending, special features of credit risk evaluation
remains unexplored in this area. The term P2P lending describes the loan origination process
between private individuals on online platforms, without using services of traditional financial
intermediaries such as a commercial banks. This paper proposes a method for modeling credit
risk in P2P lending. The result of the modeling will be a list of factors influencing credit risk in
this type of lending. Credit risk evaluation is carried out by assessing the probability of
borrower’s default based on data provided by American P2P lending company Lending Club
during 2008-2011 time period. Modeling method implies constructing a binary choice model,
particularly probit model and probit model with instrumental variables. Probit model with
instrumental variables is constructed in order to adjust the model for endogeneity of some
factors, revolving line utilization rate in particular. Instrumental variables are the initial rate,
averaged over groups of credit risk and the borrowers’ debt-to-income ratio. The main factors
influencing the credit risk of the borrower are credit risk indicators used in the USA and by
Lending Club in particular , the interest rate of the loan, the borrower's income, discount rate set
by the Central Bank of the United States at the moment of filing for a loan, the borrower's credit
history, and previously mentioned revolving line utilization rate. Results are applied to building
investor portfolios based on group of criteria derived from the credit risk modeling. Also the
experience of modeling endogeneity in the process of credit risk evaluation may be useful to
commercial banks during the development of risk-management systems for consumer lending.
4
Введение
На данный момент банки находятся в условиях обостряющейся конкуренции и
вынуждены прибегать к все более рискованным путям ведения своей экономической
деятельности.
В
условиях
прошедшего
мирового
экономического
кризиса
для
коммерческих банков обостряются проблемы кредитных рисков, состояния просроченной
задолженности и уровня возвратности кредитов, платежеспособности заемщиков,
сбалансированности ресурсов и ликвидности.
Кредитные операции коммерческих банков являются одним из важнейших видов
банковской деятельности. Как правило, кредитование является наиболее доходным видом
деятельности банка, но в то же время и наиболее рискованным. Кредитный риск,
соответственно, занимает главное место среди банковских рисков, особенно при
потребительском кредитовании.
Кредитный риск представляет собой риск невыполнения кредитных обязательств
перед кредитной организацией третьей стороной. Невыполнение обязательств может быть
вызвано целым рядом событий, от банкротства до стихийных бедствий, военных
действий, неопределимой силы, имеющей природный, экономический и политический
характер.
Объем потребительского кредитования в США на данный момент составляет более
$3 трлн., в это же время бурно развивается область «peer-to-peer» (P2P) кредитования, так,
например, объем выданных кредитов крупнейшей американской P2P заемной компании
Lending Club составляет $4 млрд. (Federal Reserve, 2014) Работ, посвященных анализу
кредитного риска в этой области, крайне мало, по сравнению с традиционным
потребительским кредитованием, поэтому специфика оценки кредитного риска при P2P
кредитовании остается неисследованной. Цель данного исследования состоит в
предложении метода оценки кредитного риска в этой области, который может быть
использован в рамках IRB (Internal Risk-Based) подхода. IRB подход был предложен в
международном стандарте Базеле II, широко используется коммерческими банками в
настоящее время и позволяет оценивать кредитный риск заемщика на основе систем
внутренних рейтингов (Банк России, 2012) .
Данный исследовательский вопрос является продолжением предыдущей работы
автора (Мальцев, 2013) об оценке кредитного риска при P2P кредитовании; ключевой
момент данной работы – рассмотрение проблемы эндогенности. Проблема эндогенности
наблюдается, потому что некоторые из факторов могут иметь эндогенную природу, т.е.
5
могут изменяться по воле заемщика. Например, заемщик может изменить свое поведение,
тем самым изменив значения своих финансовых характеристик, учтенных моделью, с
целью увеличения своих шансов на получение кредита. Это приведет к тому, что оценки
параметров кредитного риска соответствующей эконометрической модели будут
смещенными и несостоятельными, таким образом, интерпретация коэффициентов модели
будет некорректна, т.е. модель будет экономически неадекватна и неприменима на
практике. В рассмотренной литературе по данной тематике автором не были обнаружены
работы, исследующие эту проблему
Для того чтобы оценить кредитный риск следует ответить на следующий вопрос:
какие факторы оказывают влияние на данный вид риска? Таким образом, основной вопрос
исследования: какие факторы влияют на кредитный риск при P2P кредитовании и в какой
степени, учитывая, что некоторые факторы имеют эндогенную природу? Выделяется три
группы факторов, влияние которых обсуждается в академической литературе и практике
банковского
риск-менджмента:
социально-демографические
и
финансовые
характеристики заемщика, а также макроэкономические условия экономического
окружения заемщика.
Таким образом, задачами исследования являются:
 Определение факторов, оказывающих влияние на кредитный риск при P2P
кредитовании и оценка степени влияния каждого фактора;
 Построение эконометрической модели, учитывающей эндогенную природу
факторов.
 Разработка
примерной
структуры
рекомендаций
для
формирования
инвестиционного портфеля заемщиков.
Задачи будут достигнуты путем эконометрического моделирования (а именно,
построением модели пробит с инструментальными переменными (probit IV)) на основе
данных, предоставленных P2P заемной компанией Lending Club. Полученная в ходе
исследования эконометрическая модель позволит описать кредитный риск при P2P
кредитовании. При этом данная модель может быть использована кредитором в качестве
инструмента для выбора заемщиков с наименьшим кредитным риском, т.е. с наибольшей
вероятностью погашения долга. Более того, результаты работы могут быть использованы
коммерческими банками при разработке систем риск-менеджмента в потребительском
кредитовании, в частности результаты анализа эндогенности факторов.
6
1.
1.1
Теоретическое обоснование
Оценка кредитного риска при потребительском кредитовании
На данный момент общепринятыми параметрами, которые позволяют измерить
кредитный риск, являются (Банк России, 2012):
 PD (Probability of Default) – вероятность дефолта;
 LGD (Loss Given Default) – доля потерь в случае дефолта;
 EAD (Exposure At Default) – требования под риском дефолта.
Классификации моделей оценки кредитного риска различны, но вне зависимости от
критериев классификации все сводится к тем же группам моделей. Модели делятся на два
типа: традиционные и сравнительно «новые» модели (Angelini, 2007). Данный критерий
классификации чрезвычайно прост и в то же время очень ёмок, поскольку на данный
момент позволяет классифицировать любую модель:
 Традиционные:

Экспертные модели;

Рейтинговые системы;

Скоринговые модели;
 Новые:

Искусственные нейронные сети;

Дерево решений;

Модели нечетких множеств;

Генетические алгоритмы и др.
В потребительском же кредитовании согласно J.N. Crook et al. (2007) в основном
применяются скоринговые модели, сущность которых заключается в присвоении баллов
на основе показателей заемщика и принятии решения к какой группе отнести заемщика на
основе результата набранных баллов и порогового значения. Существуют следующие
скоринговые методики:
 Статистические методы (Дискриминантный анализ, логит регрессия,
линейная регрессия);
 Математическое программирование;
 Нейронные сети;
 Дерево принятия решений;
 Метод опорных векторов и др.
7
Сравнительный анализ точности прогнозирования данных моделей представлен в
Таблице 1.
Использующиеся в моделях потребительского кредитования факторы можно
разделить на 3 группы. Первая группа состоит из личных данных заемщика (пол, возраст,
образование, число детей и т.д.). Также важнейшей группой факторов кредитного риска
заемщика
является
его
кредитная
история
(наличие
непогашенных
кредитов,
выплаченные кредиты, показатели кредитного рейтинга и т.д.). Кроме того, на кредитный
риск заемщика могут оказывать влияние показатели его экономического окружения
(уровень безработицы, ставка рефинансирования, установленная ЦБ и т.д.).
Результаты эмпирических работ в этой области различны, так, например T. Japelli
(1990) на данных опроса потребителей США за 80-ые года с помощью модели бинарного
выбора пришел к выводу, что важными факторами являются кредитная история, возраст и
доход, J.N. Crook (1996) выделил влияние уровня образования и числа детей; K. Roszbach,
T. Jacobson (1998) проведя анализ с помощью полупараметрического моделирования на
данных банков Швеции за 1993-1995 гг. утверждают, что доход не влияет на кредитный
риск, и что мужчинам чаще отказывают в займе.
8
Таблица 1
Сравнительный анализ точности прогнозирования моделей оценки кредитного риска при потребительском кредитовании, %1
Метод
опорных
векторов
Метод
ближайших
соседей
Генетическое
программиро
вания
Генетические
алгоритмы
Нейронные
сети
Математичес
кое
программиро
вание
Дерево
принятия
решений
Модели
бинарного
выбора
Линейная
регрессия
Автор
Srinivisan (1987)
Boyle (1992)
Henley (1995)
Desai et al. (1997)
Yobas (2000)
West (2000)
Lee et al. (2002)
Malhotra (2003)
Baesens (2003)
Ong et al. (2005)
1
87,5
77,5
43,4
66,5
68,4
79,3
71,4
69,3
79,3
80,8
89,3
43,3
67,3
81,8
73,5
79,3
93,2
75
43,8
86,1
74,7
62,3
77
77
78,4
79
66,4
62
82,6
73,7
72
79,4
81,7
64,7
76,7
78,2
79,7
82,8
Сост. по источнику: Crook et. al. (2007).
9
1.2
Анализ peer-to-peer кредитования как области исследования
Одним из видов потребительского кредитования является «peer-to-peer» (P2P)
кредитование. P2P – кредитование обычно расшифровывается как «peer-to-peer
кредитование» («кредитование среди равных», «одноранговое кредитование») или
«person-to-person кредитование» («кредитование от человека человеку»), «социальное
кредитование». Данный термин означает осуществление выдачи и получения займов
физическими лицами без использования услуг посредников – финансовых институтов.
Реализация данного процесса проходит на специализированных интернет-площадках, где
пользователь может быть как в роли кредитора, так и заемщика (Агентство доступных
кредитов, 2013).
Первая в мире компания, специализирующаяся на P2P кредитовании – Zopa, была
зарегистрирована в Великобритании в феврале 2005 года. Годом позже в США появился
интернет-сервис Prosper, затем на рынок вышла международная Kiva. На данный момент к
крупнейшим компаниям также относятся Lendingclub.com (США), Smava.de (Германия)
(Лайф.Среда, 2013). Основные характеристики крупнейших P2P заемных компаний
представлены в Таблице 2.
10
Таблица 2
Обзор крупнейших P2P заемных компаний1
Характеристика
Адрес (URL)
Рынок
Prosper Marketplace
Lending Club Corp.
Zopa Ltd.
Smava GmbH
prosper.com
lendingclub.com
zopa.co.uk
smava.de
США
США
Experian plc
TransUnion LLC
Equifax Inc.
WebBank (Web-
The Royal Bank
Financial Corp.)
of Scotland plc
$25,000
£15,000
Inc.
Великобритани
я
Сотрудничающие
бюро кредитных
историй
Банк,
обрабатывающий
Wells Fargo Inc.
займы
Максимальный
размер займа
$25,000
Определение
ставки процента
по займу
Германия
Schufa Holding
AG
biw Bank für
Investments und
Wertpapiere AG
€25,000
В зависимости от
Аукцион/устанавли
группы по
вается заемщиком
кредитному
Аукцион
Устанавливаетс
я заемщиком
рейтингу
Комиссия
Заемщик платит
Заемщик платит
Заемщик
Заемщик платит
процент от суммы
процент от суммы
платит
процент от
кредита
кредита
фиксированну
суммы кредита
ю плату
Кредитор платит
Кредитор платит
процент от суммы
процент от
Кредитор
выданных кредитов
полученных
платит процент
средств
от суммы
выданных
кредитов
1
Сост. по источнику: Berger и Gleisner (2008).
Идея P2P кредитования достаточно проста: замена громоздкого посредника в лице
банка с его огромным штатом, офисами, банкоматами, инкассаторами и прочим на
интернет-площадку, где заемщики выставляют свои заявки на получение займов, а
кредиторы сами решают, кому дать в кредит (Hulme и Wright, 2006). При условии, что
площадка будет брать 1-2% комиссионных, то и заемщики смогут получить ставку ниже,
11
чем в банке, и кредиторы будут иметь большую доходность, нежели чем по
традиционным банковским вкладам.
Основным фактором успеха Р2Р площадок являются низкие комиссионные в
сравнении с банками. Данные о себе заемщик вносит через интернет, и в течении получает
решение по размеру кредита и процентной ставке. Главным условием является
предоставление номера социального страхования, что означает доступ ко всей
персональной информации: социальный статус, зарплата, кредитный рейтинг и т.д.
(Лайф.Среда, 2013)
В России эту область кредитования представляют несколько компаний, например
Кредитная биржа Webmoney – сервис, осуществляющий свою деятельность через
электронные кошельки Webmoney, представляющий собой систему подбора кредиторов
заемщиками. Другим сервисом является сайт Вдолг.ру – относительно крупный игрок на
рынке, создана в 2012 году при участии информационно-аналитического портала banki.ru
и коллекторского агентства ФАСП. Кредитбери – новичок рынка, стартап, запущенный
компаний «Связной», функционирующий в режиме бета-версии. И, наконец, Мирденег.ру
– также новая компания, вышедшая на рынок в конце 2013 г., позиционирующая себя как
инновационная компания, делающая акцент на онлайн-технологиях.
В целом, судить об успешности P2P кредитования пока достаточно сложно, первые
компании вышли на рынок сравнительно недавно, население слабо осведомленно и не
доверяет таким компаниям, более того деятельность таких компаний не регулируется
законодательно. Все это приводит к высоким процентным ставкам для заемщикам, что
нивелирует основное достоинство данной области кредитования – низкие процентные
ставки, по сравнению с коммерческими банками.
Отечественных работ в области оценки кредитного риска при P2P кредитовании
практически нет, исключением являются лишь обзорные работы, описывающие
особенности этой области кредитования.
Зарубежные исследования в этой области часто посвящены изучению факторов,
влияющих на вероятность получения кредита заемщиком, методом оценки вероятности
получения кредита заемщиком при этом являются модели бинарного выбора. В основном
это работы, исследующие так называемую «мягкой информации» (soft information) в P2P
кредитовании, т.е. персональную информацию социального характера, предоставляемую
заемщиком в рамках P2P сети, а также эффекты возникающие в результате социального
взаимодействия между заемщиками и кредиторами (Berger и Gleisner, 2009). Так,
например, Herzenstein et. al. (2008) на основе данных компании Prosper в 2006 г.
установили, что такие социальные характеристики как раса и пол оказывают слабое
12
влияние на вероятность получение кредита по сравнению с финансовыми показателями
заемщика. В свою очередь Ravina (2008), используя данные компании Prosper 2007 г.
показала, что красота и раса оказывают влияние на вероятность получения займа. На
основе 12000 заявок было доказано, что заемщики, которые воспринимаются обществом
как “красивые”, с большей вероятностью получают кредит и платят проценты по меньшей
ставке; более того, представители негроидной расы наоборот с меньшей вероятностью
получают кредит и выплачивают большие проценты (схожие результаты получили Pope и
Sydnor (2008) также на данных компании Prosper).
К “мягкой информации” также можно отнести наличие социальных сетей и
сообществ на P2P площадках: Berger и Gleisner (2009) на основе данных Prosper за 20052007 гг. показали, что в рамках таких сообществ может действовать механизм
сигнализирования. Если лидер такого сообщества дает рекомендацию конкретному
заемщику или конкретной заявке, то вероятность получения кредита этим заемщиком
увеличивается, еще больше вероятность увеличится, если лидер сам станет один из
кредиторов этого заемщика. Freedman и Jin (2008) используя данные Prosper показали, что
действительно социальные сети могут содержать в себе “мягкую информацию” о
заемщике, но по их мнению данный механизм используется недостаточно эффективно. К
этой области относятся работы, изучающие явления стадного поведения в P2P
кредитовании, например Luo и Lin (2013) используя дерево решений на данных Prosper
показали, что кредиторы склонны давать деньги заемщикам с большим количеством
кредиторов, особенно если в числе этих кредиторов есть друзья заемщика, но при этом
такое поведение приводит к уменьшению дохода кредитора.
Некоторые авторы посвящают свои исследования разработке рекомендаций для
заемщиков, выполнение которых позволит заемщикам увеличить вероятность увеличения
кредита. Puro et. al. (2010) на данных Prosper пришли к выводу, что вероятность кредита
обратно зависит от первоначальной ставки процента, предложенной заемщиком, т.е.
чтобы увеличить вероятность получения кредита заемщику необходимо соглашаться на
более высокую ставку процента. В то же время, некоторые авторы пытаются построить
инвестиционные модели для кредиторов, так например Wang et. al. (2013) успешно
применили Байесовскую сеть для принятия инвестиционных решений (выдачи кредитов)
на рынке копании Prosper.
Работы,
посвященные
изучению
вероятности
дефолта
заемщика
также
рассматривают «мягкую информацию» как один из факторов. Но, тем не менее,
основными детерминантами кредитного риска заемщика остаются финансовые показатели
заемщика, в частности специальные показатели кредитного рейтинга.
13
В области исследования “мягкой информации” открыт вопрос влияния расового
признака на вероятность выплаты кредита: Ravina (2008) утверждает, что представители
негроидной расы являются более надежными заемщиками, но Pope и Sydnor (2008)
получили обратные результаты (обе работы использовали данные компании Prosper).
Проблема половой дискриминации также поднимается в рамках исследования P2P
заемных рынков, Chen et. al (2013) на основе данных китайской компании PPdai.com
пришли к выводу, что женщинам чаще отказывают в кредите, но при этом вероятность
дефолта у женщин меньше.
Iyer et. al. (2009) анализируя данные Prosper приходят к выводу, что основным
индикатором вероятности дефолта является начальная ставка процента, установленная
заемщиком; кроме того, по их мнению, “мягкая информация” также может использоваться
для прогнозирования вероятности дефолта, наиболее эффективно при определение
вероятности дефолта заемщиков с низким кредитным рейтингом. Freedman и Jin (2008),
также на данных Prosper, показали, что в целом кредиторы достаточно часто делают
ошибки при выборе заемщика, но обладают способностью учиться на своих ошибках и со
временем число ошибок при выборе заемщика уменьшается.
Обобщая вышесказанное, необходимо отметить, что основная часть работ
использует данные компании Prosper по американскому рынку. Это, в свою очередь,
означает, что результаты этих исследований не могут быть распространены на весь рынок
P2P, поскольку специфика деятельности компании Prosper может отличаться от других
компаний в отрасли.
Кроме того, результаты исследования могут варьироваться в зависимости от
основных параметров данных (компания-источник, рынок, временной промежуток). Так,
например,
исследования
посвященные
«мягкой
информации»
потеряли
свою
актуальность. Дело в том, что в ноябре 2008 г. Комиссия по ценным бумагам и биржам
США наложила запрет на ведение деятельности компании Prosper, крупнейшей на тот
момент P2P заемной компании США. Комиссия заключила, что выдача кредитов на сайте
Prosper является продажей незарегестрированных ценных бумаг, что нарушает главу 5
Закона о ценных бумагах (1933 г.) На самом деле, при передаче средств от компании от
кредитора заемщику P2P заемная компания пользуется услугами банка-посредника, при
этом передача денежных средств производится путем выдачи векселей от заемщика банку
и от банка P2P компании. Эту операцию Комиссия по ценным бумагам признала
продажей ценных бумаг на основе следующих причин:
 Кредиторы клиенты Prosper мотивированы ожидаемым доходом от своих
вложений;
14
 Заявки заемщиков предлагаются широкому кругу лиц;
 Рациональный кредитор предполагает, что выданный им кредит является
для него инвестицией;
 Платформа не предлагает альтернативной нормативной схемы, снижающей
риск для кредитора.
В результате деятельность компании была приостановлена более чем на полгода, за
которые компании пришлось зарегистрироваться в Комиссии по ценным бумагам.
Главный конкурент – Lending Club за полгода до запрета деятельности Prosper, также
останавливал свою деятельность для регистрации в Комиссии, но уже на добровольной
основе. С тех пор на рынке P2P заемных компаний США установилась дуополия,
британская Zopa покинула рынок США, барьеры для входа на рынок для новых игроков
стали слишком высоки: стоимость регистрации в Комиссии по ценным бумагам США для
таких компаний составляет около $3 млн. (Smith, 2009). Компаниям пришлось
пересмотреть бизнес-модель: Prosper отказалась от аукционного метода определения
ставки процента по займу и ввела свою систему установки ставок процента, также как и
Lending Club. Более того, компании перестали позиционировать себя как социальные сети,
отныне кредитные заявки стали анонимными, без какой-либо “мягкой информации”. С
другой стороны, обе компании предоставили возможность кредиторам продавать свои
“инвестиции” на вторичном рынке. Таким образом, все работы, анализирующие “мягкую”
информацию заемщиков таких компаний оказались нерелевантными, большинство работ,
использующих данные компании Prosper до 2009 г. также потеряли свою актуальность.
Общепринятым методом оценки кредитного риска при P2P кредитовании в
академической литературе является модели бинарного выбора. Главным недостатком
рассмотренных работ является то, что даже при исследовании влияния «мягкой
информации» на вероятность дефолта заемщика авторы не учитывают эндогенную
природу этой информации. Заемщик может изменять свои социальные характеристики,
более того было сказано, что разрабатываются специальные методики для увеличения
вероятности получения кредита заемщиком. Пренебрежение этой проблемы приведет к
несостоятельности и смещенности оценок (Цыплаков, 2007).
Методом решения этой проблемы является метод инструментальных переменных:
для этого сначала необходимо выявить переменные, имеющие эндогенную природу и
подобрать такие переменные, которые будут коррелировать с этими переменными, но при
этом не будут коррелировать с ошибкой модели (Цыплаков, 2007).
Открытым остается вопрос о подбор подходящих инструментальных переменных.
Одним из способов может являться использование лаговых переменных (Цыплаков, 2007),
15
но в случае оценки кредитного риска заемщика он недоступен, заявка заемщика подается
на один момент и ее параметры не являются временным рядами. Другой способ – это
использование усредняющих переменных, т.е. в качестве объясняющих переменных
используются не индивидуальные данные, а данные по группе, к которой относится
индивид (Cutler и Glaser, 1997).
16
2.
Постановка исследовательской проблемы
В потребительском кредитовании в качестве меры кредитного риска обычно
используют такую величину как вероятность дефолта, т.е. вероятность того, что заемщика
не сможет по каким-либо причинам выполнить свои обязательства и погасить кредит.
Поскольку эта величина дискретная и может принимать только два значения (дефолт и
выплачен), то модели бинарного выбора стали общепринятым методом оценки этой
величины. В свою очередь, наиболее популярными в академической литературе моделями
бинарного выбора являются пробит и логит модели.
Пробит модель имеет вид:
p ( x)  P(Y  1 X  x)  ( xT b) ,
(1)
где:
Ф – интегральная функция стандартного нормального распределения;
p(x) – вероятность, принимает значения от 0 до 1;
х – независимые переменные;
Y – зависимая переменная;
b – оценки коэффициентов.
В логит моделях используется экспоненциальное преобразование вида:
S ( zi ) 
где:
1
,
1  e Z
(2)
Z – функция линейной регрессии;
S – вероятность, принимает значения от 0 до 1;
i – номер объекта, принимает значения от нуля до n (количества объектов.
Данные преобразование позволяет добиться того, что функция принимает значения
в интервале от 0 до 1. Модели бинарного выбора были выбраны поскольку они достаточно
популярны следи исследований в сфере оценки кредитного риска, показывают достаточно
точные результаты и легко интерпретируемы путем расчета предельных эффектов.
17
Для оценки вероятности дефолта необходима информация по двум группам
заемщиков: заемщиков, которые успешно выплатили кредит, и заемщиков, которые не
смогли выполнить свои долговые обязательства. Необходимая информация состоит из
показателей заемщика (социально-демографические и финансовые) и показателей
финансовой среды заемщика (макроэкономические показатели), кроме того у каждого
займа есть переменная-классификатор, показывающая был ли выплачен долг или же было
зафиксировано состояние дефолта.
На
данный
момент
информация
социально-демографического
характера,
предоставляемая заемщиком довольно ограничена. Но, тем не менее, заемщики например
могут давать информацию о таких параметрах, как свой стаж работы. Здесь возможна
параболическая зависимость: до определенного момента вероятность дефолта заемщика
снижается с увеличением стажа работы, но с некоего переходного момента вероятность
дефолта начинает увеличиваться вместе с увеличением стажа работы.
Основные финансовые параметры, известные о заемщике – это, как правило, доход
и коэффициент отношения долга к доходу. Очевидно, что первый параметр находится в
обратной зависимости с вероятностью дефолта: чем больше заемщик зарабатывает, тем
больше шанс того, что он успешно погасит кредит. И, наоборот, чем больше значение
коэффициента отношения долга к доходу, тем меньше вероятность того, что заемщик
выплатит долг.
Предполагается, что основные показатели кредитного рейтинга заемщика
находятся в прямой зависимостью с кредитным риском (вероятностью дефолта)
заемщика, т.е. чем лучше рейтинг, тем ниже кредитный риск заемщика. Ставится
гипотеза, что основной параметр займа – ставка процента, также находится в прямой
зависимости с вероятностью дефолта, чем выше ставка, тем больше заемщик выплачивает
процентов по кредиту, и, следовательно, выше вероятность невыплаты кредита
заемщиком.
Показатели кредитной истории также могут выступать индикаторами кредитного
риска заемщика. Так, например, чем больше лет заемщик пользуется заемными
средствами, чем меньше у него просроченных платежей по кредитам и чем меньше
негативных событий зарегистрировано в его кредитной истории (банкротство и т.д.), тем
больше вероятность того, что он выплатит очередной кредит.
Среди макроэкономических показателей можно выделить такие параметры
экономического окружения заемщика, как ставка рефинансирования, установленная
центральным банком по отношению к коммерческим банкам и уровень безработицы,
18
наблюдаемый в месте проживания заемщика. Ставка рефинансирования может
находиться в прямой зависимости с вероятностью дефолта заемщика, поскольку она
оказывает прямое влияние на деятельность коммерческих банков и всю экономику в
целом. Чем больше ставка рефинансирования, тем большие ставки по займам и меньшие
ставки по вкладам вынуждены устанавливать коммерческие банки. Уровень безработицы
отражает
экономическое
состояние
окружения
заемщика,
чем
больше
уровень
безработицы, тем хуже экономическое состояние среды, в которой проживает заемщик.
Кроме того, некоторые из показателей заемщика могут иметь эндогенную природу,
пренебрежение которой ведет к неадекватности модели. Эта проблема будет решаться
использованием модели бинарного выбора с инструментальными переменными.
19
3.
Методология исследования
Исследование будет проведено путем реализации следующих этапов:
 Предварительный анализ данных;
 Дескриптивный анализ данных;
 Корреляционный анализ данных;
 Регрессионный анализ данных;
 Выявление эндогенных факторов, проверка модели на эндогенность: подбор
инструментов и построение модели с инструментальными переменными;
 Интерпретация результатов;
 Выявление ограничений исследования.
3.1
Предварительный анализ данных
Данные представлены P2P заемной компанией Lending Club. Компания была
основана в 2006 г., на данный момент является лидером данной области в США, объем
выданных кредитов превышает $4 млрд., выручка компании за 2013 г. составила около
$100 млн., при этом штат компании составляет всего 380 сотрудников. Компания занимает
5-ое место самых многообещающих американский компаний по версии Forbes, развивает
новые направления, в том числе: сотрудничество с коммерческими банками по
кредитованию малого бизнеса и собирается провести IPO в 2014 г.
Данные предоставлены по 3-х годовым займам, взятых за период с 2008 по 2011 г.,
объем выборки составил более 10 000 наблюдений. Перечень доступной информации по
каждому займу представлен в Таблице 3.
20
Таблица 3
Описание основных переменных
Название
переменной
Описание
Единица измерения
Социально-демографические
Own
Home ownership – тип владения жильем заемщика
Empl
Employment length – стаж работы заемщика
Ранговая переменная 3 –
владелец, 2 – аренда, 1 –
ипотека, 0 - другое
Ранговая переменная от
стажа меньше года до
стажа более 10 лет
(нелинейная
взаимосвязь
маловероятна)
Финансовые
LA
Loan amount – сумма займа
$
I
Interest rate – ставка процента по займу
%
CG
Credit grade – группа кредитного рейтинга займа , по Ранговая переменная, от
шкале разработанной Lending Club
1 до 35 (A1 to G5)
FICO
FICO score – показатель кредитного рейтинга заемщика Число (от 300 до 850)
по модели FICO
Inc
Annual income – годовой доход заемщика
DTI
Debt-to-income ratio – коэффициент отношения долга к %
доходу заемщика
RB
Credit revolving balance – суммарный баланс по всем $
возобновляемым кредитам заемщика (например: лимит
по кредитным картам)
Revolving line utilization rate – отношение используемых %
заемщиком возобновляемых долговых средств к
кредитному лимиту по возобновляемым кредитам
заемщика (например: объем снятых с кредитной карты
заемных средств)
RU
$
Кредитная история
Del
Delinquencies last 2 years – количество просроченных Число
заемщиком платежей по займам за последние 2 года
Inq
Inquiries – количество заявок на кредит, поданных Число
заемщиком за последние полгода
PR
Public records – количество следующих событий, Число
случившихся с заемщиком за последние полгода:
объявление о банкротстве, арест имущества за неуплату
налогов, судимость
Length of credit history – кредитный стаж, число лет, Число лет
прошедших с момента открытия первой кредитной
линии заемщиком до момента подачи заявки
Exp
21
Макроэкономические показатели
Unempl
DR
Unemployment rate – уровень безработицы в штате, %
в котором была зарегистрирована заявка, средняя
за год подачи заявки (US Department of Labor, 2014)
Discount rate – ставка рефинансирования, %
установленная ЦБ США на момент подачи заявки
(Federal Reserve, 2014)
Зависимая переменная
Current status of the loan –статус займа
Status
Бинарная переменная: 0
– кредит выплачен,
1 – был зарегистрирован
дефолт
(задержка
платежа более чем на 2
месяца) или кредит
списан
как
невозвратный
После очистки данных от выбросов была получена выборка, состоящая из кредитов
заемщиков с годовым доходом до $160 тыс., суммарным объемом возобновляемых
кредитов до $40 тыс., числом открытых кредитных линий до 27 и опытом пользования
кредитными продуктами до 40 лет. Объем итоговой выборки составил чуть более 9 тыс.
наблюдений, объем кредитов с регистрированным дефолтом составил 13,8% от всех
заявок.
Данные по кредитные заявкам собраны со всех штатов США, в которых Lending
Club предлагает свои услуги. Распределение заявок по штатам (в том числе количество
дефолтов в штате) представлено на Рис. 1 (подробные показатели по штатам
представлены в Приложении 1). Заметим, что наибольшие доли дефолта в штатах с
числом предоставленных займов более 100 зарегистрированы в Неваде, и Южной и
Северной Дакоте (более 17% дефолтов), в то время как минимальные доли дефолта
зарегистрированы в Колорадо, Коннектикуте и Миннесоте (менее 9% дефолтов).
Данная отрасль характеризуется высокими темпами роста, поэтому распределение
кредитных заявок во времени неравномерно и представлено на Рис. 2 (подробные
показатели представлены в Приложении 2).
22
2000
1800
1600
1400
1200
1000
800
600
400
200
0
TN NV NC SC AZ FL CA MI GA NJ MO OR MD IL NY MAWA TX VA PA OH MN CT CO
Выплачен
Дефолт
Рис. 1. Гистограмма распределения кредитных заявок по штатам США
Выплачен
Дефолт
5000
4000
3000
2000
1000
0
2008
2009
2010
2011
Год
Рис. 2. Гистограмма распределения кредитных заявок во времени
3.2
Дескриптивный анализ данных
Затем был проведен дескриптивный анализ данных.
Значения основных
описательных статистик факторных переменных представлены в Таблице 4.
Как можно заметить, по многим факторным переменным есть значительные
различия в математических ожиданиях по дефолтным и не-дефолтным заявкам. Различия
наиболее велики по годовому доходу (для дефолтных заявок среднее значения меньше на
более чем $8 тыс.), балансу по возобновляемым займам (среднее меньше на почти $700) и
показателю FICO (разница на 15 пунктов).
23
Таблица 4
Значения описательных характеристик переменных
Среднее значение
Максимум
Минимум
Стд. откл.
Выплаче
н
Дефолт
Вероятн
ость
рав-ва
DEL
0,15
0,17
7,9%
7
4
0
0
0,49
0,47
DR
0,73
0,75
0,5%
3
3
1
1
0,17
0,22
DTI
12,84
13,30
0%
30
30
0
0
6,70
6,65
Exp
Выплачен
Дефол
т
Выплаче
н
Дефолт
Выплаче
н
Дефол
т
13,02
12,20
0%
39
39
3
3
6,42
6,31
718,53
703,12
0%
822
807
662
662
36,24
30,91
0,11
0,13
0%
0,22
0,22
0
0
0,03
0,03
INC
65281
57064
0%
159996
157656
6000
9600
30325,42
28080
INQ
0,82
1,05
0%
7
8
0
0
1,03
1,15
LA
10791
10339
1%
35000
35000
1000
1000
6726,19
6858
PR
0,04
0,09
0%
3
2
0
0
0,21
0,30
RB
10457,47
9767,78
0,05%
39926
39850
0
0
9073,55
8618
0,46
0,54
0%
1
1
0
0
0,28
0,29
9,43
9,52
7,9%
14
14
1
3
1,84
1,91
FICO
I
RU
UNEM
PL
Для определения дескриптивной способности переменных и проверки значимости
различий между дефолтными и не-дефолтными заявками также был проведен тест
ANOVA на равенство средних (столбец “Вероятность равенства” в Таблице 4). Результаты
данного теста показывают, что большинство факторов обладают дескриптивной
способностью, за исключением количества просроченных платежей и уровня безработицы
(математические ожидания для этих переменных равны на уровне значимости 5%). Таким
образом, данные переменные исключаются из дальнейшего анализа.
По категориям кредитного рейтинга выборка сильно смещена в сторону надежных
групп: большая часть заявок относится к группам A, B и C (Рис. 3). Доли дефолта по
группам иллюстрируют экономический смысл этих групп: наименьшая доля дефолтов
принадлежит группе А (7% дефолтов), наибольшая группе G (40%) дефолтов; но стоит
отметить, что в группе D дефолтов больше, чем в группе E (22% против 21%).
Большинство заемщиков купили свое жилье в ипотеку, меньше всего заемщиков
отметили “Другое” как тип владения жильем (Рис. 4). При этом наибольшая доля
дефолтов принадлежит последней группе (18%), в то время как наименьшая доля
дефолтов зарегистрирована среди заемщиков, которые арендуют свое жилье (12%).
24
Выплачен
Дефолт
3500
3000
2500
2000
1500
1000
500
0
A
B
C
D
E
F
G
Рис. 3. Гистограмма распределения выборки по категориям кредитного рейтинга
Выплачен
Дефолт
6000
5000
4000
3000
2000
1000
0
Другое
Ипотека
Аренда
Владелец
Рис. 4. Гистограмма распределения выборки по типу владения жильем
Выплачен
Дефолт
2000
1800
1600
1400
1200
1000
800
600
400
200
0
<1
1
2
3
4
5
6
7
8
9
10+
Рис. 5. Гистограмма распределения выборки по опыту работы заемщика, лет
25
По опыту работы среди заемщиков выделяются группы заемщиков с опытом
работы менее года и опытом работы более 10 лет (Рисунок 5). По распределению
дефолтов наиболее благоприятной выглядит группа заемщиков с опытом работы 9 лет
(доля дефолтов 11%). Наибольшая доля дефолтов зарегистрирована среди заемщиков с
опытом работы 7 лет (16%).
3.3
Корреляционный анализ данных
На следующем этапе был выполнен корреляционный анализ данных. Был проведен
расчет парных коэффициентов корреляции Пирсона между зависимой и объясняющей
переменными (Таблица 5).
Таблица 5
Корреляционный анализ парных коэффициентов корреляции между зависимой и
факторными переменными
Коэффициент корреляции
Группа кредитного риска
Просроченные платежи
Ставка рефинансирования
Долг/доход
Стаж работы
FICO
Кредитный стаж
Ставка процента
Доход
Кредитная история (заявки)
Сумма займа
Тип владения жильем
Кредитная история (негативные события)
Возобновляемые кредиты
% использования возобновляемых кредитов
Уровень безработицы
0,152***
0,014
0,028***
0,023**
0,016
-0,146***
-0,048***
0,166***
-0,093***
0,073***
-0,023**
-0,035***
0,063***
-0,026**
0,094***
0,017
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
Из Таблицы 5 Можно заметить, что результаты теста ANOVA согласуются с
результатами
корреляционного
анализа,
коэффициенты
корреляции
зависимой
переменной с количеством просроченных платежей и уровнем безработицы незначимы на
уровне значимости 10%, кроме того также на этом уровне значимости незначим
коэффициент корреляции между вероятностью дефолта и опытом работы. Взаимосвязь
26
этих переменной с вероятностью дефолта статистически незначима, поэтому эти
переменные исключаются из дальнейшего анализа.
Для дальнейшего анализа были выбраны переменные, коэффициенты корреляции
которых с зависимой переменной значимы на уровне значимости 1%. Таким образом, из
анализа также были исключены переменные отношения долга к доходу, суммы займа и
баланса возобновляемых кредитов.
Кроме того оставшиеся факторы были проверены на мультиколлинеарность. Для
этого была построена корреляционная матрица парных коэффициентов корреляции
(Приложение 6). В итоге оказалось, что три переменные: категория кредитного рейтинга,
ставка процента и показатель FICO имеют сильную статистически значимую взаимосвязь
(Таблица 6). Этот факт, объясняется тем, что как категория кредитного рейтинга, так и
показатель FICO являются показателями кредитного риска заемщика, а ставка процента в
свою очередь, определяется из уровня кредитного риска заемщика. В случае с компанией
Lending Club, ставка процента напрямую зависит от группы кредитного рейтинга. Таким
образом, при регрессионном анализе необходимо выбрать одну из этих переменных
Таблица 6
Фрагмент корреляционной матрицы факторных переменных
Группа кредитного рейтинга
Группа кредитного рейтинга
Ставка процента
Ставка процента
1
0,957***
FICO
-0,765***
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
3.4
FICO
1
-0,785***
1
Регрессионный анализ данных
На следующем этапе работы был проведен регрессионный анализ данных. В
результате корреляционного анализа было получено три возможных спецификации
модели в зависимости от того, какую из трех переменных выбрать: группу кредитного
рейтинга, ставку процента или показатель FICO. Оценим все 3 спецификации. Для
простоты оценки моделей две переменных были объединены: число поданных кредитных
заявок и число негативных финансовых событий в кредитной истории заемщика, были
объединены в одну переменную путем суммирования.
27
Оценивалась пробит и логит спецификация, которая имеет следующий вид:
Status  F ( Status, FICO / Credit grade / I , Inc, DR, Inq  PR, RU , Own, Exp),
(3)
Для оценки прогнозного качества моделей использовался ряд статистических
критериев:
 Площадь под ROC-кривой (AUC (Area Under Curve)), которая показывает
зависимость доли верных положительных классификаций от доли ложных
положительных классификаций при варьировании пороговой вероятности.
Преимуществом этого метода оценки является инвариантность кривой
относительно цены ошибки I и II рода. Чем больше площадь, тем
качественнее модель (Satchell и Xia, 2006).
 Логарифм функции максимального правдоподобия (Log likelihood). Данная
функция максимизируется при оценке моделей методом максимального
правдоподобия, которые в том числе используется при оценке логит и
пробит моделей. Т.е., чем больше значения логарифма функции, тем
качественнее модель.
 Точность прогнозирования – средняя точность прогнозирования модели,
показатель, показывающий насколько точно модель предсказывает значение
зависимой переменной (дефолт, не-дефолт).
 AIC, BIC – значения информационных критериев, Акаике и Шварца
соответственно, чем меньше значение критерия, тем качественнее модель.
 Тест на правильность спецификации модели (Specifity test). Данный тест
проверяет значимость взаимосвязи между зависимой переменной и
значением прогноза модели, возведенного в квадрат. Если взаимосвязь
значима, то модель специфицирована неверно. В Таблице 7 представлена Pvalue теста, где нулевая гипотеза говорит о незначимости данной
взаимосвязи (Pregibon, 1980).
 Хи-квадрат тест Пирсона, проверяющий согласованность модели с данными
(Goodness-of-Fit test). Альтернативная гипотеза состоит в том, что мы
должны отвергнуть модель, как не согласующуюся с нашими данными
(Hosmer et al., 1988).
Результаты оценки вышеприведенных показателей представлены в Таблице 7.
28
Таблица 7
Показатели точности трех спецификаций1
Спецификация
Вид модели
AUC
Log likelihood
Точность
прогнозирования2
AIC
BIC
Specifity test
(P-value)
Goodness-of-Fit test
(P-vaule)
Модель 1 (FICO)
Модель 2 (Гр.
кредитного рейтинга)
Модель 3
(Ставка процента)
Логит
Пробит
0,674
0,674
-3457
-3457
Логит
0,664
-3485
Пробит
0,664
-3486
Логит
0,667
-3479
Пробит
0,667
-3478
60%
6987
7044
59%
6987
7044
62%
6974
7031
61%
6972
7028
62%
6930
6987
61%
6929
6986
0,80
0,5
0,09
0,34
0,47
0,89
0,45
0,28
0,67
0,54
0,59
0,43
Подробные результаты оценки спецификаций см. в Приложении 7
2
В качестве пороговой вероятности была выбрана доля дефолтов в выборке – 13,8%. Более подробные
результаты оценки точности прогнозирования представлены в Приложении 8.
Как видно из Таблицы 7, модели пробит и логит по большинству показателей
качества являются сопоставимыми, в некоторых случаях почти одинаковы. Во всех
спецификациях пробит модель превосходит логит модель по значениям информационных
критериев; также при оценке модели №2 логит модель не выполняет тест на правильность
спецификации на уровне значимости 10%. По показателям площади под ROC-кривой,
значения логарифма функции максимального правдоподобия, значения информационных
критериев лучше всех себя ведет модель №3. Все модели удовлетворяют тестам на
спецификацию и согласованности модели. В итоге, была выбрана модель №3 (пробит),
как спецификация, показавшая наилучшее качество прогнозирования по выбранным
показателям.
Значения коэффициентов основных финансовых характеристик заемщика и его
макроокружения оказались значимы (доход, ставка рефинансирования и т.д.), в то время
как значения коэффициентов дополнительных характеристик заемщика оказались
незначимы (тип владения жильем, число счетов заемщика и т.д.) (Приложение 7).
29
3.5
Обсуждение вопроса эндогенности
Наличие эндогенности в модели приводит к несостоятельности и смещенности
оценок, поэтому после оценки модели включенные переменные были проанализированы
на эндогенность их природы. Результаты анализа представлены в Таблице 8.
Таблица 8
Анализ природы факторных переменных
Переменная
Природа
Определяется компанией Lending Club; компания не разглашает
методику расчета этого показателя, известно лишь то, что группа
Группа кредитного
рейтинга
определяется на основе показателей кредитного риска заемщика и
параметрах займа
Переменную можно считать экзогенной
Ставка
рефинансирования
Задается ЦБ США экзогенно
Определяется видом занятости заемщика, данную переменную
можно считать экзогенной, кроме тех случаев, когда заемщик
Доход
заявляет ложную информацию о доходе
Но в нашей выборке у всех заемщиков проверен источник
доходов, таким образом переменная экзогенна
Определяется поведением заемщика
Переменную можно считать эндогенной, в случае если заемщик
целенаправленно минимизирует число поданных заявок на кредит
Заявки + негативные
события
и поддерживает свое финансовое состояние на благоприятном
уровне для того, чтобы получить кредит в компании Lending Club
Вероятность такого поведения мала, поэтому можно считать
переменную экзогенной
Данная переменная отражает процент использования заемщиком
возобновляемых долгов, т.е. процент использования кредитными
% использования
возобновляемых
кредитов
картами и т.д.
В целом, данный показатель может достаточно часто меняться по
воле заемщика, в том числе заемщик может специально погасить
все возобновляемые долги перед моментом подачи заявки на
30
Переменная
Природа
получение
кредита,
т.е.
данная
переменная
может
быть
эндогенной
Определяется множеством факторов и часто постоянен в
Тип владения жильем
долгосрочном периоде, поэтому данная переменная экзогенна в
нашей модели
Зависит от того, когда заемщик в первый раз пользовался
Опыт использования
кредитных продуктов
В
качестве
заемными средствами, т.е. определяется прошлым поведением
заемщика, следовательно, переменная экзогенна
эндогенной
переменной
была
выбрана
переменная
уровня
использования возобновляемых кредитов. Для корректировки модели на эндогенность
необходимо подобрать подходящую инструментальную переменную, т.е. переменную,
коррелирующую с эндогенной, но при этом не коррелирующую с ошибкой в модели, т.е.
являющуюся экзогенной для модели.
Традиционные способы подбора инструментальных переменных включают в себя
использование лаговых переменных и использование усредненных относительно некоего
классификационного признака переменных. Очевидно, что первый способ в нашем случае
недоступен: для каждого заемщика доступны данные лишь на момент подачи заявки.
Второй способ предполагает классифицирование всех заемщиков по одному признаку.
Можно было бы предположить, что заемщики, живущие в одном штате или заемщики,
подавшие заявку на кредит в один момент времени, в идеальной ситуации и то, и то, ведут
себя в целом похоже и пользуются возобновляемыми кредитами на одном уровне. Но в
данном методе классификации существует две проблемы: недостаточность наблюдений
для каждой группы и маловероятность данного поведения.
В нашем случае доступен более подходящий классификатор: группа кредитного
рейтинга – заемщики, относящиеся к одной группе, с большей вероятностью имеют
схожее поведение в отношении пользования возобновляемыми кредитами. Однако, если в
качестве инструментальной переменной использовать лишь усредненную переменную, то
может потеряться часть влияния переменной, определяющей именно индивидуальное
поведение заемщика. Поэтому к усредненной переменной в качестве инструмента
добавляется еще одна переменная: отношение долга к доходу. Как было сказано выше,
доход заемщика является экзогенной переменной, а в качестве долга в данном отношении
31
выступают платежи по долгосрочным текущим долгам заемщика, которые можно также
считать экзогенными, т.к. допускается, что объем данных обязательств достаточно велик и
такие обязательства достаточно сложно погасить в краткосрочном периоде.
Была оценена пробит модель с инструментальными переменными (probit IV), в
качестве эндогенной переменной выступала процент использования возобновляемых
кредитов, в качестве инструмента, средний процент использования возобновляемых
кредитов в группе кредитного рейтинга, к которой относится заемщик, а также
коэффициент отношения долга к доходу заемщика (значения парных коэффициентов
корреляции эндогенной переменной с инструментами подтверждают релевантность
данных инструментов и представлены в Таблице 9). Формально модель выглядит
следующим образом (Miranda и Rave-Hesketh, 2006):
y1*i  y2i   x1i  ui
(4)
y2i  x1i 1  x2i  2  i ,
где:
i  1,..., N – индекс;
y1i*
– вектор зависимых переменных;
y2i
– вектор эндогенных переменных, уравнение записано в сокращенной форме;
x1i
– вектор экзогенных переменных;
x2i
– вектор инструментальных переменных;
ui , i
– возмущения.
Таблица 9
Значения парных коэффициентов корреляции между эндогенной и
инструментальными переменными
% использования
возобновляемых кредитов
% использования
возобновляемых кредитов
Усредненная переменная
Долг/доход
Результаты
оценки
Усредненная
переменная
1,00
0,51
0,25
коэффициентов
модели
пробит
1,00
0,06
с
Долг/до
ход
1,00
инструментальными
переменными представлены в Таблице 10. Коэффициент перед эндогенной переменной
32
потерял значимость, таким образом использование инструментальных переменных только
ухудшило модель. Возможно причина в неправильном выборе спецификации. Попробуем
использовать другую спецификацию, модель №2, данная модель использует показатель
группы кредитного рейтинга займа, который является основополагающим для клиентов
Lending Club, поскольку ставка процента по займу определяется именно исходя из группы
кредитного рейтинга, к которой принадлежит кредит.
Таблица 10
Оценки коэффициентов модели пробит с инструментальными переменными
(Пробит с инструментальными переменными)
Вероятность дефолта
% использования
возобновляемых
кредитов
0.0480
(0.21)
Ставка процента
7.755***
(7.00)
Тип владения жильем
-0.0190
(-0.68)
Доход
-0.00000632***
(-9.99)
Кредитная история
0.0990***
(5.92)
Кредитный стаж
0.00418
(1.43)
Ставка
рефинансирования
0.255**
(2.94)
Константа
-1.944***
(-17.58)
т статистики в скобках
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
Результаты оценки модели №2 с инструментальными переменными представлены в
Таблице 11. В данной спецификации такой проблемы не возникло, значимые
коэффициенты остались значимыми и не изменили знаков. Но, тем не менее, значения
всех коэффициентов изменились, у некоторых незначимых коэффициентов изменились
знаки, значения стандартных ошибок увеличились. Для проверки данной модели было
проведено несколько тестов.
33
Был проведен тест Смита-Бланделла (Smith и Blundell, 1986) на экзогенность
регрессора, который при построении модели с инструментальными переменными был
воспринят как эндогенный. Нулевая гипотеза данного теста состоит в том, что все
регрессоры
модели
являются
экзогенными.
Тестовая
статистика
подчиняются
распределению Хи-квадрат с числом степеней свободы равным количеству эндогенных
регрессоров. Для нашей модели p-value данного теста равно 0,01, т.е. на уровне
значимости 5% принимается альтернативная гипотеза, подозреваемая на эндогенность
переменная действительно эндогенна.
Таблица 11
Оценки коэффициентов модели пробит и модели пробит с инструментальными
переменными
(Пробит)
(Пробит с
инструментальными
переменными)
Группа кредитного рейтинга
0.0329***
(10.11)
0.0208***
(3.58)
Тип владения жильем
-0.0187
(-0.68)
-0.00808
(-0.29)
Доход
-6.34×10-6***
(-10.05)
-6.28×10-6***
(-9.96)
Кредитная история
0.111***
(7.42)
0.126***
(7.94)
Кредитный стаж
0.00234
(0.82)
0.00111
(0.38)
Ставка рефинансирования
0.184*
(2.15)
0.168*
(1.97)
% использования
кредитов
0.261***
0.775***
(3.91)
(3.67)
-1.421***
(-15.11)
-1.548***
(-14.90)
Константа
возобновляемых
т статистики в скобках
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
34
Также был проведен тест Вальда на экзогенность (Wald test for exogeneity), который
тестирует модель на наличие эндогенности, нулевая гипотеза гласит о том, что в модели
отсутствует эндогенность, тестовая статистика также подчиняется распределению Хиквадрат, число степеней свободы равно количеству эндогенных регрессоров (Rivers и
Vuong, 1988). P-value также равно 0,01, т.е. нулевая гипотеза отвергается, в нашей модели
действительно присутствует эндогенность.
Кроме того был проведен обобщенный тест на равенство коэффициентов между
двумя моделями (Seemingly Unrelated estimation), нулевая гипотеза которого состоит в
том, что разница между коэффициентами двух моделей не систематична (Weesie, 1999). Pvalue данного теста оказалась равной 0, т.е. принимается альтернативная гипотеза о
наличии различий между коэффициентами моделей.
Сравнительный анализ двух моделей с точки зрения качества прогнозирования
представлен в Таблице 12.
Таблица 12
Сравнительный анализ качества моделей
Пробит
Пробит
с инструментальными переменными
AUC
0,67
0,66
Log likelihood
-3677
-3188
Точность
61%
59%
AIC
6971
6414
BIC
7028
6549
По показателям площади под ROC-кривой (Рис. 6) и общей точности
прогнозирования обычная пробит модель оказалась лучше модели с инструментальными
переменными. Однако, по значению логарифма функции максимального правдоподобия и
информационным критериям выигрывает пробит с инструментальными переменными.
Таким образом, моделирование с помощью инструментальных переменных не только
подтвердило наличие эндогенности в модели, но и улучшило качество модели с точки
зрения некоторых показателей качества.
35
1.00
0.75
0.50
0.00
0.25
Sensitivity
0.00
0.25
0.50
1-Specificity
ivprobitcgf ROC area: 0.6556
Reference
0.75
1.00
probitcgf ROC area: 0.6667
Рис. 6. Графики ROC-кривых моделей пробит и пробит с инструментальными
переменными
3.6
Интерпретация результатов
Для интерпретации результатов регрессионного анализа были рассчитаны значения
предельных эффектов для пробит модели с инструментальными переменными. Результаты
расчетов представлены в Таблице 13.
Предельный эффект при группе кредитного рейтинга оказался статистически
значимым, и можно утверждать, что переход кредита в худшую группу по кредитному
рейтингу приводит к увеличению вероятности дефолта в среднем на 2,1 %. Предельный
эффект при доходе также оказался
статистически значимым и увеличение годового
дохода на $10 000 приводит к снижению вероятности дефолта в среднем на 6,3%.
Предельный эффект при уровне использования возобновляемых долговых средств тоже
оказался статистически значимым и увеличение процента использования возобновляемых
кредитов на 10% влечет за собой увеличение вероятности дефолта в среднем на 7,8%. При
ставке рефинансирования предельный эффект также оказался статистически значимым и
увеличение ставки рефинансирования США на 1% в свою очередь приводит к увеличению
вероятности дефолта в среднем на 16,8%. Предельный эффект кредитной истории
оказался статистически значимым и подача каждой кредитной заявки в предыдущие
полгода или же каждая регистрация банкротства, судимости или конфискации имущества
за неуплату налогов приводит к увеличению вероятности дефолта заемщика на 12,5%.
Влияние же типа владения жильем и кредитного стажа оказалось статистически
незначимым в модели.
36
Таблица 13
Оценки средних предельных эффектов
Группа кредитного рейтинга
Предельный эффект
0.021***
(0.01)
Тип владения жильем
Доход
-0.081
(0.03)
-6.28×10-6***
(6.3×10-6)
% использования возобновляемых
кредитов
0.775***
(0.21)
Кредитный стаж
0.0011
(0.001)
Ставка рефинансирования
0.168**
(0.09)
Кредитная история
0.125***
(0.02)
Стандартные ошибки в скобках
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
.
37
4. Описание результатов
По результатам дескриптивного анализа в список статистически значимых
факторов кредитного риска не попали две переменные – количество просроченных
заемщиком платежей за последние два года и уровень безработицы в штате заемщика на
момент подачи кредитной заявки.
По результатам корреляционного анализа эти факторы также оказались не
влияющими на кредитный риск, коэффициенты корреляции между ними и вероятностью
дефолта оказались статистически незначимыми. Кроме того, по итогам корреляционного
анализа выяснилось, что на кредитный риск заемщика не влияют стаж работы, сумма
займа и лимит по возобновляемым кредитам, а также коэффициент отношения долга к
доходу. Данный результат противоречит некоторым научным работам в области P2Pкредитования. Так, например, Iyer et al. (2009) пришли к выводу, что такие показатели как
количество просроченных платежей и отношение долга к доходу оказывают влияние на
кредитоспособность заемщика. Klafft (2008) также установил, что коэффициент
отношения долга к доходу оказывает сравнительное малое, но тем не менее статистически
значимое влияние на кредитный риск заемщика. Однако, стоит отметить, что
коэффициент долга к доходу используется в данном исследовании в качестве
инструментальной переменной при моделировании эндогенности
Основными детерминантами кредитного риска заемщика оказались переменные,
которые сами по себе являются индикаторами кредитного риска заемщика – показатели
FICO и группы кредитного риска, а также ставка процента, которая по политике Lending
Club определяется исходя из группы кредитного риска. Эти детерминанты, в свою
очередь, сильно коррелируют между собой, поэтому чтобы избежать проблему
мультиколлинеарности необходимо было разделить эти три переменные. В результате
были оценены три спецификации, лучшей из них оказалась спецификация со ставкой
процента, однако впоследствии при моделировании эндогенности выбор сделан в пользу
спецификации с группой кредитного риска. Ставка процента в данном случае
определяется по группе кредитного рейтинга, однако часто в исследованиях ставка
процента выступает зависимой величиной (Klafft, 2008; Freedman & Jin, 2008).
В нашем исследовании не рассматривалась так называемая «мягкая информация» о
заемщике, которая часто выступала предметом исследований в P2P кредитовании
(Bachmann et al., 2011). Как уже было сказано, после 2008 г. работы о мягкой информации
38
в P2P кредитовании стали неактуальными, по крайней мере для американских P2P
заемных компаний.
Среди отличительных особенностей исследования следует отметить рассмотрение
явления эндогенности при P2P кредитовании. Автором не было обнаружен ни одной
работы, посвященной этой проблеме. При проведении регрессионного анализа было
установлено, что в модели присутствует переменная, имеющая эндогенную природу –
уровень использования возобновляемыми кредитами, т.е. тот объем заемных средств,
который использует заемщик использует на данный момент, по отношению к
максимальному объему доступных заемных средств. Была выдвинута гипотеза о том, что
заемщик может в краткосрочном периоде постараться уменьшить этот показатель, для
улучшения своего кредитного риска и уменьшения ставки процента по будущему кредиту.
Переменная была проинструментирована с помощью оценки модели пробит с
инструментальными переменными (Probit IV), и тесты показали, что эндогенность в
модели на самом деле присутствует. В целом, точность модели ухудшилась по
показателям площади под ROC-кривой и общей точности прогнозирования, однако
значения информационных критериев и логарифма функции максимально правдоподобия
улучшились.
С точки зрения влияния факторов не было выявлено никаких противоречий, все
гипотезы подтвердились, за исключением гипотез о тех факторах, влияние которых
оказалось статистически незначимым.
В результате регрессионного анализа был получен список факторов, оказывающих
статистически значимое влияние на кредитный риск заемщика:
 Группа по кредитному риску займа;
 Годовой доход заемщика;
 Процент использования возобновляемых кредитов;
 Кредитная история заемщика (количество заявок на кредит и негативных
событий);
Включение первой переменной также может говорить о том, что заемщики,
относящиеся к разным группам по кредитному риску могут вести себя по-разному в
отношении выплаты кредитов. Подтверждением этому также является дифференциация
по доли дефолтов в каждой группе (см. Приложение 3) и тот факт, что на основе групп
кредитного рейтинга был построен инструмент для моделирования эндогенности в
модели. Поэтому можно сделать вывод, что при формировании инвестиционного
39
портфеля заемщика необходимо осуществлять дифференциацию по группам кредитного
рейтинга.
Вообще
говоря,
формирование
инвестиционного
портфеля,
отвечающего
требованиям инвестора (уровень риска, объем инвестиций и т.д.) является отдельной
задачей высокой сложности (Рис. 7). В данной работе лишь проиллюстрирована
возможность выполнения этой задачи. Так, например, осуществив фильтрацию по трем
статистически значимым факторам в трех наилучших группах кредитного риска, мы
смогли добиться увеличения доходности портфеля по сравнению с полным портфелем
(выдавать кредиты всем заемщикам) и уменьшить долю потерь (Таблица 14). Стоит
отметить, что критерии были получены лишь на основе анализа средних значений в
группе дефолтных заемщиков.
Все расчеты выполнены с помощью аналитического ресурса nickelsteamroller.com ,
который позволяет проводить бэктестинг инвестиционных портфелей по выбранному
промежутку времени и по заданным критериям. Рентабельность инвестиций (ROI)
считается самим ресурсам, учитывает объем выданных кредитов, полученные проценты,
потери и комиссию P2P компании. Доля потерь также оценена самим ресурсом по
фактическим данным.
40
Таблица 14
Показатели стратегий инвестирования по кредитным группам
Критерии
Рейтинг
Доход
% использ.
возобновл.
кредитами
Заявки
на
кредит
ROI ,
%
ROI
Benchmark,
%
Ставка
%
Сумма
кредитов,
$
%
полученные,
$
Число
кредитов
Потери
,%
Потери, $
Комиссия, $
A
>54200
<37%
0
6,52
3,51
7,43
2 843 800
274 583,53
346
0,03%
1 288,56
31 173,07
B
>54700
<66%
0
8,59
4,60
10,85
2 459 675
355 686,97
207
1,44%
47 128,24
27 701,75
C
>55600
<64%
0
9,95
4,48
13,23
2 895 150
528 085,56
240
2,45%
97 742,95
33 294,27
Рис. 7. Поведение инвестиционных портфелей кредиторов-клиентов Lending Club
41
Заключение
На данный момент отрасль peer-to-peer (P2P) кредитования развивается бурными
темпами. При этом работ, посвященных оценке кредитного риска в данной области
сравнительно немного. В данной работе был предложен метод оценки кредитного риска при
P2P кредитования путем оценки вероятности дефолта с помощью пробит модели. Модель
оценивалась на данных компании Lending Club за 2008-2011 гг.
Результаты работы свидетельствуют о том, что в данной области действительно
имеет место проблема эндогенности объясняющих переменных: переменная уровня
использования возобновляемых кредитов действительно имеет эндогенную природу,
заемщик может изменять данную величину для увеличения вероятности получения займа и
снижения ставки процента. Данную переменную удалось смоделировать с помощью
инструментальных переменных: усреднения данной переменной по группам кредитного
рейтинга и коэффициента отношения долга к доходу. Полученная пробит модель с
инструментальными переменными оказалась в целом не менее качественной и при этом
подтвердила гипотезу о наличии эндогенности в модели при проведении соответствующих
тестов.
Такие результаты могут быть использованы не только при дальнейших исследования
P2P кредитования, но и коммерческими банками при разработке систем риск-менеджмента
при потребительском кредитовании.
Методология, использованная в данной работе, безусловно связана с рядом
ограничений. Большинство из них связано с данными, которые использовались для анализа.
Во-первых, данные ограничены лишь одной компанией, которая осуществляет свою
деятельность только в США, тем самым исследуемый рынок сужается, но стоит отметить,
что были взяты данные крупнейшей P2P кредитной компании в мире.
Также для проведения анализа были доступны данные только до 2011 г., поскольку
минимальный срок кредита составляет три года, т.е. для того, чтобы вынести окончательный
вердикт по каждому кредиту (дефолт или выплачен) необходим трехлетний промежуток, тем
самым исследование становится историческим анализом и неизвестно, применимы ли
результаты для сегодняшних данных.
Кроме того, выборка Lending Club также является смещенной, поскольку не все
заявки попадают на веб-площадку, Lending Club осуществляет фильтрацию заемщиков и не
допускает заемщиков с наихудшими показателями кредитного риска.
42
Методология данной работы также не учитывает временную структуру данных,
поскольку информация о каждом займе доступна лишь на один момент времени, но, тем не
менее, данная проблема отчасти решается включением макроэкономических показателей
(ставки рефинансирования и уровня безработицы)
На основе результатов эмпирического исследования был разработан простейший
пример практического приложения, которым могут пользоваться рядовые инвесторыклиенты P2P заемных компаний. Были проиллюстрированы примеры критериев, на основе
которых инвесторы могут формировать свой портфель заемщиков, минимизируя при этом
потери (случаи дефолта заемщика) и увеличивая доходность своих инвестиций. Но это лишь
верхушка айсберга, разработка методики формирования инвестиционного портфеля является
отдельной задачей, которой могут быть посвящены будущие исследования в рамках P2P
кредитования. Данная работа рассмотрела область P2P кредитования лишь с точки зрения
риска невыплаты кредита заемщиком. Был разработан метод для оценки кредитного риска,
что является частью задачи разработки портфеля. При иллюстрации практического
приложения мы использовали бэктестинг, т.е. оценку эффективности критериев на данных
прошлых периодов. С помощью метода оценки кредитного риска мы можем оценить
будущие потери, что даст нам возможность оценить и доходность портфеля при таких
потерях.
Но следующие этапы данной задачи, а именно непосредственно разработка портфеля,
отвечающего требованиям инвестора по уровню риска, сумме инвестиций и другим
параметрам, а также максимизирующего доходность от инвестиций, как уже было сказано –
отдельная исследовательская задача.
43
Список использованной литературы
1. Письмо
Банка
России
от
29.12.2012
N
192-Т
"О Методических рекомендациях по реализации подхода к расчету кредитного риска
на основе внутренних рейтингов банков".
2. Мальцев, А.И. (2014), “Оценка кредитного риска в области потребительского
кредитования”,
Сборник
работ
первой
межвузовской
научно-практической
студенческой конференции по проблемам экономического развития, сс. 128-138.
3. Цыплаков, А.А. (2007) “Экскурс в мир инструментальных переменных”, Квантиль, №
2, сс. 21-47.
4. Angelini, E. (2007), “A neural network approach for credit risk evaulation”, The Quarterly
Review of Economics and Finance, pp. 733–755.
5. Bachmann, A. et al. (2011), “Online Peer-to-Peer Lending – A Literature Review”, Journal
of Internet Banking and Commerce, Vol. 16, №2.
6. Berger, S. and Gleisner, F. (2009), “Emergence of Financial Intermediaries in Electronic
Markets: The Case of Online P2P Lending”, Business Research. Official Open Access
Journal of VHB, Vol. 2, pp. 39-65.
7. Chen, D., Hao, L. and Xu, H. (2013), “Gender discrimination towards borrowers in Online
P2P lending”, WHICEB 2013 Proceedings, Paper 55.
8. Crook, J.N. (1996), “Credit scoring: an overview”, Working paper series. British Festival of
Science. University of Birmingham, Vol. 96.
9. Crook, J.N., Edelman, D.B. and Thomas, L.C. (2007), “Recent developments in consumer
credit risk assessment”, European Journal of Operational Research, Vol. 183, pp. 14471465.
10. Cutler, D.M. and Gleiser, E. L. (1997), “Are ghettos good or bad?”, Quarterly Journal of
Economics, № 112, pp. 827-872.
11. Freedman, S. and Jin, G. Z. (2008), “Do Social Networks Solve Information Problems for
Peer-to-Peer Lending? Evidence from Prosper.com”, NET Institute Working Paper, Vol. 0843
12. Herzenstein, M., Andrews, R., Dholakia, U. M., and Lyandres, E. (2008), “The
Democratization of Personal Consumer Loans? Determinants of Success in Online Peer-toPeer Lending Communities”, Working Paper, SSRN.
44
13. Hosmer, D. W., Jr., Lemeshow, S.A. and Klar, J. (1988), “Goodness-of-fit testing for the
logistic regression model when the estimated probabilities are small”, Biometrical Journal,
Vol. 30, pp. 911–924.
14. Hulme, M. K. and Wright, C. (2006), “Internet Based Social Lending: Past, Present and
Future”, Social Futures Observatory: London.
15. Iyer, R., Khwaja, A.I., Luttmer, E. F. and Shue, K. (2009) “Screening peers softly: inferring
the quality of small borrowers”, NBER working paper series.
16. Jacobson, T. and Roszbach, K. (1998), “Duration of consumer loans and bank lending
policy: dormancy versus default risk”, Working Paper Series in Economics and Finance,
Vol. 280.
17. Japelli, T. (1990), “Who is credit constrained in the U.S. economy?”, The Quarterly Journal
of Economics, Vol. 105, pp. 219-234.
18. Klafft, M. (2008), “Peer to Peer Lending: Auctioning Microcredits over the Internet”,
Proceedings of the 2008 International Conference on Information Systems, Technology and
Management, Dubai: IMT, pp. 1-8.
19. Miranda, A., and Rabe-Hesketh, S. (2006), “Maximum likelihood estimation of endogenous
switching and sample selection models for binary, ordinal, and count variables”, Stata
Journal, Vol. 6, pp. 285–308.
20. Pregibon, D. (1980), “Goodness of link tests for generalized linear models”, Applied
Statistics, Vol. 29, pp. 15–24.
21. Pope, D. G. and Sydnor, J. R. (2008), “What's in a Picture? Evidence of Discrimination
from Prosper.com”, Working Paper, SSRN.
22. Puro, L., Teich, J., Wallenius, H. and Wallenius, J. (2010), “Borrower Decision Aid for
people-to-people lending”, Decision Support Systems, Vol. 49, pp. 52-60.
23. Ravina, E. (2008), “Love & Loans: The Effect of Beauty and Personal Characteristics in
Credit Markets”, Working Paper, SSRN.
24. Rivers, D., and Vuong, Q.H. (1988), “Limited information estimators and exogeneity tests
for simultaneous probit models”, Journal of Econometrics, Vol. 39, pp. 347–366.
25. Satchell, S. and Xia, W. (2006), “Analytic models of the ROC curve: Applications to credit
rating model validation”, Quantitative finance research centre, Research paper 181.
26. Smith, R. J. and Blundell, R. W. (1986), “An exogeneity test for a simultaneous equation
Tobit model with an application to labor supply”, Econometrica, Vol. 54, pp. 679-686.
27. Wang, X., Zhang, D., Zeng X., and Wu. X. (2013), “A Bayesian Investment Model for
Online P2P Lending”, Communications in Computer and Information Science, Vol.
401, pp. 21-30.
45
28. Weesie, J. (1999), “Seemingly unrelated estimation and the cluster-adjusted sandwich
estimator” Stata Technical Bulletin, Vol. 52, pp. 34–47.
29. Агентство доступных кредитов (2013), “Перспективы peer-to-peer кредитования в
России”, режим доступа: www.dostup-credit.ru/node/122
30. Лайф.Среда (2013), “Деньги Будущего. Лучшие финансовые мобильные и интернетсервисы.
Итоги
2012
и
тренды
2013”,
режим
доступа:
http://lifesreda.ru/assets/LifeSREDA_BestFinancialApps_2012c204a4077ab541b7a53763e470c44538.pdf
31. Federal Reserve Discount Window (2014), “Historical discount rates”, available at:
http://frbdiscountwindow.org/historicalrates.cfm?hdrID=20&dtlID
32. United States Department of Labor (2014), “Unemployment rates by states”, available at:
http://www.bls.gov/lau/lastrk08.htm
46
Приложения
Приложение 1
Анализ выборки по штатам
Штат
Alabama
Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
District of
Columbia
Florida
Georgia
Hawaii
Illinois
Kansas
Kentucky
Louisiana
Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nevada
New
Hampshire
New Jersey
New Mexico
New York
North
Carolina
Ohio
Oklahoma
Oregon
Pennsylvania
Rhode Island
South
Carolina
South Dakota
Tennessee
Аббревиатура Всего кредитов Доля от портфеля Дефолтов Доля дефолтов
AL
17
0,19%
2,00
11,76%
AK
99
1,08%
15
15,15%
AZ
209
2,28%
35
16,75%
AR
61
0,66%
5
8,20%
CA
1801
19,61%
288
15,99%
CO
169
1,84%
13
7,69%
CT
146
1,59%
12
8,22%
DE
21
0,23%
5
23,81%
DC
69
0,75%
7
10,14%
FL
681
7,42%
111
16,30%
GA
322
3,51%
48
14,91%
HI
37
0,40%
6
16,22%
IL
322
3,51%
44
13,66%
KS
55
0,60%
8
14,55%
KY
79
0,86%
10
12,66%
LA
89
0,97%
9
10,11%
MD
240
2,61%
34
14,17%
MA
311
3,39%
39
12,54%
MI
153
1,67%
23
15,03%
MN
152
1,66%
13
8,55%
MS
3
0,03%
0
0,00%
MO
151
1,64%
22
14,57%
MT
16
0,17%
3
18,75%
NV
130
1,42%
23
17,69%
NH
33
0,36%
4
12,12%
NJ
416
4,53%
61
14,66%
NM
47
0,51%
7
14,89%
NY
932
10,15%
126
13,52%
NC
144
1,57%
25
17,36%
OH
249
2,71%
25
10,04%
OK
76
0,83%
11
14,47%
OR
105
1,14%
15
14,29%
PA
318
3,46%
33
10,38%
RI
44
0,48%
7
15,91%
SC
100
1,09%
17
17,00%
SD
8
0,09%
2
25,00%
TN
3
0,03%
1
33,33%
47
Штат
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
Аббревиатура Всего кредитов Доля от портфеля Дефолтов Доля дефолтов
TX
645
7,02%
73
11,32%
UT
55
0,60%
6
10,91%
VT
4
0,04%
0
0,00%
VA
342
3,72%
38
11,11%
WA
190
2,07%
22
11,58%
WV
41
0,45%
4
9,76%
WI
83
0,90%
11
13,25%
WY
14
0,15%
1
7,14%
Итого
9182
100,00%
1264
Приложение 2
Анализ выборки по времени
Год
2008
2009
2010
2011
Всего
191
1171
3366
4454
Дефолт
41
164
332
727
Доля
дефолтов
21,47%
14,01%
9,86%
16,32%
Приложение 3
Анализ выборки по переменной группы кредитного рейтинга
Группа Количество кредитов Доля выборки Дефолт Доля дефолтов
A
2896
31,54%
210
7,25%
B
2903
31,62%
393
13,54%
C
1825
19,88%
318
17,42%
D
1121
12,21%
243
21,68%
E
344
3,75%
72
20,93%
F
73
0,80%
20
27,40%
G
20
0,22%
8
40,00%
Итого
9182,00
100,00% 1264,00
Приложение 4
Анализ выборки по переменной опыт работы
Опыт работы
< 1 года
1 год
2 года
3 года
4 года
5 лет
6 лет
Количество кредитов Доля выборки Дефолт Доля дефолтов
1232
13,42%
158
12,82%
770
8,39%
103
13,38%
1061
11,56%
129
12,16%
1026
11,17%
142
13,84%
857
9,33%
110
12,84%
747
8,14%
98
13,12%
478
5,21%
68
14,23%
48
Опыт работы Количество кредитов Доля выборки Дефолт Доля дефолтов
7 лет
386
4,20%
62
16,06%
8 лет
330
3,59%
44
13,33%
9 лет
270
2,94%
30
11,11%
Больше 10 лет
1782
19,41%
257
14,42%
Итого
9182,00
100,00% 1264,00
Приложение 5
Анализ выборки по переменной тип владения жильем
Тип владения жильем Количество кредитов Доля выборки Дефолт Доля дефолтов
Другое
33
0,36%
6
18,18%
Ипотека
4866
52,99%
735
15,10%
Аренда
3653
39,78%
438
11,99%
Владелец
630
6,86%
85
13,49%
Итого
9182
100%
1264
Приложение 6
Корреляционная матрица парных коэффициентов корреляции между факторными
переменными
CG
INC
DR
INQ
PR
OA
OWN
RU
TA
EXP
I
FICO
CG
1
INC
0,028***
1
-0,016
-0,034***
1
0,125***
0,041***
0,005
1
0,112***
-0,003
0,032***
0,037***
1
-0,055***
0,244***
-0,012
0,090***
0,019*
1
-0,103***
0,165***
-0,005
0,047***
0,015
0,128***
1
0,482***
0,008
0,004
-0,060***
0,079***
-0,109***
-0,095***
1
-0,123***
0,378***
-0,009
0,127***
0,012
0,673***
0,225***
-0,089***
1
-0,154***
0,287***
-0,014
0
0,068***
0,219***
0,217***
-0,041***
0,409***
1
0,957***
0,011
-0,063***
0,134***
0,115***
-0,057***
-0,107***
0,490***
-0,135***
-0,168***
1
-0,765***
0,104***
-0,037***
-0,051***
-0,155***
-0,009
0,136***
-0,559***
0,129***
0,230***
-0,785***
DR
INQ
PR
OA
OWN
RU
TA
EXP
I
FICO
1
Значимость коэффициентов: (*) 10%, (**) 5%, (***) 1%
49
Приложение 7
Таблица 1
Результаты оценки модели №1
(Логит)
Вероятность дефолта
(Пробит)
Вероятность дефолта
-0.0105***
(-9.20)
-0.00558***
(-9.21)
-0.0392
(-0.77)
-0.0207
(-0.75)
-0.0000105***
(-8.76)
-0.00000547***
(-8.73)
Кредитная история
0.222***
(8.24)
0.122***
(8.22)
Кредитный стаж
0.00632
(1.19)
0.00284
(0.99)
0.272
(1.77)
0.138
(1.58)
0.425***
0.229**
(3.30)
(3.28)
5.583***
(6.61)
6986.6
7043.6
9168
2.870***
(6.35)
6987.1
7044.1
9168
Показатель FICO
Тип владения жильем
Доход
Ставка рефинансирования
Процент пользования
возобновляемыми кредитами
Константа
AIC
BIC
Число наблюдений
50
Таблица 2
Результаты оценки модели №2
(Логит)
Вероятность дефолта
(Пробит)
Вероятность дефолта
0.0593***
(10.09)
0.0329***
(10.11)
-0.0335
(-0.66)
-0.0187
(-0.68)
-0.0000122***
(-9.99)
-0.00000634***
(-10.05)
Кредитная история
0.204***
(7.56)
0.111***
(7.42)
Кредитный стаж
0.00507
(0.97)
0.00234
(0.82)
0.332*
(2.24)
0.184*
(2.15)
0.469***
0.261***
(3.78)
(3.91)
-2.420***
(-14.24)
6974.2
7031.1
9168
-1.421***
(-15.11)
6971.7
7028.7
9168
Группа кредитного рейтинга
Тип владения жильем
Доход
Ставка рефинансирования
Процент пользования
возобновляемыми кредитами
Константа
AIC
BIC
Число наблюдений
51
Таблица 3
Результаты оценки модели №3
(Логит)
Вероятность дефолта
(Пробит)
Вероятность дефолта
Ставка процента
13.31***
(11.90)
7.173***
(11.91)
Тип владения жильем
-0.0298
(-0.59)
-0.0163
(-0.59)
-0.0000121***
(-9.94)
-0.00000633***
(-10.01)
Кредитная история
0.189***
(6.96)
0.103***
(6.85)
Кредитный стаж
0.00790
(1.51)
0.00380
(1.33)
Ставка рефинансирования
0.444**
(3.00)
0.246**
(2.88)
Процент пользования
возобновляемыми кредитами
0.323**
0.187**
(2.60)
(2.78)
-3.406***
(-16.82)
6930.0
6987.0
9168
-1.942***
(-17.55)
6929.4
6986.3
9168
Доход
Константа
AIC
BIC
Число наблюдений
t статистики в скобках
Значимость: * p< 0.05, ** p < 0.01, *** p < 0.001
Приложение 8
Таблица 1
Показатели точности спецификаций (логит модели)
Модель
Выплачен
Дефолт
Всего
Точность, %
Модель №1 (FICO)
Модель №2 (CG)
Модель №3 (I)
Выборка
Выборка
Выборка
Выплачен
Дефолт
Всего
Выплачен
Дефолт
Всего
Выплачен
Дефолт
Всего
4684
3225
7909
59,22
445
814
1259
64,65
5129
4039
9168
59,97
4940
2969
7909
62,46
482
777
1259
61,72
5422
3746
9168
62,36
4859
3050
7909
61,44
464
795
1259
63,15
5323
3845
9168
61,67
52
Таблица 2
Показатели точности спецификаций (пробит модели)
Модель
Выплачен
Дефолт
Всего
Точность, %
Модель №1 (FICO)
Модель №2 (CG)
Модель №3 (I)
Выборка
Выборка
Выборка
Выплачен
Дефолт
Всего
Выплачен
Дефолт
Всего
Выплачен
Дефолт
Всего
4554
3355
7909
57,58
429
830
1259
65,93
4983
4185
9168
58,73
4843
3066
7909
61,23
465
794
1259
63,07
5308
3860
9168
61,49
4747
3162
7909
60,02
443
816
1259
64,81
5190
3978
9168
60,68
53
Download