Прогнозирование индикаторов рынка недвижимости путём

advertisement
Прогнозирование индикаторов рынка недвижимости путём двумерного
разложения дискретной пространственно-параметрической модели на основе
применения нейросетей.
Евстафьев Артем Иванович
Начальник отдела консалтинга ООО “Компания ВИЛЛАН””, г. Краснодар,
Сертифицированный аналитик рынка недвижимости”;
e-mail: artem-ivanovich@yandex.ru;
Гордиенко Владимир Алексеевич
Начальник IT отдела ООО “Компания ВИЛЛАН”, г. Краснодар;
e-mail: spider.11@rambler.ru
Рынок недвижимости далек от совершенного по многим позициям, что и определяет
особенности его исследования. Качественная аналитическая работа на рынке недвижимости
представляется в высшей степени сложным предметом, требующим глубокой проработки
методологии исследования, правил интерпретации данных и алгоритма
выработки
рекомендаций [1].
На фоне усиливающейся дифференциации территорий муниципалитетов по уровню
развития социальной инфраструктуры, транспортных сетей, деловой активности,
обеспеченности жильем, недостаточное внимание, уделяемое качеству аналитики и методам
воздействия на территориальное развитие, является одной из главных причин большинства
кризисов местных сообществ.
В последние годы в рамках практики государственного регулирования рынка
недвижимости сложилась методика формирования информационной базы, задача которой получение информации о рынке недвижимости, жилом фонде, рынке строительных материалов
на уровне муниципальных образований [2]. Однако в рыночной системе хозяйствования
сложившийся инструментарий анализа не удовлетворяет информационные потребности
местных сообществ в силу разных причин. Одна из главных – слабая проработка концепций
рыночного регулирования на основе прогноза состояния рынка, сугубо нормативно-плановый
характер анализа.
Классификация методов прогнозирования индикаторов рынка недвижимости по степени
формализации представлена в таблице 1.
Таблица 1
Классификация прогнозов индикаторов рынка недвижимости
по степени формализации методов
Субъект
прогнозирования
Эксперт
Аналитикпрогнозист
Метод прогнозирования
Прогнозистстатистик
Интуиция, знание рынка, метод аналогий
Количественный и качественный
фундаментальный анализ факторов,
сценарный метод
Фундаментальный анализ экономической
ситуации и ее влияния на показатели
рынка недвижимости (демографический
анализ, метод прогноза доходов
населения…)
Регрессионный анализ, статистическое
моделирование
Прогнозистмоделист
Многофакторное моделирование,
нейросетевое моделирование
Прогнозисттеоретик
1
Вид прогноза
Экспертное предсказание
Эвристический прогноз
Фундаментальный прогноз
факторов (объемов
строительства, предложения,
спроса, оборотов рынка)
Прогноз на основе
регрессиионной
статистической модели
Прогноз на основе
многофакторной модели,
нейронных сетей
На практике различные методы применяются совместно, в том или ином сочетании. Тем
не менее, необходимо отличать экспертное предсказание тенденций на рынке (метод 1),
необоснованно называемое прогнозом (которое в силу высокой квалификации эксперта может
быть достаточно точным), от методически обоснованного, расчетного прогноза (методы 2-5).
Первая методика прогнозирования рынка недвижимости в России появилась вместе с
началом зарождения и развития рынка (в начале 90-х годов XX века) [3]. Разработанная вначале
для рынка жилья, она была использована также и для других сегментов рынка.
Методика включает два метода. Один из них – эвристическое прогнозирование, т.е.
количественный и качественный анализ отдельных факторов, влияющих на динамику рынка, и
их связей.
Второй метод – статистическое прогнозирование на основе построения регрессионных
моделей динамики цен. Этот метод требует, с одной стороны, выдвижения содержательной
гипотезы о характере протекающих процессов и тенденций их развития, что подразумевает
высокий уровень изученности ситуации на рынке. А с другой – наличия достаточно длинных
динамических рядов, что в реалиях новой истории России было возможно в 1991-1998 г. (6-7
лет последовательного развития рынка) и после 2000 г. (более восьми лет послекризисного
развития).
Альтернативный метод прогнозирования, основанный на двумерном разложении
Дискретной пространственно-параметрической модели с последующим нейросетевым
анализом, предполагает большую достоверность, поскольку избегает крайностей предыдущих
двух методов. Его можно применять самостоятельно при отсутствии длинных статистических
рядов наблюдений, слабой изученности явлений и процессов, неясности закономерностей,
связывающих между собой исследуемые рыночные факторы и прогнозируемый показатель.
Методология прогнозирования на основе нейронных сетей руководствуется следующим
понятийно-методологическим аппаратом:
1. Дискретная пространственно - параметрическая модель (ДППМ) рынка
недвижимости (Таблица Стерника) – упорядоченный набор индикаторов состояния рынка по
всем его сегментам, полученный в результате параллельного сечения рассматриваемой выборки
объектов недвижимости по следующим измерениям: Размер, Местоположение, Качество, Срок
сдачи объекта и (реже) другие (см. рис. 1) [4].
2. Ячейка ДППМ - мельчайшая неделимая единица информации о конкретном
сегменте в локальном рынке недвижимости (информация об объектах недвижимости с
определенным Местоположением, Размером, Качеством и т.д.).
Рис. 1. Каркас ДППМ с примером ячейки, имеющей конкретный адрес
3. Измерение ДППМ - ось в гиперпространстве, задающая конкретный адрес каждой
ячейке (как в табличном процессоре Excel); Пример измерений для вторичного рынка жилья
2
Краснодара: Кол-во комнат в квартире (Размер), Топонимический район (Местоположение),
Материал наружных стен дома (Качество).
4. Параметр ячейки ДППМ - конкретная статистическая величина, агрегирующая
данные по выборке, вошедшей в ячейку. Пример параметров: средняя, максимальная,
минимальная цена предложения, кол-во объектов в выборке, темп прироста цен и т.д. Набор
параметров - содержимое ячейки.
5. Слой ячеек ДППМ - набор ячеек из куба ДППМ, соответствующий определенному
значению по одному из измерений. В аналогии с кубиком Рубика такой набор ячеек будет
соответствовать слою маленьких кубиков, находящихся в одной плоскости.
6. Искусственные нейронные сети (ИНС) — математические модели, а также их
программные или аппаратные реализации, построенные по принципу организации и
функционирования биологических нейронных сетей — сетей нервных клеток живого
организма.
Основной элемент нейронных сетей – формальный нейрон, реализующий операцию
нелинейного преобразования суммы произведений входных сигналов на весовые
коэффициенты. Нейронная сеть (НС) - совокупность нейроподобных элементов, определенным
образом соединенных друг с другом и внешней средой с помощью связей, определяемых
весовыми коэффициентами.
Важное свойство НС - способность к обучению. Процесс обучения НС рассматривается
как настройка ее топологии и весов связей для эффективного выполнения конкретной задачи.
НС обучается так, чтобы для некоторого множества входов давать желаемое множество
выходов. Обучение ведется путем последовательной генерации по определенной процедуре
входных векторов с одновременной подстройкой весов. В ходе обучения веса НС постепенно
становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор. Цель
обучения – минимизация ошибки в формировании выходов из заданных входов в нейронную
сеть.
Вербальное описание нейронной сети на математическом языке показывает принцип
работы нейронной сети: сеть создаёт коэффициенты отображающие степень зависимости
между входными и выходными данными [5].
Основными преимуществами нейросетевого моделирования перед другими методами
являются:
- высокая помехоустойчивость и адекватность;
- нечувствительность к наличию пропусков и искажений в данных;
- неявный учет скрытого взаимного влияния известных переменных и реализация
нелинейного влияния неизвестных параметров.
Основными недостатками нейросетей, препятствующими их использованию относятся
[6]:
- неинтерпретируемость вербализаванного результата сформированного нейросетевой
моделью;
- необходимость наличия большого объема исходных данных для обучения и
тестирования нейросетевой модели;
- невозможность использования имеющихся знаний представленных в форме
функциональных зависимостей.
Нейронные сети достаточно эффективно используются в задачах, сопряженных с
классификацией рынка недвижимости, но весьма ограниченно применяются в задачах
численного прогноза [7]. Основная причина неудач: невозможность строить обучение сетей на
рядах динамики (трендах) ввиду значительной инертности рынка недвижимости. В отличие от
фондового рынка зафиксировать изменение того или иного индикатора рынка, свободного от
статистической погрешности, возможно только на достаточно длительных промежутках
времени (не менее месяца). В результате исследователь просто не имеет возможности набрать
необходимое для эффективного обучения сети количество обучающих примеров, а именно:
набор достоверных и единообразных индикаторов рынка из хотя бы 50-100 временных
интервалов.
3
Алгоритм создания инструментария прогноза путем двумерного разложения ДППМ с
последующим нейросетевым анализом выглядит следующим образом:
1. Статистическая обработка массива данных
1.1. Построение ДППМ с максимально обширным объемом параметров в ячейках отдельно
для каждого временного отрезка в предыстории.
1.2. Двумерное разложение ДППМ.
1.3. Подготовка и нормализация данных.
2. Интеллектуальная обработка данных.
2.1. Обучение множества нейронных сетей по всей предыстории.
2.2. Оценка качества обучения и выбор наиболее удачных сетей при помощи
корреляционного анализа.
3. Регрессионное моделирование
3.1. Формирование единого набора прогнозов, полученных из всех отобранных сетей, и
фактических значений роста цен по предыстории.
3.2. Построение регрессионного уравнения, увязывающего прогнозы сетей с фактом.
Алгоритм применения инструментария:
1. Статистическая обработка массива данных:
1.1. Построение ДППМ для текущего временного отрезка.
1.2. Двумерное разложение ДППМ.
2. Интеллектуальная обработка данных:
2.1. Получение прогноза индикаторов рынка по новым данным из уже обученных сетей.
3. Регрессионное моделирование:
3.1. Получение максимально достоверного прогноза при помощи ранее полученного
регрессионного уравнения.
На временном интервале 1 (см. рис. 2) обучается первое множество сетей. Далее на
интервале 2 (интервале тестовой выборки) производится отбор лучших сетей; делается прогноз
на период 3 на основании данных периода 2. На интервале 3, на котором получены реальные
данные за период 3, рассчитывается регрессионная модель увязки прогнозов отобранных сетей
с фактическими данными; инструментарий прогнозирования на данных за период 3 делает свой
первый самостоятельный прогноз на период 4. На интервале 4 получаются фактические данные
для сопоставления с прогнозом, сделанным на этапе 3; на основании выявленных различий
происходит дообучение сетей. На данных периода 4 производится очередной прогноз
инструментария на период 5 и так далее (после получения фактических данных за период 5
будет проведено очередное дообучение сетей и сделан прогноз на следующий период).
Отладка инструментария
Время, периоды
1
2
3
4
5
Рис. 2. Алгоритм прогнозирования на основе применения нейронных сетей
в хронологическом порядке этапов методики
Для реализации метода прогнозирования индикаторов рынка необходимо создать
несколько таблиц (по количеству измерений в ДППМ): в нашем случае три таблицы, у каждой
из которых измерение, откладываемое по вертикали будет разным. При этом значение
параметров (конкретных статистик) в ячейках, имеющих один и тот же адрес, не изменится (см.
рис. 3).
4
Рис. 3. Схема двумерного разложения ДППМ рынка недвижимости.
Полученные три варианта транспонирования одной и той же ДППМ используются в
обучении трех нейронных сетей (каждая ДППМ через свою персональную сеть).
Входами в сеть будут значения параметров всех ячеек вошедших в один слой. Выходами
- любой целевой параметр, значение которого известно по предыстории, но не известно в
будущем. Тогда число входов равняется количеству ячеек, вошедших в один слой,
помноженному на количество параметров, а число выходов равно просто количеству ячеек в
слое (см. рис. 4). Получим три сети, обученные на одинаковом наборе исходных данных, но при
разном способе ввода этих данных (ввод данных осуществляется группами ячеек с
одинаковыми либо размерами квартиры, либо местоположением, либо качеством).
первый слой
нейронов (вход)
третий слой
нейронов (выход)
Рис. 4. – Схема обучения нейросети данными, полученными в результате двумерного
разложения ДППМ
Очевидно, сети не будут выдавать одинаковые прогнозы по конкретным ячейкам. На
основе регрессионного моделирования по предыстории оценивается качество прогноза,
который дает каждая сеть по отдельности и во взаимосвязи друг с другом путем сравнения ее
выходов с реальными значениями рассматриваемого явления. Таким образом, представленный
метод прогнозирования индикаторов рынка недвижимости предполагает прогнозирование, при
котором нейронная сеть является промежуточным этапом анализа – полученные выходы
нейронных сетей представляют собой совокупность трех прогнозов по каждой ячейке ДППМ,
5
которые необходимо совместить друг с другом (по уникальному адресу каждой ячейки) и
подвергнуть регрессионному анализу-прогнозу (см. табл. 2).
Таблица 2
Математическое представление результатов этапов нейросетевого
и регрессионного прогнозирования.
Адрес ячейки
по
Классу
0
0
0
0
0
0
0
0
0
0
0
0
0
по
Местоп
оложен
ию 0
0
0
0
0
0
0
0
0
0
0
0
0
по
Размер
у
0
0
0
0
0
0
0
0
0
1
1
1
1
* - рост цены.
по
Месяц
у
1
2
3
4
5
6
7
8
9
1
2
3
4
Уникаль
ный
адрес
0001
0002
0003
0004
0005
0006
0007
0008
0009
0011
0012
0013
0014
Фактичес
кое
значение
индикато
ра
101,42
103,09
99,54
102,31
101,08
99,80
100,97
101,00
100,67
99,82
103,43
98,76
102,41
Прогноз сетей
сеть
местопо
ложения
103,13
104,27
101,29
102,47
100,70
98,12
101,89
100,38
98,66
104,54
103,05
99,84
102,40
сеть
класса
Регресс
ионный
прогноз
сеть
размера
100,83
100,58
99,75
101,92
100,22
101,85
95,95
98,01
101,55
101,60
103,47
98,03
105,21
103,09
100,73
102,16
101,69
99,56
104,11
98,47
99,37
103,15
109,30
109,15
108,50
102,89
101.39
102,64
100,66
102,22
101,72
99,69
100,.70
100,72
100.13
99,70
100,06
96,82
103,15
Коэффициент детерминации (R2) регрессионной модели (зависимая переменная фактический рост цен на вторичке в следующем после наблюдаемого месяце; три фактора прогнозные значения роста цен из каждой нейронной сети) построенной на тестовой выборке,
не участвовавшей в обучении сетей (сети обучены на временном отрезке с января по сентябрь
2008 года), для ячеек, соответствующих Всему рынку города (Все районы, Все размеры, Все
классы) равен 0,764 (см. табл. 3-4). Другими словами: при вероятность наступления прогноза
95% (см. Значимость изменения F в табл. 3), ошибка прогноза составляет 23,6%.
Таблица 3
Сводка регрессионной модели*
R
квадрат,
R,
коэффициент
Стандартная
Значимость
коэффициент
детерминации
ошибка оценки
изменения F
корреляции
0,874
0,764
0,682
0,050
* - Предикторы: константа, прогнозы трех сетей (по размеру, местоположению и классу).
Таблица 4
Коэффициенты регрессионной модели*
Нестандартизованные
коэффициенты
Коэффициент
Стандартная
B
ошибка
Константа
63,252
21,530
Прогноз местоположение
0,348
0,131
Прогноз класс
0,439
0,210
Прогноз размер
-0,407
0,222
* - Зависимая переменная: Факт.
Стандартизованные
коэффициенты
Бета
0,627
0,777
-0,715
Значимость
изменения F
0,032
0,045
0,090
0,126
Прогноз общий = 63,252 + 0,347 х Прогноз_местоположение + 0,438 х Прогноз_класс +
+ (–0,407) х Прогноз_размер
Если просто аппроксимировать предысторию подходящей однофакторной кривой, то R2
для зависимой переменной Рост цен намного хуже (всего 0,13). Как видно на графике
6
разнонаправленные тенденции изменения индикаторов рынка на различных временных
интервалах отрицательно сказываются на качестве аппроксимирующей кривой: общая
тенденция, вроде бы, прослеживается, но прогнозирование точных значений невозможно.
Данный недостаток аппроксимации трендов особенно отчетливо проявляется в периоды излома
тенденций, когда перманентный рост (или падение) цен сменяется неслучайными
(обусловленными системной взаимосвязью различных рыночных факторов) колебательными
изменениями то в одну, то в другую сторону (см. рис. 5). И уж тем более плох метод
аппроксимации в прогнозировании наступления этих изломов тенденций.
104
103
102
101
100
99
98
97
январь
февраль
март
апрель
май
июнь
июль
август
сентябрь
Нейросетевой прогноз, R2=0,764
Факт
Аппроксимирующая прямая, R2 = 0,1345
Рис. 5. Сравнительная характеристика эффективности прогнозов на основе линейной
аппроксимации и нейросетевого анализа ДППМ
Метод, основанный на нейросетевом анализе ДППМ, дает намного более точный
прогноз. Данный метод угадывает направление изменения индикатора рынка (в нашем случае –
цены) на временном интервале, отличающемся нестабильностью поведения наблюдаемого
индикатора.
Уникальность метода:
1. Корреляционно-регрессионный анализ можно применить при анализе взаимосвязи
параметров внутри ячейки с одним целевым параметром. Однако тогда не учитывается
единство внутри слоя ячеек: регрессионная модель предполагает зависимость одного параметра
от множества других. При использовании нейронных сетей можно получить набор связанных
выходов. Тем самым резюмируется наличие внутренней логической связи между ячейками,
вошедшими в один слой.
2. Итогом этапа нейросетевого анализа является по сути не один прогноз, а три (по
числу измерений ДППМ). Оценивая их качество (по критерию максимальной корреляции)
можно найти то, каким образом агрегировать их в более достоверный один прогноз.
Метод применения нейронных сетей в прогнозировании индикаторов рынка
недвижимости путём двумерного разложения дискретной пространственно-параметрической
модели является концептуальной платформой ряда направлений исследования рынка
недвижимости:
1. Прогнозирование неценовых индикаторов рынка недвижимости, таких как
конъюнктура спроса и предложения, обороты и емкость рынка, ликвидность объектов и т.д.
2. Разработка методики вычисления пропущенных и исправления недостоверных
значений параметров в ячейках ДППМ (интеллектуальная нормализация данных); вычисление
7
вероятных значений параметров в Пустых ячейках (в локациях и/или сегментах, где нет
объектов недвижимости).
3. Комбинирование и интеграция получаемых данным методом результатов
корреляционно-регрессионного анализа в семейство традиционных методов регрессионного
анализа рынка недвижимости (с ростом новых непересекающихся факторов регрессионной
модели растет качество модели - R2).
4. Разработка методики сценарного прогнозирования связанных значений одной части
набора индикаторов рынка в определенной ячейке ДППМ (входов сети) для заданного значения
другой части набора индикаторов рынка (выходов сети).
Библиография
1. Де Марк Т. Технический анализ - новая наука. М., 1997.
2. Степанов В., Фондовый рынок и нейросети. // Мир ПК. 1998. №12. с.40.
3. Галушкин А.И. О Современных направлениях развития нейрокомпьютеров //
Информационные технологии. 1997. №5. С.2.
4. Вайну Я. Я.-Ф. Корреляция рядов динамики. М., 1977.
5. Стерник Г.М. Технология анализа рынка недвижимости. М., 2008.
6. Пахомова О.М., Федоров В.П. Земля в городе и проблема ее массовой рыночной
оценки. (Модельное и Информационное обеспечение массовой оценки территории города). //
Вопросы оценки. 1997. №4. с.48.
7. Мерлен П. Город. Количественные методы изучения. Пер. с франц. М., 1977.
8
Download