Правительство Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования

advertisement
Правительство Российской Федерации
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
Национальный исследовательский университет
«Высшая школа экономики»
Факультет Бизнес-информатика
Отделение Программная инженерия
Кафедра
Управления разработкой программного обеспечения
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
На тему: Информационно-аналитическая система массовой и индивидуальной
оценки недвижимого имущества.
Листов 141
Студент группы №271мУРПО
Моргач П.А.
Научный руководитель:
профессор Авдошин С.М.
Москва, 2014
Национальный исследовательский университет
Высшая школа экономики
Факультет: Бизнес-информатика
Отделение: Программная инженерия
Кафедра: Управление разработкой программного обеспечения
ЗАДАНИЕ
на выпускную квалификационную работу
студенту
271 мУРПО группы
Моргачу
Павлу
Александровичу
Тема ВКР:
Информационно-аналитическая система массовой и
индивидуальной оценки недвижимого имущества.
Целевая установка и исходные данные: На основе анализа предметной
области
разработать
информационно-аналитическую
систему,
позволяющую в автоматизированном режиме выполнять экспертизу
результатов массовой кадастровой оценки недвижимости (верификация
базы объектов, проведение индивидуальной оценки сравнительным
подходом, построение карт ценового зонирования, анализ соотношений
результатов оценки и исходных рыночных данных) и непосредственно
определять стоимость каждого отдельно взятого объекта на основе БД с
объектами-аналогам.
ИАС
должна
содержать
модуль
автоматизированного массового определения рыночной стоимости
объектов недвижимости. Базовым инструментом для определения
величины стоимости объектов следует принять метод оценки при помощи
построения решающего дерева. Для корректной работы алгоритма
предполагается, что имеется сформированная база данных, содержащая
достаточно подробное описание объектов аналогов, на основе которых
будет определяться стоимость объектов оценки.
Основные вопросы, подлежащие разработке (исследованию):
1. Анализ предметной области;
2. Разработка уточненной постановки задачи;
3. Разработка прикладного интерфейса;
4. Реализация методов и алгоритмов решения задачи;
2
5. Разработка информационно-аналитической системы;
6. Отладка и тестирование ИАС;
7. Разработка сопровождающих материалов.
Ожидаемые результаты и предполагаемая практическая реализация:
1. Программные средства и документация;
2. Предполагается использовать в виде автономной информационноаналитической системы.
К защите представить:
1. Пояснительную записку
2. Иллюстративный материал
3. Проект на носителе информации
4. Распечатку исходных текстов ИАС
5.
6.
7.
Место выполнения выпускной квалификационной работы:
Отделение Программной инженерии факультета Бизнес-информатики
Национального Исследовательского Университета – Высшей школы экономики
Начало выполнения работы:
Срок сдачи работы:
октября
июня
«01»
«16»
2013 г.
2014 г.
Руководитель профессор Авдошин Сергей Михайлович
Задание получил студент 271 мУРПО группы
3
Моргач П.А.
Аннотация
Данный документ является описанием выпускной квалификационной работы. В нем
описываются
и
обосновываются
основные
принципы
построения
информационно-
аналитической системы (ИАС) массовой и индивидуальной оценки недвижимого имущества.
ИАС
построена
на
основе
клиентского
приложения,
реализованного
на
языке
программирования C# с использованием генерируемых html страниц со сценариями на языке
java-script
для
работы
с
интернет-сервисами
Яндекс.Карт.
ИАС
позволяет
в
автоматизированном режиме выполнять экспертизу результатов массовой кадастровой оценки
недвижимости
(верификация
базы
объектов,
проведение
индивидуальной
оценки
сравнительным подходом, построение карт ценового зонирования, анализ соотношений
результатов оценки и исходных рыночных данных) и непосредственно определять стоимость
каждого отдельно взятого объекта на основе БД с объектами-аналогами. В документе описан
интерфейс
и
функционал
информационно-аналитической
системы,
обоснован
выбор
алгоритмов и практических инструментов, приведено исследование возможности применения
ИАС в массовой кадастровой оценке недвижимости в РФ. Так же представлены генерируемые
отчёты, описан демонстрационный пример.
Система, обладающая указанным функционалом, позволит автоматизировать процесс
проведения массовой и индивидуальной оценки и экспертизы ее результатов, повысить уровни
производительности и качества оказываемых услуг оценщиками и экспертами.
Параметры ВКР:

объем работы (страниц): 141

количество глав: 4

количество иллюстраций: 119

количество таблиц: 11

количество приложений: 1

количество использованных источников: 23
o
в том числе, нормативно-правовых актов: 10

Объем исходного кода системы (строк кода): 11373

Количество классов системы: 33
Ключевые фразы:
Оценка недвижимости, массовая оценка, экспертиза результатов оценки, кадастровая оценка
4
Оглавление
Оглавление .............................................................................................................................................. 5
Введение .................................................................................................................................................. 7
1. Анализ предметной области ......................................................................................................... 9
1.1. Условие задачи ..................................................................................................................... 9
1.2. Краткое описание предметной области ........................................................................... 9
1.3. Актуальность темы............................................................................................................ 11
1.3.1. Научная новизна. ............................................................................................................... 14
1.3.2. Практическая ценность .................................................................................................... 14
1.3.3. Основные особенности ИАС: ........................................................................................... 15
1.3.4. Научный результат ВКР ................................................................................................... 16
1.3.5. Положения, выносимые на защиту ................................................................................ 17
1.4. Варианты использования приложения ......................................................................... 17
1.5. Этапы работы ..................................................................................................................... 17
2. Анализ текущей ситуации........................................................................................................... 21
2.1. Понятие государственной кадастровой оценки ........................................................... 21
2.2. Роль и место независимых организаций в кадастровой оценке ............................... 22
2.3. Процесс проведения кадастровой оценки ..................................................................... 23
2.4. Урегулирование споров по результатам кадастровой оценки .................................. 25
2.4.1. Досудебное урегулирование споров по результатам кадастровой оценки ............. 26
2.4.2. Судебное урегулирование споров по результатам кадастровой оценки ................. 29
2.5. Методики оценки стоимости недвижимости ................................................................ 31
2.6. Алгоритм проведения кадастровой оценки .................................................................. 32
2.7. Возможные расхождения рыночной и кадастровой стоимости. ............................... 36
3. Разработка проекта задачи ....................................................................................................... 39
3.1. Уточненная постановка задачи ....................................................................................... 39
3.2. Описание пользовательского интерфейса и его реализации .................................... 39
3.2.1. Импорт исходных данных в систему. ............................................................................. 40
3.2.2. Настройка столбцов ........................................................................................................... 43
3.2.3. Экспорт данных .................................................................................................................. 47
3.2.4. Управление сценарием пользователя. ........................................................................... 49
3.2.5. Фильтрация данных. ......................................................................................................... 51
3.2.6. Определение координат объекта. .................................................................................... 54
3.2.7. Поиск дубликатов и противоречий. ............................................................................... 56
3.2.8. Отображение объектов на карте. .................................................................................... 58
3.2.9. Изменение ключа Яндекс. API ........................................................................................ 60
3.2.10. Поиск аналогов. .................................................................................................................. 60
3.2.11. Кластеризация. ................................................................................................................... 62
3.2.12. Построение карт кластеров .............................................................................................. 68
3.2.13. Отображение статистики по улицам. ............................................................................. 70
3.2.14. Отображение статистики по кластерам......................................................................... 70
3.2.15. Определение стоимости объекта. .................................................................................... 73
3.2.16. Проверка результатов массовой оценки. ...................................................................... 74
5
3.2.17. Построение линейной регрессии. .................................................................................... 75
3.2.18. Модуль дерева решений .................................................................................................... 77
3.2.19. Модуль кластеризованного дерева решений ................................................................ 88
3.2.20. Модуль информативного анализа результатов ........................................................... 95
3.2.21. Модуль нормирования рыночных данных ................................................................... 99
3.2.22. Форма анализа результатов применения алгоритмов к массовой оценке ........... 102
3.3. Структура системы .......................................................................................................... 105
3.3.1. Классы системы ................................................................................................................ 106
4. Разработка системы ................................................................................................................. 107
4.1. Алгоритмы и методы ....................................................................................................... 107
4.1.1. Реализация дерева сценария и способ хранения внутренних данных системы .. 107
4.1.2. Способ организации и инструменты работы с входной информацией ................. 108
4.1.3. Способ определения нормированного адреса и координат объектов. ................... 110
4.1.4. Способ отображения объектов на карте ...................................................................... 112
4.1.5. Кластеризация .................................................................................................................. 113
4.1.6. Способ определения стоимости индивидуальных объектов ................................... 117
4.1.7. Способ построения карт ценовых зон .......................................................................... 119
4.1.8. Анализ результатов массовой оценки .......................................................................... 121
4.1.9. Деревья решений. Общие положения. ......................................................................... 122
Структура дерева решений. ....................................................................................................... 123
Выбор атрибута узла .................................................................................................................. 125
Анализ применимости существующих методик. .................................................................... 126
4.1.10. Описание используемого алгоритма построения дерева решений. ....................... 126
Регрессионное дерево решений. ............................................................................................... 126
Бинарное представление дерева решений. .............................................................................. 127
Функции оценки качества разбиения ....................................................................................... 128
Меры эффективности деревьев решений ................................................................................. 129
Механизм отсечения .................................................................................................................. 130
Алгоритм заполнения пропущенных значений (оценка целевого атрибута) ....................... 131
Валидация данных, анализ выбросов и дубликатов. .............................................................. 132
Оригинальность разработанного алгоритма............................................................................ 133
4.1.11. Алгоритм построения кластеризованного дерева решений. ................................... 134
4.1.12. Построение дерева регрессии. Анализ результатов. ................................................. 135
4.2. Язык и средства программирования ........................................................................... 137
4.3. Развертывание системы.................................................................................................. 138
Заключение .......................................................................................................................................... 139
Список использованных источников и литературы....................................................................... 140
Нормативно-правовая база, используемая для выполнения магистерской работы: .... 141
6
Введение
Намеченная Правительством РФ перспектива введения единого налога на недвижимое
имущество на основе его рыночной стоимости, диктует необходимость проведения массовой
кадастровой оценки. В ряде регионов данная оценка проводится в настоящее время в качестве
эксперимента. Чтобы определить величину налога для каждого отдельно взятого собственника,
администрации города необходимо будет оценить каждый объект недвижимости. Учитывая
количество объектов, в данном случае целесообразно применять методы массовой оценки. В
отличие от индивидуальной, массовая оценка недвижимости производится сразу с большим
числом объектов, и контроль качества осуществляется через статистическое тестирование и
признание результатов заказчиком (городской администрацией). На российском рынке
недвижимости в настоящее время отсутствует программное обеспечение, позволяющее
автоматизировать работу оценщиков при проведении массовой оценки и ее экспертизы.
Конечно, существует программное обеспечение, с помощью которого можно осуществлять
предварительную обработку входных данных (MS Excel), выполнять кластеризацию (Deductor
Studio), строить регрессионные модели (Stata). Но единая комплексная система, совмещающая в
себе необходимый для рынка оценки недвижимости функционал с наглядным отображением
результатов, на сегодняшний день не разработана.
Используя описываемую в документе информационную систему, эксперты могут за
несколько часов построить карту ценового зонирования для определенного города (при
наличии исходной базы с ценами сделок и предложений). Для сравнения, на сегодняшний день
уходит более месяца для анализа входных данных и создания такой карты в ручном режиме.
Система позволяет также определять вероятную стоимость отдельных объектов
недвижимости сравнительным подходом. К примеру, налогоплательщик, увидев, сколько
предварительно
стоит его недвижимость при оценке сравнительным подходом, может
оспорить результаты массовой кадастровой оценки в суде и заказать индивидуальную оценку,
чтобы понизить величину налога (если кадастровая стоимость существенно превышает
стоимость, определенную в системе). Данная услуга способна обеспечить спрос на ИС среди
обычных пользователей персональных компьютеров.
Для автоматизации массовой оценки рыночной стоимости был разработан и внедрен в
систему блок прогнозирования стоимости недвижимости на основе алгоритмов построения
решающих деревьев. Исследование, проведенное в ходе магистерской работы, показало, что
применение алгоритмов построения решающих деревьев к кадастровой оценке позволит
7
добиться как прозрачности результатов государственной оценки, так и существенного
снижения доли отклонений оценочной стоимости от рыночной.
Целью данной магистерской работы является разработка информационной аналитической
системы (ИАС) обеспечения экспертизы результатов оценки кадастровой стоимости и
проведения массовой кадастровой оценки объектов недвижимости.
Данная предметная область была выбрана в связи с опытом аналитической работы в
одной из московских оценочных компаний, что позволило изучить основные трудности и
проблемы которые возникают при проведении и экспертизе результатов оценки кадастровой
стоимости.
В магистерской работе решены следующие задачи:
-анализ существующих методологий и подходов к массовой и индивидуальной оценке
недвижимого имущества
-исследование сложившейся ситуации, связанной с высокой долей погрешности при
проведении кадастровой оценки
-анализ и выявление требований, предъявляемых к процессу и результатам проведения
государственной кадастровой оценке
-исследование применимости известных математических алгоритмов анализа данных к
проведению массовой оценки
-разработка набора алгоритмов, применение которых к массовой оценке позволит
получить требуемый уровень качества определения стоимости
-реализация требуемых технологических и функциональных решений, разработка
математического, алгоритмического и программного обеспечения компонентов ИАС
-разработка прикладной методики сравнительного анализа эффективности разработанных
алгоритмов применительно к массовой оценке
-экспериментальное подтверждение возможности применения предложенных методов
массовой оценки к проведению государственной кадастровой оценке недвижимости
8
1. Анализ предметной области
1.1.
Условие задачи
Тема: Информационно-аналитическая система массовой и индивидуальной оценки
недвижимого имущества.
Задача:
На
основе
анализа
предметной
области
разработать
и
реализовать
информационно-аналитическую систему (ИАС) обеспечения экспертизы результатов оценки
кадастровой стоимости и автоматизированного определения рыночной стоимости объектов
недвижимости.
Базовым инструментом для определения величины стоимости объектов следует принять
метод оценки при помощи построения решающего дерева. Для корректной работы алгоритма
предполагается, что имеется сформированная база данных, содержащая достаточно подробное
описание объектов аналогов, на основе которых будет определяться стоимость объектов
оценки.
Цель: Повышение уровней производительности и качества оказываемых услуг
оценщиками и экспертами
1.2.
Краткое описание предметной области
Оценка стоимости недвижимости - это процесс определения рыночной стоимости
объекта. Существует два типа оценки: кадастровая (массовая) и индивидуальная. Их основные
различия отображены в таблице.
Таблица 1. Сравнение массовой и индивидуальной оценки.
Массовая оценка
Индивидуальная оценка
недвижимости
недвижимости
Объем
Много объектов
Один объект
Контроль качества
Статистическое тестирование
Одобрение заказчика
Подход
Сравнительный
Доходный, затратный,
сравнительный
Задачи, возникающие на разных стадиях массовой и индивидуальной оценки
недвижимого имущества, ставят перед сообществом оценщиков, экспертов и исследователей
ряд вопросов, а именно - какой математический аппарат применить, какие подходы и методы
использовать для оценки различных объектов?
9
После введения ФСО-5 полноправным видом оценочной деятельности стала экспертиза
отчета об оценке. При проведении экспертизы на подтверждение стоимости объекта оценки
перед экспертом также возникают вопросы о корректности полученного оценщиком результата.
На сегодняшний день на рынке оценочных услуг выделяют следующие основные
проблемы:

Отсутствие единого методологического подхода к кадастровой оценке объектов
приводит к тому, что стоимости сопоставимых объектов, полученные разными
оценщиками, могут отличаться в несколько раз.

Отсутствие единой и общедоступной базы данных с информацией о ценах предложений
и сделок делает непрозрачной и невоспроизводимой процедуру определения рыночной
стоимости того или иного объекта недвижимого имущества.
Таким образом, с учетом вышеизложенного, возникла необходимость в автоматизации
информационно – аналитического сопровождения процесса оценки с целью обеспечения
сопоставимости, проверяемости и защиты результатов оценки. Необходимо создание
совершенно новой системы, позволяющей объективно оценивать недвижимое имущество и
избегать разночтений в стоимости соседних земельных участков.
Целью данной системы является обеспечение деятельности экспертов саморегулируемой
организации оценщиков (СРОО) по экспертизе результатов массовой и индивидуальной
оценки. При этом, учитывая задачи экспертизы результатов массовой оценки кадастровой
стоимости, информационно – аналитическое обеспечение процесса экспертизы позволит
эксперту СРОО провести соответствующие проверки для принятия обоснованного решения.
Основные задачи экспертизы результатов массовой оценки:

Проверка рыночной информации о земельных участках по каждому виду разрешенного
использования (ВРИ), верификация этой информации для целей проведения массовой
оценки.

Проверка проведения группировки земельных участков по составу объектов оценки.

Проведение анализа достаточности и репрезентативности рыночной информации.

Проверка значений факторов стоимости для построения статистических моделей.

Проверка построения статистических моделей расчета кадастровой стоимости объектов
оценки.

Анализ качества статистических моделей расчета кадастровой стоимости.
Информационно-аналитическая
недвижимого
имущества
создана
система
в
качестве
10
массовой
реального
и
индивидуальной
инструмента,
оценки
позволяющего
пользователям
(оценщикам,
экспертам)
сформировать
на
основе
исходных
данных
мотивированное мнение о рыночной стоимости объекта оценки (проверить результаты
проведенной оценки).
С помощью реализованного в ИАС модуля автоматизированного определения рыночной
стоимости объектов недвижимости, у пользователей появилась возможность самостоятельного
проведения независимой массовой оценки, при наличии достаточно полной базы с описаниями
объектов аналогов. Благодаря возможности оценки недвижимости в ИС именно методами
решающих деревьев, результаты проведенной пользователем оценки становятся не только
статистически сопоставимыми с реальными данными, но и объяснимы и интерпретируемы на
естественном языке, что существенно при выполнении работ на общегосударственном уровне.
Проектирование и разработка такого рода информационно-аналитической системы, на
мой взгляд, должны привести к росту заинтересованности общества в услугах оценки
собственности, и, что не менее важно, уменьшению субъективизма независимой оценки при
проведении кадастровой оценки.
Данная система
универсальна и может быть использована при решении практически
любой задачи в области оценки недвижимого имущества.
На ближайшее время намечен вывод некоторых модулей системы в глобальную сеть
internet на базе веб-сервисов: построение кластеризации, дерева решений, проведение
индивидуальной оценки, отображение объектов (кластеров) на карте; планируется хранение на
сервере
и
автоматическое
дополнение
обучающей
выборки
объектами
аналогами,
загружаемыми пользователями в систему. Это позволит большинству пользователей системы
не зависеть от объемов и полноты верифицированных ими описаний объектов аналогов: при
наличии на сервере достаточной информации об объектах в рассматриваемом пользователем
регионе, пользователь сможет автоматически загрузить в систему имеющиеся на сервере
данные. В качестве перспективы развития рассматривается разработка программного продукта
на базе технологии «Cloud Computing» с объединением всех инструментов (модулей) на одной
платформе.
1.3.
Актуальность темы.
Разработка информационно-аналитической системы для целей оценки недвижимого
имущества является актуальным вопросом государственной кадастровой оценки, позволяющая
обеспечить автоматизированное проведение массовой оценки и достижение требуемого уровня
качества результатов.
11
Разработка ИАС массовой и индивидуальной оценки, содержащей интерпретируемые на
естественном языке результаты и известные математические алгоритмы, является необходимой
составляющей в полном комплексе мер перехода государства к отрытой экономике.
Актуальность разработки данной системы, работающей в условиях высокой критичности
к ошибкам, в частности для целей налогообложения, возрастает в разы. Система позволит
добиться сопоставимости результатов государственной оценки и рыночной стоимости объекта,
избежать разночтений в стоимостях схожих по параметрам объектах недвижимого имущества.
Государственная кадастровая оценка земли - это комплекс экономических,
технических и правовых мероприятий, направленных на определение кадастровой
стоимости по состоянию на заданную дату оценки для целей государственного
регулирования оборота земель и определения размера налогообложения. Государственная
кадастровая оценка земель проводится не реже чем один раз в пять лет с даты проведения
предыдущей кадастровой оценки.
Разработка системы для целей кадастровой оценки – процесс разработки, анализа и
реализации математических алгоритмов, использование которых позволит добиться требуемого
уровня качества массовой оценки объектов недвижимого имущества. Т.е. это выбор
математических алгоритмов и их комбинаций
для уменьшения доли ошибок определения
стоимости объектов оценки, по сравнению с существующей системой кадастровой оценки;
разработка автоматизированного рабочего места
оценщика; разработка инструментов
экспертов для проведения анализа полученных (как в рамках ИС, так и в рамках кадастровой
оценки) результатов оценки.
Разработка ИАС влечет за собой использование мощного математического аппарата и
информационных баз знаний, а так же требует обработки существенных объемов
первоначальных входных параметров (открытые рыночные данные об объектах недвижимости).
Отсюда следует, что информационные автоматизированные системы (ИАС) обладают
существенными преимуществами перед ручными вычислениями. Более того, они позволяют
добиться воспроизводимости результатов и значительно сэкономить как временные, так и
человеческие ресурсы для решения ранее трудоемких задач.
В ИАС предложен новый подход к проведению массовой оценки на основе построения
регрессионных решающих деревьев c возможностью интерпретации расчетов на естественном
языке. На сегодняшний день нет публикаций в открытых источниках о подобного рода
попытках автоматизации массовой оценки при помощи алгоритмов решающих деревьев.
Связано это, скорее всего, с отсутствием рыночного спроса к исследованиям такого рода. В
12
большинстве стран Европы кадастровая оценка проводится на основе разбиения объектов по
ценовым зонам, а в РФ – на основе построения линейных зависимостей стоимости от
выбранных ценообразующих факторов.
Ранее уже были успешные попытки автоматизации проведения кадастровой оценки на
территории РФ и за границей. Однако данные системы разрабатывались под уже утвержденные
алгоритмы и были доступны для использования только узкому кругу людей, участвующих в
проведении оценки. Один из таких программных комплексов, используемых в недавнее время в
РФ: «СПО». Данная система загружает выборку объектов недвижимости и по «зашитым» в нее
линейным алгоритмам (подробное описание алгоритмов не предоставлено в открытом доступе)
выгружает итоговый результат оценки по каждому объекту. Существенный недостаток системы
– невозможность проверить корректность работы алгоритма оценки и ее результатов
собственнику оцененной недвижимости.
На российском рынке недвижимости на данное время отсутствует в свободном доступе
программное обеспечение, позволяющее оценщикам автоматизировано производить массовую
оценку и экспертизу ее результатов. Существует различное ПО, с помощью которого возможно
автоматизировать отдельные часто выполняемые задачи: предварительную обработку входных
данных, построение кластеризации, генерацию регрессионных моделей. Но единая комплексная
система, совмещающая в себе необходимый для рынка оценки недвижимости функционал с
наглядным отображением результатов, на сегодняшний день не разработана. Ожидается, что
разработанная в рамках магистерской работы ИАС будет направлена в первую очередь на
решение задач, смежных с массовой оценкой: аналитика рынка недвижимости, мониторинг цен,
разработка ценовых карт, экспертиза результатов индивидуальной оценки.
В ходе данной исследовательской работы проводился детальный анализ алгоритмов,
используемых в настоящее время при проведении массовой и индивидуальной оценки, изучены
нормативно-регулирующие законодательные акты. В процессе анализа рассматривались не
только алгоритмические особенности проведения оценки в разных подходах, но и возможность
их применения для задач массовой оценки, ожидаемое качество результатов, возможные
ошибки и способы их устранения. При наличии возможности, оценивалась математическая база
и вычислительные алгоритмы. Методы исследования основаны на использовании положений
теории вероятности, существующих алгоритмов машинного обучения, методик проведения
кадастровой и индивидуальной оценки недвижимого имущества. Немаловажной является
возможность использования ИАС в исследовательских задачах и смежных с оценкой областях
экономической деятельности.
13
Важный вывод, который можно сделать из приведенной информации – это необходимость
внедрения
современных
информационно-аналитических
продуктов
для
автоматизации
процессов оценки и обеспечения возможности воспроизведения и обоснования полученных
результатов.
Минимизация
ошибок
определения
стоимости
недвижимости (в том числе и кадастровой оценки)
привлечением
вычислительной
техники
и
при
проведении
оценки
может быть достигнута только с
современного
программного
обеспечения,
ориентированного на решение прикладных задач оценочной деятельности.
1.3.1. Научная новизна.
Предложен новый высокотехнологичный подход к проведению массовой оценки
недвижимого имущества. К новым результатам относятся:

Разработка нового интеллектуального алгоритма единовременного определения
рыночной стоимости множества объектов на базе алгоритмов построения решающих
деревьев в комбинации с алгоритмами кластеризации, с учетом географического
расположения объектов.

Возможность интерпретируемости правил определения оценочной стоимости
каждого отдельно взятого объекта на естественном языке.

Разработка
функционала
автоматизированного
построения
карт
ценового
зонирования на основе рыночных данных объектов недвижимости.
1.3.2. Практическая ценность
Теоритические исследования завершены созданием на их основе математического,
алгоритмического,
эксплуатации
программного
информационной
обеспечения
и
автоматизированной
технологического
системы.
руководства
Практическая
по
ценность
подтверждена в ходе использования результатов разработки в компании по оценке
собственности ЗАО «РОСЭКО».
Результаты работы, имеющие практическую ценность:

Разработана полнофункциональная ИАС для проведения экспертизы результатов
массовой оценки недвижимости

Разработаны и реализованы методы массового определения стоимости объектов
недвижимости на базе алгоритмов кластеризации и построения решающих деревьев

Разработан и реализован функционал построения карт ценового зонирования с
использованием сервисов Yandex.Maps

Предложено решение проблемы высокой доли судебных исков о проведении
переоценки кадастровой стоимости отдельных земельных участков
14
Апробация работы.
По теме магистерской работы опубликована 1 печатная работа.
Имеется акт о внедрении в эксплуатацию на предприятии (ЗАО «РОСЭКО»).
Получено свидетельство о государственной регистрации программы для ЭВМ.
1.3.3. Основные особенности ИАС:
Ориентация на широкий круг пользователей:
Система спроектирована в первую очередь как рабочий инструмент оценщиков и
экспертов, решающих задачи массового определения рыночной стоимости объектов
недвижимости и анализа качества полученных результатов оценки. Кроме указанных
специалистов, ожидается широкое использование ИАС риелторами, аналитиками рынка
недвижимости, а так же всеми лицами, заинтересованными в доступном определении наиболее
вероятной рыночной стоимости своей недвижимости.
Открытость:
Возможность расширения набора модулей системы с внесением минимальных изменений
в исходный код главной формы.
Единый формат работы с внешними источниками данных
Возможность на любом этапе обработки данных выполнить экспорт текущих результатов
работы системы и вручную проверить корректность работы модулей.
Использование только известных математических алгоритмов и их комбинаций при
проведении обработки данных на всех этапах.
Функциональность:
ИАС направлена на решение актуальных экономических задач в части массовой оценки
недвижимого имущества и обеспечения экспертизы результатов оценки кадастровой стоимости
Технологическое руководство:
Данный документ описывает на примерах все особенности эксплуатации ИАС, такие, как
проведение ценового зонирования, определение рыночной стоимости объектов оценки,
выполнение экспертизы результатов оценки, настройка оптимальной работы реализованных в
ИАС методов оценки посредством встроенного анализа причин возникновения ошибок.
В системе обеспечены:
Оптимизация алгоритмов построения решающих деревьев для уменьшения времени
вычислений.
Стандартизированный метод ввода исходных данных и вывода полученных результатов.
15
Возможность хранения полученной модели дерева решений во внутреннем формате ИАС
для исключения необходимости повторных расчетов при совпадении параметров модели с
ранее определенными.
Подсистема анализа качества работы реализованных в ИАС алгоритмов оценки.
1.3.4. Научный результат ВКР
Основной научный результат ВКР заключается в анализе существующих методов и
проблем кадастровой оценки, исследовании применимости различных математических
алгоритмов к проведению массовой оценки, разработке новых алгоритмов для снижения доли
ошибок при проведении массовой оценки и экспертизы ее результатов. В ходе работы были
реализованы требуемые технологические и функциональные решения задачи разработки
математического,
алгоритмического
и
программного
обеспечения
компонентов
ИАС;
реализован функционал проведения массовой оценки недвижимости на основе рыночных
данных; разработана методика статистического анализа качества результатов оценки, а так же
проведено экспериментальное подтверждение применимости реализованных в ИАС методов к
проведению экспертизы результатов массовой оценки.
При проведении исследований и разработок по теме ВКР получены следующие
теоретические и прикладные результаты:
1.Проведен
анализ
существующего
подхода
к
кадастровой
оценке.
Показана
необходимость разработки системы, ориентированной на рост качества принимаемых решений
об оценке.
2.Проведен анализ широкого спектра потенциально применимых в массовой оценке
математических алгоритмов, выбраны для реализации наиболее эффективные с точки зрения
точности и времени вычислений.
3. Предложен вариант универсального, интерпретируемого на естественном языке
алгоритма массовой оценки на основе достаточной по объему рыночной информации, который
позволяет добиться прозрачности результатов оценки и снижения доли отклонений оценочной
стоимости от рыночной.
4. Модульная структура системы и наличие исходных текстов позволяют изменять ИАС в
достаточных пределах, добавлять новые модули, улучшать эффективность алгоритмов путем
изменения ключевых функций.
5.
На
основе
разработанных
методов,
подходов
и
алгоритмов
создана
полнофункциональная рабочая информационно-аналитическая система с широким кругом
применения, включающим как государственный, так и частный секторы экономики.
16
6. Создано руководство пользователя и технологическое описание с примером,
позволяющим эффективно эксплуатировать ИАС для получения конечных результатов и
проведения исследований.
Основные публикации по теме диссертации:
Получены документы о государственной регистрации программы для ЭВМ
Публикация в сборнике статей НИРС НИУ-ВШЭ 2012
1.3.5. Положения, выносимые на защиту
К защите выносятся:

постановка задачи на разработку системы массовой и индивидуальной оценки

функционал и технические возможности информационно-аналитической системы

исходный код системы
1.4.
Варианты использования приложения
Рисунок 1.
1.5.
Диаграмма вариантов использования
Этапы работы
1) Сбор первоначальных требований
a. Составление диаграмм использования
17
b. Описание возможных сценариев использования
c. Изучение и анализ предметной области
d. Изучение имеющихся инструментов, позволяющих решить данную задачу
2) Проектирование структуры системы
a. Определение основных модулей системы и способов их взаимодействия
3) Проектирование интерфейса
a. Определение инструментов для доступа к входным файлам и онлайн-картам
b. Получение доступа к онлайн-сервисам «Яндекс»
c. Определение необходимых методов для взаимодействия классов проекта
d. Определение инструментов для сохранения и загрузки файлов дерева решений
4) Проектирование хранилища данных
a. Определение способа хранения данных
b. Описание полей и методов внутреннего класса, используемого для хранения
временных данных ИС
5) Реализация клиентского приложения
a. Разработка основной формы ИС, в которой запускаются отдельные модули
b. Реализация работы с MS Excel файлами, без установленного пакета MS Office
c. Реализация блока взаимодействия системы с внешними файлами данных
d. Реализация блока настройки и фильтрации входных данных
e. Разработка алгоритма поиска дубликатов и противоречий во входных данных
f. Реализация алгоритма индивидуальной оценки объектов сравнительным
подходом
g. Реализация блока поиска объектов с заданными характеристиками
h. Разработка алгоритмов верификации информации об объектах недвижимости
и определения их координат, используя сервис Яндекс.Карт
i. Реализация алгоритма кластеризации методом «k-means»
j. Реализация алгоритма определения выпуклой оболочки методом Джарвиса
(«заворачивания подарка»)
k. Разработка блока отображения объектов недвижимости на карте
l. Разработка алгоритма построения карт ценового зонирования
m. Реализация алгоритма проверки результатов массовой оценки методом
анализа соотношений
n. Разработка блока построения и анализа линейной многофакторной регрессии
18
o. Реализация отображения статистики
a. Разброса стоимостей
i. По кластерам, с указанием Х-процентного ценового диапазона
ii. По улицам
b. Общей (по каждому столбцу среднее, мин, макс, количество,
стандартное отклонение)
p. Разработка алгоритма для устранения шума во входных данных
q. Разработка оптимизированного для больших данных алгоритма построения
дерева решений
r. Реализация работы с внутренними файлами дерева решений (загрузка и
сохранение построенных в ИС деревьев)
s. Оптимизация блока построения гистограмм с учетом большого объема данных
t. Реализация
предлагаемого
алгоритма
массовой
оценки
методом
кластеризованных решающих деревьев
u. Разработка блока статистического анализа причин ошибок массовой оценки
v. Разработка блока анализа применимости реализованных в ИАС алгоритмов к
массовой оценке
6) Тестирование и отладка
a. Тестирование модулей системы
b. Тестирование взаимодействия модулей ИС
c. Тестирование импорта и экспорта данных
d. Тестирование работы с службами Яндекс.Карт
e. Тестирование сохранения и загрузки файлов дерева решений
7) Внедрение
a. Обучение пользователей
b. Опытная эксплуатация
i. Проверка работоспособности системы на реальных данных
ii. Тестирование системы на больших входных файлах
iii. Тестирование работоспособности системы при ошибочных вводах
пользователя
iv. Статистическое тестирование корректности работы реализованного
алгоритма массовой оценки на реальных данных
c. Доработка
19
i. Выявление и исправление ошибок системы
ii. Анализ обратной связи с пользователями
интерфейса и расширения функционала ИАС
20
относительно изменений
2. Анализ текущей ситуации
2.1.
Понятие государственной кадастровой оценки
Земельный кадастр – систематизированный свод достоверных сведений о земле. В нем
помимо данных о владельце земли указывается общее описание земельного участка, его
доходность и стоимость.
Кадастровая стоимость ЗУ служит для определения размера налогообложения, арендной
платы, выкупной цены под приватизированными объектами и др. К примеру, во время
строительства объектов инфраструктуры для подготовки и проведения олимпиады в Сочи в
2014г., земельные участки выкупались у собственников по кадастровой стоимости.
Для установления кадастровой стоимости земельных участков проводится государственная
кадастровая оценка земель. Кадастровая оценка земельных участков - тема, которая сегодня
относится
к
числу
наиболее
актуальных
и
проблемных
для
землевладельцев
и
землепользователей. Считается, что кадастровая и рыночная стоимость земельного участка
должны быть приближены друг к другу, хотя на практике эти стоимости существенно
различаются. В случаях определения рыночной стоимости земельного участка кадастровая
стоимость этого земельного участка устанавливается равной его рыночной стоимости.
Получение достоверной оценки кадастровой стоимости земельных участков необходимо
как государственным, так и частным субъектам. Кадастровая оценка используется в следующих
целях:
 Для определения размера налогообложения недвижимости, ставок земельного
налога, величины арендной платы
 Для информационного обеспечения рынка земли, рынка ценных земельных бумаг
 Для информирования заинтересованных субъектов о стоимости земель для
последующего осуществления различных сделок с принадлежащей им (планируемой к
приобретению) недвижимостью
Государственная кадастровая оценка земли - это комплекс экономических, технических
и правовых мероприятий, направленных на определение кадастровой стоимости по состоянию
на заданную дату оценки для целей государственного регулирования оборота земель и
определения размера налогообложения.
Кадастровая оценка является массовой. Она производится единовременно на всей
территории субъекта РФ и включает следующие основные действия:
 принятие решения о проведении кадастровой оценки;
 формирование перечня объектов недвижимости, подлежащих оценке;
21
 отбор исполнителя работ и заключение с ним договора на проведение оценки;
 определение кадастровой стоимости и составление отчета об определении
кадастровой стоимости;
 экспертизу отчета об определении кадастровой стоимости;
 утверждение результатов определения кадастровой стоимости;
 публикацию утвержденных результатов; внесение результатов в государственный
кадастр недвижимости.
Кадастровая оценка земель проводится с учетом ценового зонирования территории,
близких по значению кадастровой стоимости земельных участков. Учитываются факторы
сложившейся застройки и землепользования, размещения линейных объектов (улиц, дорог,
рек, водотоков, путепроводов, железных дорог и др.), а также границы кадастровых районов
или кадастровых кварталов. В качестве исходных рыночных данных для проведения оценки
используются данные Росреестра о совершенных сделках с недвижимостью, а так же
информация агентств недвижимости о предложениях купли-продажи и аренды объектов
недвижимости, опубликованная в режиме свободного доступа. В ходе оценки анализируются
такие ценообразующие факторы как местоположение, возведенные улучшения на участке,
транспортная доступность, инфраструктура района.
В качестве результата кадастровой оценки принимается стоимость единицы площади (1 м.
кв.) типичного земельного участка ценовой зоны объекта оценки. В наилучшем случае
кадастровая стоимость единицы площади устанавливается на уровне рыночной стоимости
объектов-аналогов той же ценовой зоны. К ключевым стоимостным факторам объекта оценки
относят характеристики недвижимости, расположенной на данном участке, географическое
положение, наличие обременения, вид разрешенного использования.
Государственная кадастровая оценка земель проводится не реже чем один раз в пять лет с
даты проведения предыдущей кадастровой оценки.
2.2.
Роль и место независимых организаций в кадастровой оценке
Переход к введению единого налога на недвижимость, рассчитываемому исходя из
рыночной стоимости объекта налогообложения, является необходимым и значимым процессом
на пути совершенствования и развития экономики Российской Федерации. Необходимо
понимать, что данный процесс коснется практически каждого гражданина РФ. Цена ошибки
при реализации такого механизма расчета налоговой базы может быть очень высока для всех
участников процесса: граждан, государства, промышленности, бизнеса.
22
Для формирования системы кадастровой оценки был принят целый ряд стандартов и
документов. На протяжении 2008-2011 годов вносились основные изменения и дополнения в
ФЗ «Об оценочной деятельности в РФ». Данные изменения в законодательстве в итоге
определили роль и место оценочной деятельности в экономике Российской Федерации.
Среди множества изменений, которые повлияли на развитие оценки как самостоятельного
института экономики, в данной части работы следует выделить те, которые относятся
непосредственно к теме исследования - массовой оценке:
оценочная

деятельность
осуществляется
в
режиме
обязательного
саморегулирования;
кадастровая оценка, в том числе и оценка для целей налогообложения

недвижимости, осуществляется независимыми оценщиками. Результаты кадастровой
оценки могут быть оспорены, в том числе и во внесудебном порядке, при наличии отчета
об оценке, выполненного также независимым оценщиком;
экспертиза отчетов об оценке является одним из видов оценочной деятельности,

осуществлять которую могут оценщики, прошедшие специальную аттестацию
По сути, после внесения в ФЗ указанных изменений, определение кадастровой стоимости (а
значит, и определение размера налогообложения) передалось в полномочия независимых
оценочных организаций. В итоге, и ответственность за предоставленные результаты (в том
числе имущественные претензии налогоплательщиков),
тоже выложилась на оценочные
организации-исполнители.
Введение для оценочной деятельности режима обязательного саморегулирования означает,
что часть функций по контролю за данным сектором экономики передана государством
саморегулируемым
(негосударственным)
организациям.
Таким
образом,
контроль
за
субъектами (оценочными компаниями и оценщиками) возложен на саморегулируемые
организации, а федеральные власти осуществляют контроль за деятельностью данных
организаций.
2.3.
Процесс проведения кадастровой оценки
*В последовательности и наборе выполняемых действий при проведении кадастровой
оценки произошли определенные изменения в связи с принятием Федерального закона от
22.07.2010 г. №167 «О внесении изменений в Федеральный закон «Об оценочной деятельности
в Российской Федерации» и отдельные законодательные акты Российской Федерации».
Поэтому в работе будет описана только информация, актуальная на сегодняшний день.
23
Орган, принявший решение о проведении государственной кадастровой оценки, является
заказчиком работ по определению кадастровой стоимости.
После формирования перечня объектов оценки, на конкурсной основе определяется
Исполнитель работ. Конкурсант (потенциальный исполнитель) должен соответствовать
критериям отбора конкурса. Конкурсант с максимальным количеством баллов становится
победителем и назначается исполнителем государственного заказа на осуществление работ по
кадастровой оценке для конкретного субъекта РФ.
Определение
кадастровой
стоимости
осуществляется
оценщиками
организации-
исполнителя в соответствии с требованиями стандартов и правил оценочной деятельности,
регулирующих вопросы определения кадастровой стоимости.
В течение тридцати дней с даты составления отчета об определении кадастровой
стоимости исполнитель работ обязан обеспечить проведение экспертизы этого отчета
саморегулируемой
организацией
оценщиков,
членами
которой
являются
оценщики,
осуществившие определение кадастровой стоимости.
Отчет об определении кадастровой стоимости принимается заказчиком работ по
определению кадастровой стоимости только при условии наличия экспертного заключения о
его соответствии требованиям.
Рисунок 2.
Схема процесса проведения кадастровой оценки
Заказчик работ опубликовывает информацию о данных государственной кадастровой
оценки на своем официальном сайте.
Замечания к отчету представляются в саморегулируемую организацию оценщиков,
членами которой осуществлено определение кадастровой стоимости, и исполнителю работ в
24
течение двадцати рабочих дней с даты размещения отчета об определении кадастровой
стоимости в фонде данных государственной кадастровой оценки.
При выявлении исполнителем работ необходимости внесения изменений в отчет об
определении кадастровой стоимости по итогам поступивших замечаний отчет подлежит
доработке.
2.4.
Урегулирование споров по результатам кадастровой оценки
Государственная кадастровая оценка производится в соответствии с приказом "Об
утверждении Методических указаний по государственной кадастровой оценке земель
населенных пунктов". В основе методов определения кадастровой стоимости заложен
удельный показатель кадастровой стоимости (УПКС), который представляет собой стоимость 1
квадратного метра земли. УПКС может рассчитываться как для всего кадастрового квартала
(района) в целом, так и отдельно для каждого вида разрешенного использования земель в
данном кадастровом квартале (районе). Ознакомиться со список нормативно закрепленных
видов разрешенного использования земель (ВРИ) можно на официальном портале Росреестра.
Результаты государственной кадастровой оценки земель вносятся в Государственный
кадастр недвижимости. От размера кадастровой стоимости участка зависит размер налога на
него. Земельный налог взимается в соответствии с главой 31 Налогового кодекса Российской
Федерации. Налоговая база определяется всегда на определенную дату (обычно 1 января года,
являющегося налоговым периодом) и не может быть изменена для целей налогообложения в
течение всего налогового периода, если не произошло изменение результатов государственной
кадастровой оценки из-за судебного решения, внесенного обратным числом на указанную дату.
Таким образом, все изменения, влияющие на величину кадастровой стоимости (например,
изменение вида разрешённого использования земли), будут учтены при изменении налоговой
базы только в следующем налоговом периоде.
Узнать актуальную кадастровую стоимость своего земельного участка собственники и
арендаторы могут на сайте Управления Росреестра в разделе «Справочная информация по
объектам недвижимости в режиме онлайн», или получив сведения из государственного
кадастра недвижимости (ГКН).
Тем лицам, которые считают, что кадастровая стоимость их земли была определена
неверно, предоставлена возможность ее оспорить. В соответствии с законодательством РФ об
оценочной деятельности (№ 1Э5-ФЗ «Об оценочной деятельности в Российской Федерации»)
результаты кадастровой оценки могут быть изменены в досудебном порядке. Специально для
25
этого были созданы региональные комиссии, занимающиеся рассмотрением споров о
кадастровой оценке недвижимости (подробнее описано в главе 2.4.1). Большая часть заявлений
направлены от юридических лиц: владельцы компаний не хотят переплачивать налог на землю
своих компаний.
Согласно закону, основанием для пересмотра установленной кадастровой стоимости земли
является доказательство заинтересованного лица, что при определении кадастровой стоимости
использовались недостоверные сведения. Доказать, что стоимость земли была завышена (или
занижена), собственники или арендаторы земли могут, установив для земельного участка
рыночную стоимость. Для этого необходимо обратиться в оценочную компанию и провести
оценку рыночной стоимости участка. Далее свое решение по заявлению о пересмотре
стоимости земли комиссия должна вынести в течение месяца.
Период, в течение которого владельцы и арендаторы могут оспорить кадастровую
стоимость, определен законодательством об оценочной деятельности. Подать заявление на
изменение кадастровой стоимости участков в досудебном порядке все заинтересованные лица
имеют право в течение шести месяцев с даты внесения кадастровой стоимости в
государственный кадастр недвижимости.
2.4.1. Досудебное урегулирование споров по результатам кадастровой оценки
Результаты определения кадастровой стоимости могут быть оспорены в суде или
специальной комиссии по рассмотрению споров о результатах определения кадастровой
стоимости.
Комиссии создаются органом, который выполняет функции кадастровой оценки, на
территории соответствующего субъекта РФ.
В состав комиссии входят по одному представителю от:

органа исполнительной власти

органа, выполняющего кадастровую оценку в данном субъекте РФ

органа кадастрового учета

СРО (саморегулируемой организации оценщиков), в которую входит оценочная
компания-исполнитель

НСОД (национального совета оценочной деятельности)
По состоянию на октябрь 2012г. Комиссии были созданы при 80 Управлениях Росреестра в
субъектах РФ. Однако работа по пересмотру кадастровой стоимости на тот момент
осуществлялась только в 6 Комиссиях.
26
Срок для оспаривания результатов оценки - 6 месяцев с даты внесения результатов
определения кадастровой стоимости в государственный кадастр недвижимости.
Основанием для пересмотра результатов определения кадастровой стоимости являются:
1)
Недостоверность сведений об объекте
2)
Проведение оценки рыночной стоимости объекта недвижимости
В случае если рыночная стоимость объекта недвижимости отличается от его кадастровой
стоимости не более чем на тридцать процентов, то комиссия принимает решение об
определении кадастровой стоимости объекта недвижимости в размере его рыночной
стоимости. Иначе комиссия принимает отрицательное решение, кроме случаев, когда
заявителем представлено положительное экспертное заключение СРОО (Саморегулируемая
Организация Оценщиков).
Экспертиза отчета об оценке - действия эксперта или экспертов СРОО в целях проверки
отчета, подписанного оценщиком или оценщиками, на:
1)
соответствие требованиям законодательства Российской Федерации об оценочной
деятельности;
2)
подтверждение стоимости объекта оценки, определенной оценщиком в отчете.
Результатом экспертизы отчета является положительное или отрицательное экспертное
заключение. Экспертиза отчета об оценке кадастровой стоимости включает выполнение
следующих действий:

Анализ отчета оценщика по оценке земельных участков

Заключение договора на экспертизу отчета об оценке в целях оспаривания кадастровой
оценки

Первичная проверка (методология, стоимость, формальные признаки)

Подготовка замечаний СРОО

Исправление замечаний оценщиком

Повторная проверка отчета об оценке (возможно несколько раз)

Подготовка положительного заключения
Таблица 2. Роли и функции исполнителей при оспаривании отчетов об оценке кадастровой
стоимости:
27
Оценщик
СРО оценщиков
Экспертиза отчета об оценке в досудебном
порядке для оценщиков, состоящих в данном
СРОО
Подготовка отчета об оценке в досудебном
порядке
Подготовка отчета об оценке в досудебном
порядке; прохождение экспертизы в СРО
оценщиков
Судебная экспертиза по установлению
стоимости
Экспертиза отчета об оценке в рамках
судебной экспертизы
В случаях, когда не указан вид экспертизы, экспертом проводится нормативнометодическая экспертиза. Таким образом, в отношении кадастровой оценки, где отсутствует
такое указание, проводится только нормативно методическая экспертиза.
При проведении нормативно-методической экспертизы положительным экспертным
заключением признается экспертное заключение, содержащее вывод о соответствии отчета
об
оценке
требованиям
законодательства
Российской
Федерации
об
оценочной
деятельности и стандартов и правил оценочной деятельности.
К сожалению, процесс определения кадастровой стоимости, который происходит в
настоящее время в рамках контракта, заключенного с ФКЦ «Земля», практически полностью
повторяет все основные дискредитировавшие себя методологические и организационные
подходы, имевшие место при проведении предыдущей кадастровой оценки. Текущая система
организации и методологии кадастровой оценки уже была подвергнута резкой критике
президентом (на тот момент премьер-министром) РФ В.В.Путиным: «Сфера не урегулирована,
а это ведет к тому, что и регионы, и федеральные службы заказывают кадастровую оценку. И в
зависимости от этой кадастровой оценки, которую неизвестно как проводят, надо платить и
налоги, и арендную плату. И это, конечно, очень коррупционная сфера. В разы повышается
арендная плата для некоторых предприятий и учреждений, и это никуда не годится».
В принципе, осуществление стоимостной экспертизы могло бы минимизировать долю
обращений
собственников
по
оспариванию
результатов
кадастровой
оценки.
Но
существующий в настоящее время порядок организации работ не позволяет экспертам
повлиять на результаты оценки, так как в их полномочиях проведение лишь нормативной
экспертизы.
Е.И. Нейман, президент Российского Общества Оценщиков и генеральный директор
компании «ЗАО РОСЭКО», в своем докладе «Стратегия развития оценки стоимости
имущества» предлагает в качестве одного из элементов стоимостной экспертизы добавить
построение карт ценового зонирования. Ценовое зонирование успешно проводилось в начале
28
90-х годов, однако в настоящее время в рамках кадастровой оценки больше не применяется. В
то же время, эффективность применения ценового зонирования была доказана и в наши дни на
примере организации и методологии работ по оценке недвижимости для целей изъятия при
реализации Олимпийского проекта в Сочи (2011-2014г).
По состоянию на 1 квартал 2013 года имеется следующая статистика о результатах работы
3 комиссий (по землям, где вид разрешенного использования: земли населенных пунктов):
Таблица 3. Статистика о результатах работы комиссий:
Регион
% рассмотренных заявлений
от общего числа
Омская
область
98%
Краснодарский
край
Республика
Башкортостан
99%
7%
Таблица 4. Результаты рассмотрения заявлений в комиссиях по рассмотрению споров:
* По двум заявлениям было принято 2 решения по объектам (удовлетворительно и отклонено)
** После возврата заявлений 9 заявителей, устранив причины, обращались повторно
*** После возврата заявлений 2 заявителя, устранив причины, обращались повторно
2.4.2. Судебное урегулирование споров по результатам кадастровой оценки
П. 3 ст. 66 Земельного кодекса (ЗК) РФ в действующей редакции предусматривает, что
кадастровая стоимость участка может определяться исходя из рыночной. Основанием для
подачи иска может быть отклонение от исправления кадастровой ошибки Росреестром и
29
несогласие с определенной кадастровой стоимостью. При не согласии с результатами
кадастровой оценки конкретного земельного участка в качестве доказательного документа
представляется отчет оценщика, выполненного в соответствии с ФЗ 135 «Закон об оценочной
деятельности» и Федеральными стандартами оценки ФСО № 1,2, 3.
В судебном порядке рассматриваются исковые заявления только в тех случаях, где разница
между
кадастровой
стоимостью
и
рыночной
составляют
более
30%.
Согласно
ПОСТАНОВЛЕНИЮ ПРЕЗИДИУМА ВАС РФ от 28 июня 2011 г. N 913/11 «Разница между
кадастровой и рыночной стоимостью более чем на 30% является существенной». Остальные
заявления рассматриваются в специально созданных комиссиях (описано в предыдущем
разделе). Однако при существенном расхождении между кадастровой и рыночной стоимостью
земельного участка суд вправе назначить экспертизу этого отчета об оценке в целях его
проверки. Таким образом, экспертиза результатов отчета об оценке является неотъемлемой
процедурой при оспаривании результатов кадастровой оценки, будь то через специально
созданные комиссии или в судебном порядке.
Как уже было упомянуто, одним из оснований для пересмотра кадастровой стоимости
участка является недостоверность сведений об объекте оценки, используемых во время
прошлой оценки. К данному пункту можно отнести следующие изменения параметров
земельных участков, осуществленные с момента проведения прошлой оценки:
1) Изменение категории земель или видов разрешенного использования
2) Слияние земельных участков
3) Образование новых земельных участков
4) Выделение земельных участков
При судебном урегулировании споров о кадастровой стоимости ответчиком выступает
Управление Росреестра по субьекту РФ. Истцом выступают физические или юридические
лица, в собственности которых находится оспариваемый земельный участок, или органы
государственной власти, если земельный участок находится в государственной или
муниципальной собственности.
К возможным доказательствам несоответствия результатов кадастровой и рыночной
стоимости относятся:

Отчет об оценке

Экспертное заключение саморегулируемой организации оценщиков

Заключение эксперта (при проведении судебной экспертизы результатов)
30
Следует отметить, что согласно ФСО (Федеральному Стандарту Оценки), совершение
сделки с объектом оценки не является обоснованием для установления его кадастровой
стоимости. Кроме того, при проведении оценки оценщик может использовать информацию
только о тех сделках и предложениях, которые произошли до даты проведения оценки.
Для оценки рыночной стоимости объекта могут использоваться следующие источники
информации (на дату не позднее даты оценки):
1)
Периодические издания (газеты и журналы) с объявлениями о предложениях
купли-продажи и аренды недвижимости
2.5.
2)
Информация агентств недвижимости
3)
Договоры купли-продажи
Методики оценки стоимости недвижимости
Оценка стоимости недвижимости - это процесс определения рыночной стоимости
объекта. Существует 2 типа оценки: кадастровая (массовая) и индивидуальная. Их основные
различия отображены в таблице.
Таблица 5. Сравнение подходов массовой и индивидуальной оценки.
Объем
Массовая оценка
недвижимости
Много объектов
Подход
Сравнительный
Индивидуальная оценка
недвижимости
Один объект
Доходный, затратный,
сравнительный
Как видно из таблицы, для массовой оценки применим только сравнительный метод
оценки, а для индивидуальной - доходный, затратный, сравнительный. Каждый подход имеет
свои особенности, определяющие сложность его реализации и, соответственно, определяющие
область его применения.
Самый простой и распространенный подход к оценке рыночной стоимости –
сравнительный. В рамках данного подхода производится прямой сравнительный анализ объекта
оценки и объектов–аналогов на основе данных о сделках и предложениях за заданный период
времени. При этом удельная стоимость объекта оценки берется как среднее арифметическое по
похожим объектам-аналогам
с учетом внесенных корректировок. Корректировки бывают
относительные (пример: корректировка на торг – 10% от стоимости предложения) и
абсолютные (пример: по каждому заемщику за регистрацию права собственности из стоимости
аналога вычитается гос. пошлина в размере 1000 руб.).
31
Другой подход - доходный,
основан на расчете размера дохода, теоритически
получаемого от владения правом собственности данным объектом недвижимости при условии
его продуктивного использования (например, сдачи в аренду).
Суть затратного подхода заключается в расчете стоимости застроенного участка как
суммы стоимости пустого земельного участка и понесенных расходов, необходимых для
восстановления \ замещения улучшений объекта оценки с учетом их износа. Предполагается,
что объект недвижимости, возведенный на участке, стоит не больше чем сам участок и
стоимость строительства аналогичного объекта за вычетом накопленного износа.
При массовой оценке в рамках существующего подхода к кадастровой оценке, на
обучающем множестве стоится линейная зависимость удельной стоимости объекта от
ключевых ценовых факторов. Полученное уравнение линейной регрессии распространяется на
множество объектов оценки, и таким образом определяют предварительную стоимость. Затем,
после проведения статистических анализов и проверок, на отдельные объекты (например, по
которым стоимости получились отрицательные) накладываются определенные корректировки.
При успешном проведении статистического тестирования, полученная стоимость признается в
качестве удельной кадастровой стоимости объекта недвижимости.
При массовой оценке в рамках алгоритма, реализованного в ИАС, каждому объекту
оценки индивидуально подбирается наиболее похожее множество объектов-аналогов из того же
географического кластера, что и объект оценки. При этом для упрощения расчетов в качестве
стоимости 1 кв. м. объекта оценки принимается средняя удельная стоимость по группе
наиболее подходящих объектов аналогов, выделенных в рамках алгоритма построения
решающего дерева и кластеризации. Таким образом, отсутствует необходимость дополнительно
вручную
проводить
корректировки
отдельных
объектов
с
заведомо
некорректными
стоимостями, т.к. все стоимости получены на основе загруженных в систему реальных
рыночных данных без использования линейных зависимостей. Более того, по каждому объекту
оценки есть возможность просмотреть выделенные в алгоритме именно для него объекты
аналоги, проверить адекватность правил, по которому данные объекты аналоги были выбраны
для данного объекта в качестве таковых.
2.6.
Алгоритм проведения кадастровой оценки
Алгоритм существующей кадастровой оценки (на основании Приказа Министерства
экономического развития и торговли Российской Федерации (Минэкономразвития России) от
15 февраля 2007 г. N 39 г. Москва "Об утверждении Методических указаний по
государственной кадастровой оценке земель населенных пунктов"'):
32
Рисунок 3. Алгоритм существующей методики кадастровой оценки
Основными методами обработки исходной рыночной информации являются регрессионный
корреляционный анализ и статистический метод группировок. Расчет кадастровой стоимости
осуществляется на основе построения статистических моделей в следующем порядке:
1)
Определение состава факторов стоимости;
Состав факторов стоимости определяется на основе анализа информации о рынке
недвижимости субъекта Российской Федерации. В состав факторов стоимости
должны быть включены факторы стоимости, которые оказывают существенное
влияние на стоимость.
2)
Сбор сведений о значениях факторов стоимости;
Сбор сведений о значениях факторов стоимости осуществляется из источников
информации, содержащих достоверную информацию. Он может осуществляться как
для каждого объекта, так и для их совокупности, если они имеют схожие значения
данного фактора стоимости.
3)
Группировка;
На основании анализа информации о рынке, состава факторов стоимости и сведений
о значениях этих факторов может проводиться группировка объектов. Для этого
определяется перечень факторов стоимости, на основе которых будет проведена
33
группировка, а также значения и (или) диапазон значений данных показателей для
отнесения объекта к соответствующей группе. Выбор показателей и их значений и
(или) диапазона значений должен быть обоснован. В случае если группировка не
проводится, все объекты рассматриваются как одна группа.
Объекты каждой группы не должны пересекаться (земельный участок должен быть
отнесен только к одной группе), должны быть однородными с точки зрения значений
(или) диапазонов значений факторов стоимости и полностью покрывать множество
объектов оценки (каждый земельный участок должен быть отнесен к какой-либо
группе).
4)
Сбор рыночной информации о земельных участках и иных объектах недвижимости;
Для каждой
сформированной
группы осуществляется
сбор
достаточной
и
достоверной рыночной информации о земельных участках в разрезе факторов
стоимости.
В качестве рыночной информации используются:

данные по сделкам (купля-продажа, аренда, ипотека);

цены предложения по объектам недвижимости (купля-продажа, аренда, купляпродажа права аренды);

цены спроса (купля-продажа, аренда);

информация о рыночной стоимости объектов недвижимости, установленной в
отчетах об оценке;
В качестве источников информации могут быть определены:

официальные
реестры,
содержащие
сведения
о
сделках
с
объектами
недвижимости, находящиеся в ведении органов государственной власти и
местного самоуправления;

средства массовой информации, в том числе официальные сайты предприятий,
организаций, размещающих объявления о рынке недвижимости:

данные о выкупе приватизированных земельных участков государственными
предприятиями

отчеты об оценке рыночной стоимости.
Информация считается достаточной, если на ее основе можно построить
статистически значимую модель расчета кадастровой стоимости. В противном случае
проводится сбор дополнительной рыночной информации и (или) перегруппировка
объектов и (или) оценка рыночной стоимости земельных участков в составе данной
34
группы с целью обеспечения достаточности рыночной информации и (или)
уточнение состава факторов стоимости.
В целях определения достоверности собранной рыночной информации проводится ее
статистический
анализ.
На
его
основании
определяется
и
устраняется
информация об объектах-аналогах с выбросами в значениях рыночной стоимости
и
факторов
стоимости.
Обеспечивается
непротиворечивость
и
интерпретируемость рыночной информации, используемой для построения
статистической модели расчета кадастровой стоимости.
5)
Построение статистической модели расчета кадастровой стоимости земельных участков
(функциональной зависимости стоимости земельных участков от факторов стоимости);
Для каждой группы земельных участков осуществляется построение статистических
моделей
расчета
кадастровой
стоимости
путем
определения
значений
коэффициентов (параметров) модели.
Построение моделей осуществляется на основе информации о стоимости выбранных
объектов-аналогов. Построенная модель расчета кадастровой стоимости должна
удовлетворять допустимым значениям критериев, определяющих статистическую
значимость моделей данного вида.
Основное отличие существующего алгоритма кадастровой оценки и алгоритма,
предлагаемого в ИАС, заключается в алгоритме построения статистической модели и
ее виде. Существующий алгоритм кадастровой оценки предполагает построение
линейной регрессионной модели, где стоимость объекта оценки линейно зависит от
факторов ценообразования (коэффициентов модели). Базовым инструментом для
определения величины стоимости объектов в ИАС был принят метод оценки при
помощи построения бинарного решающего дерева. В результате стоимость зависит
не линейно от ценовых факторов, а для каждого узла дерева рассчитывается как
среднее арифметической удельных стоимостей объектов-аналогов максимально
схожих по характеристикам с объектами оценки. Таким образом, достигается как
непротиворечивость результатов оценки
рыночным данным, так и снижение
среднего значения ошибки проведения кадастровой оценки.
Анализ качества построенных моделей проводится и на обучающей, и на
контрольной
выборке.
Под
обучающей
выборкой
понимается
рыночная
информация, на основе которой строятся модели расчета. Под контрольной выборкой
понимается рыночная информация, на основе которой проверяется качество
35
построенных моделей расчета, не включающая информацию об объектах обучающей
выборки. Количество объектов в контрольной выборке и значения факторов их
стоимости должны быть достаточными для формирования обоснованного суждения о
качестве построенной статистической модели для всего множества объектов оценки.
Анализ качества модели проводится с использованием статистических показателей,
характеризующих качество статистических моделей данного вида. Модель считается
приемлемой для расчета кадастровой стоимости, если параметры качества модели
находятся в допустимых диапазонах и близки по значению на обучающей и
контрольной выборках.
Из множества полученных моделей для каждой группы выбирается модель,
обладающая наилучшим качеством. Построенная модель расчета должна отвечать
требованиям предметной интерпретации (объяснимости), а также удовлетворять
допустимым уровням показателей качества статистических моделей данного вида.
В случае невозможности построения статистически значимой модели, обладающей
приемлемыми параметрами качества, необходимо осуществить сбор дополнительной
рыночной информации и (или) провести дополнительную оценку рыночной
стоимости земельных участков и (или) провести перегруппировку объектов оценки.
6)
Расчет кадастровой стоимости земельных участков.
Если построенная статистическая модель выражает зависимость кадастровой
стоимости земельного участка от значений факторов стоимости, то расчет
кадастровой стоимости осуществляется подстановкой значений факторов стоимости
в построенную модель.
Если
построенная
статистическая
модель
выражает
зависимость
удельного
показателя кадастровой стоимости земельного участка от значений факторов
стоимости, то расчет кадастровой стоимости осуществляется подстановкой значений
факторов
стоимости
в
построенную
модель
с
последующим
умножением
полученного удельного показателя кадастровой стоимости на площадь земельного
участка.
Возможные расхождения рыночной и кадастровой стоимости.
2.7.
Согласно действующему законодательству, государственная кадастровая оценка земель
служит для:
1)
определения размера налогообложения
36
2)
определения размера арендной платы за земельные участки, находящиеся в
государственной или муниципальной собственности
Следовательно, каждый земельный участок на территории РФ должен быть оценен
государством не реже одного раза в пять лет. Нетрудно догадаться, что учитывая размеры
территории РФ, кадастровой оценки подлежит огромное множество объектов. Хоть
кадастровая оценка выполняется в рамках одного субъекта РФ, ее масштабы довольно велики.
Поскольку одновременное выполнение индивидуальной оценки всех земельных участков
отдельно взятого субъекта РФ приведет к колоссальным временным и финансовым затратам,
для
определения
кадастровой
стоимости
используются
методы
массовой
оценки.
Принципиальное отличие массовой оценки от индивидуальной заключается в использовании
методов математической статистики для упрощения процесса.
Кроме того, в массовой оценке используются только основные ценовые факторы,
характерные для большого количества объектов. К таким факторам обычно относят типичные
и постоянные признаки земельных участков: площадь, вид разрешенного использования,
расстояние до ближайшего населенного пункта. Факторы, которые встречаются реже, зачастую
не учитываются: (расстояние до вредного производства, расстояние до свалки). Следует
отметить, что выбор факторов осуществляется посредством анализа рынка недвижимости в
рассматриваемом субъекте РФ. Для этого вычисляется степень корреляции цен сделок
объектов недвижимости и значений ценообразующих факторов. Для построения модели
оставляют только те факторы, у которых предположительно наибольший вклад в стоимость.<>
Таким образом, в результате кадастровой оценки определяется лишь примерная рыночная
стоимость объектов оценки. Из-за невозможности определения точной рыночной стоимости
каждого объекта оценки, при проведении кадастровой оценки «допускается статистическая
погрешность либо она устанавливается в размере, равном рыночной стоимости, определенной
индивидуально для этого объекта, если превышает допустимый уровень погрешности».
Также, могут существенно отличаться результаты кадастровой оценки, проведенной в
последнее время и более 5 лет назад. Ранее (до принятия действующей методики в 2007 году),
проводилась оценка удельного показателя кадастровой стоимости земли кадастрового
квартала, а не каждого отдельно взятого участка. Например, при проведении предыдущей
кадастровой оценки, земли в Челябинске 9 группы ВРИ (земли промышленного и складского
назначения) были оценены в 30.1 руб /м.кв. Спустя 10 лет, ситуация на рынке недвижимости
существенно поменялась и данный кадастровый квартал стал входить в группу перспективного
37
строительства. Во время следующей кадастровой оценки те же земли были оценены уже в 2529
руб/м.кв.
Особенность
оценочной
деятельности
в РФ заключается, с
одной стороны, в
необходимости следования множеству стандартов и законов во время выполнения оценки, а с
другой стороны, в отсутствии информационно-аналитического сопровождение данного рода
деятельности. Из-за такого разрыва появляются псевдо-оценочные организации, которые во
время оценки выполняют только формально верный набор операций, удовлетворяющий
нормативно-методической экспертизе. Возникает множество «теневых» схем, с участием
оценщиков. К тому же, в этот процесс невольно втягиваются и саморегулируемые организации.
А это ведет к повышению рисков имущественной ответственности, как оценщиков, так и
СРОО.
38
3. Разработка проекта задачи
3.1.
Уточненная постановка задачи
Реализовать
информационно-аналитическую
систему,
позволяющую
проводить
экспертизу отчетов оценки кадастровой стоимости: анализ результатов массовой оценки,
подбор аналогов, выполнение индивидуальной оценки, построение карт ценового зонирования,
верификация входных данных.
Изучить и провести анализ применимости существующих методов построения
решающего дерева; модифицировать наиболее подходящий для оценки недвижимости
алгоритм построения решающего дерева, учитывая большие размеры обучающих выборок
объектов аналогов; разработать и внедрить в существующую ИС модуль определения
стоимости недвижимости, используя модифицированный алгоритм построения решающих
деревьев.
3.2.
Описание пользовательского интерфейса и его реализации
Работа с системой начинается с загрузки главного окна ИАС.
Рисунок 4.
Главное окно ИАС
В верхней части окна находится меню системы, ниже - панель инструментов для быстрого
доступа к наиболее часто запускаемым модулям.
Кнопки для запуска отдельных модулей системы находятся также на вкладках в нижней
части экрана.
39
В левой части экрана находится окно сценария текущей работы пользователя. При
нажатии правой кнопкой мыши на элемент из данного сценария (далее - «ветвь дерева»)
откроется контекстное меню, позволяющее запустить тот или иной модуль системы для
обработки активной (выбранной на текущий момент времени) таблицы данных.
В правой части экрана размещается контейнер для отображения выбранной пользователем
активной таблицы данных.
В ИАС и всех ее модулях предусмотрено масштабирование элементов формы
относительно размеров экрана. Минимальное разрешение экрана, необходимое для корректного
отображения всех элементов ИАС, составляет 800*600 пикселей.
Непосредственная работа с системой начинается с загрузки пользователем на форму
исходной базы данных объектов недвижимости, хранящейся в MS Excel файле.
3.2.1. Импорт исходных данных в систему.
Для загрузки исходных данных об объектах недвижимости в ИАС необходимо выбрать в
главном меню системы Файл-Импорт.
Рисунок 5.
Выбор импорта данных в главном окне ИАС
При этом запустится модуль, отвечающий за загрузку внешних данных в систему.
40
Рисунок 6.
Окно импорта данных
Текстовое поле «заполнять с [ ] строки» позволяет пользователю выбрать с какой строки
по счету осуществлять загрузку данных из исходного файла (применимо, когда несколько строк
заполнено информацией о самой базе, о ее отправителе, создателе и т.д.). По умолчанию
происходит загрузка с 1 строки.
Используя переключатель «1 строка – заголовок», пользователь выбирает, содержит ли
первая загружаемая строка входного файла заголовки столбцов. По умолчанию включено.
При нажатии на кнопку «Выбрать файл» откроется диалоговое окно открытия файла.
Возможен выбор на компьютере Excel файлов старого (.xls) и нового (.xlsx) образца. При
выборе файла он загружается на форму. Система выполняет загрузку входных данных со
скоростью примерно 2 млн ячеек в минуту (значение данного параметра зависит от параметров
компьютера пользователя).
41
Рисунок 7.
Диалоговое окно открытия файла
Если во входном Excel-файле содержится несколько листов, то появится окно,
предлагающее пользователю выбрать с какого именно листа следует загрузить таблицу в
систему.
Рисунок 8.
Рисунок 9.
Окно для выбора листа входного Excel файла
Окно импорта с загруженным входным файлом
42
Расположение входного файла на компьютере отображается в текстовом поле, справа от
кнопки «выбрать файл».
В поле «записей в таблице» отображается число строк загруженной таблицы.
В поле «столбцов» отображается число столбцов загруженной таблицы.
Если после загрузки внешнего файла на форму пользователь закроет окно, то вернется на
главное окно системы.
Если будет нажата кнопка «применить», то загруженный в ИАС файл отобразится в
главном окне системы и появится соответствующая запись в сценарии действий пользователя:
«импорт данных {дата} {время}». При этом данная запись сценария автоматически станет
активной и заполнится число объектов выбранной таблицы (справа от панели инструментов).
Рисунок 10. Главное окно ИАС с загруженным входным файлом
Пока в систему не будет импортирован исходный файл с данными для обработки, запуск
остальных модулей (кроме модуля построения решающего дерева и модуля импорта данных)
будет недоступен.
3.2.2. Настройка столбцов
Для запуска модуля настройки столбцов необходимо выбрать в главном меню системы
Таблица-Настройка столбцов. Система позволяет изменять следующие параметры столбцов:

Заголовок

Отображение в таблице (да\нет)
43

Тип данных (вещественный \ целый \ логический\ строковый)

Использование столбца (активно используется \ справочно \ не используется)
Рисунок 11. Начальный вид окна модуля настройки столбцов
На форме настройки столбцов в левой части экрана отображается список столбцов
исходного файла, в правой – свойства выделенного столбца. Для изменения какого-либо
параметра, необходимо сперва выбрать название столбца из списка, затем произвести
необходимые изменения в его настройках.
В данном примере проведем следующие изменения столбцов таблицы данных:
1) Столбец «этаж»
a. тип данных: целый
2) Столбец «Цена предложения»
a. Использование столбца: справочно
44
3) Столбец «санузел»
a. Использование столбца: не используется
4) Столбец «балкон»
a. Отображение столбца в таблице: ложь
5) Столбец «обучающая»
a. тип данных: логический
При нажатии на кнопку «сохранить изменения» выполнится применение введенных
параметров настройки столбцов. Также для улучшения визуального восприятия таблицы в
системе используется следующее форматирование данных: активно используемые столбцы
имеют зеленый фон, неиспользуемые – серый, «справочно» - синий.
Рисунок 12. Окно модуля настройки столбцов после сохранения результатов
При закрытии модуля в главное окно ИАС загрузится база данных с измененными
пользователем параметрами столбцов и появится соответствующая запись в сценарии (если
результаты настройки были сохранены).
45
Рисунок 13. Главное окно системы после сохранения результатов настройки столбцов
При экспорте данных из системы в Excel файл, настройки столбцов также экспортируются
(параметры столбцов сохраняются на отдельный лист «options»).
Рисунок 14. Настройки модуля экспорта данных
Рисунок 15. Лист сформированного Excel файла, содержащий данные о столбцах таблицы
В таблице настроек экспортированных данных установлены следующие соответсвия
значений атрибутов и их влияния на отображение данных в ИАС:
46
Таблица 6. Соответсвия значений атрибутов и их влияния на отображение данных в ИАС
аттрибут
тип данных
видимость
тип использования
значение
0
1
2
3
true
false
0
1
2
физический смысл
вещественная переменная
целочисленная переменная
логическая переменная
строковая переменная
столбец отображается в ИАС
столбец не отображается в ИАС
активно используется
используется информационно
не используется
Для дальнейшие работы с контрольным примером полученную таблицу с настроенными
видимыми столбцами рекомендуется сохранить в новый файл и затем снова открыть в системе
(для того, чтобы в других модулях ИАС не выводились не отображаемые в таблице столбцы).
О том, как это можно сделать, подробно описано в части 3.2.3 данного документа.
3.2.3. Экспорт данных
Для сохранения результатов работы (активной в текущей момент таблицы данных) в Excel
файл, в сценария главного окна ИАС сперва необходимо выделить соотвествующую ветвь
дерева. В продолжении контрольного примера – необходимо выбрать ветвь «настройка
столбцов {дата}. В контейнере в правой части экрана при этом отобразиться таблица с учетом
настроек столбцов на предущем этапе. Чтобы сохранить эту таблицу с учетом настроек,
необходимо выбрать в главном меню «Файл – экспорт». При этом откроется соответствующее
окно, пример которого поканны ниже.
47
Рисунок 16. Окно модуля экспорта данных.
В данном окне в поле «записей в таблице» отображается количество строк в сохраняемой
таблице, поле «столбцов» показывает количество столбцов таблицы.
По умолчанию экспортируются только видимые активно используемые столбцы данных.
Используя переключатели «не видимые», «не используемые», «информационные» пользователь
настраивает, какие столбцы также данных будут сохранены в экспортируемый файл. По
умолчанию все переключатели выключены. В данном примере включим только переключатель
«информационные» , тогда в файл сохранятся активно используемые столбцы и помеченные
как «справочно».
При нажатии на кнопку «сохранить в файл» откроется диалоговое окно, предлагающее
пользователю выбрать, куда и под каким именем будет сохранена выбранная таблица.
В тестовом примере рекомендуется сохранить файл под именем «настройка_стобцов.xls».
Подробнее об используемых для выполнения данной операции инструментах и описание
реализации данного функционала указано в части 4.1.2. данного документа.
Также помимо реализованного по умолчанию экспорта данных в MS Excel файл
реализована возможность экспорта данных в TXT формат. Для этого необходимо при выборе
типа сохраняемого файла выбрать «txt files».
Рисунок 17. Выбор формата экспортируемого файла
Данный функционал был разработан в связи с физическими ограничениями возможностей
экспорта данных базовыми средствами в Excel файл. Особенности OLEDB поставщика
передачи данных, используемого в реализации функционала работы с файлами в ИАС, не
предоставляют возможность экспорта в Excel файл содержимого ячеек, элементы которых
48
содержат более 255 символов. Для этого в ИАС предусмотрен экспорт данных в ТХТ формат
без каких-либо ограничений на размеры.
Экспортированные
в
.txt
формат
данные
можно
затем,
при
возникновении
необходимости, открыть в MS Excel и предоставить данные в табличном виде: для этого
необходимо разбивать строки по столбцам (разделитель столбцов - запятая, вначале каждой
строки указан тег <data>:)
Рисунок 18. Пример экспортированной в .txt формат таблицы
3.2.4. Управление сценарием пользователя.
Данная часть документа описывает, каким способом можно выбирать ветви дерева
сценария, удалять и добавлять новые. Как это реализовано в системе и какие технологии
использовались – раскрыто в части 4.1.1
Выбор ветви дерева осуществляется нажатием на нее левой кнопки мыши.
При последующем нажатии правой кнопки мыши появиться контекстное меню.
49
Рисунок 19. Панель сценария пользователя и контекстное меню
В текущей версии ИАС реализованы следующие элементы контекстного меню:
данные
статистика
объекты
импорт
экспорт
общая
по кластерам
по улицам
поиск аналогов
индивидуальное определение стоимости
проверка результатов массовой оценки
построение регрессионной зависимости
решающее дерево
кластеризованное решающее дерево
деревья решений
карты
отображение объектов
отображение границ кластеров
определение координат объектов
кластерзация
настройка
таблицы
поиск противоречий
фильтры
настройка столбцов
удалить ветвь
Для удаления определенной записи сценария необходимо выбрать ветвь, нажать на нее
правой кнопкой мыши и в контекстном меню выбрать «удалить ветвь».
50
В продолжении контрольного примера удалим ветвь «импорт данных{дата}» и загрузим в
главное окно системы сохраненный в части 3.2.3 файл «настройка_столбцов.xls». О том, как это
сделать описано в части 3.2.1 данного документа.
Рисунок 20. Результат выполнения пунктов 3.2.1 – 3.2.4
3.2.5. Фильтрация данных.
Для фильтрации данных в таблице пользователь сначала выбирает необходимую ветвь
сценария, затем в главном меню «таблица – фильтрация». При этом откроется соответствующее
окно, пример которого изображается ниже.
51
Рисунок 21. Окно фильтра данных (начальный вид)
Процесс фильтрации реализован следующим образом: пользователь задает значение и
условие для каждого столбца, который необходимо отфильтровать,. Для числовых данных
условия фильтрации реализованы следующие: «>», « <», «=», «!=» ; для строковых: «начинается
с», «окачивается на», «содержит», «значение», «не начинается с», «не оканчивается на», «не
содержит». Если условий в фильтре больше одного, то вручную определяется необходимая
логическая операция между условиями фильтра: «и», «или». Для изменения порядка запросов
служат кнопки «вверх» и «вниз». Для удаления всех
запросов - «очистить фильтр». Для
добавления поля под новый запрос пользователя – «добавить условие». Для выполнения
операции фильтрации и предварительного просмотра отфильтрованной таблицы данных «просмотр». Если пользователя устраивают предварительные результаты, то он может их
сохранить, нажав кнопку «сохранить изменения». В этом случае при закрытии текущего окна в
главном окне системы в дерево сценария добавится запись следующего вида «фильтрация
{дата}». При этом таблица с отфильтрованными данными будет связана с соответствующей
записью сценария.
В контрольном примере рекомендуется выполнить фильтрацию со следующими
настройками:
52
Рисунок 22. Окно фильтрации с контрольными настройками.
Рисунок 23. Результат выполнения пунктов 3.2.1 – 3.2.5
53
3.2.6. Определение координат объекта.
Для определения координат объектов, хранящихся в базе, пользователь сначала выбирает
необходимую ветвь сценария, а затем в главном меню «объекты - определить координаты».
При этом откроется соответствующее окно, пример которого изображен ниже.
Рисунок 24. Окно определения координат.
В левой части окна необходимо выбрать, какие столбцы в обрабатываемой таблице
содержат информацию о городе, улице и номере дома объекта. Если в таблице есть столбцы,
содержащие информацию о типе улицы (проспект\улица\площадь и пр.), то переключатель
«тип» устанавливается в значение «истина» и пользователь выбирает, какой столбец таблицы
содержит указанные сведения.
После заполнения параметров настройки необходимо нажать кнопку «заполнение базы
данных» и подождать, пока система завершит определение координат объектов недвижимости
из таблицы. Помимо определения координат, система также определяет адреса объектов в
нормированном виде, в каком они хранятся на сервере Яндекса: «город, улица, дом». О том, как
это происходит, подробно раскрыто в части 4.1.3. данного документа.
Во время определения координат работа с системой невозможна; время работы модуля
зависит от вычислительной мощности ЭВМ и скорости Интернет-соединения.
54
*Так как при работе с большими объемами данных операция может занимать достаточно
много времени, то предусмотрена защита от неверного выбора данных пользователем: если
система не может определить координаты и адрес более 100 объектов подряд, то появляется
соответствующее предупреждение пользователю и выполнение операции прекращается.
После успешного завершения определения координат в таблицу добавляются следующие
столбцы:

Program_founded_X-координата Х

Program_founded_Y-координата Y

Program_CityName-название города в нормированном виде

Program_StreetName-название улицы в нормированном виде

Program_HouseName-номер дома в нормированном виде
Рисунок 25. Окно определения координат, результат работы модуля
При закрытии текущего окна, в главном окне системы в дерево сценария добавится запись
следующего вида «определение координат {дата}». При этом таблица с дополнительными
столбцами будет связана с соответствующей записью сценария.
После определения координат рекомендуется переформатировать значения координат,
полученные с сервера Яндекс, в вещественный формат (меню-объекты-настройка столбцов),
затем отфильтровать объекты, у которых указана нулевая координата (объекты не были
распознаны на сервере Яндекс карт), и сохранить полученную таблицу в отдельный файл
55
(например «координаты.xls»), чтобы при следующем запуске системы не тратить время на
повторное заполнение координат объектов.
Если возникают ошибки переполнения памяти, то настоятельно рекомендуется сохранить
текущие результаты и перезапустить систему (связано с обработкой большого объёма данных в
оперативной памяти, чем больше записей, тем больше объем занимаемой оперативной памяти).
Для предотвращения сбоев из за переполнения памяти в системе используются встроенные
инструменты сборки мусора и другие методы предотвращения утечек памяти, однако, у
программ под управлением ОС Windows возможны критические сбои из-за ошибок
переполнения памяти.
Рисунок 26. Результаты выполнения пунктов 3.2.1 – 3.2.6.
3.2.7. Поиск дубликатов и противоречий.
Данный модуль служит для поиска в таблице данных дубликатов и противоречий записей
об объектах недвижимости. Для запуска модуля пользователь выбирает в главном меню ИАС
пункт «поиск противоречий».
56
Рисунок 27. Окно поиска дубликатов и противоречий.
В левой части окна отображается список столбцов,
в правой части окна указана
информация о выделенном столбце и предоставлена возможность изменить вариант его
использования. Каждому столбцу таблицы пользователь присваивает метку одного из
следующих типов: «входной параметр», «выходной параметр», «не используется». По
умолчанию столбцы помечены как не используемые для данного модуля.
Алгоритм поиска дубликатов настроен следующим образом:
1) Перебираются все строки таблицы и группируются по набору совпадающих входных
параметров (Разбиваются на группы только те строки, у которых совпадают значения
столбцов типа «входной параметр»);
2) Если значения выходных параметров отличаются у двух объектов более чем на 30%,
то объекты считаются разными;
57
Иначе, если значения выходных параметров отличаются не более чем на 30%,то
объекты считаются одинаковыми, а данные по ним предположительно были получены
из разных источников в разное время. Такие повторяющиеся объекты система
помечает галочками и предлагает пользователю удалить их из таблицы
В данном контрольном примере, в продолжение выполняемой задачи, выберем
координаты объекта, как входные данные (одинаковый дом), а стоимость 1 м\кв. пометим
выходным параметром. При нажатии на кнопку «выполнить поиск» будет выведен весь список
объектов, находящихся по одинаковым адресам, но с разной стоимостью. В поле результаты,
расположенном по центру над таблицей, будет заполнено число объектов, у которых совпадают
входные параметры, и число объектов из них, у которых выходные параметры различаются
менее чем на 30%.
Если цена будет различаться менее чем на 30%, то предполагается, что это один и тот же
объект, добавленный в исходную базу несколько раз, из различных источников, либо в
различное время. Такие объекты система помечает как повторяющиеся и предлагает
пользователю удалить их (нажав на кнопку «удалить объекты»). Если цена различается
существенно, то предполагаем, что это совершенно разные объекты, каждый из которых
должен быть
учтен при построении модели
и внести свой вклад в построение
автоматизированного решения, поэтому по умолчанию такие объекты пользователю
предлагается оставить в выборке. Список с объектами-дубликатами можно сохранить в
отдельный Excel файл (например, для возврата на доработку администратору базы,
предоставившему входной файл), нажав на кнопку «сохранить таблицу».
Рисунок 28. Пример созданного файла с объектами-дубликатами
3.2.8. Отображение объектов на карте.
Данный модуль служит для отображения объектов недвижимости из входной таблицы на
Яндекс карте. О том, как это реализовано, раскрыто в части 4.1.4.
58
Для выполнения данной функции, пользователь сначала выбирает необходимую ветвь
сценария (в таблице предварительно должны быть определены координаты каждого объекта
[3.2.6]), а затем в главном меню ИАС «объекты – показать на карте».
В данном модуле пользователь выбирает, какие столбцы таблицы содержат информацию
о координатах. Если в таблице уже имеется информация о кластерах, можно включить
переключатель «кластеры» и дополнительно выбрать соответствующий столбец содержащий
номер кластера. В этом случае объекты разных кластеров будут отображены на карте разными
цветами.
Для отображения результата нанесения объектов на карту после настройки входных
данных, необходимо нажать на кнопку «показать на карте»
Рисунок 29. Окно отображения объектов на карте.
59
Сгенерированный Html файл, содержащий код на JavaScrpt для отображения объектов на
карте, храниться в рабочем каталоге ИАС; при желании его можно скопировать оттуда (на
пример для отчета оценщику) и открыть в любом Web-обозревателе.
Пользователю
в
данном
модуле
ИАС
предоставлены
следующие
стандартные
инструменты для работы с Яндекс-картой:

Изменение масштаба

Расчет расстояния

Отображение выделенной области на весь экран

Изменение режима карты (спутник\карта\гибрид)
Подробнее об использованных технологиях и обосновании их выбора раскрыто в части
4.1.3. данного документа.
3.2.9. Изменение ключа Яндекс. API
Данная функция необходима, только если система перестанет корректно работать с
картами и определять координаты. В таком случае необходимо на сайте www.yandex.ru
зарегистрировать новый аккаунт и запросить собственный Yandex.API – ключ. Изменить его
можно в соответствующей форме.
Рисунок 30. Окно изменения ключа Yandex. API.
3.2.10. Поиск аналогов.
Для поиска аналогов объекта оценки, пользователь сначала выбирает необходимую ветвь
сценария, затем в главном меню ИАС «объекты – поиск аналогов».
60
Рисунок 31. Окно поиска аналогов.
Процесс поиска аналогов реализован следующим образом: пользователь выбирает
входные параметры, задает значение объекта оценки для них и процент допустимого
отклонения параметров аналогов от этого значения. Для числовых типов данных, доступны
следующие виды совпадения: 100% (полное совпадение), 90%, 80%, 70%, 30%. Для строковых
типов данных доступно только 100% (полное совпадение) и 0% (параметр не оказывает
влияния).
Для удаления всех введенных значений параметров служит кнопка «очистить фильтр».
Для добавления поля под новый запрос пользователя – «добавить условие». Для
предварительного просмотра результатов – «просмотр». Если пользователя устраивают
предварительные результаты, то он может их сохранить, нажав кнопку «сохранить изменения».
В этом случае текущее окно закроется и в главном окне ИАС появиться запись в сценарии
«поиск аналогов {дата}», при этом таблица с объектами – аналогами будет связана с
соответствующей записью сценария.
В контрольном примере предлагается выполнить поиск аналогов со следующими
настройками:
61
Рисунок 32. Настройка параметров модуля поиска аналогов
В соответствии с введенными значениями параметров система выполнит поиск аналогов в и
выведет результат в таблицу:
Рисунок 33. Результаты контрольного примера поиска аналогов
3.2.11. Кластеризация.
Кластеризация подразумевает выделение в группы схожих между собой объектов.
Подробнее об используемых в данной задаче алгоритмах и причинах их выбора описано в части
4.1.5 данного документа.
Для выполнения кластеризации объектов оценки пользователь сначала выбирает
необходимую ветвь дерева сценария (в таблице предварительно должны быть определены
координаты каждого объекта) и затем в главном меню ИАС «объекты» - «кластеризация» «кластеризация объектов»
62
Рисунок 34. Окно кластеризации
Перед проведением непосредственно кластеризации необходимо разбить объекты на
группы по их удельной стоимости. Процентный диапазон разрыва рекомендуется оставлять по
умолчанию (30%). Данный параметр влияет на количество генерируемых групп, определяющих
максимальное количество кластеров.
После
проведения
группировки
объектов
каждый
из
них
будет
отнесен
в
соответствующую группу на основании его удельной стоимости. На сформированных группах
будут строиться кластеры, поэтому разбиение объектов недвижимости по группам напрямую
влияет на определение начальных центров кластеров.
63
Рисунок 35. Группировка объектов по цене с 30% диапазоном
Одна из особенностей ИАС – отсутствие необходимости пользователю жестко задавать
количество кластеров. Во взятом за основу для реализации в ИАС алгоритме кластеризации kmeans, пользователь вручную задает количество кластеров, на которое необходимо разбить
исходное множество объектов. В ИАС объекты оценки изначально группируются по стоимости
с разрывом в 30% (см выше); при этом каждая сформированная группа представляет начальное
разбиение множества по кластерам. В дальнейшем в группах определяются центры кластеров,
и в алгоритм кластеризации, таким образом, на вход уже поступает и количество кластеров, и
готовые сформированные начальные центры данных кластеров. Таким образом, количество
кластеров определяется автоматически на основе заданного пользователем уровня «доверия»
цен: например, мы считаем, что если объекты отличаются по стоимости более чем на 30%, то
они, скорее всего, находятся в разных ценовых зонах и, соответственно, должны принадлежать
разным кластерам.
Для проведения непосредственно кластеризации пользователю необходимо корректно
указать столбцы, содержащие информацию о координатах объектов. В данном модуле ИАС на
выбор предлагается выполнить либо двухфакторную кластеризацию объектов недвижимости по
местоположению, либо трехфакторную кластеризацию по местоположению и удельной
64
стоимости. Разница в том, что в первом случае кластеризация проводится только по
географическому положению объектов (двумерная), а во втором цена объекта также будет
влиять на отнесение объекта в тот или иной кластер. При проведении трехфакторной
кластеризации используются относительные, а не абсолютные значения параметров - ценовых
факторов объектов; при этом веса факторов рассчитываются исходя из диапазона их значений
для данного кластера.
При расчете расстояния от объекта до центра кластера при трехфакторной кластеризации
алгоритм работает следующим образом:
1) Рассчитывает диапазоны значений по каждому фактору для выбранного кластера
2) Делит диапазоны по каждому фактору на количество элементов, чтобы условно
полученная единица измерения по каждому параметру была средневзвешенная с
относительно одинаковыми коэффициентами-весами по каждому измерению
3) Выполняет непосредственно кластеризацию, которая дает хуже разбиение с точки
зрения местоположения, но намного лучше с точки зрения ценовой и географической
однородности выборок в кластере.
Рисунок 36. Алгоритм расчёта расстояний объекта до центра кластера, используя относительные
значения параметров.
Для построения карт ценового зонирования правильнее выбирать второй вариант, однако
полученная карта будет верной лишь при корректно оцененных и нормированных стоимостях
объектов в таблице (для этого изначально до работы с ИАС должна быть корректно выполнена
массовая оценка объектов).
После выполнения кластеризации пользователь может запустить модуль отображения
объектов на карте с учетом их разбиения по кластерам, нажав на кнопку «посмотреть на карте»
65
(подробнее в 3.2.8). Также из модуля кластеризации доступен напрямую вызов модуля
построения ценовых диапазонов в разрезе улиц (подробнее в 3.2.13).
Рисунок 37. Результаты кластеризации объектов по местоположению
66
Рисунок 38. Результаты кластеризации объектов по местоположению и удельной стоимости
В модуле кластеризации реализована возможность предварительной оценки стоимости
объектов
оценки
по
кластерам,
используя
значения
стоимостей
объектов-аналогов
ОБУЧАЮЩЕГО МНОЖЕСТВА данного кластера. Для этого пользователю необходимо
выбрать столбец, содержащий значения признака принадлежности объекта к обучающему
множеству; и ввести необходимое значение параметра, определяющее принадлежность объекта
из входной таблицы к данному обучающему множеству. Модель оценки при этом будет
строиться на обучающем подмножестве кластера и применяться на все множество объектов
данного кластера. В качестве итоговой удельной стоимости объектов оценки принимается
среднее либо медианное удельное значение стоимости обучающих объектов-аналогов по
кластеру.
Рисунок 39. Кнопка запуска расчёта предварительной стоимости объектов на основе данных кластера
Рисунок 40. Результаты предварительной оценки стоимости объектов кластера/ абсолютная ошибка
оценки/ относительная ошибка оценки)
67
3.2.12. Построение карт кластеров
Данный модуль служит для отображения границ кластеров на Яндекс.Картах. Это может
быть использовано как при построении карт ценового зонирования, так и при проверке
результатов массовой оценки.
Для выполнения данной функции пользователь сначала выбирает, какие столбцы
содержат информацию о координатах и номерах кластеров.
Для отображения границ кластеров без нанесения объектов на карту служит кнопка
«отобразить только контуры кластеров». Если пользователь хочет видеть на карте и объекты
недвижимости из таблицы, и границы кластеров, то следует нажать на «отобразить кластеры с
объектами».
Рисунок 41. Результаты отображения границ кластеров с объектами
68
Рисунок 42. Результаты отображения только контуров кластеров
Если во время работы модуля возникают ошибки выполнения сценария браузера, то
следует установить официальный пакет исправления ошибок №50403
для Windows от
Microsoft, находящийся в том же каталоге, что и файлы ИАС.
Сгенерированный Html файл, содержащий код на JavaScrpt для отображения объектов и
границ кластеров на карте,
храниться в рабочем каталоге ИАС; при желании его можно
скопировать оттуда (на пример для отчета оценщику) и открыть в любом Web-обозревателе.
Пользователю
в
данном
модуле
ИАС
предоставлены
следующие
стандартные
инструменты для работы с Яндекс-картой:

Изменение масштаба

Расчет расстояния

Отображение выделенной области на весь экран

Изменение режима карты (спутник\карта\гибрид)
Подробнее об использованных технологиях и обосновании их выбора раскрыто в части
4.1.4. данного документа. Об алгоритме определения границ кластеров – в части 4.1.7
69
3.2.13. Отображение статистики по улицам.
Для определения ценовых диапазонов для каждой улицы, на которой расположены
объекты недвижимости из исходной таблицы, используется модуль «Статистика по улицам».
Для запуска модуля, пользователь сначала выбирает необходимую ветвь сценария, а затем в
главном меню ИАС «статистика по улицам».
Рисунок 43. Окно отображения статистики по улицам.
В левой части окна необходимо выбрать, какие столбцы из обрабатываемой базы
содержат информацию о городе, улице и стоимости объекта. После заполнения настроек
необходимо нажать кнопку «рассчитать статистику» и подождать, пока модуль системы
завершит расчёты.
В итоге, в правой части экрана на основе исходных данных будет сформирована и
заполнена таблица, отображающая минимальную и максимальную стоимость на каждой улице,
а так же количество объектов на ней и среднюю стоимость 1 м\кв. Сохранить эту таблицу
можно в отдельный Excel файл, нажав на кнопку «сохранить результаты в файл».
3.2.14. Отображение статистики по кластерам.
Для анализа разброса стоимостей по кластерам используется модуль «Статистика по
кластерам». Для запуска модуля, пользователь сначала выбирает необходимую ветвь сценария,
а затем в главном меню ИАС «статистика по кластерам».
70
Рисунок 44. Окно отображения статистики по кластерам.
В верхней части окна необходимо выбрать, какие столбцы обрабатываемой таблицы
данных содержат информацию о кластере и стоимости объекта. После заполнения настроек,
необходимо нажать «рассчитать показатели» и подождать, пока модуль системы завершит
расчёты.
На основе данных системы будет сформирована и заполнена таблица, отображающая
минимальную и максимальную стоимость в каждом кластере, а так же количество объектов в
нем и среднюю стоимость 1 м\кв. Кроме того, в зависимости от указанного процентного
диапазона (по умолчанию 70%) будут заполнены минимумы, максимумы и средние значения с
учетом того, что в выборке останутся только указанные 70% объектов близких по стоимости к
медианному значению. Сохранить эту таблицу можно в отдельный Excel файл, нажав на кнопку
«сохранить результаты в файл».
При нажатии на кнопку «график» будет выведен график стоимости объектов для
выделенного кластера.
71
Рисунок 45. График стоимостей
При нажатии на кнопку «гистограммы» будет выведена гистограмма распределения
стоимостей объектов для выделенного кластера.
Рисунок 46. Гистограмма распределения стоимостей
72
3.2.15. Определение стоимости объекта.
Для проведения индивидуальной экспресс-оценки объекта сравнительным подходом,
пользователь сначала выбирает необходимую ветвь сценария, а затем в главном меню ИАС
«объекты – определить стоимость» (в таблице предварительно должны быть определены
координаты каждого объекта).
Рисунок 47. Окно определения стоимости отдельно взятого объекта.
В левой части экрана необходимо выбрать, какие столбцы обрабатываемой таблицы
данных содержат информацию о координатах объектов и их стоимостях, в поле «адрес
оцениваемого объекта» вручную заполняется адрес объекта оценки (допустим ввод примерного
местоположения объекта).
При нажатии на кнопку «определить стоимость» таблица будет заполнена информацией о
близлежащих объектах; в поле «вероятная стоимость» будет заполнена средняя стоимость 1
м\кв. по найденным близлежащим объектам.
Сохранить эту таблицу можно в отдельный Excel файл, нажав на кнопку «сохранить
результаты в файл».
Посмотреть на карте, где находится объект оценки, и где находятся найденные системой
объекты – аналоги, можно нажав на кнопку «показать объекты на карте». Красным маркером
73
обозначается местоположение объекта оценки, а синим – его аналогов из обрабатываемой
исходной таблицы данных.
Рисунок 48.
Окно отображения объекта оценки и его близлежащих соседей.
3.2.16. Проверка результатов массовой оценки.
Данный модуль служит для проверки адекватности распределения стоимостей объектов
недвижимости после проведения их массовой оценки. Используемый в модуле метод анализа
соотношений зарекомендовал себя в США при проведении экспертизы результатов массовой
оценки. Почему этот метод используется в данной системе и как именно он работает подробно
рассмотрено в части 4.1.8. Для запуска модуля пользователь сначала выбирает необходимую
ветвь сценария, а затем в главном меню ИАС «объекты» – «проверить результаты оценки».
Рисунок 49. Окно проверки результатов массовой оценки.
74
В появившемся окне пользователь выбирает, какие столбцы обрабатываемой таблицы
данных содержат информацию о стоимости объекта. При нажатии на кнопку «выполнить
анализ соотношений» будут заполнены доступные только для чтения поля формы модуля,
значения которых участвуют в расчетах алгоритма анализа методом медианных соотношений
(подробнее в части 4.1.8.). Если результаты успешно прошли проверку, то найденный
коэффициент разброса имеет зеленый фон, иначе – красный. Допустимыми значениями
коэффициента разброса приняты значения в диапазоне от 5 до 15.
3.2.17. Построение линейной регрессии.
Данный модуль служит для построения линейной регрессии. Применительно к оценке
недвижимости,
линейная
регрессионная
зависимость
может
использоваться
как
для
определения корректирующих коэффициентов, так и для построения линейной модели
массовой оценки. Алгоритм, используемый для построения линейной регрессии в данной
системе – метод наименьших квадратов. Для запуска модуля пользователь сначала выбирает
необходимую ветвь сценария, а затем в главном меню системы «объекты» – «построить
линейную зависимость».
Рисунок 50.
Начальный вид окна построения линейной регрессии.
75
В левой части окна перечислены столбцы исходной таблицы, на панели «Параметры
столбца» пользователь определяет их вид использования при последующем построении
регрессии (выходной\входной\не используется). По умолчанию все столбцы помечены как не
используемые. Возможность выбрать вид использования столбца предусмотрена только для
столбцов, которые содержат числовые данные.
При выборе флажка «Определить обучающее множество» у пользователя будет
разблокирован соответствующий выпадающий список с названиями столбцов таблицы. В
данном
списке
пользователю
необходимо
выбрать
столбец,
содержащий
данные,
определяющие принадлежность объекта таблицы обучающему множеству; и затем ввести
значение параметра, которое должно быть в данном столбце у объектов обучающей выборки.
На основе определенных пользователем видов использования столбцов при нажатии на
кнопку «рассчитать коэффициенты регрессии»:
1) Будет сформировано уравнение линейной регрессии на обучающей выборке объектов.
Если обучающее множество не выбрано, то формирование уравнения производится на
всей выборке объектов.
2) Рассчитанные коэффициенты регрессии будут заполнены в таблицу на форме в
средней части окна.
При проставлении флажка в поле «задать параметры вручную» таблица с
заполненными коэффициентами станет доступной для редактирования пользователю
для обеспечения возможности вручную вводить параметры регрессионной модели
после их ручной обработки и анализа.
3) В отдельную таблицу в правой части окна (“Данные для построения регрессии”) будут
выведены только те столбцы, которые были использованы при построении уравнения
линейной регрессии.
Рисунок 51. Результат построения линейной регрессии на таблице данных. *В контрольном примере
«площадь общая (ПлОбщ)» и «площадь жилая (ЖилП)» - входные параметры, «цена» - выходной.
76
Для применения модели линейной регрессии на всю выборку объектов недвижимости
входной таблицы служит кнопка «оценить выборку используя сформированное уравнение
регрессии». Расчет выходного параметра будет произведен используя значения из таблицы
коэффициентов регресии (в средней верхней части формы модуля). Результат будет записан в
исходную
таблицу
в
сформированный
столбец
«RegressionResult».
В
столбец
«RegressionResultABS» будет записана абсолютная разность фактического значения выходного
параметра и полученного в результате применения модели линейной регрессии, в столбец
«RegressionResultABSPersent» - относительное значение ошибки оценки.
Рисунок 52. Результат построения и применения модели линейной регрессии
3.2.18. Модуль дерева решений
*Для удобства изучения пояснительной записки, все рекомендуемые к выполнению действия пронумерованы. При желании, их
можно выполнять последовательно друг за другом в работающей информационной системе по ходу чтения документа.
1. Для запуска модуля построения дерева решений, необходимо выбрать в главном меню
системы «Объекты»-«Дерево решений». При этом запустится модуль, отвечающий за
построение дерева решений.
77
В ИАС реализована возможность загрузки файлов с данными об объектах оценки как на
этапе импорта (часть 3.2.1 документа), так и непосредственно в модулях работы с деревьями
решений. Если данные уже были загружены на главную форму системы, то при запуске модуля
дерева решений они будут автоматически экспортированы в соответствующий модуль; если нет
- запустится пустое окно модуля, в котором пользователю необходимо будет самостоятельно
загрузить данные из файла.
В демонстрационном примере предлагается самостоятельно загрузить новый файл в модуль дерева решений.
Рисунок 53. Окно модуля дерева решений
Текстовое поле «заполнять с [ ] строки» позволяет пользователю выбрать с какой строки
по счету осуществлять загрузку данных из исходного файла (применимо, когда несколько строк
заполнено информацией о самой базе, о ее отправителе, создателе и т.д.). По умолчанию
происходит загрузка с 1 строки.
Используя переключатель «1 строка – заголовок», пользователь выбирает содержит ли
первая загружаемая строка входного файла заголовки столбцов. По умолчанию включено.
При
выборе
флажка
«Выбрать
обучающее
множество»
у пользователя
будет
разблокирован соответствующий выпадающий список с названиями столбцов таблицы. В
данном
списке
пользователю
необходимо
выбрать
столбец,
содержащий
определяющие принадлежность объекта таблицы обучающему множеству;
78
данные,
и затем ввести
значение параметра, которое должно быть в данном столбце у объектов обучающей выборки. В
дальнейшем построение модели оценки будет проводиться только на обучающем множестве
объектов, а применение модели будет осуществляться на всю выборку.
2. При нажатии на кнопку «открыть новый файл» откроется диалоговое окно открытия
файла. Возможен выбор на компьютере Excel файлов старого (.xls) и нового (.xlsx) образца. При
выборе файла он загружается на форму. Если в импортируемом Excel-файле содержится
несколько листов, то появится окно, предлагающее пользователю выбрать с какого именно
листа следует загрузить таблицу в систему.
Нажимаем «открыть новый файл». Выбираем файл с базой данных по недвижимости (например,
«тестовый_ярославль.xlsx» из приложения к системе). Лист из файла, который необходимо загрузить в систему:
«вся выборка$». В нем, из 12789 объектов недвижимости, 1223 ранее случайно выбранных принадлежат
обучающей выборке.
Рисунок 54. Окно дерева решений с импортированными данными
Расположение входного файла на компьютере отображается в текстовом поле, справа от
кнопки «открыть новый файл».
В поле «строк» отображается число строк загруженной таблицы.
В поле «столбцов» отображается число столбцов загруженной таблицы.
Если после загрузки внешнего файла на форму пользователь закроет окно модуля, то
вернется на главное окно системы. Если нажмет «на главную» - то на главную форму системы
будет экспортирована таблица с данными из модуля дерева решений в ее текущем состоянии;
79
добавится соответствующая запись в сценарии действий пользователя: «дерево решений {дата}
{время}». При этом данная запись сценария автоматически станет активной и заполнится число
объектов выбранной таблицы (справа от панели инструментов).
3. В выпадающем списке «стоимость недвижимости» на панели «параметры алгоритма»
необходимо выбрать название столбца, в котором содержатся значения моделируемого
параметра – стоимости недвижимости.
Следует выбрать столбец, содержащий информацию о стоимости недвижимости за 1 м.кв: «метр».
Рисунок 55. Выбор столбца, содержащий фактическую удельную стоимость недвижимости
4. Следующим шагом следует настроить параметры упрощения работы алгоритма:
Параметры упрощения модели рекомендуется оставлять по умолчанию.
Рисунок 56. Параметры упрощения построения модели решающего дерева
1) «Максимальная глубина дерева» - если глубина дерева больше значения параметра,
то узел дерева считается листом, при условии что ошибка распознавания не больше
значения параметра «максимальная ошибка дерева».
2) «Количество элементов в узле» - если в узле элементов меньше, чем значение
данного параметра, то данный узел считается листом и дальнейшее построение
дерева прекращается.
3) «Приемлемая ошибка дерева» – если ошибка в узле не больше значения данного
параметра, то узел считается листом, не зависимо от числа элементов в нем.
4) «Максимальная ошибка дерева» – в наихудшем случае построение дерева
происходит до тех пор, пока ошибка распознавания в каждом листе не станет ниже
значения данного параметра, либо пока не останутся в листах только те элементы,
входные параметры которых идентичны.
5. Затем предлагается настроить параметры объектов базы данных: выбрать те поля,
которые заведомо не должны участвовать в построении дерева решений.
80
Рисунок 57. Выбор параметров объектов, не участвующих в построении модели
В демонстрационном примере это следующие параметры:

Столбцы, содержащие информацию о стоимости объекта: «цена предложения руб#»,

Столбцы,
заведомо
не
участвующие
в
ценообразовании
объекта:
«тип
адресного
объекта»
(улица\проспект\проезд\переулок) , «город» (все объекты в выборке в г.Ярославль) , «Обучающая 10%»
(столбец, генерируемый случайное значение от 1 до 10, для построения СЛУЧАЙНОЙ обучающей
выборки для проверки работоспособности алгоритма)
6. При наличии в загруженном в систему файле и объектов оценки, и объектов-аналогов
обучающей выборки, следует выбрать столбец, содержащий признак принадлежности объекта
недвижимости обучающей выборке.
Рисунок 58. Выбор столбца для определения принадлежности объекта к выборке аналогов.
7. Для запуска построения дерева служит кнопка «Построить дерево»:
Рисунок 59. Кнопка запуска построения модели дерева
8. Спустя несколько секунд появится сообщение, информирующее о том, что построение
дерева завершено.
Рисунок 60. Сообщение о выполнении операции
После построения дерева решений пользователю становятся доступны кнопки «сохранить
дерево», «оценить стоимость при помощи дерева», «анализ ошибок», и непосредственно
просмотр самого дерева, прорисованного в нижней правой части экрана.
81
Рисунок 61. Пример отображения дерева решений на форме пользователя
Каждый узел дерева содержит следующие поля:
1)
2)
3)
4)
5)
6)
Название атрибута, по которому происходило разбиение узла.
Значение данного атрибута
Количество элементов в узле
Общая ошибка в узле
Минимальное значение искомого параметра в узле
Максимальное значение искомого параметра в узле
Эти выводимые на форму поля узла дерева решений представляют наиболее важную для пользователя
информацию, из
всего множества полей, которые содержит каждый узел дерева. Отображаемая на форме
наглядная информация об узлах дерева служит лишь для контроля модели пользователем и для пошаговой оценки
значений искомого параметра объекта в ручном режиме.
Система автоматически способна производить оценку целевого атрибута объекта,
используя только лишь построенные деревья решений. Кроме того, в информационной системе
реализован функционал для сериализованного сохранения и загрузки существующих файлов
дерева решений.
9. Для сохранения полученного дерева решений в файл, необходимо нажать «сохранить
дерево»
Рисунок 62. Кнопки сохранения\загрузки деревьев решений
Выберите место и название для файла, например «12k_1k_teach_TreeFile.tree» в рабочем каталоге системы.
9*. Если тестовая и обучающая выборка расположены в разных файлах, то для импорта в
систему тестовой выборки объектов оценки, необходимо нажать «открыть новый файл».
Выбираем файл с тестовой базой данных объектов недвижимости
10. Выбираем столбец, отвечающий за стоимость недвижимости («метр»).
82
Рисунок 63. Столбец, отвечающий за значения стоимости объектов.
В данном случае это необходимо, чтобы сравнить реальные стоимости недвижимости
тестовой выборки, и полученные программным путем. Это позволит оценить, насколько верно
было построено дерево решений
11. Нажимаем кнопку «оценить стоимость при помощи дерева»
12. Всплывающее окно проинформирует о завершении операции оценки. В исходной
таблице данных будут добавлены 3 новых столбца:
Рисунок 64. Добавленные характеристики объектов.
 DecisionTreeResult: стоимость объекта, согласно дереву решений
 DTResultABS: модуль разности реального и оцененного значения признака
83
 ABSPercent: модуль разности значений в процентах.
Таким образом, на данном этапе у пользователя есть база объектов оценки с
просчитанными системой стоимостями. Дальше ее можно экспортировать в excel файл или же
продолжить обработку\анализ полученных данных.
13. Для детального наглядного анализа результатов и причин возникновения ошибок
оценки служит модуль «анализ модели», вызов которого доступен из модулей решающих
деревьев по нажатию на кнопку «анализ ошибок». Описание данного модуля и его
функциональных возможностей приведено в части 3.2.20
Рисунок 65. Окно модуля информативного анализа результатов
14. Для выхода из модуля построения дерева решений и возврата в главное окно ИАС
необходимо нажать «На Главную»
Рисунок 66. Кнопка возврата на главное окно системы
При этом таблица объектов с проставленными стоимостями будет перенесена на главное
окно системы.
84
Рисунок 67. Главное окно системы с обработанным входным файлом
15. Для экспорта во внешний файл необходимо нажать кнопку «экспорт» и далее выбрать
расположение и название файла. Сохранение большого объема данных может занять до
нескольких (1-2) минут.
16. Качество оценки при помощи дерева наилучшим образом показывает сводная
статистика по файлу. Для ее загрузки необходимо выбрать в главном меню «статистика»«общая статистика по базе».
Рисунок 68. Окно модуля отображения статистики
Для отображения графика распределения реальной стоимости объектов необходимо
выбрать строку, содержащую название столбца с удельными стоимостями объектов («метр») и
нажать кнопку «график».
85
Рисунок 69. График распределения реальных стоимостей объектов.
Для отображения графика распределения оцененной стоимости объектов необходимо
выбрать строку, содержащую название столбца с удельными оцененными стоимостями
объектов («DecisionTreeResult») и нажать кнопку «график».
Рисунок 70. График распределения оцененной стоимостей объектов.
86
Для
расчета
диапазона
значений
ошибок
модели
на
заданном
пользователем
доверительном интервале, необходимо:
1) Выбрать строку, содержащую название столбца с относительными значениями
ошибок («ABSPercent»);
2) Ввести значение доверительного интервала объектов оценки (в процентах)
В контрольном примере выбираем 84% доверительный интервал.
3) Нажать кнопку «посчитать».
Рисунок 71. Статистика для 84% диапазона значений модуля разности реальной и оцененной
стоимости объектов.
Полученные значения минимума и максимума показывают, что у 84% всей тестовой
выборки (11566 элементов) разность реальной стоимости и оцененной не превышает 30%.
(*В оценке недвижимости общепринятой допустимой погрешностью является значение 30%).
Для
формирования
гистограммы
распределения
ошибок,
необходимо
нажать
«гистограммы» при выделенной строке «ABSpercent». В этом случае будет построена
гистограмма распределения разницы стоимости объектов (реальной и оцененной), выраженной
в процентах.
Рисунок 72. Гистограмма ошибки распознавания (в долях от стоимости объекта).
87
Значение по оси У- количество элементов, по оси Х- величина относительной разности
стоимостей. Как видно, почти все объекты имеют допустимую ошибку распознавания, а более
30% объектов распознались с ошибкой менее 5%.
Вывод к демонстрационно-исследовательскому примеру:
В качестве тестовой и обучающей выборки были взяты 10% и 90% соответственно от
реальной базы аналогов, собранной одной из оценочных компаний по г. Ярославль.
Полученные результаты применения алгоритма построения дерева решения на случайно
выбранных объектах случайно взятой базы свидетельствуют о возможности применения дерева
решений к оценке стоимости недвижимости, при достаточной полноте и корректности
заполнения выборки базы аналогов. Безусловно, должна параллельно производиться
индивидуальная (ручная) оценка отдельно взятых объектов для контроля модели, но в целом
для проведения массовой ПРИБЛИЖЕННОЙ оценки стоимости недвижимости данный метод
может быть применен.
3.2.19.Модуль кластеризованного дерева решений
Модуль кластеризованного дерева решений представляет собой основную ценность и
научную новизну данной системы применительно к проведению массовой кадастровой оценки.
Благодаря единовременному автоматизированному использованию композиции нескольких
алгоритмов анализа данных, кластеризованное дерево решений позволяет добиться результатов
массовой оценки, максимально приближенных к реальным рыночным данным. Подробное
описание алгоритма приведено в части 4.1.11. Ниже пошагово описано применения модуля
кластеризованного дерева решений к базе данных объектов недвижимости г.Ярославль.
*Для удобства изучения пояснительной записки, все рекомендуемые к выполнению действия пронумерованы. При желании, их
можно выполнять последовательно друг за другом в работающей информационной системе по ходу чтения документа.
1. Для запуска модуля построения кластеризованного дерева решений, необходимо
выбрать в главном меню системы «Объекты»-«Дерево решений (модифицированное)». При
этом запустится модуль, отвечающий за построение дерева решений.
В демонстрационном примере предлагается самостоятельно загрузить новый файл в модуль дерева решений.
88
Рисунок 73. Окно модуля кластеризованного дерева решений
В отличие от формы модуля обычного дерева решений, в данном модуле на форму
добавлены выпадающие списки для выбора столбцов, содержащих координаты объектов
2. При нажатии на кнопку «открыть новый файл» откроется диалоговое окно открытия
файла. Возможен выбор на компьютере Excel файлов старого (.xls) и нового (.xlsx) образца. При
выборе файла он загружается на форму. Если в импортируемом Excel-файле содержится
несколько листов, то появится окно, предлагающее пользователю выбрать с какого именно
листа следует загрузить таблицу в систему. Для корректной работы модуля входной файл уже
должен содержать координаты объектов.
Нажимаем «открыть новый файл». Выбираем файл с базой данных по недвижимости, например,
«ярославль_координаты_filtered.xlsx», сгенерированный при помощи модуля определения координат и хранящейся
в каталоге системы. В данном файле, в отличие от исходной выборки, убраны те объекты, по которым системе не
удалось получить координаты с сервера Яндекс Карт. Из оставшихся 9525 объектов недвижимости в файле, 916
ранее случайно выбранных принадлежат обучающей выборке.
89
Рисунок 74. Окно дерева решений с импортированными данными
3. В выпадающем списке «стоимость недвижимости» на панели «параметры алгоритма»
необходимо выбрать название столбца, в котором содержатся значения моделируемого
параметра – стоимости недвижимости.
Следует выбрать столбец, содержащий информацию о стоимости недвижимости за 1 м.кв: «метр».
Рисунок 75. Выбор столбца, содержащий фактическую удельную стоимость недвижимости
4. Следующим шагом следует настроить параметры упрощения работы алгоритма:
Параметры упрощения модели рекомендуется оставлять по умолчанию.
Рисунок 76. Параметры упрощения построения модели решающего дерева
90
1) «Максимальная глубина дерева» - если глубина дерева больше значения параметра,
то узел дерева считается листом, при условии что ошибка распознавания не больше
значения параметра «максимальная ошибка дерева».
2) «Количество элементов в узле» - если в узле элементов меньше, чем значение
данного параметра, то данный узел считается листом и дальнейшее построение
дерева прекращается.
3) «Приемлемая ошибка дерева» – если ошибка в узле не больше значения данного
параметра, то узел считается листом, не зависимо от числа элементов в нем.
4) «Максимальная ошибка дерева» – в наихудшем случае построение дерева
происходит до тех пор, пока ошибка распознавания в каждом листе не станет ниже
значения данного параметра, либо пока не останутся в листах только те элементы,
входные параметры которых идентичны.
5. Затем предлагается настроить параметры объектов базы данных: выбрать те поля,
которые заведомо не должны участвовать в построении дерева решений.
Рисунок 77. Выбор параметров объектов, не участвующих в построении модели
6. При наличии в загруженном в систему файле и объектов оценки, и объектов-аналогов
обучающей выборки, следует выбрать столбец, содержащий признак принадлежности объекта
недвижимости обучающей выборке. В данном примере модель оценки будет строиться на 916
объектах обучающей выборки, а последующее тестирование будет выполнено на всей выборке
объектов.
Рисунок 78. Выбор столбца для определения принадлежности объекта к выборке аналогов.
7. Следующим шагом пользователю необходимо выбрать столбцы, содержащие
информацию о координатах объектов недвижимости. На основе этих данных в дальнейшем
будет выполнена кластеризация объектов по местоположению перед запуском алгоритма
построения решающего дерева.
91
Рисунок 79. Выбор столбцов содержащих данные о координатах
8. Для запуска построения дерева служит кнопка «Построить дерево»:
Рисунок 80. Кнопка запуска построения модели дерева
При нажатии на кнопку система сперва выполнит группировку объектов по стоимости с
30% диапазоном разрыва, затем проведет на сформированных группах кластеризацию по
местоположению, и лишь потом будет запущен алгоритм построения дерева решений, который
разбивает выборку сперва по кластерам, а затем уже в каждом кластере строит свою ветвь
решающего дерева. Построение отдельных решающих деревьев для каждого кластера
позволяет добиться увеличения точности оценки и снижения доли ошибок.
9. Спустя несколько секунд появится сообщение, информирующее о том, что построение
дерева завершено.
Рисунок 81. Сообщение о выполнении операции
После построения дерева решений пользователю становятся доступны кнопки «сохранить
дерево», «оценить стоимость при помощи дерева», «анализ ошибок», и непосредственно
просмотр самого дерева, прорисованного в нижней правой части экрана.
Рисунок 82. Пример отображения дерева решений на форме пользователя
10. При нажатии на кнопку «оценить стоимость при помощи дерева» будет выполнена
оценка стоимости объектов сформированным деревом решений. При этом будет заполнена как
92
оценённая стоимость, так и разность между стоимостью полученной моделью и реальной
стоимостью. Появившееся всплывающее окно проинформирует о завершении операции оценки.
В исходной таблице данных будут добавлены 5 новых столбцов:
Рисунок 83. Добавленные характеристики объектов.
 ClusterNumber: номер кластера
 DecisionTreeResult: стоимость объекта, согласно дереву решений
 DTResultABS: модуль разности реального и оцененного значения признака
 ABSPercent: модуль разности значений в процентах.
 DTSeectText: текст SQL запроса для формирования элементов выбранного листа дерева.
Таким образом, на данном этапе у пользователя есть база объектов оценки с
просчитанными системой стоимостями. Дальше ее можно экспортировать в excel файл или же
продолжить обработку\анализ полученных данных.
11. Для детального наглядного анализа результатов и причин возникновения ошибок
оценки служит модуль «анализ модели», вызов которого доступен из модулей решающих
деревьев по нажатию на кнопку «анализ ошибок». Описание данного модуля и его
функциональных возможностей приведено в части 3.2.20.
93
Рисунок 84. Окно модуля информативного анализа результатов
До вызова модуля при нажатии на кнопку пользователю выводится сообщение о
количестве объектов, стоимость оценки у которых отличается от фактической стоимости более
чем на 30%.
Рисунок 85. Окно экспресс-анализа корректности модели
Данные результаты (ошибочно распознано 460 объектов) доказывают крайне высокую
эффективность алгоритма кластеризованного дерева решений. Доля ошибок в данном
примере составила менее 5% (4,83%=460/9525*100%). Для сравнения, на этой же выборке
объектов простой алгоритм решающего дерева корректно оценил лишь 84% объектов.
12. Для выхода из модуля построения дерева решений и возврата в главное окно ИАС
необходимо нажать «На Главную»
Рисунок 86. Кнопка возврата на главное окно системы
94
При этом таблица объектов с проставленными стоимостями будет перенесена на главное
окно системы.
Рисунок 87. Главное окно системы с обработанным входным файлом
3.2.20. Модуль информативного анализа результатов
Данный модуль служит для подробного анализа результатов применения модели оценки
недвижимости.
Для запуска модуля пользователь сначала выбирает необходимую ветвь
сценария, а затем в главном меню системы «визуализация результатов» – «анализ ошибок
модели».
Рисунок 88. Начальный вид окна анализа ошибок модели
95
Суть работы модуля сводится к группировке объектов недвижимости по заданным
пользователем параметрам с последующим анализом значений ошибок применения модели к
объектам выбранной пользователем группы.
В левой верхней части окна отображается список столбцов-параметров для группировки
объектов. В каждой сформированной группе будет в дальнейшем выполнен анализ количества
ошибок модели.
Для добавления столбца для группировки необходимо нажать кнопку
«добавить параметр» и в сформированном выпадающем списке выбрать название столбца, по
которому будут группироваться объекты. Для удаления параметра необходимо выделить
выпадающий список с выбранным названием столбца и нажать «удалить выделенный».
Группировка выполняется в порядке расположения параметров. Для изменения порядка
формирования групп
служат кнопки «Выше» и «Ниже». Например, для параметров
группировки {«район города», «наименование улицы», «номер дома»} объекты недвижимости
будут сгруппированы по названию района, а затем в районах по названию улицы.
Рисунок 89. Панель настройки параметров группировки
После заполнения параметров группировки, пользователю необходимо выбрать столбец, в
котором указаны значения относительных ошибок модели, и ввести максимально приемлемое
значение погрешности {X}. Также необходимо выбрать столбец, содержащий данные,
определяющие принадлежность объекта таблицы обучающему множеству; и затем ввести
значение параметра, которое должно быть в данном столбце у объектов обучающей выборки.
Это необходимо для последующего расчета в сформированных группах количества ошибочно
оцененных объектов из обучающей выборки.
*При применении моделей оценки к входным данным в модулях ИАС автоматически
рассчитываются значения относительных ошибок и сохраняются в колонках с префиксом
«ABSPersent».
Рисунок 90. Панель настройки параметров формирования статистики
96
После настройки параметров модуля при нажатии на кнопку «построить статистику»
будет выполнена группировка объектов согласно ранее заданным параметрам; в таблицу в
левой нижней части экрана будет выведена статистика количества ошибок в сформированных
группах.
Рисунок 91. Статистика по сформированным группам объектов
В таблице заполняются следующие поля:
 «Параметры объектов»: значения столбцов [параметров группировки] у объектов
одной группы
 «ошибка <={X}%»
количество объектов, у которых относительная ошибка не
превысила ранее введенное максимально допустимое значение погрешности {X} из всей
выборки объектов, попавших в группу (из обучающей выборки объектов, попавших в
группу)
 «ошибка >{X}%» количество объектов, у которых относительная ошибка превысила
ранее введенное максимально допустимое значение погрешности {X} из всей выборки
объектов, попавших в группу (из обучающей выборки объектов, попавших в группу)
При выделении строки в таблице статистики, в таблицу «Выбранные данные» в правой
части окна выводится подробная информация об объектах выделенной группы. При этом
применяются следующие правила отображения:
 Объекты, не принадлежащие обучающей выборке, у которых относительная ошибка не
превысила ранее введенное максимально допустимое значение погрешности {X},
подсвечены зеленым фоном.
Рисунок 92. Пример отображения объектов, не принадлежащих обучающей выборке, у которых
относительная ошибка не превысила допустимое значение погрешности
97
 Объекты, принадлежащие обучающей выборке, у которых относительная ошибка не
превысила ранее введенное максимально допустимое значение погрешности {X},
подсвечены салатовым фоном.
Рисунок 93. Пример отображения объектов, принадлежащих обучающей выборке, у которых
относительная ошибка не превысила допустимое значение погрешности
 Выделяются все объекты, у которых относительная ошибка превысила ранее введенное
максимально допустимое значение погрешности {X}.
Рисунок 94. Пример отображения объектов, у которых относительная ошибка превысила допустимое
значение погрешности
Рисунок 95. Окно модуля информативного анализа результатов с заполненной таблицей статистики и
отображением объектов выбранной группы
Для выхода из модуля информативного анализа результатов и возврата в главное окно
ИАС необходимо нажать «На Главную»
Рисунок 96. Кнопка возврата на главное окно системы
При этом объекты из таблицы «выбранные данные» будут перенесены на главное окно
системы.
98
Рисунок 97. Главное окно системы с объектами из таблицы «выбранные данные»
3.2.21. Модуль нормирования рыночных данных
Данный модуль служит для нормирования рыночных данных. Под нормированием в
данном случае подразумевается применение количественных корректировок к стоимости
объектов недвижимости в зависимости от значений их качественных параметров. Для запуска
модуля пользователю необходимо в главном окне ИАС выбрать вкладку «Настройка таблицы»
и нажать кнопку «Нормирование данных».
Рисунок 98. Кнопка запуска модуля в главном окне ИАС.
99
Рисунок 99. Окно модуля нормирования данных до внесения корректировок
В левой верхней части окна пользователю предоставлен выбор столбца, содержащего
информацию об удельной стоимости объекта недвижимости, к которой будут применяться
введенные корректировки.
В таблицу корректировок пользователь вносит правила в следующем формате:
Таблица 7. Формат заполнения правил корректировок
Параметр
Значение
Коэффициент
Новое значение
корректировки (%)
Название столбца, качественные
Значение параметра, при
Значение корректировки,
Новое
значения
котором
которое
параметра
которого
будут
анализироваться
при
к
будет
стоимости
применяться
будет
применяться к удельной
применения
значение
определении корректировки
указанная корректировка
стоимости объекта
корректировки
Pname
P_old_value
Percent
P_new_value
после
Пример:
Экспертно было выявлено, что при прочих равных условиях, удельная стоимость объекта недвижимости в
удовлетворительном состоянии составляет лишь 70% от удельной стоимости аналогичного объекта в отличном
состоянии. Значит можно применить корректировку на состояние объекта. При этом всем объектам в
удовлетворительном состоянии будет присвоено значение параметра состояние « отличное», а их удельная
стоимость будет умножена на 0,7 .
Пример заполнения такой корректировки в модуле нормирования данных:
100
Рисунок 100. Заполнение корректировки из примера
Алгоритм поиска дубликатов настроен следующим образом:
Для каждой корректировки:
Для каждого объекта таблицы:
Если значение параметра Pname равно P_old_value, то новое значение
параметра Pname данному объекту присваивается P_new_value, а новая
стоимость = стоимость*Percent/100
Рисунок 101. Окно модуля нормирования данных после внесения корректировок
Для удаления всех правил корректировок служит кнопка - «Очистить». Для добавления
правил – «добавить корректировку». Для предварительного просмотра результатов применения
корректировок
на
таблицу
данных
-
«Просмотр».
Если
пользователя
устраивают
предварительные результаты, то он может их сохранить, нажав кнопку «Принять изменения». В
этом случае при закрытии текущего окна в главном окне системы в дерево сценария добавится
запись
следующего
вида
«нормирование
данных
{дата}».
При
этом
таблица
с
«скорректированными» нормированными данными будет связана с соответствующей записью
сценария.
101
3.2.22.Форма анализа результатов применения алгоритмов к массовой оценке
Для запуска модуля сравнения алгоритмов оценки, необходимо на вкладке «Управление»
главной формы ИАС нажать кнопку «Модуль сравнения алгоритмов на выбранных данных».
Рисунок 102. Кнопка вызова модуля сравнения алгоритмов оценки
Данный модуль позволяет сравнить результаты работы нескольких реализованных в
системе алгоритмов оценки на одинаковых данных с одинаковыми параметрами настройки.
Рисунок 103. Окно модуля сравнения алгоритмов
В левой части формы пользователь настраивает параметры, с которыми будут запукаться
алгоритмы оценки:

Столбец, содержащий информацию об удельной стоимость объектов обучающей
выборки

Столбцы, содержщащие информацию о координатах объектов

Приемлимое максимально допустимое значение ошибки
102

Столбцы, значения которых не должны участвовать при построении модели

Столбец, содержащий признак принадлежности объекта обучающей выборке и
значение этого признака
В верхней части формы модуля расположены кнопки запуска алгоритмов оценки. При
нажатии на кнопку на выбранной пользователем базе объектов с заданными пользователем
параметрами выборки запускается соответствующий модуль системы:

Дерево решений

Кластеризованное дерево решений

Кластеризация по местоположению

Кластеризация по местоположению и стоимости

Линейная регрессия
При этом модули системы запускаются с недоступными для редактирования параметрами,
ранее определенными на форме. Это сделано для объективной оценки качества работы
алгоритмов.
Рисунок 104. Пример запуска модуля дерева решений из модуля анализа алгоритмов
После проведения расчетов пользователь нажимает кнопку «перенести результаты на
форму анализа» и данные с результатами работы модуля, включая статистику ошибок работы
алгоритма, переносятся на форму модуля сравнения алгоритмов. Полученные данные
заполняются на вкладке с общей статистикой работы алгоритмов, а также заполняется
подробная информация об объектах на соответствующей названию модуля вкладке.
103
В центре формы расположена панель с несколькими вкладками:
1) Статистика результатов моделей. В таблице на вкладке заполнена статистика ошибок
работы алгоритмов;
Рисунок 105. Вкладка с таблицей статистики результатов алгоритмов
2) Исходные данные. Заполнена исходная таблица данных, используемая на входе
алгоритмов;
3) Данные с результатами применения различных алгоритмов оценки к выбранным
данным.
Под основной панелью формы расположены кнопки запуска модулей построения
статистики, формирования графиков распределения ошибок, отображения объектов на карте.
Рисунок 106. Кнопки запуска дополнительных модулей анализа данных
Таким образом, данный модуль позволяет проводить эксперименты для информативного
анализа результатов и подбору параметров, дающих наименьшие значения отклонения
стоимостей от эталонных значений (рыночных данных обучающей выборки). Также, с
помощью данного модуля можно сравнивать влияние выбора критериев оценки на
эффективность работы алгоритмов.
104
3.3.
Структура системы
Рисунок 107. Схема взаимодействия системы с внешними источниками данных.
Основная часть системы - Windows приложение, написанное на языке C# на платформе
Visual Studio 2010. Входные данные загружаются в систему из MS Excel файлов, экспорт
результатов осуществляется также в Excel файлы. Работа с внешними файлами реализована с
использованием SQL соединения.
Для определения координат объекта в ИАС:
1) Отправка url запроса на сервер Яндекс
2) Загрузка и обработка XML файлов полученных с сервера Яндекс.Карт
Для отображения объектов недвижимости и ценовых зон на карте
1) Формирование html файла со вставками на языке java-script, используя Яндекс.API
2) Загрузка сгенерированного файла во встроенном в форму модуля браузере
Отдельные
модули
ИАС
представляют
собой
самостоятельные
windows-формы,
интегрированные в общее решение информационно-аналитической системы.
В рамках работы над модулем прогнозирования стоимости был реализован класс для
построения дерева решений, содержащий все необходимые для работы модуля методы
(подробнее в разделе 4.1.10); функционал для применения решающего дерева к произвольным
таблицам данных; отдельный класс для внешнего хранения и загрузки файлов деревьев
решений.
105
3.3.1. Классы системы
Рисунок 108. Список классов приложения.
Приложение включает в себя более 35 различных классов-наследников класса Form,
каждый со своим индивидуальным набором функционала.
При запуске приложения из класса Program загружается форма tree, представляющая
главное окно системы. Все остальные модули и классы загружаются из класса tree.
Почти все приведенные классы наследованы от класса Form.
В отношении агрегации классы данной системы не состоят.
В отношении композиции находятся следующие классы системы:

graphs и point2,

carttree и attributes,

attributes и attribute,

formdestree и cartree.

все windows-формы и datastorage.
106
4. Разработка системы
4.1.
Алгоритмы и методы
В связи с тем, что данная информационно-аналитическая система рассчитана на
внедрение в оценочных компаниях, то набор алгоритмов для выполнения некоторых функций
жестко ограничен.
В частности:

Кластеризация выполняется только алгоритмом к-средних (4.1.5)

Регрессионная модель строится только линейная и только методом наименьших
квадратов

Анализ результатов существующей оценки выполняется методом анализа
соотношений оценочной стоимости к ценам продаж (4.1.8)
Это связано с тем, что данные алгоритмы и методы официально используются на рынке
недвижимости, и результаты, полученные в результате их применения, могут быть успешно
защищены в суде. Кроме того, перечисленные алгоритмы применяются в компании, где
внедрена описываемая система.
Подробнее о том, какие еще алгоритмы и методы были использованы при реализации
основных функций системы, обоснование выбора тех или иных инструментов приведено далее
в этой главе.
4.1.1. Реализация дерева сценария и способ хранения внутренних данных
системы
Сценарий работы с системой, находящийся в левой части главного окна, представляет
собой элемент класса TreeView из набора стандартных средств языка C#. Каждая ветвь дерева
хранит название выполненной пользователем операции.
Чтобы пользователь мог обрабатывать данные, полученные на любом этапе его работы,
необходимо каким-либо образом хранить внутри системы состояние импортированной таблицы
после проведения каждой зарегистрированной в сценарии операции. Для хранения
обрабатываемой таблицы и настроек ее столбцов, был создан класс «current_data». Он
содержит конструктор класса, метод для удаления всех временных данных класса (для
своевременного освобождения памяти) и следующие члены класса:

Значения элементов таблицы на текущем этапе ее обработки

Поля, описывающие столбцы таблицы:
o Тип данных
o Видимость столбца
107
o Текст заголовка столбца
o Вид использования столбца (активно используется\не используется \ справочно)

hash-код элемента, добавленного в дерево сценария
Для хранения внутри системы всех зарегистрированных состояний обрабатываемой
таблицы во время работы пользователя, используется список элементов класса «current_data».
При добавлении новой ветви дерева сценария, в список класса добавляется текущее состояние
таблицы, описание ее заголовков и hash-код элемента добавленной ветви дерева. Так как у
каждого элемента генерируется свой уникальный hash-код, то каждый элемент списка будет
единственным образом соотнесен с соответствующей ему ветвью дерева сценария. Таким
способом осуществляется связь «один к одному» между каждым элементом дерева сценария и
списком состояний обрабатываемой таблицы. При удалении пользователем какой-либо ветви
дерева сценария: осуществляется для каждого поддерева поиск (методом поиска в глубину) в
списке элементов, у которых совпадает значение hash-кода с hash-кодом ветви дерева сценария;
а затем удаляется из списка объектов данный элемент класса «current_data» и соответствующая
ему ветвь дерева сценария.
4.1.2. Способ организации и инструменты работы с входной информацией
В качестве входной базы данных с информацией об объектах недвижимости принимается
сформированный заранее MS Excel файл. Данный выбор связан с тем, что с файлами этого
формата работают оценщики и эксперты в той компании, где используется данная
информационная система.
Для системы не создавалась индивидуальная локальная база (например, MySql) в связи с
тем, что ИАС рассчитана на работу в разных оценочных компания на различных компьютерах
с информацией, полученной из различных источников. Таким образом, для пользователей
целесообразнее каждый раз загружать в систему конкретный необходимый ему файл с
входными данными, чем для анализа каждой таблицы изменять базу на локальном (например,
SQL) сервере. Хранятся данные именно в Excel формате (а, например, не текстовом и не Access),
в связи с тем, что именно MS Excel располагает удобными принятыми во множестве компаний
инструментами для работы с таблицей и ее визуализацией (в отличие от блокнота, например), а
так же используется для формирования базы данных в компании, где в настоящее время
успешно применяется данная информационно – аналитическая система.
Доступ к входным Excel файлам внутри системы реализован при помощи SQL соединения.
108
В качестве аналога и основного инструмента, официально используемого в среде
VisualStudio
для
доступа
к
Microsoft
Excel
файлам,
является
стандартный
класс
“Excel.Application()” [10]. У данного метода есть два существенных недостатка:

сравнительно низкая скорость работы

необходимость установленного на компьютер пакета MS OFFICE Excel
Относительно низкая скорость загрузки данных связана с тем, что при открытии внутри
системы Excel файла, сначала запускается в фоновом режиме MS Excel (отсюда и
необходимость установленного на компьютер пользователя пакета MS Office) , в нем
открывается входной файл и затем информация из этого файла копируется в систему.
При использовании SQL соединения для доступа к входным файлам, нет необходимости в
установленном на компьютер пакете MS Office. Требуется лишь установить на компьютер
пользователя официальный бесплатный пакет драйверов для доступа к MS Office файлам (если
нет установленного пакета MS Office), который можно скачать из интернета с официального
сайта
Microsoft©
либо
запустить
из
каталога
с
системой
(имя
файла
AccessDatabaseEngine.exe). При использовании данного инструмента система воспринимает
входной файл как SQL базу данных
и получает информацию из файла при помощи SQL
запросов. Благодаря такой организации доступу к внешнему файлу, скорость загрузки данных
существенно возрастает и может быть сравнима со скорость загрузки информации из локальной
SQL базы.
В итоге при использовании описанного способа доступа к внешним Excel файлам:

возникают сложности в реализации данного подхода:
o запросы к базе данных, используемые в среде VisualStudio имеют отличный от
стандартных SQL запросов синтаксис
o сформированные в системе SQL запросы сложно отлаживать

устраняются недостатки использования стандартного инструмента
o сравнительно высокая скорость работы
o отсутствует необходимость установленного на компьютер Excel файла
Помимо работы с Excel файлами, в системе предусмотрена возможность экспорта данных
в текстовый файл. Данный функционал был разработан в связи с ограничениями возможностей
экспорта данных базовыми средствами в Excel файл. Особенности OLEDB поставщика
передачи данных, используемого в реализации функционала работы с файлами в ИАС, не
предоставляют возможность экспорта в Excel файл содержимого ячеек, элементы которых
109
содержат более 255 символов. Для этого в ИАС и предусмотрен экспорт данных в ТХТ формат
без каких-либо ограничений на размеры.
Экспортированные
в
.txt
формат
данные
можно
затем,
при
возникновении
необходимости, открыть в MS Excel и предоставить данные в табличном виде: для этого
необходимо разбивать строки по столбцам (разделитель столбцов - запятая, вначале каждой
строки указан тег <data>:)
4.1.3. Способ определения нормированного адреса и координат объектов.
Для определения координат объектов недвижимости система использует сервисы
Yandex.Maps. В качестве альтернативного сервиса можно рассматривать Google.Maps.
В контексте решения рассматриваемой задачи, у каждого из них есть свои преимущества
и недостатки:
Таблица 8. Сравнение сервисов Yandex и Google Карт для решения данной задачи.
Карты Yandex
Преимущества
Недостатки
Высокая детализация карт и
К сервисам предусмотрен
подробная информация об
доступ только с web-сайтов.
объектах недвижимости на
территории России
Карты Google
Предусмотрен доступ к
Низкая детализация карт на
сервисам как с веб-сайтов,
территории России
так и с windowsприложений, написанных на
C#
*Данные приведены по состоянию на 2012 год
Так как основная часть информационно-аналитической системы представляет собой
Windows приложение, то доступ к сервисам Google.Maps легче реализовать. Однако система
рассчитана на российский рынок недвижимости, и уровень детализации карт России имеет
решающее значение при выборе сервиса. В связи с этим был выбран именно сервис
Yandex.Maps,
предоставляющий
подробную
информацию
о
большинстве
объектов
недвижимого имущества на всей территории РФ, в отличие от Google.Maps (например, в Омске
на карту нанесена только одна улица).
Чтобы узнать местоположение объекта на карте и его адрес в нормированном виде
вручную, используя сервис Yandex.Maps[1], необходимо ввести в строке адреса браузера url
запрос следующего формата:
110
Адрес объекта в формате: Страна, Город, Улица, Дом.
Ключ для доступа к сервисам Yandex.Карт можно получить на сайте Yandex.ru
При вводе корректного запроса откроется XML файл, содержащий, в частности,
следующие поля:
Рисунок 109. Пример XML файла, выводимого в ответ на запрос к сервисам Yandex.Maps
111
Если в поле <pos> указаны координаты (0,0), то данного объекта недвижимости на карте
еще нет.
Поскольку Яндекс.Карты рассчитаны только на доступ с web-сайтов и не предназначены
для работы с клиентскими desktop-приложениями, то в описываемой системе для каждого
объекта:
1. Используя информацию об объекте недвижимости, формируется url запрос
заданного формата
2. Запрос открывается во встроенном в модуль системы окне браузера
3. Из браузера копируется загруженный в ответ XML файл
4. При помощи регулярных выражений из текста файла извлекается необходимая
для дальнейшей обработки информация
Таким
образом,
в
данной
информационной
системе
реализована
возможность
определения координат всех объектов недвижимости, которые отмечены на текущее время на
Yandex.картах. На данный момент это: жилые дома; застроенные земельные участки; некоторые
незастроенные земельные участки, имеющие адрес.
Все функции по обращению к сервисам Yandex.Maps в данной системе реализованы,
используя API Яндекс.Карт версии 1.1. В начале мая 2012 года вышла версия API 2.0 , которая
располагает большим набором инструментов и более удобными для визуализации средствами
отображения объектов. Однако в рамках данной задачи разработки ИАС, достаточно
возможностей, предоставляемых API версии 1.1.
4.1.4. Способ отображения объектов на карте
Для отображения объектов на карте используются сервисы Yandex.Maps. О причинах
данного выбора указано в предыдущем разделе.
Поскольку сервисы Яндекс.Карт предназначены только для Web-сайтов, то в описываемой
системе генерируется необходимое содержание html файла и затем данный файл открывается во
встроенном в модуль системы окне браузера.
Для того чтобы веб-страница корректно отображала объекты на карте, используя сервис
Yandex.Maps, она должна быть написано на языке html и иметь вставки java-script кода на языке
Ymaps (подробнее о нем можно узнать в Yandex.API). Пример сгенерированного файла можно
посмотреть в рабочем каталоге системы (имя файла 1.htm).
Общее содержание javascript-функции:
1.Создание экземпляра карты и его привязка к контейнеру
112
2.Добавление элементов управления (тип карты, масштаб, расстояние)
3.Установка для карты ее центра и масштаба
4.Добавление на карту меток определенного цвета в места расположения объектов
недвижимости
В итоге при открытии сгенерированного файла во встроенном в ИАС браузере загрузится
карта анализируемого региона с отмеченными на ней объектами недвижимости и набором
стандартных инструментов пользователя для управления картой (изменение масштаба,
измерение расстояния, изменения типа карты)
Рисунок 110. Отображение объектов на карте.
4.1.5. Кластеризация
Система позволяет разбить множество объектов недвижимости на классы, используя
метод k-средних после предварительного разбиения объектов на группы по их стоимости.
Метод k-means (метод k-средних) — наиболее популярный метод кластеризации. Был
изобретён в 1950-х годов математиком Г. Штейнгаузом и почти одновременно С. Ллойдом. В
этом методе минимизируется суммарное квадратичное многомерное отклонение точек
кластеров от центров этих кластеров[12]:
𝑘
𝑉 = ∑ ∑ 𝜌(𝑥, 𝜇𝑖 )
=> 𝑀𝐼𝑁
𝑖=1 𝑥∈𝑆𝑖
𝐷
𝜌(𝑥, 𝜇𝑖 ) = ∑(𝑥[𝑣] − 𝜇𝑖 [𝑣])2
𝑣=1
где k — число кластеров,
113
D – число факторов,
S – множество полученных кластеров, S={Si | i=1,2..k},
µi — вектор центров масс векторов x ∈ 𝑆𝑖 , компоненты которого вычисляются по
формуле:
µ𝑖 [𝑣] =
∑𝑥∈𝑆𝑖 𝑥[𝑣]
|𝑆𝑖 |
,
𝑣 = 1,2 … 𝐷
Выбор данного алгоритма кластеризации связан с тем, что его используют в компании,
где применяется данная система.
Кластеризация группирует объекты по множеству факторов, однако в целях оценки
недвижимости и экспертизы ее результатов, кластеризация проводится только по двум
факторам (кластеризация по местоположению) либо по трем факторам (кластеризация по
местоположению и удельной стоимости). Технически разница в том, что в первом случае
кластеризация проводится только по географическому положению объектов (двумерная), а во
втором цена объекта также будет влиять на отнесение объекта в тот или иной кластер. При
проведении трехфакторной кластеризации используются относительные, а не абсолютные
значения параметров - ценовых факторов объектов; при этом веса факторов рассчитываются
исходя из диапазона их значений для данного кластера.
При расчете расстояния от объекта до центра кластера при трехфакторной кластеризации
алгоритм работает следующим образом:
1) Рассчитывает диапазоны значений по каждому фактору для выбранного кластера
2) Делит диапазоны по каждому фактору на количество элементов, чтобы условно
полученная единица измерения по каждому параметру была средневзвешенная с
относительно одинаковыми коэффициентами-весами по каждому измерению
3) Выполняет непосредственно кластеризацию, которая дает хуже разбиение с точки
зрения местоположения, но намного лучше с точки зрения ценовой и географической
однородности выборок в кластере.
114
Рисунок 111. Код расчета расстояния от объекта до центра кластера, используя относительные значения
параметров.
Для построения карт ценового зонирования правильнее выбирать второй вариант, однако
полученная карта будет верной лишь при корректно оцененных и нормированных стоимостях
объектов в таблице (для этого изначально до работы с ИАС должна быть корректно выполнена
массовая оценка объектов).
Алгоритм работы кластеризации в данной информационно-аналитической системе:
На предварительном этапе кластеризации стоимость всех объектов недвижимости
нормируется
для
устранения
значимости
всех
ценовых
факторов,
кроме
местоположения. Например, для всех объектов из входной базы рассчитывается
возможная стоимость при учете, что все объекты находятся в кирпичном
одноэтажном доме на первом этаже, имеют две комнаты, раздельный санузел,
находятся в отличном состоянии и пр.
Нормирование выполняется оценщиками или экспертами, используя поправочные
коэффициенты на значимость каждого ценового фактора. Для автоматизации данного
процесса в ИАС реализован модуль нормирования данных.
1) Все
объекты,
подлежащие
кластеризации,
группируются
по
стоимости
с
определённым процентным диапазоном разрыва (по умолчанию, 30%).
a. Все объекты сортируются по возрастанию стоимости
b. К первой группе относят объект с наименьшей стоимостью (р1) и все,
стоимость которых ниже чем p1*(100+процентный диапазон)/100. Ко второй
группе – объект с наименьшей стоимостью, не вошедший в первую группу
115
(р2) и все, стоимость которых ниже чем p2*(100+процентный диапазон)/100 и
т.д.
2) Начальные кластеры алгоритма k-средних это полученные на этапе 2 группы.
Количество групп, соответственно, равно начальному количеству кластеров.
Кластеризация в системе проводится по двум и трем факторам:
a. По двум факторам (координаты Х,У) проводится кластеризация, чтобы
выделить
районы,
с
сравнимой
нормированной
стоимостью
(т.к.
предварительно было группирование по стоимости и центры стоимостных зон
~ центры кластеров). Это может быть использовано, когда во входной базе
имеются и объекты аналоги и объекты оценки. В результате кластеризации
формируются группы с аналогами и объектами оценки, стоимости которых
должны не превышать допустимые диапазоны. Проверка данного факта
является одним из методов проверки результатов массовой оценки. В случае
если объекты оценки еще не оценены, оценщики могут составить для них
допустимые ценовые диапазоны, на основе сформированных ценовых
кластеров.
b. Кластеризация по трем факторам применяется для экспертизы результатов
массовой оценки и корректности базы аналогов. Объекты, находящиеся
близко друг к другу должны иметь схожую нормированную стоимость.
Поэтому, в результате трехфакторной кластеризации по нормированной
стоимости, на карте должны явно выделяться кластеры объектов, не
пересекаясь друг с другом.
3) Выполнять, пока не перестанут смещаться центры кластеров:
a. Каждый объект приписывается к тому кластеру, ближе к центру которого он
находится по всем факторам, выбранным для кластеризации. Центр кластера
средневзвешенно многомерно смещается в сторону объекта, который в него
добавился.
116
Рисунок 112. Пример работы алгоритма k-средних для двумерного случая
Одна из особенностей ИАС – отсутствие необходимости пользователю жестко задавать
количество кластеров. Во взятом за основу для реализации в ИАС алгоритме кластеризации kmeans, пользователь вручную задает количество кластеров, на которое необходимо разбить
исходное множество объектов. В ИАС объекты оценки изначально группируются по стоимости
с разрывом в 30% (см выше); при этом каждая сформированная группа представляет начальное
разбиение множества по кластерам. В дальнейшем в группах определяются центры кластеров,
и в алгоритм кластеризации, таким образом, на вход уже поступает и количество кластеров, и
готовые сформированные начальные центры данных кластеров. Таким образом, количество
кластеров определяется автоматически на основе заданного пользователем уровня «доверия»
цен.
После проведения кластеризации в системе предусмотрена возможность предварительной
оценки стоимости объектов оценки, используя значения стоимостей объектов-аналогов
ОБУЧАЮЩЕГО МНОЖЕСТВА данного кластера. Модель оценки строиться на обучающем
подмножестве кластера и применяться на все множество объектов данного кластера. В качестве
итоговой удельной стоимости объектов оценки принимается среднее либо медианное удельное
значение стоимости обучающих объектов-аналогов по кластеру.
4.1.6. Способ определения стоимости индивидуальных объектов
Стоимость индивидуальных объектов недвижимости определяется сравнительным
подходом, основанным на местоположении объекта оценки относительно остальных объектов
из входной базы.
Алгоритм реализован таким образом, что в качестве аналогов для объекта оценки
выводится ближайший к нему объект недвижимости из входной базы (удаленность до него «Х»)
и все, находящиеся на расстоянии до 130% «Х» (т.к. 30% это допустимый в оценке
117
недвижимости диапазон отклонения стоимостей, удаленностей и пр.). Если удаленность
объекта оценки от сравниваемого объекта менее 1 км, то такие объекты тоже считаются
аналогами (находящиеся на таком расстоянии объекты имеют схожий вклад местоположения в
стоимость).
Вероятная стоимость объекта оценки считается как среднее арифметическое удельных
стоимостей выделенных объектов аналогов. Таким образом, в распоряжение оценщика
предоставляется таблица подробного описания найденных аналогов.
Рисунок 113. Список объектов-аналогов
Также в ИАС выводится участок карты с нанесенными на нее объектами-аналогами и
объектом оценки для визуальной оценки возможности использования выделенных аналогов.
118
Рисунок 114. Расположение объекта оценки и объектов-аналогов.
4.1.7. Способ построения карт ценовых зон
Построение карты ценовых зон выполнено при использовании сервиса Yandex.Maps (о
причинах данного выбора указано в разделе 4.1.3) и алгоритма Джарвиса построения выпуклой
оболочки [3] (метод заворачивания подарка) на сформированных результатах кластеризации
методом k-средних.
При корректном стоимостном нормировании и кластеризации, границы кластеров
показывают границы ценовых зон. Таким образом, построив выпуклые многоугольники на
каждом полученном кластере, в результате эксперт получит карту ценовых зон для
рассматриваемого района.
Построение карт происходит в несколько этапов:
1) подготовка данных (4.1.5)
I.
II.
нормирование данных
проведение кластеризации
2) построение выпуклой оболочки на элементах каждого кластера
Алгоритм
Джарвиса
(или
алгоритм
заворачивания
подарка)
определяет
последовательность элементов множества, образующих выпуклую оболочку для
этого множества. Метод можно представить как обтягивание верёвкой множества
119
вбитых в доску гвоздей. Алгоритм работает за время О(nm) , где n — общее число
точек на плоскости, m— число точек в выпуклой оболочке.
Выпуклый многоугольник, очерчивающий границы ценовой зоны, строится в
отдельности для каждого кластера на основании координат Х и У объектов
недвижимости кластера.
Алгоритм Джарвиса построения выпуклой оболочки:
a. Самая левая нижняя точка добавляется в список граничных точек и
помечается как начальная.
b. Любая точка, еще не
попавшая во множество точек выпуклой оболочки
назначается кандидатом.
c. Для каждой еще не добавленной точки:
Если угол α между последней добавленной во множество выпуклой оболочки
точкой,
кандидатом
и
рассматриваемой
в
данный
момент
точкой
отрицательный (sin(α) < 0), то кандидатом назначается текущая точка.
d.
Если точка кандидат совпадает с начальной точкой, то выход.
e. Точка-кандидат добавляется в список точек выпуклой оболочки.
f. Переход к пункту (b).
Рисунок 115. Схема работы алгоритма Джарвиса.
Другой алгоритм построения выпуклой оболочки (алгоритм Грехема [3]) работает
за время
O(n
log
n).
Он
сложнее в
реализации и
имеет
большую
мультипликативную постоянную в апостериорной оценке сложности алгоритма.
С учетом того, что решаемые задачи имеют не очень высокую размерность, а
компьютерная реализация алгоритма Джарвиса имеет существенно меньшую
мультипликативную постоянную в оценке сложности принято решение об
использовании данного алгоритма в ИАС.
3) непосредственно нанесение границ на карту
120
Функция работает так же, как описано в части «Способ отображения объектов на
карте 4.1.4», но в java-script функцию добавляется пункт: “5. Добавление на карту
многоугольников определенного цвета с углами в граничных точках, полученных
в результате построения выпуклой оболочки”
Рисунок 116. Результат нанесения ценовых зон.
4.1.8. Анализ результатов массовой оценки
Анализ
результатов
существующей
оценки
выполняется
посредством
анализа
соотношений оценочной стоимости объектов недвижимости к ценам предложений. Такой метод
успешно применялся в США и в последнее время (с ноября 2011) используется в оценочной
компании, где внедрена описываемая информационная система.
Суть метода состоит в определении значения коэффициента разброса (COD) стоимости
относительно медианного значения по выборке и его последующего сравнении с допустимым
диапазоном. Коэффициент разброса (COD) – мера степени разброса значений вокруг их
медианы:
𝑪𝑶𝑫 = 𝟏𝟎𝟎 ∗ 𝑨𝑨𝑫/𝑴𝑬𝑫
где AAD - среднее абсолютное отклонение от медианы, которое рассчитывается по
формуле:
𝑨𝑨𝑫 = ∑𝑵
𝒊=𝟏 𝑨𝑩𝑺(стоимость[𝒊] − 𝑴𝑬𝑫);
MED - медианное значение стоимости, которое рассчитывается как срединное значение
в отсортированном по стоимости множестве:
𝑴𝑬𝑫 = стоимость [𝑵 ∗ 𝟎, 𝟓 + 𝟎. 𝟓];
N-число объектов недвижимости во множестве.
121
Допустимыми значениями коэффициента разброса (COD) приняты значения в интервале
от 5 до 15 включительно. Если полученное значение выходит за пределы указанного диапазона,
то считается, что анализ результатов оценки методом медианных соотношений выявил
существенные смещения стоимостей, иначе результаты оценки удовлетворяют требованиям
метода.
4.1.9. Деревья решений. Общие положения.
Деревья решений относятся к числу самых популярных и мощных инструментов анализа
данных [4], позволяющих эффективно решать задачи классификации и регрессии. В отличие от
линейной регрессии, использующей статистический подход, в основу деревьев решений
положено машинное обучение и построение решающей модели. Благодаря принципиальным
различиям построения регрессии и решающего дерева, в большинстве случаев для построения
решающего дерева не требуется гипотезы о каком-либо распределении признаков наблюдаемых
объектов. В основу деревьев решений положены правила вида «если ... то ...», которые могут
быть сформулированы на естественном языке. Поэтому деревья решений являются наиболее
наглядными и интерпретируемыми моделями.
Ниже приведены основные термины, используемые в теории деревьев решений:

Объект - информация об отдельном наблюдении из входной базы данных

Атрибут - параметр (признак) объекта, позволяющий проводить классификацию
объектов в выборке

Правило - условие, определяющее принадлежность объекта к тому или иному
подмножеству выбранного множества
Решающие правила образуют иерархическую древовидную структуру (дерево решений),
дающую возможность выполнять классификацию объектов.
В основе алгоритмов построения дерева решений лежит процесс рекурсивного разбиения
исходного множества объектов на подмножества, до тех пор, пока в каждом подмножестве не
будет достигаться заданная степень однородности целевого атрибута. Разбиение происходит с
помощью решающих правил, в которых осуществляется проверка удовлетворений параметров
объектов множества заданному условию. Алгоритм рекурсивный, т.к. на каждом следующем
этапе разбиение происходит на всех подмножествах, полученных в результате предыдущего
этапа. (Одно из улучшений алгоритма, реализованное в магистерской работе, это избавление от
рекурсии и переход к принципу «поиска в ширину»).
122
Дерево решений строится на обучающем множестве, на котором известны не только
значения значимых для модели параметров, но и значения целевого атрибута у данных
объектов. Однако применять уже построенную модель дерева можно и к тем объектам, у
которых не определен целевой параметр. Преимущества деревьев решений - они не только
позволяют построить модель и определить значение целевого атрибута на тестовом множестве
на основе построения дерева на обучающем множестве, но и объясняют на естественном языке,
почему объекту было присвоено то или иное значение.
Особенности деревьев решений:
1) Основаны на машинном обучении
2) Процесс обучения относительно быстр и эффективен
3) Объяснимы и интерпретируемы на естественном языке
Для построения ЭФФЕКТИВНОЙ модели дерева решений, необходимо иметь
1) Обучающую базу данных, у объектов которой заведомо известны значения целевого
параметра
2) Достаточную систему признаков.
3) Данные должны быть структурированы, вся информация о каждом объекте
представлена как совокупность атрибутов.
4) Обучающее множество должно быть представлено достаточно большой базой данных,
Структура дерева решений.
Дерево решений состоит из двух основных видов объектов: узлов и листьев.

Узел (node) - внутренний узел дерева. Правила в узле, с помощью которого
происходит проверка атрибутов объектов, определяют подмножества, на которые
распадается множество объектов при достижении данного узла.

Лист (leaf) - конечный узел дерева, не имеющий вложенных узлов. В нем
содержится достаточно однородное подмножество объектов, у которых отклонение
значения целевого атрибута от среднего значения по подмножеству не превышает
заданную пороговую величину.

Корень - входной узел дерева.

Дочерний узел - узлы и листья, подчиненные узлу более высокого иерархического
уровня (родительскому узлу).
123
Рисунок 117. Обобщенная схема дерева решений.
Как уже было указано выше, дерево решений строится на основе обучающей выборки
объектов. Параметры объектов могут быть как числовыми, так и строковыми. Как минимум
одно из полей должно содержать числовое значение целевого атрибута - «метка класса». В
описываемой ИАС, целевым атрибутом выступает стоимость 1 кв.м, недвижимости.
В процессе формирования дерева определяются решающие правила, и для каждого из них
создается дочерний узел дерева. Соответственно, для каждого узла должен быть выбран
атрибут разбиения, по которому будет производиться проверка правила. От того, насколько
корректно выбран атрибут разбиения, зависит практическая ценность построенной модели
дерева решений.
Метод, в соответствии с которым осуществляется выбор атрибута ветвления на
каждом шаге, называется АЛГОРИТМОМ построения дерева решений. На сегодняшний
день существует достаточно много алгоритмов построения дерева решений. Описание наиболее
популярных из них и анализ их применимости к поставленной в рамках ВКР проблеме
приведены далее в тексте работы.
Несмотря на отличительные особенности различных методов, все алгоритмы построения
деревьев решений:
1) Основаны на рекурсивном разбиении данных на более мелкие группы;
2) Выбирают очередной атрибут разбиения таким образом, чтобы на каждой итерации
алгоритма создавались максимально «чистые» подмножества объектов. Чистота в данном
случае подразумевает степень отклонения целевого атрибута каждого объекта от всех
объектов выбранного подмножества.
124
Выбор атрибута узла
Алгоритм построения решающего дерева, используемый в ИАС, «жадный»: на каждом
шаге производится локально оптимальный выбор. Каждый входной атрибут рассматривается
системой по очереди, производится оценка увеличения чистоты, которое обеспечило бы
разбиение с помощью данного атрибута. После того, как все потенциальные атрибуты объектов
будут проанализированы, для решающего правила в текущем узле выбирается тот атрибут и то
его значение, которое дает наилучшее разбиение на данном этапе построения дерева. В
результате данный узел будет разбит на дочерние узлы. Пока разбиение возможно, действие
алгоритма повторяется. Если дальнейшее разбиение не осуществимо (например, остался всего 1
объект в выборке), то текущий узел объявляется листом и на этом разбиение узла
заканчивается.
Важное свойство деревьев решений - ацикличность. Выбрав определенный атрибут
разбиения в текущем узле и выполнив соответствующее разбиение, алгоритм не сможет
вернуться назад, если разбиение оказалось не результативным, и выполнить выбор другого
атрибута. Таким образом, если алгоритмом изначально было выбрано ошибочное разбиение, то
построение решающего дерева все равно будет продолжаться до полного завершения работы
алгоритма.
Возникает вопрос: почему же тогда не построить все возможные деревья решений и не
выбрать лучшее из них? К сожалению, для большинства задач, в том числе и решаемой в
данной работе, перебор всех возможных деревьев решений приведет к «комбинаторному
взрыву».
Эффективность разбиения дерева решений определяется «чистотой» его дочерних узлов
относительно целевого параметра. От типа целевой переменной зависит метод критерия
разбиения и, как следствие, алгоритм построения дерева. В следующей таблице приведены
наиболее популярные критерии разбиения и типы данных входной переменной, для которых
они применимы:
Таблица 9. Тип целевого атрибута
категориальный
номинальный
Индекс Джини
Уменьшение дисперсии
Информационный критерий
Критерий Фишера
Критерий Хи-квадрат
125
Анализ применимости существующих методик.
В ВКР
предполагается задача определения значения рыночной стоимости объектов
недвижимости. Следовательно, для решения указанной задачи подходят только методы,
применимые для номинальных входных переменных. Критерий Фишера оценивает вероятность
того, что выборки наблюдений, имеющих разные значения среднего и дисперсии, принадлежат
к одному и тому же классу. Метод, конечно, применим к номинальным переменным, однако он
служит лишь для классификации объектов и для выполнения поставленной задачи не
применим. Таким образом, возможным методом критерия разбиения для решения задачи
данной работы, остается только метод уменьшения дисперсии.
Наиболее популярные алгоритмы построения дерева решений: ID3, С45 и их
модификации - применимы только для классификации категориальных переменных. Алгоритм
CART (classification and regression tree) применим как для категориальных, так и для
номинальных переменных. Поэтому именно этот алгоритм (CART) был взят за основу при
разработке алгоритма построения дерева решения, используемого в ИАС.
4.1.10. Описание используемого алгоритма построения дерева решений.
Регрессионное дерево решений.
В основу алгоритма построения дерева решения, реализованного в ИАС, взят алгоритм
CART
(classification
and
regression
tree).
Данный
алгоритм
позволяет
строить
и
классификационные, и регрессионные модели. Деревья решений, построенные алгоритмом
CART, являются бинарными: в каждом узле дерева содержится только два потомка. В
результате построения регрессионного дерева в каждом листе должны оказаться объекты, с
близкими значениями целевого атрибута. Так как чем больше похожи объекты по
определенному параметру, тем меньше дисперсия по данному параметру в каждом листе, то
для построения регрессионного дерева решений вполне подходит метод уменьшения
дисперсии: наилучшим разбиением считается то, которое дает максимальное уменьшение
дисперсии целевого атрибута.
126
Рисунок 118. Пример дерева, построенного алгоритмом CART.
Основные отличия данного алгоритма построения дерева от других решений являются:

бинарное представление дерева решений

функции оценки качества разбиения

механизм отсечения дерева

алгоритм обработки пропущенных значений

возможность построение дерева регрессии
Однако в ИАС применяется модифицированный алгоритм CART, оптимизированный для
работы с большими объемами данных. В данном документе представлено описание уже
модифицированного алгоритма, а не оригинального.
Бинарное представление дерева решений.
В процессе работы алгоритма формируется дерево решений, каждый узел которого имеет
двух потомков. На каждом шаге построения дерева формируется правило, которое делит
заданное множество примеров (объекты в узле) на 2 части. В правую часть (right) попадают
элементы множества, удовлетворяющие заданному правилу; в левую (left) -все остальные. Для
выбора оптимального правила используется функция оценки качества разбиения (метод
уменьшения дисперсии).
Правило формируется следующим образом:
• Для числовых атрибутов:
Правилу удовлетворяют только те элементы, значение рассматриваемого атрибута у которых
меньше либо равно заданному значению порога. В качестве значения порога перебираются все
возможные значения заданного атрибута, встречающиеся в подмножестве объектов узла.
Пример:
Значения атрибута «этажность здания»: 1, 10, 20, 30, 100.
Значение порога:20
В левую часть попадут объекты: этажность 30, 100
127
В правую: этажность 1, 10, 20
• Для строковых атрибутов:
Правилу удовлетворяют только те элементы, значение рассматриваемого атрибута у которых
равно заданному значению порога. В качестве значения порога перебираются все возможные
значения заданного атрибута, встречающиеся в подмножестве объектов узла.
Пример:
Значения атрибута «улица»: «пл Ленина», «ул Иванова», «ул Смирнова».
Значение порога: «ул Иванова»
В левую часть попадут объекты: «пл Ленина», «ул Смирнова».
В правую: «ул Иванова».
*(!!!)* В оригинальном алгоритме CART правило для строковых атрибутов устроено иначе:
значением порога принимается ЛЮБАЯ возможная комбинация значения атрибута. В
информационной системе не используется данный алгоритм из-за большого числа объектов в
обучающей выборке дерева решений. Например, если существует в выборке 100 различных
значений поля «улица», то функция оценки качества разбиения будет вызываться более
(100*99*…*3*2*1) раз только для атрибута «улица». В текущей версии алгоритма, функция
оценки качества вызовется всего 100 раз. Данная оптимизация, несомненно, ухудшает
результативность алгоритма построения дерева на строковых значениях, но с практической
точки зрения данное изменение позволяет применять алгоритм на больших объемах данных без
существенного ущерба качеству модели. Еще одно маленькое, но важное изменение: в
используемом алгоритме не учитывается регистр букв в описании строковых атрибутов, (строка
«ЛЕНИНА» и «ленина» считаются одинаковыми). Это в свою очередь позволяет избавиться от
части некорректно заполненных описаний объектов и, по возможности, привести все описания
объектов в единый формализованный вид.
Алгоритмическое решение, реализованное в ИАС:
Каждый узел дерева имеет ссылки на двух своих потомков, левый и правый - аналогичные
структуры данных. В каждом узле хранится описание правила, определяющего в левое или
правое поддерево должен попасть объект из выборки. Кроме того, в каждом узле дерева
хранится признак завершения построения дерева (является ли листом данный узел дерева), и
подробная статистика о выборке элементов данного узла дерева.
Функции оценки качества разбиения
На каждом этапе разбиения дисперсия целевого атрибута в каждом подмножестве должна
уменьшаться по сравнению с дисперсией родительского множества. В ИАС анализируется
128
сумма дисперсий стоимости недвижимости в получаемых подмножествах для каждого
потенциального разбиения в каждом подмножестве узла.
Функция оценки качества разбиения вызывается для всех возможных атрибутов и всех
возможных значений выбранного атрибута в качестве значения порога. Тот параметр
(atribute_name) и то его значение (atribute_value), которые дают минимальную дисперсию
целевого атрибута при разбиении узла по данному параметру, используются для построения
правила разбиения узла. Таким образом, разбиение узла осуществляется по тома атрибуту, по
которому достигается максимальное уменьшение дисперсии значения целевого атрибута в
образованных узлах-подмножествах.
В функции поиска наилучшего разбиения берется сумма дисперсий целевого атрибута в левой и
правой части. Таким образом, чем однороднее выборка объектов в [‘х’]-м узле дерева при
разбиении по определенному значению [‘У’] по рассматриваемому атрибуту [‘z’], тем больше
шансов что правило разбиения узла[‘х’] будет основано на атрибуте [‘z’] и его значении [‘у’].
*(!!!)* В алгоритме для оптимизации поиска наилучшего разбиения, применен следующий
подход: Дисперсия на каждой следующей итерации перебора считается на основе уже
посчитанной дисперсии на предыдущем этапе. Таким образом, сложность поиска наилучшей
дисперсии для отдельно взятого столбца уменьшается с O(N*N) до O(N).
*(!!!)* Еще одна особенность алгоритма, реализованного в ИАС: усовершенствованная
«двойная» оценка качества разбиения. Как уже было упомянуто, уменьшение дисперсии при
разбиении анализируется для всех возможных атрибутов и всех их значений. В функции,
которая ищет оптимальное разбиение на основе улучшения дисперсии и количества элементов
в каждом узле-наследнике, хранится не только наилучшее значение дисперсии, но и
оптимальное значение дисперсии при условии, что количество элементов в каждом узленаследнике не менее 10% от числа элементов родительского узла. Финальное решение функции
выглядит следующим образом: если удалось разбить множество на подмножества с
количеством элементов в каждом не менее 10%, то принимается данное разбиение. Если
соответствующим образом разделить множество элементов на 2 подмножества не получилось,
то берется разбиение с наилучшей дисперсий без учета количества объектов.
Меры эффективности деревьев решений
Эффективность различных моделей, в том числе и дерева решений, обычно определяется
с помощью тестового множества объектов, которые не участвовали в построении модели.
Множество объектов, у которых известны значения атрибутов и целевого параметра,
делится на 2 части: обучающую выборку (на которой строится дерево) и тестовую (на которой
129
проверяется эффективность дерева). В демонстрационном примере к ВКР используется база
данных, содержащая информацию об объектах-аналогах в г. Ярославль. Всего в базе
содержится подробное описание более 12,5 тыс. объектов. В качестве обучающей выборки
были выбраны случайно около 1000 объектов из этой базы. Остальные, соответственно, попали
в тестовое множество.
При оценке эффективности модели решающему дереву на вход подается набор тестовых
примеров и у каждого из них вычисляется разность реальной стоимости 1 м.кв, и полученной в
результате работы модели. Затем строятся графики и гистограммы полученных значений
отклонений, делается вывод о качестве работы дерева решений.
Механизм отсечения
Процесс роста дерева решений начинается с разбиения корневого узла на два потомка,
каждый из которых рекурсивно подвергается дальнейшему разбиению. При этом каждый раз
все входные атрибуты рассматриваются как потенциальные атрибуты разбиения, в том числе и
те, которые уже были использованы ранее. По умолчанию, алгоритм построения дерева
решений строит дерево до тех пор, пока могут быть найдены новые разбиения подмножеств,
дающие более чистые выборки объектов в дочерних узлах. В результате строится так
называемое полное дерево с абсолютно чистыми листьями.
Полное регрессионное дерево дает нулевую ошибку на обучающем множестве, и это
хорошо. Однако, построение полного дерева, во-первых, требует больше времени и ресурсов;
во-вторых увеличивает ошибку распознавания на тестовом множестве. Это происходит из-за
того, что дерево решений строится на конкретном обучающем множестве; поэтому выбросы,
ошибки ввода, частные случаи среди объектов обучающей выборки влекут за собой увеличение
ошибки при применении дерева к произвольным тестовым множествам.
Существует два основных подхода к выбору оптимальной сложности дерева решений:
1) Остановка работы алгоритма при достижении определенных условий
2) Построение полного дерева и отсечение наименее значимых ветвей
Так как информационно-аналитическая система рассчитана на работы с большим числом
объектов, то построение полного дерева для больших обучающих баз данных может занимать
очень много времени. Поэтому, для оптимизации модели был выбран 1 подход (остановка при
достижении заданных условий).
В ИАС алгоритм работает по следующему принципу:
Каждый узел дерева разбивается по наилучшему атрибуту на 2 дочерних узла до тех пор, пока
не будет выполнено одно из следующих условий:
130

В узле осталось слишком мало объектов
o (меньше значения параметра «количество элементов в узле»)

Все элементы в узле одинаковы по значениям значимых параметров, но различаются
по стоимости

Достигнута заданная чистота выборки
o (ошибка в каждом узле не превышает «допустимую ошибку дерева»)

Превышен максимальный размер дерева И ошибка в каждом узле не превышает
«максимальную ошибку дерева»
Благодаря перечисленным условиям ранней остановки алгоритма построения дерева,
существенно
уменьшается
общее
время
построения
дерева
и
общая
погрешность
распознавания.
В общем случае влияние упрощения дерева на точность модели отображено на графике:
Рисунок 119. Зависимость средней ошибки регрессионной модели от числа узлов в дереве
На обучающем множестве увеличение числа узлов ведет к постоянному уменьшению
средней ошибки модели, однако на тестовом множестве ошибка снижается только до
определенного числа элементов в узле. Когда дерево становится слишком сложным, модель
теряет устойчивость к выбросам и ошибка распознавания начинает возрастать. Следовательно,
необходимо изначально определить порог числа элементов дерева (и остальных параметров
упрощения модели). Анализ параметров упрощения модели с целью выявления оптимальных
значений выполнен далее в конце данной главы.
Алгоритм заполнения пропущенных значений (оценка целевого атрибута)
Когда дерево решений построено, пользователь может провести оценку целевого атрибута
у тестовой выборки, используя готовое дерево. При этом алгоритм построен следующим
образом:
131
1) Выбирается очередная запись из базы данных объектов оценки.
2) Просмотр дерева начинается с корня => текущим узлом дерева считается корневой
элемент.
3) Если текущий узел дерева имеет потомков, то переход к шагу 5.
4) Если узел дерева является листом, то переход к шагу 11
5) Загружается название атрибута разбиения и решающее правило из текущего узла
дерева решений.
6) Ищется в описании объекта оценки столбец с названием, совпадающим со значением
загруженного атрибута узла
7) Если не удалось найти данный столбец у объекта оценки, то переход к шагу 10.
8) Если столбец найден, то правило разбиения узла применяется к объекту оценки.
9) Выбирается та ветвь дерева решений, правило которой удовлетворяет параметрам
объекта оценки. Переход к шагу 3.
10) Если данный параметр не был найден, то выбирается та ветвь дерева решений, в
которой наибольшее количество элементов. Переход к шагу 3.
11) Объекту оценки присваивается среднее значение целевого атрибута по выборке
элементов листа дерева. Возврат к шагу 1.
Таким образом, для каждого объекта из базы производится оценка путем прохождения по
дереву решений от корня до листа. В каждом узле объект попадает в левый или правый
дочерний узел, в зависимости от того какой ветви узла удовлетворяют параметры объекта
оценки. На каждом шаге, соответственно, уменьшается разброс стоимости объекта и ошибка
распознавания.
Валидация данных, анализ выбросов и дубликатов.
Перед запуском алгоритма построения дерева, входная таблица данных проходит через
определенные этапы валидации:
 1 этап:
Значения числовых столбцов переводятся в числовой формат, независимо от того, какие
значения в них хранятся. При этом числовые значения остаются без изменений; строки,
похожие на числа, конвертируются в числа; остальным объектам присваивается значение
параметра 0.
 2 этап:
1) В базе данных осуществляется поиск объектов с одинаковыми значениями входных
параметров
132
2) В каждой группе найденных одинаковых объектов вычисляется медианное значение
целевого атрибута (стоимости 1 кв.м.).
3) Из каждой группы одинаковых по выходным параметрам объектов в таблице,
поступающей на вход алгоритма построения дерева, оставляют только один (любой) объект.
Значение целевого атрибута ему подменяется на вычисленное на 2 этапе медианное
значение.
Данная предварительная обработка данных позволяет избавиться от неоправданного
разброса стоимости одинаковых с точки зрения модели объектов, а том числе от некорректно
заполненных данных.
Оригинальность разработанного алгоритма
Метод, в соответствии с которым осуществляется выбор атрибута ветвления на каждом
шаге, называется АЛГОРИТМОМ построения дерева решений [4].
Алгоритм, разработанный в рамках данной работы, является оригинальным, т.к.
существенно отличается от остальных известных алгоритмов построения дерева решений.
Основное отличие - нацеленность на скорость работы при работе с большими объемами
данных.
Достигается это с помощью внесений следующих модификаций в алгоритм CART (ниже
перечислены лишь наиболее значимые):
1) При построении дерева нет возможности изменения правила в уже сформированном
узле. Используется жадный алгоритм.
2) Функция оценки качества разбиения использует метод наименьшей дисперсии. При
этом анализируется минимальная дисперсия на всех разбиениях, и на тех, где количество
элементов в каждом подмножестве не меньше 10% от исходного множества. Таким образом, в
каждом узле происходит «двойная» оценка разбиения.
3) Значение порога у строкового атрибута может быть только одно: не перебираются все
возможные комбинации значений параметра.
4) Во время построения дерева возможна ранняя остановка при достижении одного из
нескольких условий:
а) Глубина дерева больше максимально допустимой, И ошибка узла не превышает
максимальное значение порога
б) Элементов в узле меньше максимального количества ИЛИ ошибка узла меньше
приемлемой.
133
Исходя из вышеописанных особенностей следует, что в рамках ВКР был разработан
самостоятельный оригинальный алгоритм построения дерева решений. Преимущество перед
существующими – сложность всего алгоритма снижена до О(N*N*logN), что несомненно
сказывается на скорости работы.
4.1.11.Алгоритм построения кластеризованного дерева решений.
Научной
новизной данной
магистерской работы является применение методов
кластеризации и алгоритмов построения решающих деревьев к массовой оценке. В рамках
работы над проектом был разработан алгоритм массовой оценки, сутью которого является
построение кластеризованного решающего дерева.
Алгоритм работает следующим образом:
На первом шаге работы алгоритма определяются координаты объектов недвижимости на
основе известных адресных данных (координаты предоставляются веб-сервисами Яндекса,
подробнее в главе 4.1.3).
Затем все объекты обучающего множества разбиваются на группы с 30% диапазоном
разности удельной рыночной стоимости. Значение в 30% было выбрано, как общепринятый
допустимый диапазон возможной погрешности оценки стоимости при проведении оценки
недвижимости
(в т.ч. кадастровой). При
этом погрешности выше 30% считаются
существенными и требуют устранения. Поэтому в процессе группировки объектов по
стоимости, во время работы алгоритма объекты с разницей в стоимости менее 30% считаются
похожими и относятся в одну группу, у которых разница в стоимости больше – считаются
заведомо различными и не входят при первом разбиении в одну группу. Таким образом, в
результате группировки формируются множества объектов, близких по значению удельной
стоимости.
Далее алгоритм производит кластеризацию по местоположению алгоритмом k-средних
всех объектов входной базы данных. Для проведения кластеризации, алгоритм k-средних
требует изначально предопределенные значения количества кластеров и их центры. Для
формирования начального разбиения по кластером используются сформированные на
предыдущем шаге ценовые группы объектов-аналогов. В каждой группе вычисляется средняя
координата по оси Х и У в качестве начального центра будущего кластера, количество
кластеров считается равным количеству сформированных групп. Далее на этих центрах
кластеров строится кластеризация всех объектов множества (в т.ч. и объектов оценки).
В процессе кластеризации методом k-средних на каждой итерации данного алгоритма
переопределяются центры кластеров и множество объектов, принадлежащих каждому кластеру.
134
На каждой итерации каждый объект из множества относится к тому кластеру, центр которого
ему ближе с точки зрения географического положения. После того, как все объекты
распределены по кластерам, происходит перерасчет центров кластеров и выполняется
очередная итерация до тех пор, пока центры кластеров перестанут смещаться от итерации к
итерации. В ходе работы алгоритма образовавшиеся «пустые» кластеры (не содержащие
объектов) не учитываются в ходе дальнейшей работы алгоритма оценки. Подробнее о работе
алгоритма k-средних см. в главе 4.1.5. В результате кластеризации формируются группы
близлежащих объектов. В каждый кластер попадает множество объектов, у которых сведено к
минимуму различие вклада географического положения в итоговую рыночную стоимость.
После проведения кластеризации проводится построения решающего дерева методом
CART (см. в главе 4.1.10). Причем, построение дерева проводится индивидуально для каждого
сформированного кластера. С алгоритмической точки зрения, построение дерева, как и в
базовом алгоритме, бинарное. Однако для достижения построения индивидуального
решающего дерева для каждого кластера, в алгоритм внесены следующие изменения:

при построении дерева разбиение по кластерам имеет наивысший приоритет;

номера кластеров обрабатываются как категориальные признаки;

разбиение по кластерам не учитывается при расчете глубины ветви дерева.
Построение кластеризованного дерева решений позволяет проводить более точную
оценку объектов, т.к. решающие деревья строятся индивидуально для каждой выявленной в
ходе автоматического анализа географической зоны.
4.1.12.Построение дерева регрессии. Анализ результатов.
В данной части пояснительной записки описаны полученные результаты анализа влияния
упрощения дерева на эффективность модели на примере тестовой выборки объектов
недвижимости г. Ярославль.
1) Анализ влияния параметра «количество элементов в узле» на эффективность модели.
Перебираются следующие значения параметра: 2; 5; 10; 20; 50; 100
Значения остальных параметров остается неизменным:
Максимальная глубина дерева: 30
Приемлемая ошибка дерева: 5%
Максимальная ошибка дерева: 30%
135
Таблица 10. Сравнительные результаты влияния параметра «количество элементов в узле»
Количество
элементов
в узле
Время
построения
дерева
Средняя
ошибка
Максимальная
ошибка
Процент объектов
с ошибкой до 30%
2
12299
0,130797411
1,92090332
83
5
8288 мс
0,130347927
1,796062797
83
10
5779 мс
0,126927204
2,045736539
84,5
20
6206 мс
30
7929 мс
0,124396411
0,128864386
1,590727229
2,276513758
85,5
84
50
11756 мс
0,132736485
2,129234425
83 1
100
46305 мс
0,142828915
2,888597735
79
Как видно из таблицы, при уменьшении значения параметра «количество элементов в
узле» уменьшается средняя ошибка распознавания и растет количество объектов, ошибка
оценки у которых не превысила допустимый предел. Однако, при достижении определенного
порога (в данном случае на уровне ~20%), ошибка распознавания начинает увеличиваться, т.к.
модель начинает «подстраиваться» под частные случаи. Следовательно, при решении задачи
оценки недвижимости на типичной выборке средних размеров, оптимальным значением
параметра «количество элементов в узле» являются значения, близкие к 20.
2) Анализ влияния параметра «максимальная глубина дерева» на эффективность модели.
Перебираются следующие значения параметра: 2; 10; 20; 30; 50; 100
Значения остальных параметров остается неизменным:
Количество элементов в узле: 20 (оптимальное значение, найденное на этапе 1)
Приемлемая ошибка дерева: 5%
Максимальная ошибка дерева: 30%
Таблица 11. Сравнительные результаты влияния параметра «максимальная глубина дерева»
Максимальная
глубина дерева
Средняя
ошибка
Максимальная
ошибка
Процент объектов
с ошибкой до 30%
2
10
20
30
50
100
0,12315843
0,123714371
0,124406971
0,124396411
0,124396411
0,124396411
2,010342869
2,010342869
1,59072723
1,59072723
1,59072723
1,59072723
87
86.5
85
85
85
85
При уменьшении максимальной глубины дерева, как ни странно, уменьшается средняя
ошибка распознавания. Однако увеличивается максимальная ошибка (в процентах). Результаты
не ухудшаются при уменьшении максимальной глубины дерева, т.к. в алгоритме заложено
правило: заканчивать работу при достижении максимальной глубины, только если достигнута
136
необходимая чистота узла. Тем не менее, для построения оптимальной оценочной модели
необходимо уменьшать не только среднюю ошибку, но и максимальную. Поэтому в качестве
оптимального значения параметра «максимальная глубина дерева» выбрано значение 20.
Однако, если необходимо добиться наибольшего числа верно определенных объектов, а не
корректности модели в целом, то значение «максимальная глубина дерева» можно установить в
1: алгоритм в этом случае будет завершать построения дерева в каждой ветви по достижении
необходимой однородности цены в данной ветви.
Анализ
влияния
значений
максимальной
и
допустимой
ошибки
дерева
на
репрезентативность модели не производился, т.к. значения этих параметров выбраны не
случайно. Максимальная ошибка на обучающем множестве составляет 30%, т.к. в оценке
недвижимости погрешность оценки стоимости не более 30% является общепринято
допустимой. А приемлемая ошибка распознавания по умолчанию составляет 5%, т.к. 95%
доверительный
интервал
является
наиболее
часто
используемым
в
статистики
для
подтверждения гипотез. В данном случае проверяется гипотеза о корректном построении и
работе модели.
Язык и средства программирования
4.2.
Для создания данной информационно-аналитической системы был выбран язык C#. Для
непосредственной разработки системы использовалась среда Visual Studio 2010.
При выборе языка основным критерием была простота использования полученного
программного средства, при этом подразумевалось, что система будет использоваться только на
компьютерах
с
ОС
Windows.
Поэтому
не
возникло
необходимости
в
создании
мультиплатформенной системы (например, на языке java), не было жестких ограничений по
производительности (не возникла необходимость использовать C++).
Система на C#
полностью удовлетворяет требованиям задачи ВКР. Основная часть системы - исполняемый
.exe модуль, для запуска которого необходима ОС Windows и платформа .NET (подробные
требования к системе описаны далее в части 4.3).
О причинах использования Excel файлов вместо локальной базы данных подробнее
указано в части 4.1.2. О выборе гео-сервиса раскрыто в части 4.1.4
Программные средства, используемые при разработке системы:

Oledb (Object Linking and Embedding, Database) - набор интерфейсов, основанных
на объектной модели компонентов (COM), которые позволяют приложениям
обращаться к данным, хранимым в разных источниках. Данное программное
137
средство было использовано для работы с входной – выходной информацией
системы из MS Excel файлов посредством обработки SQL запросов.

Ymaps-
программный
интерфейс
JavaScript
(JavaScript
API)
к
сервису
Яндекс.Карты.
4.3.
Развертывание системы
Для работы информационно-аналитической системы необходимо:
1) Установленная операционная система WINDOWS версии XP или выше. Связано с тем,
что система реализована в среде разработки VisualStudio на языке C# и может работать
только под ОС Windows.
2) Установленный пакет .NET framework версии 3.5 и выше. Его можно бесплатно скачать с
сайта Microsoft.ru либо установить из папки с системой (имя файла dotNetFx35setup.exe)
3) Одно из следующих:
a. Драйвер для доступа системы к MS Excel файлам через SQL протокол. Его можно
бесплатно скачать с сайта Microsoft.ru либо установить из папки с системой (имя
файла AccessDatabaseEngine.exe)
b. Установленный на компьютер MS Office 2007
4) Во время отображения большого числа объектов на карте (4000 и более) может
возникнуть ошибка выполнения скрипта. Чтобы избежать этого, необходимо установить
пакет исправления ошибок №50403 для Windows. Его можно бесплатно скачать с
официального сайта по адресу http://support.microsoft.com/kb/175500, либо запустить
установку из файла в каталоге с системой (имя файла MicrosoftFixit50403.msi)
5) Исполняемый файл системы (WindowsForms10.exe) и необходимые системные модули
из каталога системы, тестовая база в Excel файле.
138
Заключение
Разработан программный продукт, полностью отвечающий поставленным требованиям и
нашедший практическое применение. В результате выполнения ВКР спроектирована и
реализована информационно-аналитическая система, совмещающая в себе необходимый в
работе оценщикам и экспертам набор инструментов.
Для автоматизации массовой оценки рыночной стоимости разработан и внедрен в систему
блок прогнозирования стоимости недвижимости на основе алгоритмов построения решающих
деревьев. Исследование, проведенное в ходе магистерской работы, показало, что применение
алгоритмов построения решающих деревьев к кадастровой оценке позволит
добиться как
прозрачности результатов государственной оценки, так и существенного снижения доли
отклонений оценочной стоимости от рыночной.
В ходе работы над проектом были исследованы гео-сервисы и способы работы с ними;
современные алгоритмы построения решающих деревьев; методы и алгоритмы, применяемые
при оценке недвижимости, и особенности осуществления этого процесса в России; разработан
собственный алгоритм определения рыночной стоимости недвижимости, оптимальный для
больших наборов данных.
Разработанная информационно-аналитическая система позволяет не только производить
экспертизу результатов массовой кадастровой оценки недвижимости, но и непосредственно
определять вероятную рыночную стоимость каждого отдельно взятого объекта оценки.
В магистерской работе решены следующие задачи:

анализ существующих методологий и подходов к массовой и индивидуальной оценке недвижимого
имущества

исследование сложившейся ситуации, связанной с высокой долей погрешности при проведении
кадастровой оценки

анализ и выявление требований, предъявляемых к процессу и результатам проведения
государственной кадастровой оценке

исследование применимости известных математических алгоритмов анализа данных к проведению
массовой оценки

разработка набора алгоритмов, применение которых к массовой оценке позволит получить
требуемый уровень качества определения стоимости

реализация требуемых технологических и функциональных решений, разработка математического,
алгоритмического и программного обеспечения компонентов ИАС

разработка прикладной методики сравнительного анализа эффективности разработанных алгоритмов
применительно к массовой оценке
139
Список использованных источников и литературы
1. API Яндекс.Карт [Электрон. ресурс]. – Электрон. дан. – [М.2012]. – Режим доступа:
http://api.yandex.ru/maps/doc/intro/concepts/intro.xml
2. GotDotNet.Ru: сообщество .NET-разработчиков [Электрон. ресурс]. – Электрон. дан. – [M.2012].
– Режим доступа: http://www.gotdotnet.ru/
3. Кормен, Томас Х., Лейзерсон, Чарльз И., Ривест, Рональд Л., Штайн, Клифорд. Глава 33.
Вычислительная геометрия // Алгоритмы: построение и анализ = Introduction to Algorithms. —
2-e издание. — М.: «Вильямс», 2005. — ISBN 5-8459-0857-4
4. Паклин, Орешков. глава 9. Data Mining // Бизнес-аналитика.: от данных к знаниям. — 2-е
издание. — «Питер», 2010-ISBN 978-5-49807-751-2
5. Вопросы регулирования споров кадастровой оценки. Презентация РОО, Краснодар 19-20
апреля 2013
6. «Недвижимость и инвестиции. Правовое регулирование» Номер 2-3 (7-8) 2010г.
7. «Оценочно-стоимостной
анализ
и
информационно-технологическое
обеспечение
экономических измерений при переходе к новому технологическому укладу»,
VII
Международная Кондратьевская конференция ХХ Кондратьевские чтения
8. В. Прорвич //Основы экономической оценки городских земель: Учебно-практическое пособие
— Дело, 1998
9. Н. Дрейпер, Г. Смит //Прикладной регрессионный анализ. Множественная регрессия — 3-е
изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8
10. Русский MSDN [Электрон. ресурс]. – Электрон. дан. – [M.2012]. – Режим доступа:
http://msdn.microsoft.com/ru-ru/
11. «Стратегия развития оценки стоимости имущества (оценочной деятельности) в Российской
Федерации». Предложения Российского общества оценщиков в «Концепцию развития
оценочной деятельности в Российской Федерации»
12. Mirkin B.G. K-means and related clustering methods. //Core concepts in data analysis: summarization,
correlation and visualization. “Springer” 2011, ISBN 0857292862
13. Guide to the Software Engineering Body of Knowledge (SWEBOK) [Electronic resource]. - Electronic
data.
–
[S.
L]:
IEEE
Computer
Society,
http://www.computer.org/portal/web/swebok/htmlformat/
140
USA.
–
Mode
of
access
Нормативно-правовая база, используемая для выполнения магистерской
работы:
1. Федеральный закон от 29.07.1998г. №135-Ф3 «Об оценочной деятельности в Российской
Федерации» в редакции Федерального закона от 22.07.2010г. №167-ФЗ;
2. Федеральный стандарт оценки (ФСО N4) "Определение кадастровой стоимости объектов
недвижимости утвержденных приказом Минэкономразвития от 22.10.2010 г. N 508;
3. Приказ Министерства экономического развития и торговли РФ от 03.11,2006г. №358 «Об
утверждении Методических рекомендаций по определению кадастровой стоимости
объектов недвижимости жилого фонда для целей налогообложения и Методических
рекомендаций по определению кадастровой стоимости объектов недвижимости нежилого
фонда для целей налогообложения»;
4. Приказ Федеральной службы государственной регистрации, кадастра и картографии от
01.09.2010г. №484 «О сборнике классификаторов, используемых Федеральной службой
государственной регистрации, кадастра и картографии автоматизированных системах
ведения ЕГРП на недвижимое имущество и сделок с ним и государственного кадастра
недвижимости»;
5. Приказ Министерства экономического развития РФ от 04.02.2010г. №42 «Об утверждении
порядка ведения ГКН»;
6. Постановление правительства РФ от 14.12.2006 N 767 «Об утверждении правил проведения
государственной кадастровой оценки земель»;
7. Методические указания по государственной кадастровой оценке земель населенных
пунктов, утвержденных приказом Минэкономразвития России №39 от 15 февраля 2007.;
8. Методика по государственной кадастровой оценки земель промышленности и иного
специального назначения Утвержденная приказом Росземкадастра от 20.03.2003г. и т.д.
9. Постановление Правительства Российской Федерации № 945 от 25.08.1999 г. "О
государственной кадастровой оценке земель";
10. Правила
проведения
государственной
кадастровой
оценки
земель,
утвержденные
постановлением Правительства Российской Федерации № 316 от 08.04.2000 г. (в ред.
Постановления Правительства Российской Федерации № 206 от 11.04.2006 г.; № 590 от
17.09.2007 г.).
141
Download