Первичный набор факторов, определявшийся экспертным путём с учётом наличия достаточного количества информации в основных риэлтерских базах, составил:
– выходная переменная: цена продажи объекта недвижимости;
– количественные факторы: общая площадь помещения (кв.м.);
– географические факторы: расположение объекта.
Количественные факторы (с учётом преобразований) используются в модели в неизменном виде.
Преимущество нейронных сетей перед моделями множественной регрессии состоит в том, что нет необходимости преобразовывать упорядоченные категории в набор бинарных переменных, теряя порядок значений, обусловленный экономическими причинами. Т.к. зависимости в нейронных сетях нелинейны, достаточно указать произвольные числовые значения, монотонно связанные с уровнями фактора, например, последовательные целочисленные значения или усреднённые значения цены в разрезе соответствующих категорий.
Статистические данные цен продаж, индексы стоимости жилья города Киева, а также основная первичная информация была предоставлена агентством недвижимости «Планета Оболонь».
Данные о ценах продаж квартир на вторичном рынке Киева приведены в таблице 5.1. Анализируя их, необходимо учитывать, что статистика цен продаж построена на основе ограниченного количества сделок.
Таблица 5.1 – Статистические данные цен реальных продаж в первом квартале 2010 года
Тип жилья | Дата | Однокомнат-ные | Двухкомнат-ные | Трехкомнат-ные | Многокомнат-ные | ||||
Цена в $ за м2 | Изме-нение в % | Цена в $ за м2 | Изме-нение в % | Цена в $ за м2 | Изме-нение в % | Цена в $ за м2 | Изме-нение в % | ||
Дореволюционные | 01.01.2010 | 3382 | -2,9 | 4176 | -3,0 | 3699 | -1,9 | 2055 | -4,4 |
01.05.2010 | 3283 | 4052 | 3627 | 2185 | |||||
Сталинки | 01.01.2010 | 2673 | -4,6 | 2968 | -8,3 | 3006 | -8,3 | 3231 | -7,1 |
01.05.2010 | 2550 | 2721 | 2758 | 3001 | |||||
Старая панель | 01.01.2010 | 1971 | -1,5 | 1746 | -0,4 | 1829 | -3,8 | 2129 | -0,7 |
01.05.2010 | 1941 | 1739 | 1759 | 2114 | |||||
Старый кирпич | 01.01.2010 | 2062 | -0,1 | 2072 | -3,2 | 2170 | -8,3 | 2340 | 1,3 |
01.05.2010 | 2060 | 2005 | 1990 | 2371 | |||||
Типовая панель | 01.01.2010 | 1916 | -1,9 | 1831 | -0,9 | 1747 | -1,8 | 1753 | -5,8 |
01.05.2010 | 1879 | 1815 | 1716 | 1652 | |||||
Украинская панель | 01.01.2010 | 1656 | 0,0 | 1613 | -3,8 | 1604 | -11,5 | 1740 | -3,3 |
01.05.2010 | 1656 | 1552 | 1419 | 1683 | |||||
Украинский кирпич | 01.01.2010 | 1974 | -3,4 | 2127 | -0,5 | 2246 | -2,9 | 2913 | 1,0 |
01.05.2010 | 1906 | 2117 | 2181 | 2943 | |||||
Улучшенная типовая панель | 01.01.2010 | 1795 | -2,0 | 1697 | -3,4 | 1711 | -3,3 | 1848 | -4,5 |
01.05.2010 | 1759 | 1640 | 1655 | 1765 | |||||
Улучшен-ный кирпич | 01.01.2010 | 2104 | -4,6 | 2368 | -9,6 | 2422 | -4,5 | 4252 | -5,9 |
01.05.2010 | 2007 | 2140 | 2313 | 4448 |
К некоторым из факторов были применены соответствующие функциональные преобразования. Цены и площади помещения были прологарифмированы. Все факторы были нормированы путём вычитания минимального значения и деления на размах вариации.
Для наглядности ниже приведена (таблица 5.2) реальная выборка, содержащая 13 входных параметров, которые необходимо использовать для построения прогностической системы оценки стоимости жилья в Киеве. Выборка составила суммарно 496 наблюдения. Она была случайно разделена на обучающую (80%), валидационную (10%) и тестовую (10%).
Таблица 5.2 – Входные данные, построенные по индексам «Планеты Оболонь»
месяц | Входы ИНС(Хi) | Выход ИНС | ||||||||||||
Январь | 0,0063 | 18 | 2,31 | 0 | 0,538 | 6,575 | 65,2 | 4,09 | 1 | 296 | 15,3 | 396,9 | 4,98 | 24 |
0,0273 | 0 | 7,07 | 0 | 0,469 | 6,421 | 78,9 | 4,9671 | 2 | 242 | 17,8 | 396,9 | 9,14 | 21,6 | |
0,0272 | 0 | 7,07 | 0 | 0,469 | 7,185 | 61,1 | 4,9671 | 2 | 242 | 17,8 | 392,83 | 4,03 | 34,7 | |
0,0323 | 0 | 2,18 | 0 | 0,458 | 6,998 | 45,8 | 6,0622 | 3 | 222 | 18,7 | 394,63 | 2,94 | 33,4 | |
….. | ||||||||||||||
Февраль | 0,0690 | 0 | 2,18 | 0 | 0,458 | 7,147 | 54,2 | 6,0622 | 3 | 222 | 18,7 | 396,9 | 5,33 | 36,2 |
0,0298 | 0 | 2,18 | 0 | 0,458 | 6,43 | 58,7 | 6,0622 | 3 | 222 | 18,7 | 394,12 | 5,21 | 28,7 | |
0,0882 | 12,5 | 7,87 | 0 | 0,524 | 6,012 | 66,6 | 5,5605 | 5 | 311 | 15,2 | 395,6 | 12,43 | 22,9 | |
0,1445 | 12,5 | 7,87 | 0 | 0,524 | 6,172 | 96,1 | 5,9505 | 5 | 311 | 15,2 | 396,9 | 19,15 | 27,1 | |
…. | …. | ….. | …. | … | ….. | …… | ….. | …… | ….. | ….. | …… | ……. | …… | …… |
Май | 0,17899 | 0 | 9,69 | 0 | 0,585 | 5,67 | 28,8 | 2,7986 | 6 | 391 | 19,2 | 393,29 | 17,6 | 23,1 |
При этом формируя выборку определенного размера, можно всегда скорректировать количество входных и выходных данных (взять меньше чем присутствует в таблице, таким образом оставшиеся наборы просто не будут участвовать в обучении). Т.е. выборка не будет терпеть каких- либо изменений что упростит работу при моделировании.
Пример прогнозирования оценки рыночной стоимости недвижимости.Исследования проводились на основе модели сети с разными архитектурами (РБФ и МП) и были выбраны наилучшие сети по ряду характеристик. Целью проводимых экспериментов было построение нейросетевой прогностической системы с наименьшей ошибкой тестирования. Для достижения данной цели было проведено исследованиевлияния представления исторических и прогнозируемых данных на ошибкупрогнозирования. Также были рассмотрены вопросы влияния структурынейронной сети на скорость обучения и ошибку прогнозирования.
5.4 Результаты моделирования
Каждый из экспериментов состоял из несколько этапов:
1. Формирование обучающей выборки. На этом этапе определялся вид представления исторических и прогнозируемых данных, осуществлялось формирование блока представительских (обучающих) выборок.
2. Обучение нейронной сети с использованием сформированного на первом этапе блока обучающих выборок. Качество обучения характеризовалось ошибкой обучения, определяемой как суммарное квадратичное отклонение значений на выходах нейронной сети в обучающей выборке от реальных значений, полученных на выходах нейронной сети. Критерий прекращения обучения – 600 итераций или уменьшение ошибки на выходах сети на два порядка, по сравнению с первичной ошибкой. В том случае, если при описании опыта не указано, что произошло снижение ошибки на два порядка, обучение останавливается по первому критерию.
3. Третий этап – тестирование нейронной сети. Определяется качество прогнозирования при подаче на вход 4,0-5,0 % наборов из обучающей выборки. Эксперимент является успешным, если относительная достоверность не менее 80,0 %.
4. На четвертом этапе осуществляется пробное прогнозирование. На входе нейронной сети – наборы, которые не были внесены в обучающую выборку, но результат по которым (прогноз) известен.
Полученные результаты приведены ниже (рисунок 6.1, таблица 6.3).
Рисунок 5.1 – Результат прогнозирования
Таблица 5.3 – Результаты поиска оптимальных нейросетевых структур при проведении исследования
№ | Архитектура | Производительность обучения | Ошибка обучения | Контрольная ошибка | Корреляция |
1 | МП 5-4-1 | 0,401670 | 0,084714 | 0,085163 | 0,90129 |
2 | МП 6-4-1 | 0,409401 | 0,085963 | 0,082306 | 0,89730 |
3 | РБФ 13-29-1 | 0,399905 | 0,042725 | 0,046866 | 0,87924 |
4 | РБФ 12-44-1 | 0,372236 | 0,039769 | 0,044508 | 0,89125 |
5 | РБФ 12-67-1 | 0,370119 | 0,039542 | 0,039268 | 0,89041 |
Таблица 5.4 – Результаты прогноза пяти наилучших сетей
№ наблюде-ния | выход | МП 5-4-1 | МП 6-4-1 | РБФ 13-29-1 | РБФ 12-44-1 | РБФ 12-67-1 |
1 | 19.30000 | 16.46174 | 17.52021 | 18.15556 | 18.69394 | 20.23986 |
2 | 22.00000 | 19.18554 | 21.64104 | 20.24270 | 24.02081 | 22.60867 |
3 | 20.30000 | 20.37075 | 22.07099 | 20.99243 | 23.81311 | 22.53081 |
4 | 20.50000 | 20.07585 | 20.98084 | 19.75282 | 21.61238 | 20.09558 |
5 | 17.30000 | 20.59252 | 20.83783 | 17.01615 | 18.12504 | 16.49583 |
6 | 18.80000 | 19.35636 | 20.82702 | 20.12393 | 21.78268 | 20.12268 |
7 | 21.40000 | 20.18651 | 21.81011 | 21.23228 | 23.69920 | 22.15571 |
8 | 15.70000 | 19.24575 | 20.63956 | 15.99494 | 16.97535 | 15.58635 |
9 | 16.20000 | 16.47351 | 15.98440 | 16.54179 | 15.09492 | 15.63252 |
10 | 18.00000 | 20.13308 | 18.21978 | 19.95714 | 18.36202 | 19.22542 |
11 | 14.30000 | 16.09037 | 15.45824 | 15.49104 | 14.27741 | 14.79159 |
12 | 19.20000 | 23.05850 | 20.23653 | 21.77788 | 20.33284 | 21.45920 |
…. | ….. | ….. | ….. | ….. | …… | ….. |
496 | 23.10000 | 15.28950 | 16.22822 | 18.22000 | 21.10664 | 22.01762 |
В результате получили 5 обученных сетей с определенной архитектурой (таблица 5.3) которые могут прогнозировать оценку рыночной стоимости недвижимости (рисунок 5.1) при 13-ти входах исключительно по историческим данным изменения стоимости. Как видим, коэффициент корреляции примерно одинаков для всех пяти сетей, что говорит о малой точности прогноза. По результатам опыта можно сказать, что все сети справились с поставленной задачей одинаково. Однако на некоторых значениях выхода радиально-базисная сеть имеет значительные отклонения от ожидаемого значения.