База примеров

Стоимость аренды недвижимости в зависимости от различных факторов

Постановка задачи

Модель множественной регрессии

Шаг 1. Отсеивание факторов

Шаг 2. Запуск и настройка анализа

Шаг 3. Анализ результатов

Модель регрессии поверхности отклика

Шаг 1. Запуск и настройка анализа

Шаг 2. Анализ результатов – общая оценка модели

Шаг 3. Анализ остатков

Шаг 4. Показатели качества модели

Шаг 5. Вывод результатов

 


Постановка задачи

Рассмотрим рынок сдаваемой в аренду недвижимости в городе Х. Были собраны данные по 225 объектам – помещения под офисы, магазины, склады и проч. На основе этих данных интересно построить регрессионную модель зависимости величины арендной платы от различных факторов. Полученная модель может найти различные применения:

  • оценка арендной платы по параметрам объекта;

  • оценка правильности выставленной арендной платы;

  • выявление факторов, влияющих на арендную плату наибольшим и наименьшим образом;

  • при наличии данных, собранных в разные моменты времени, можно выявить факторы, значение которых возрастает или уменьшается в плане влияния на размер арендной платы.

В качестве зависимой переменной выступает Арендная плата в долл. за м2 в месяц.

Независимые переменные:

  • район (центр, окраина);

  • общая площадь и полезная площадь в м2;

  • состояние помещения (отличное, хорошее, удовлетворительное);

  • состояние здания (отличное, хорошее, удовлетворительное);

  • назначение (магазин, офис, склад, разное);

  • наличие дополнительных услуг – водоснабжения, канализации, доп. телефонных линий и проч. (есть, нет);

  • ориентация окон (во двор, на улицу, во двор и на улицу);

  • срок аренды (менее года, год, более года);

  • высота потолков в м;

  • количество этажей в здании;

  • этаж, на котором находится объект (подвал, первый этаж, второй этаж и выше);

и др.

Отметим, что данные неоднородны: присутствуют объекты разного предназначения, в разных частях города, разного состояния. Следовательно, нельзя ожидать отличного качества модели.

 


Модель множественной регрессии

Сначала построим модель вида: 

Формула для y,

где Y - зависимая переменная (арендная плата),

ai - коэффициент при i-ой независимой переменной,

Xi - i-я независимая переменная,

N - количество независимых переменных.

То есть, в построенной модели Арендная плата является суммой факторов, помноженных на некоторый коэффициент.

Такая модель является наиболее простой, что облегчает её интерпретацию.

Шаг 1. Отсеивание факторов

На данный момент имеется 16 факторов. Возможно, среди них есть такие, которые не влияют на зависимую переменную или же их влияние мало. Такие факторы необходимо исключить из анализа, т.к. их присутствие негативно скажется на качестве модели.

Например, можно проверить факторы на линейную зависимость. Если несколько факторов окажутся линейно зависимыми, то из такой комбинации оставим лишь один фактор. Воспользуемся коэффициентом корреляции Спирмена (т. к. для некоторых переменных используется порядковая шкала). Средства для вычисления коэффициентов содержатся в модуле STATISTICA Base.

Фрагмент матрицы коэффициентов корреляции Спирмена

Рис. 1. Фрагмент матрицы коэффициентов корреляции Спирмена

Видим высокозначимую сильную корреляцию между Общей площадью и Полезной площадью, что логично. Исключим переменную Полезная площадь из анализа.

Дополнительное исключение переменных проводить не будем, т. к. далее будет показано, как построить регрессионную модель с автоматическим подбором наилучших предикторов.

Шаг 2. Запуск и настройка анализа

Воспользуемся средствами модуля STATISTICA Base, выбрав пункт Множественная регрессия в меню Анализ.

Запуск анализа

Рис. 2. Запуск анализа

В появившемся окне, нажав кнопку Переменные, зададим зависимые и независимые переменные.

Стартовая панель. Вкладка Быстрый

Рис. 3. Стартовая панель. Вкладка Быстрый

Запустим анализ, нажав кнопку ОК.

Шаг 3. Анализ результатов

Появится диалоговое окно результатов, содержащее все необходимые сведения в информационном поле.

Окно результатов

Рис. 4. Окно результатов

Основные параметры модели, на которые следует обратить внимание:

  • R2 = 0,78. Построенная модель объясняет 78% изменчивости.

  • скоррект. R2 = 0,77. Это скорректированный коэффициент детерминации. Полезно запомнить его значение, т.к. далее будет построена регрессионная модель для большего числа факторов. Нельзя сравнивать модели с разным числом факторов по R2.

  • в нижней части информационного поля приведены коэффициенты факторов. Красным цветом выделены статистически значимые.

Интерпретация значений коэффициентов будет проведена далее при построении более сложной модели. Можно вывести в виде электронной таблицы значения коэффициентов регрессии, их значимость, стандартную ошибку и стандартизованные значения, нажав на кнопку Итоговая таблица регрессии.

Фрагмент итоговой таблицы регрессии

Рис. 5. Фрагмент итоговой таблицы регрессии

Ещё раз заметим, что внимание следует обращать не только на величину коэффициентов регрессии, но и на их значимость. Если коэффициент не является статистически значимым, то нулевое значение попадает в доверительный интервал, следовательно, возможно, нужно исключить незначимый фактор из модели.

Нажав на кнопку Дисперсионный анализ, выведем таблицу дисперсионного анализа.

Таблица дисперсионного анализа

Рис. 6. Таблица дисперсионного анализа

Как показывает практика, наиболее важный результат, приведённый в этой таблице, - это статистическая значимость регрессионной модели p = 0,0.

Воспользовавшись кнопкой Анализ остатков во вкладке Остатки / предсказанные / наблюдаемые значения, можно построить анализ остатков для проверки построенной модели.

Окно результатов. Вкладка Остатки/предсказанные/наблюдаемые значения

Рис. 7. Окно результатов. Вкладка Остатки/предсказанные/наблюдаемые значения

Диалоговое окно анализа остатков

Рис. 8. Диалоговое окно анализа остатков

Анализ остатков будет проведён далее для более сложной модели.

Выше было приведено простое решение задачи: пользователь выбрал переменные, запустил анализ и получил простую модель. Попробуем построить более сложную модель, которая, возможно, будет иметь лучшее качество.

 


Модель регрессии поверхности отклика

Построим более сложную модель вида:

Формула для y,

где Y - зависимая переменная (арендная плата),

ai - коэффициент при i-ой независимой переменной,

Xi- i-я независимая переменная,

bi - коэффициент при i-ой независимой переменной в квадрате,

cij - коэффициент при всевозможных попарных произведениях независимых переменных, для которых i не равно j,

N - количество независимых переменных.

В случае двух независимых переменных модель бы имела вид:

Формула для y

В нашем случае имеется 15 факторов, поэтому выписывать модель в явном виде не будем.

Модель сложна, и интерпретировать её непросто. С другой стороны, она представляет мощный математический аппарат, который можно использовать в практических целях.

Шаг 1. Запуск и настройка анализа

Регрессия поверхности отклика доступна в модуле STATISTICA Линейные и нелинейные модели. Выберем пункт Общие регрессионные модели из меню Анализ.

Выбор Общих регрессионных моделей

Рис. 9. Выбор Общих регрессионных моделей

В стартовой панели выберем Регрессию поверхности отклика.

Стартовая панель

Рис. 10. Стартовая панель

В появившемся окне нажмём кнопку Переменные и зададим переменные.

Вкладка Быстрый

Рис. 11. Вкладка Быстрый

Перейдём во вкладку Опции, где включим процедуру кросс-проверки.

Вкладка Опции

Рис. 12. Вкладка Опции

Включив кросс-проверку, мы разделим исходные данные на две выборки: обучающую и тестовую (кросс-проверочную). Модель будет построена по обучающей выборке. Качество модели можно оценить на тестовой выборке.

В этой вкладке можно задать также метод построения модели: все эффекты, с включением или исключением, лучшие подмножества. Выбор одной из этих опций задаёт возможность автоматического добавления в модель только наилучших предикторов.

Запустим анализ, нажав на кнопку ОК.

Шаг 2. Анализ результатов – общая оценка модели

Появится диалоговое окно результатов.

Окно результатов

Рис. 13. Окно результатов

Нажав на кнопку Общая R модели, получим следующую таблицу.

Таблица SS модели и SS остатков

Рис. 14. Таблица SS модели и SS остатков

R2 = 0,96, и этот результат статистически значим. Следовательно, построенная модель объясняет 96% изменчивости. Скорректированный R2 = 0,89, что больше, чем в более простой модели, построенной ранее.

Шаг 3. Анализ остатков

Все средства, необходимые для анализа остатков, содержатся во вкладках Остатки 1 и Остатки 2.

Вкладка Остатки 1

Рис. 15. Вкладка Остатки 1

Для хорошей модели остатки должны быть нормально распределены. Проверим это, построив гистограммы остатков для анализируемой и кросс-проверочной выборок.

Гистограмма остатков

Рис. 16.1. Гистограмма остатков

Гистограмма остатков

Рис. 16.2. Гистограмма остатков

Остатки для обучающей выборки имеют приблизительно нормальное распределение. Распределение остатков для кросс-проверочной выборки отличается от нормального. Значит, рекомендуется изменить модель.

Для проверки на нормальность можно построить нормальные и полунормальные графики. Они покажут тот же результат.

Стоит отметить, что можно анализировать разные типы остатков: не только исходные, но и стандартизованные, удалённые, стьюдентиризованные, удалённые стьюдентиризованные.

Шаг 4. Показатели качества модели

О качестве модели говорит не только коэффициент множественной регрессии R. Самое главное – в результате должно получиться уравнение, позволяющее вычислить величину арендной платы при подстановке в него значений факторов.

Нажав на кнопку Набл. и предск. во вкладке Остатки 1, построим график, в котором по оси абсцисс отложены наблюдаемые значения, а по оси ординат – предсказанные. В идеальном случае точки лягут на прямую. Построим два графика: для обучающей и кросс-проверочной выборки.

График наблюдаемых и предсказанных значений

Рис. 17.1. График наблюдаемых и предсказанных значений

График наблюдаемых и предсказанных значений

Рис. 17.2. График наблюдаемых и предсказанных значений

В целом, точки расположены рядом с прямой, в том числе и на кросс-проверочной выборке. По графикам можно оценить качество подгонки, но лучше вывести показатели качества построенной модели. Модуль Качество подгонки, классификации, прогноза содержит достаточное количество таких показателей.

Показатели качества подгонки

Рис. 18. Показатели качества подгонки

Один из наиболее важных показателей в этой таблице - Средн. отн. абс. ошибка. Он показывает, на сколько процентов модель ошиблась при оценке арендной платы по значениям предикторов. Для обучающей выборки ошибка составила 8,8% - для многих случаев это приемлемый результат. Для кросс-проверочной выборки ошибка равна 17%, чего, как правило, недостаточно. Модель недостаточно способна к обобщению.

Для получения лучшей модели можно, например, разбить исходные данные на несколько частей (по регионам, состоянию помещения и т. д.) и построить регрессионную модель для каждой группы. Увеличение однородности выборки положительно скажется на качестве модели.

Шаг 5. Вывод результатов

Основной результат регрессионного анализа – это величина коэффициентов. Их можно вывести в таблицу, нажав на кнопку Коэффициенты регрессии вкладки Итоги диалогового окна результатов. Таблица статистически значимых коэффициентов регрессии имеет вид.

Фрагмент таблицы коэффициентов

Рис. 19. Фрагмент таблицы коэффициентов

Из неё видно, какой вклад вносят факторы в арендную плату. Поясним некоторые из них:

  • чем выше высота потолков, тем выше величина арендной платы;

  • чем лучше состояние здания, тем выше величина арендной платы;

  • при аренде на больший срок, арендная плата снижается;

  • при аренде большого помещения плата за 1 м2 ниже.

Используя вкладку Отчёт, можно вывести уравнение регрессии в отчёт или создать код модели на языках SVB, C, C++, PMML.

Вкладка отчёт

Рис. 20. Вкладка отчёт

Построенную модель теперь можно использовать для оценки величины арендной платы по известным параметрам сдаваемого жилья. Например, для помещения в отличном состоянии в центре города общей площадью 50 м2 на первом этаже с неоплаченными ком. услугами арендная плата составляет 57 долл. за м2.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание групповых занятий

 

 





info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта