Анализ данных по квартирам.ppt
- Количество слайдов: 41
Анализ данных по недвижимости Семенов Дмитрий ® Stat. Soft Russia
Рассматривались данные по двухкомнатным квартирам Число квартир в базе - 6286
Информация по каждой квартире: • Цена квартиры в тыс. $, • Общая площадь в м 2, • Жилая площадь в м 2, • Площадь кухни в м 2, • Расстояние от центра в км, • Способ добраться до метро (бинарная переменная, принимающая значение 1 - пешком, 0 - на транспорте).
Информация по каждой квартире: • Тип постройки здания (бинарная переменная, принимающая значение 1 - кирпичный дом, 0 - панельный дом), • Высота расположения квартиры (используется переменная, принимающая значение 1, если квартира находится не на 1 или последнем этаже, и 0 в противном случае).
Задачи исследования • Провести анализ влияния характеристик квартиры на ее цену • Построить модель зависимости стоимости квартиры от исследуемых параметров и численно оценить коэффициенты модели
Данные в системе STATISTICA
Шаг 1: Визуальный анализ данных Представим информацию по характеристикам квартиры графически
Цена квартиры Изменяется в интервале от 15 тыс. $ до 95 тыс. $
Общая площадь квартиры
Расстояние от центра в км Изменяется в интервале от 1 до 18 км
Воспользуемся методами модуля “Множественная регрессия”
Математическая постановка задачи Price = α + βX + ε Будем строить X’= линейную модель влияния характеристик Вектор-строка квартиры независимых на ее цену: переменных Totsp Livsp Kitsp Dist Walk Brick Floor Metrdist Tel Bal
Наша задача - методом наименьших квадратов определить коэффициенты модели α и β.
Суть метода наименьших квадратов Рассмотрим модель: Y = α + βX + ε Ошибка “белый шум” Выбираем коэффициенты α и β такими, чтобы минимизировать следующую функцию:
Графическая иллюстрация Вектор ошибки ε Вектор зависимой переменной х1 0 Векторы объясняющих переменных х2 Проекция вектора зависимой переменной
Начинаем анализ Выбор переменных Окно результатов
Итоги регрессии Предсказательная Стандартные сила модели ошибки Коэффициенты
Статистическая значимость коэффициентов t- статистика оценки P-value оценки коэффициента
Анализ результатов Переменная Bal (наличие балкона) оказалась статистически незначима, следовательно, исключим ее из модели
После исключения переменной Bal и поиска лучшей модели:
Изменения в структуре независимых переменных Общая площадь разделена на жилую площадь, кухню и площадь подсобных помещений Зависимость от расстояний от центра и от метро выбрана экспоненциально убывающая
Анализ результатов На основе коэффициентов модели можно сделать следующие выводы: Тот факт, что быстро добираться до метро можно пешком, добавляет к стоимости квартиры 1. 300$.
Анализ результатов Тот факт, что тип постройки дома кирпичный, а не панельный, добавляет к стоимости квартиры 3. 200$.
Анализ результатов Тот факт, что этаж, на котором находится квартира, не первый и не последний, добавляет к стоимости квартиры 1. 280$.
Анализ результатов Чтобы определить стоимость 1 м 2, включим вместо переменных жилой площади, подсобных помещений и кухни общую площадь квартиры
Анализ результатов Средняя цена 1 м 2 недвижимости равна 860$.
Проверка адекватности модели Корреляции между независимыми переменными: Корреляции между объясняющими переменными слабые
Проверка адекватности модели Проверка на избыточность объясняющих переменных: Толерантность переменных для всех 1 -квадрат переменных множественной высокая корреляции с остальными переменными Если она низкая, то переменная избыточна в модели
Проверка адекватности модели Гистограмма остатков
Предварительные выводы На основании анализа гистограммы остатков делаем вывод о том, что адекватность модели оставляет желать лучшего
Дальнейший путь исследования Проведем кластеризацию квартир по показателю Цена (разобьем исследуемые данные на группы со сходными свойствами)
Воспользуемся методами модуля “Кластерный анализ”
Этапы кластеризации Выбор метода кластеризации Метод К-средних применяется тогда, когда есть предположение о числе кластеров и системе нужно образовать необходимое число кластеров, чтобы они были максимально различны
Этапы кластеризации Выбор переменной, по которой будет проведена кластеризация Кластеры в нашем случае будут образовывать наблюдения Делаем предположение о двух различных группах, на которые можно разбить квартиры
Этапы кластеризации Результат получен. Далее строим модель отдельно для каждого кластера.
Результаты для первого кластера График остатков
Результаты для второго кластера График остатков
Интерпретация результатов Для квартир первого кластера средняя цена 1 м 2 равна 470$. Значимыми при определении цены являются все переменные. Для квартир второго кластера средняя цена 1 м 2 равна 690$. Значимыми при определении цены оказываются только расстояние от центра и тип постройки дома.
Интерпретация результатов При определении цены квартиры из второго кластера такие параметры, как способ добраться до метро, наличие телефона, расстояние от метро в минутах не являются статистически значимыми.
Интерпретация результатов Можно сделать вывод о том, что данные квартиры покупают состоятельные люди, для которых основным способом передвижения является автомобиль, а не метрополитен
Взаимное расположение кластеров