Скачать презентацию Анализ данных по недвижимости Семенов Дмитрий Stat Скачать презентацию Анализ данных по недвижимости Семенов Дмитрий Stat

Анализ данных по квартирам.ppt

  • Количество слайдов: 41

Анализ данных по недвижимости Семенов Дмитрий ® Stat. Soft Russia Анализ данных по недвижимости Семенов Дмитрий ® Stat. Soft Russia

Рассматривались данные по двухкомнатным квартирам Число квартир в базе - 6286 Рассматривались данные по двухкомнатным квартирам Число квартир в базе - 6286

Информация по каждой квартире: • Цена квартиры в тыс. $, • Общая площадь в Информация по каждой квартире: • Цена квартиры в тыс. $, • Общая площадь в м 2, • Жилая площадь в м 2, • Площадь кухни в м 2, • Расстояние от центра в км, • Способ добраться до метро (бинарная переменная, принимающая значение 1 - пешком, 0 - на транспорте).

Информация по каждой квартире: • Тип постройки здания (бинарная переменная, принимающая значение 1 - Информация по каждой квартире: • Тип постройки здания (бинарная переменная, принимающая значение 1 - кирпичный дом, 0 - панельный дом), • Высота расположения квартиры (используется переменная, принимающая значение 1, если квартира находится не на 1 или последнем этаже, и 0 в противном случае).

Задачи исследования • Провести анализ влияния характеристик квартиры на ее цену • Построить модель Задачи исследования • Провести анализ влияния характеристик квартиры на ее цену • Построить модель зависимости стоимости квартиры от исследуемых параметров и численно оценить коэффициенты модели

Данные в системе STATISTICA Данные в системе STATISTICA

Шаг 1: Визуальный анализ данных Представим информацию по характеристикам квартиры графически Шаг 1: Визуальный анализ данных Представим информацию по характеристикам квартиры графически

Цена квартиры Изменяется в интервале от 15 тыс. $ до 95 тыс. $ Цена квартиры Изменяется в интервале от 15 тыс. $ до 95 тыс. $

Общая площадь квартиры Общая площадь квартиры

Расстояние от центра в км Изменяется в интервале от 1 до 18 км Расстояние от центра в км Изменяется в интервале от 1 до 18 км

Воспользуемся методами модуля “Множественная регрессия” Воспользуемся методами модуля “Множественная регрессия”

Математическая постановка задачи Price = α + βX + ε Будем строить X’= линейную Математическая постановка задачи Price = α + βX + ε Будем строить X’= линейную модель влияния характеристик Вектор-строка квартиры независимых на ее цену: переменных Totsp Livsp Kitsp Dist Walk Brick Floor Metrdist Tel Bal

Наша задача - методом наименьших квадратов определить коэффициенты модели α и β. Наша задача - методом наименьших квадратов определить коэффициенты модели α и β.

Суть метода наименьших квадратов Рассмотрим модель: Y = α + βX + ε Ошибка Суть метода наименьших квадратов Рассмотрим модель: Y = α + βX + ε Ошибка “белый шум” Выбираем коэффициенты α и β такими, чтобы минимизировать следующую функцию:

Графическая иллюстрация Вектор ошибки ε Вектор зависимой переменной х1 0 Векторы объясняющих переменных х2 Графическая иллюстрация Вектор ошибки ε Вектор зависимой переменной х1 0 Векторы объясняющих переменных х2 Проекция вектора зависимой переменной

Начинаем анализ Выбор переменных Окно результатов Начинаем анализ Выбор переменных Окно результатов

Итоги регрессии Предсказательная Стандартные сила модели ошибки Коэффициенты Итоги регрессии Предсказательная Стандартные сила модели ошибки Коэффициенты

Статистическая значимость коэффициентов t- статистика оценки P-value оценки коэффициента Статистическая значимость коэффициентов t- статистика оценки P-value оценки коэффициента

Анализ результатов Переменная Bal (наличие балкона) оказалась статистически незначима, следовательно, исключим ее из модели Анализ результатов Переменная Bal (наличие балкона) оказалась статистически незначима, следовательно, исключим ее из модели

После исключения переменной Bal и поиска лучшей модели: После исключения переменной Bal и поиска лучшей модели:

Изменения в структуре независимых переменных Общая площадь разделена на жилую площадь, кухню и площадь Изменения в структуре независимых переменных Общая площадь разделена на жилую площадь, кухню и площадь подсобных помещений Зависимость от расстояний от центра и от метро выбрана экспоненциально убывающая

Анализ результатов На основе коэффициентов модели можно сделать следующие выводы: Тот факт, что быстро Анализ результатов На основе коэффициентов модели можно сделать следующие выводы: Тот факт, что быстро добираться до метро можно пешком, добавляет к стоимости квартиры 1. 300$.

Анализ результатов Тот факт, что тип постройки дома кирпичный, а не панельный, добавляет к Анализ результатов Тот факт, что тип постройки дома кирпичный, а не панельный, добавляет к стоимости квартиры 3. 200$.

Анализ результатов Тот факт, что этаж, на котором находится квартира, не первый и не Анализ результатов Тот факт, что этаж, на котором находится квартира, не первый и не последний, добавляет к стоимости квартиры 1. 280$.

Анализ результатов Чтобы определить стоимость 1 м 2, включим вместо переменных жилой площади, подсобных Анализ результатов Чтобы определить стоимость 1 м 2, включим вместо переменных жилой площади, подсобных помещений и кухни общую площадь квартиры

Анализ результатов Средняя цена 1 м 2 недвижимости равна 860$. Анализ результатов Средняя цена 1 м 2 недвижимости равна 860$.

Проверка адекватности модели Корреляции между независимыми переменными: Корреляции между объясняющими переменными слабые Проверка адекватности модели Корреляции между независимыми переменными: Корреляции между объясняющими переменными слабые

Проверка адекватности модели Проверка на избыточность объясняющих переменных: Толерантность переменных для всех 1 -квадрат Проверка адекватности модели Проверка на избыточность объясняющих переменных: Толерантность переменных для всех 1 -квадрат переменных множественной высокая корреляции с остальными переменными Если она низкая, то переменная избыточна в модели

Проверка адекватности модели Гистограмма остатков Проверка адекватности модели Гистограмма остатков

Предварительные выводы На основании анализа гистограммы остатков делаем вывод о том, что адекватность модели Предварительные выводы На основании анализа гистограммы остатков делаем вывод о том, что адекватность модели оставляет желать лучшего

Дальнейший путь исследования Проведем кластеризацию квартир по показателю Цена (разобьем исследуемые данные на группы Дальнейший путь исследования Проведем кластеризацию квартир по показателю Цена (разобьем исследуемые данные на группы со сходными свойствами)

Воспользуемся методами модуля “Кластерный анализ” Воспользуемся методами модуля “Кластерный анализ”

Этапы кластеризации Выбор метода кластеризации Метод К-средних применяется тогда, когда есть предположение о числе Этапы кластеризации Выбор метода кластеризации Метод К-средних применяется тогда, когда есть предположение о числе кластеров и системе нужно образовать необходимое число кластеров, чтобы они были максимально различны

Этапы кластеризации Выбор переменной, по которой будет проведена кластеризация Кластеры в нашем случае будут Этапы кластеризации Выбор переменной, по которой будет проведена кластеризация Кластеры в нашем случае будут образовывать наблюдения Делаем предположение о двух различных группах, на которые можно разбить квартиры

Этапы кластеризации Результат получен. Далее строим модель отдельно для каждого кластера. Этапы кластеризации Результат получен. Далее строим модель отдельно для каждого кластера.

Результаты для первого кластера График остатков Результаты для первого кластера График остатков

Результаты для второго кластера График остатков Результаты для второго кластера График остатков

Интерпретация результатов Для квартир первого кластера средняя цена 1 м 2 равна 470$. Значимыми Интерпретация результатов Для квартир первого кластера средняя цена 1 м 2 равна 470$. Значимыми при определении цены являются все переменные. Для квартир второго кластера средняя цена 1 м 2 равна 690$. Значимыми при определении цены оказываются только расстояние от центра и тип постройки дома.

Интерпретация результатов При определении цены квартиры из второго кластера такие параметры, как способ добраться Интерпретация результатов При определении цены квартиры из второго кластера такие параметры, как способ добраться до метро, наличие телефона, расстояние от метро в минутах не являются статистически значимыми.

Интерпретация результатов Можно сделать вывод о том, что данные квартиры покупают состоятельные люди, для Интерпретация результатов Можно сделать вывод о том, что данные квартиры покупают состоятельные люди, для которых основным способом передвижения является автомобиль, а не метрополитен

Взаимное расположение кластеров Взаимное расположение кластеров