Множественная регрессия корреляция МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

Скачать презентацию Множественная регрессия корреляция МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

Тема 2 Множественная регрессия.ppt

Количество слайдов: 63

Множественная регрессия корреляция

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: в модель нужно включать только существенные факторы, непосредственно формирующее результат p факторы должны быть количественно измерены p факторы не должны находиться в тесной взаимосвязи друг с другом (значение коэффициента корреляции между факторами, входящими в модель должно быть менее 0, 7) p

Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом факторов p количественном анализе (на основе матрицы парных коэффициентов корреляции, матрицы частных коэффициентов корреляции).

Отбор факторов на основе матрицы парн коэффициентов корреляции

Наиболее часто используются следую функции:

Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). При этом нелинейные функции приводятся к линейному виду по параметрам.

Пример

Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p p Анализ данных Корреляция В диалоговом окне «корреляция» задаются следующее параметры n n p ОК Входной интервал – вводится ссылка на диапазон ячеек, содержащий исходную информацию. Для этого надо выделить исходные данные, записанные в лист Excel. Если данные выделяются с названием граф, то устанавливается флажок метки. Параметры вывода: выходной интервал (вводится ссылка на любую свободную ячейку на данном рабочем листе); другой рабочий лист или другая рабочая книга.

Матрица парных коэффициентов корреляци Участок y x 1 x 2 1 y -0, 42289 1 x 1 -0, 169031 0, 57735 1 x 2 -0, 478091 0, 680414 0, 353553 1

ВЫВОД ИТОГОВ Регрессионная статистика Множественный R R-квадрат 0, 7698004 0, 5925926 Нормированный Rквадрат 0, 3209877 Стандартная ошибка 2, 7080128 Наблюдения 6 Дисперсионный анализ df Регрессия 2 Остаток 3 Итого 5 Y-пересечение x 1 x 2 SS MS 32 22 54 16 7, 333333 F 2, 181818 t. Коэффициен Стандартн статистик Нижние 95% Верхние 95% ты ая ошибка а 5 3, 570159 1, 400498 -6, 36184 16, 36183774 1 1, 023533 0, 977008 -2, 25734 4, 257337641 2 1, 447494 1, 381699 -2, 60657 6, 606571069

Пример

Показатели силы связи в модели множественной регрессии p Абсолютные p Относительные Стандартизованные коэффициенты регрессии n Частные коэффициенты эластичности n

Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется результативный признак при изменении рассматриваемого факторного признака на одну единицу при условии, что остальные факторы зафиксированы на среднем уровне и не меняются

Осительные показатели связи

Стандартизованные коэффициенты регрессии двухфакторной модели)

Частные коэффициенты эластичности

Коэффициент множественной детерминации

Продолжение примера

Продолжение примера. Расчет коэффициента детерминации для линей функции

Продолжение примера

Скорректированный коэффициент детерминации

Коэффициент (индекс) множественной корреляции

Коэффициент множественной корреляции

Показатели частной корреляции p основаны на соотношении сокращения остаточной вариации за счет дополнительно включенного в модель фактора к остаточной вариации до включения в модель соответствующего фактора

Показатели частной корреляции

Оценка достоверности модели

Таблица дисперсионного анализа

Оценка достоверности параметров

Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n n Оценить значимость параметра (параметр будет значим, если в доверительный интервал не входит ноль). Дать экономическую интерпретацию коэффициента регрессии (с вероятностью (1‑α) при единичном изменении независимой переменной xj зависимая переменная у изменится не меньше, чем на bj, min и не больше, чем на bj, max.

Критерии выбора наилучшей функц p p Минимальная доля остаточной дисперсии в общей дисперсии, то есть максимальная величина коэффициента детерминации R 2. Если модели регрессии содержат разное количество параметров, вместо R 2 следует сравнивать скорректированные коэффициенты детерминации R 2 скорр. Статистическая значимость всех параметров при независимых переменных. Значимость всей функции в целом. Выполнение требований Гаусса-Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.

Использование фиктивных переменных моделях регрессии p Фиктивная (структурная) переменная – это переменная, принимающая значение 1 или 0. Используется при решении следующих задач: n n n при моделировании качественных признаков для учета структурной неоднородности, к которой приводят качественные признаки для оценки сезонных колебаний

Пример y – оценочная стоимость жилья p x – жилая площадь p z – наличие камина (1 - есть камин, 0 – нет камина) p

Пример

Фиктивные переменные в нелинейн моделях y x lny lnx z

p Параметр представляет собой среднее значение результативного признака при p Параметр b 1 и b 2 характеризует разность средних уравнений результативного признака для группы 1 и базовой группы 0 Параметр b 2 характеризует разность средних уравнений результативного признака для группы 2 и базовой группы 0 p

Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p. Гетероскедастичность

Симптомы мультиколлинеарности p p p Завышенное значение коэффициента детерминации Высокие стандартные ошибки для коэффициентов регрессии Широкие доверительные интервалы Низкое значение t-критерия Появление при коэффициентах регрессии знаков, противоположных ожидаемым Значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности

Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p p Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы. Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы ‑ единице. Если связь между независимыми переменными близка к функциональной (то есть является очень тесной), то определитель матрицы будет близок к нулю.

Меры по устранению мультиколлинеарно p p p Удаление из модели переменных с высоким коэффициентом парной корреляции между факторами, если это не противоречит теории, положенной в основу построения модели Увеличение числа наблюдений Изменение функциональной формы модели Функциональные преобразования тесно связанных между собой переменных. Например, поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной «плотность населения» Построение моделей по отклонениям от средней величины Использование специальных методов обработки временных рядов

Гетероскедастичность p Основные предпосылки МНК: n n n случайный характер остатков нулевая средняя остатков, не зависящая от фактора x гомоскедастичность (дисперсия каждого отклонения одинакова для всех значений x) отсутствие автокорреляции остатков остатки должны подчиняться нормальному распределению

Меры по устранению гетероскедастичности Увеличение числа наблюдений p Изменение функциональной формы модели p Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе p Использование фиктивных переменных, учитывающих неоднородность p Исключение из совокупности единиц, дающих неоднородность p

Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность) дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности

Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Уайта

Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков. p Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k p По первой и третьей группе находят параметры уравнений регрессии и остатки по ним. p Используя данные об остатках моделей первой и третьей группы, рассчитывают фактическое значение F-критерия

Тест Гольдфельда-Квандта df 1=df 2=k-m-1

Тест Парка

Тест Глейзера p k – какое-либо число, например, k= – 1; – 0, 5; 1

Тест Уайта