Множественная регрессия.ppt
- Количество слайдов: 58
Множественная регрессия корреляция
Множественная регрессия и корреля 1. 2. 3. 4. 5. 6. 7. Отбор факторов при построении модели множественной регрессии и выбор формы уравнения. Оценка параметров уравнения множественной регрессии. Показатели силы связи в модели множественной регрессии. Показатели тесноты связи. Оценка достоверности построенного уравнения. Использование фиктивных переменных в моделях регрессии. Тест Чоу. Проблемы, возникающие при построении регрессионных моделей: мультиколлинеарность и гетероскедастичность.
МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ
При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: в модель нужно включать только существенные факторы, непосредственно формирующее результат p факторы должны быть количественно измерены p факторы не должны находиться в тесной взаимосвязи друг с другом (значение коэффициента корреляции между факторами, входящими в модель должно быть менее 0, 7) p
Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом факторов p количественном анализе (на основе матрицы парных коэффициентов корреляции, матрицы частных коэффициентов корреляции).
Отбор факторов на основе матрицы парн коэффициентов корреляции
Наиболее часто используются следую функции:
Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). При этом нелинейные функции приводятся к линейному виду по параметрам.
Пример
Пример
Пример
Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p p Анализ данных Корреляция В диалоговом окне «корреляция» задаются следующее параметры n n p ОК Входной интервал – вводится ссылка на диапазон ячеек, содержащий исходную информацию. Для этого надо выделить исходные данные, записанные в лист Excel. Если данные выделяются с названием граф, то устанавливается флажок метки. Параметры вывода: выходной интервал (вводится ссылка на любую свободную ячейку на данном рабочем листе); другой рабочий лист или другая рабочая книга.
ВЫВОД ИТОГОВ Регрессионная статистика Множественный R R-квадрат 0, 7698004 0, 5925926 Нормированный Rквадрат 0, 3209877 Стандартная ошибка 2, 7080128 Наблюдения 6 Дисперсионный анализ df Регрессия 2 Остаток 3 Итого 5 Y-пересечение x 1 x 2 SS MS 32 22 54 16 7, 333333 F 2, 181818 t. Коэффициен Стандартн статистик Нижние 95% Верхние 95% ты ая ошибка а 5 3, 570159 1, 400498 -6, 36184 16, 36183774 1 1, 023533 0, 977008 -2, 25734 4, 257337641 2 1, 447494 1, 381699 -2, 60657 6, 606571069
Пример
Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется результативный признак при изменении рассматриваемого факторного признака на одну единицу при условии, что остальные факторы зафиксированы на среднем уровне и не меняются
Частные коэффициенты эластичности
Стандартизованные коэффициенты регресс
Частные коэффициенты эластичности
Коэффициент множественной детерминации
Примера
Продолжение примера
Продолжение примера. Расчет коэффициента детерминации для линей функции
Скорректированный коэффициент детерминации
Коэффициент (индекс) множественной корреляции
Оценка достоверности модели
Таблица дисперсионного анализа
Оценка достоверности параметров
Оценка достоверности параметров
Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n n Оценить значимость параметра (параметр будет значим, если в доверительный интервал не входит ноль). Дать экономическую интерпретацию коэффициента регрессии (с вероятностью (1‑α) при единичном изменении независимой переменной xj зависимая переменная у изменится не меньше, чем на bj, min и не больше, чем на bj, max.
Критерии выбора наилучшей функц p p Минимальная доля остаточной дисперсии в общей дисперсии, то есть максимальная величина коэффициента детерминации R 2. Если модели регрессии содержат разное количество параметров, вместо R 2 следует сравнивать скорректированные коэффициенты детерминации R 2 скорр. Статистическая значимость всех параметров при независимых переменных. Значимость всей функции в целом. Выполнение требований Гаусса-Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.
Использование фиктивных переменных моделях регрессии p Фиктивная (структурная) переменная – это переменная, принимающая значение 1 или 0. Используется при решении следующих задач: n n n при моделировании качественных признаков для учета структурной неоднородности, к которой приводят качественные признаки для оценки сезонных колебаний
Пример
Пример
Пример
Пример
Исследование структурных изменений помощью теста Чоу p Используется для оценки целесообразности фиктивных переменных. Алгоритм: n n Совокупность разбивается по определенному критерию на две части. Находят параметры трех уравнений регрессии. Первое уравнение строится для всей совокупности наблюдений, второе и третье – для соответствующих выделенных групп. Для каждого трех уравнений находят остаточную сумму квадратов SSЕ (обозначим SS 0 для уравнения по всей совокупности и SS 1 и SS 2 для уравнений по выделенным группам). Определяют фактическое значение F‑критерия по формуле:
p Где m 1 и m 2 – количество параметров (без свободного члена) в уравнениях, построенных по подмножествам, m – количество параметров (без свободного члена) для уравнения, построенного по всей совокупности, n – число наблюдений по всей совокупности. p Табличное значение F–критерия находят для степеней свободы df 1=m 1+m 2+1‑m и df 2=n-m 1 -m 2 -2. p Если фактическое значение окажется больше табличного, то имеют место структурные сдвиги и целесообразно строить уравнение регрессии с соответствующей фиктивной переменной.
Пример. Стоимость проезда в электричках и поездах дальнего следования из Сан Петербурга в зависимости от расстояния Расстояние, х1, км Тип поезда, z 11 Стоимость проезда, y, руб. Платформа 39 0 45 Платформа 152 0 144 Мга 42 0 54 М. Вишера 162 0 153 Платформа 44 0 54 Мга 42 1 98, 1 Платформа 47 0 54 Волхов 114 1 124, 9 Платформа 63 0 63 Чудово 118 1 155, 2 Платформа 67 0 72 Приозерск 141 1 137, 4 Платформа 69 0 72 Луга 147 1 137, 4 Платформа 78 0 81 М. Вишера 162 1 145, 5 Волхов 114 0 117 Новгород 192 1 198, 5 Чудово 118 0 117 Тихвин 192 1 157, 6 Платформа 138 0 135 Пикалево 230 1 169, 7 235 1 169, 7 Станция назначения Будогощь 140 0 135 Лодейное поле Приозерск 141 0 135 Подпорожье 272 1 189, 8 Луга 147 0 135 Псков 284 1 189, 8 Платформа 148 0 144 Бологое 319 1 227, 9
Пример p p Исследовалась зависимость стоимости проезда от расстояния и типа поезда (в электричках и в поездах дальнего следования. Определим параметры уравнения для массивов данных: n n n для всех данных (n=30); для данных о стоимости проезда в электричках (n=17); для данных о стоимости проезда в поездах дальнего следования (n=13).
Уравнения регрессии и значения сумм квадратов остатков p По всем типам поездов: Для проезда в электричках: p Для проезда в поездах дальнего следования: p Фактическое значение F-критерия равно: p Табличное значение F-критерия равно 3, 37 (при =0, 05 и df 1=1+1+1‑ 1=2 и df 2=30 1 1 2=26 степенях свободы). p
p Так как фактическое значение Fкритерия больше табличного, следует признать существенность различия характеристик зависимости стоимости проезда от расстояния для разных типов поездов. Следовательно, для каждого типа поезда следует строить свое уравнение регрессии или объединить их в одно, используя фиктивную переменную.
Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p. Гетероскедастичность
Симптомы мультиколлинеарности p p p Завышенное значение коэффициента детерминации Высокие стандартные ошибки для коэффициентов регрессии Широкие доверительные интервалы Низкое значение t-критерия Появление при коэффициентах регрессии знаков, противоположных ожидаемым Значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности
Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p p Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы. Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы ‑ единице. Если связь между независимыми переменными близка к функциональной (то есть является очень тесной), то определитель матрицы будет близок к нулю.
Меры по устранению мультиколлинеарно p p p Удаление из модели переменных с высоким коэффициентом парной корреляции между факторами, если это не противоречит теории, положенной в основу построения модели Увеличение числа наблюдений Изменение функциональной формы модели Функциональные преобразования тесно связанных между собой переменных. Например, поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной «плотность населения» Построение моделей по отклонениям от средней величины Использование специальных методов обработки временных рядов
Гетероскедастичность p Основные предпосылки МНК: n n n случайный характер остатков нулевая средняя остатков, не зависящая от фактора x гомоскедастичность (дисперсия каждого отклонения одинакова для всех значений x) отсутствие автокорреляции остатков остатки должны подчиняться нормальному распределению
Меры по устранению гетероскедастичности Увеличение числа наблюдений p Изменение функциональной формы модели p Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе p Использование фиктивных переменных, учитывающих неоднородность p Исключение из совокупности единиц, дающих неоднородность p
Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность) дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности
Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Уайта p Ранговой корреляции Спирмена
Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков. p Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k p По первой и третьей группе находят параметры уравнений регрессии и остатки по ним. p Используя данные об остатках моделей первой и третьей группы, рассчитывают фактическое значение F-критерия
Тест Гольдфельда-Квандта df 1=df 2=k-m-1
Тест Парка
Тест Глейзера p k – какое-либо число, например, k= – 1; – 0, 5; 1
Тест Уайта


