Множественная регрессия корреляция Множественная регрессия и

Множественная регрессия и корреля 1. Отбор факторов при построении модели множественной регрессии

При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: p в

Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом

Отбор факторов на основе матрицы парн коэффициентов корреляции

Наиболее часто используются следую функции:

Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод

Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p

ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0, 7698004 R-квадрат

Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется

Продолжение примера. Расчет коэффициента детерминации для линей функции

Скорректированный коэффициент детерминации

Коэффициент (индекс) множественной корреляции

Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n Оценить

Критерии выбора наилучшей функц p Минимальная доля остаточной дисперсии в общей

Использование фиктивных переменных моделях регрессии p Фиктивная (структурная)

Исследование структурных изменений помощью теста Чоу p Используется

p Где m 1 и m 2 – количество параметров (без свободного члена)

Пример. Стоимость проезда в электричках и

Пример p Исследовалась зависимость стоимости проезда от расстояния и

Уравнения регрессии и значения сумм квадратов остатков p По

p Так как фактическое значение F- критерия больше табличного, следует признать существенность различия

Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p.

Симптомы мультиколлинеарности p Завышенное значение коэффициента детерминации p Высокие стандартные ошибки для

Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p Наличие

Меры по устранению мультиколлинеарно p Удаление из модели переменных с высоким коэффициентом парной

Гетероскедастичность p Основные предпосылки МНК: n случайный характер остатков

Меры по устранению гетероскедастичности p Увеличение числа наблюдений p Изменение функциональной формы

Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность)

Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p

Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо

Тест Гольдфельда-Квандта df 1=df 2=k-m-1

Тест Глейзера p k – какое-либо число, например, k=

Скачать презентацию Множественная регрессия корреляция Множественная регрессия и

Множественная регрессия.ppt

Количество слайдов: 54

>Множественная регрессия корреляция Множественная регрессия корреляция

> Множественная регрессия и корреля 1. Отбор факторов при построении модели множественной регрессии Множественная регрессия и корреля 1. Отбор факторов при построении модели множественной регрессии и выбор формы уравнения. 2. Оценка параметров уравнения множественной регрессии. 3. Показатели силы связи в модели множественной регрессии. 4. Показатели тесноты связи. 5. Оценка достоверности построенного уравнения. 6. Использование фиктивных переменных в моделях регрессии. Тест Чоу. 7. Проблемы, возникающие при построении регрессионных моделей: мультиколлинеарность и гетероскедастичность.

>МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

>При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: p в При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: p в модель нужно включать только существенные факторы, непосредственно формирующее результат p факторы должны быть количественно измерены p факторы не должны находиться в тесной взаимосвязи друг с другом (значение коэффициента корреляции между факторами, входящими в модель должно быть менее 0, 7)

> Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом факторов p количественном анализе (на основе матрицы парных коэффициентов корреляции, матрицы частных коэффициентов корреляции).

>Отбор факторов на основе матрицы парн коэффициентов корреляции Отбор факторов на основе матрицы парн коэффициентов корреляции

>Наиболее часто используются следую функции: Наиболее часто используются следую функции:

> Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). При этом нелинейные функции приводятся к линейному виду по параметрам.

>Пример Пример

> Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p Анализ данных p Корреляция В диалоговом окне «корреляция» задаются следующее параметры n Входной интервал – вводится ссылка на диапазон ячеек, содержащий исходную информацию. Для этого надо выделить исходные данные, записанные в лист Excel. Если данные выделяются с названием граф, то устанавливается флажок метки. n Параметры вывода: выходной интервал (вводится ссылка на любую свободную ячейку на данном рабочем листе); другой рабочий лист или другая рабочая книга. p ОК

>ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0, 7698004 R-квадрат ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0, 7698004 R-квадрат 0, 5925926 Нормированный R- квадрат 0, 3209877 Стандартная ошибка 2, 7080128 Наблюдения 6 Дисперсионный анализ df SS MS F Регрессия 2 32 16 2, 181818 Остаток 3 22 7, 333333 Итого 54 t- Коэффициен Стандартн статистик Нижние 95% Верхние 95% ты ая ошибка а Y-пересечение 5 3, 570159 1, 400498 -6, 36184 16, 36183774 x 1 1 1, 023533 0, 977008 -2, 25734 4, 257337641 x 2 2 1, 447494 1, 381699 -2, 60657 6, 606571069

>Пример Пример

> Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется результативный признак при изменении рассматриваемого факторного признака на одну единицу при условии, что остальные факторы зафиксированы на среднем уровне и не меняются

>Частные коэффициенты эластичности Частные коэффициенты эластичности

>Стандартизованные коэффициенты регресс Стандартизованные коэффициенты регресс

>Частные коэффициенты эластичности Частные коэффициенты эластичности

>Коэффициент множественной детерминации Коэффициент множественной детерминации

>Примера Примера

>Продолжение примера Продолжение примера

> Продолжение примера. Расчет коэффициента детерминации для линей функции Продолжение примера. Расчет коэффициента детерминации для линей функции

>Скорректированный коэффициент детерминации Скорректированный коэффициент детерминации

> Коэффициент (индекс) множественной корреляции Коэффициент (индекс) множественной корреляции

>Оценка достоверности модели Оценка достоверности модели

>Таблица дисперсионного анализа Таблица дисперсионного анализа

>Оценка достоверности параметров Оценка достоверности параметров

> Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n Оценить Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n Оценить значимость параметра (параметр будет значим, если в доверительный интервал не входит ноль). n Дать экономическую интерпретацию коэффициента регрессии (с вероятностью (1‑α) при единичном изменении независимой переменной xj зависимая переменная у изменится не меньше, чем на bj, min и не больше, чем на bj, max.

> Критерии выбора наилучшей функц p Минимальная доля остаточной дисперсии в общей Критерии выбора наилучшей функц p Минимальная доля остаточной дисперсии в общей дисперсии, то есть максимальная величина коэффициента детерминации R 2. Если модели регрессии содержат разное количество параметров, вместо R 2 следует сравнивать скорректированные коэффициенты детерминации R 2 скорр. p Статистическая значимость всех параметров при независимых переменных. p Значимость всей функции в целом. p Выполнение требований Гаусса-Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.

> Использование фиктивных переменных моделях регрессии p Фиктивная (структурная) Использование фиктивных переменных моделях регрессии p Фиктивная (структурная) переменная – это переменная, принимающая значение 1 или 0. Используется при решении следующих задач: n при моделировании качественных признаков n для учета структурной неоднородности, к которой приводят качественные признаки n для оценки сезонных колебаний

>Пример Пример

> Исследование структурных изменений помощью теста Чоу p Используется Исследование структурных изменений помощью теста Чоу p Используется для оценки целесообразности фиктивных переменных. Алгоритм: n Совокупность разбивается по определенному критерию на две части. n Находят параметры трех уравнений регрессии. Первое уравнение строится для всей совокупности наблюдений, второе и третье – для соответствующих выделенных групп. n Для каждого трех уравнений находят остаточную сумму квадратов SSЕ (обозначим SS 0 для уравнения по всей совокупности и SS 1 и SS 2 для уравнений по выделенным группам). n Определяют фактическое значение F‑критерия по формуле:

>p Где m 1 и m 2 – количество параметров (без свободного члена) p Где m 1 и m 2 – количество параметров (без свободного члена) в уравнениях, построенных по подмножествам, m – количество параметров (без свободного члена) для уравнения, построенного по всей совокупности, n – число наблюдений по всей совокупности. p Табличное значение F–критерия находят для степеней свободы df 1=m 1+m 2+1‑m и df 2=n-m 1 -m 2 -2. p Если фактическое значение окажется больше табличного, то имеют место структурные сдвиги и целесообразно строить уравнение регрессии с соответствующей фиктивной переменной.

> Пример. Стоимость проезда в электричках и Пример. Стоимость проезда в электричках и поездах дальнего следования из Сан Петербурга в зависимости от расстояния Тип Стоимость Станция Расстояние, поезда, проезда, y, поезда, проезда, y, назначения х1, км z 11 руб. Платформа 39 0 45 Платформа 152 0 144 Мга 42 0 54 М. Вишера 162 0 153 Платформа 44 0 54 Мга 42 1 98, 1 Платформа 47 0 54 Волхов 114 124, 9 Платформа 63 0 63 Чудово 118 155, 2 Платформа 67 0 72 Приозерск 141 137, 4 Платформа 69 0 72 Луга 147 137, 4 Платформа 78 0 81 М. Вишера 162 145, 5 Волхов 114 0 117 Новгород 192 198, 5 Чудово 118 0 117 Тихвин 192 157, 6 Платформа 138 0 135 Пикалево 230 169, 7 Лодейное Будогощь 140 135 поле 235 169, 7 Приозерск 141 0 135 Подпорожье 272 189, 8 Луга 147 0 135 Псков 284 189, 8 Платформа 148 0 144 Бологое 319 1 227, 9

> Пример p Исследовалась зависимость стоимости проезда от расстояния и Пример p Исследовалась зависимость стоимости проезда от расстояния и типа поезда (в электричках и в поездах дальнего следования. p Определим параметры уравнения для массивов данных: n для всех данных (n=30); n для данных о стоимости проезда в электричках (n=17); n для данных о стоимости проезда в поездах дальнего следования (n=13).

> Уравнения регрессии и значения сумм квадратов остатков p По Уравнения регрессии и значения сумм квадратов остатков p По всем типам поездов: p Для проезда в электричках: p Для проезда в поездах дальнего следования: p Фактическое значение F-критерия равно: p Табличное значение F-критерия равно 3, 37 (при =0, 05 и df 1=1+1+1‑ 1=2 и df 2=30 1 1 2=26 степенях свободы).

>p Так как фактическое значение F- критерия больше табличного, следует признать существенность различия p Так как фактическое значение F- критерия больше табличного, следует признать существенность различия характеристик зависимости стоимости проезда от расстояния для разных типов поездов. Следовательно, для каждого типа поезда следует строить свое уравнение регрессии или объединить их в одно, используя фиктивную переменную.

> Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p. Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p. Гетероскедастичность

>Симптомы мультиколлинеарности p Завышенное значение коэффициента детерминации p Высокие стандартные ошибки для Симптомы мультиколлинеарности p Завышенное значение коэффициента детерминации p Высокие стандартные ошибки для коэффициентов регрессии p Широкие доверительные интервалы p Низкое значение t-критерия p Появление при коэффициентах регрессии знаков, противоположных ожидаемым p Значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности

> Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p Наличие Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы. Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы ‑ единице. p Если связь между независимыми переменными близка к функциональной (то есть является очень тесной), то определитель матрицы будет близок к нулю.

>Меры по устранению мультиколлинеарно p Удаление из модели переменных с высоким коэффициентом парной Меры по устранению мультиколлинеарно p Удаление из модели переменных с высоким коэффициентом парной корреляции между факторами, если это не противоречит теории, положенной в основу построения модели p Увеличение числа наблюдений p Изменение функциональной формы модели p Функциональные преобразования тесно связанных между собой переменных. Например, поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной «плотность населения» p Построение моделей по отклонениям от средней величины p Использование специальных методов обработки временных рядов

> Гетероскедастичность p Основные предпосылки МНК: n случайный характер остатков Гетероскедастичность p Основные предпосылки МНК: n случайный характер остатков n нулевая средняя остатков, не зависящая от фактора x n гомоскедастичность (дисперсия каждого отклонения одинакова для всех значений x) n отсутствие автокорреляции остатков n остатки должны подчиняться нормальному распределению

> Меры по устранению гетероскедастичности p Увеличение числа наблюдений p Изменение функциональной формы Меры по устранению гетероскедастичности p Увеличение числа наблюдений p Изменение функциональной формы модели p Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе p Использование фиктивных переменных, учитывающих неоднородность p Исключение из совокупности единиц, дающих неоднородность

>Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность) Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность) дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности

> Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Уайта p Ранговой корреляции Спирмена

> Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков. p Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k p По первой и третьей группе находят параметры уравнений регрессии и остатки по ним. p Используя данные об остатках моделей первой и третьей группы, рассчитывают фактическое значение F-критерия

>Тест Гольдфельда-Квандта df 1=df 2=k-m-1 Тест Гольдфельда-Квандта df 1=df 2=k-m-1

>Тест Парка Тест Парка

> Тест Глейзера p k – какое-либо число, например, k= Тест Глейзера p k – какое-либо число, например, k= – 1; – 0, 5; 1

>Тест Уайта Тест Уайта