Множественная регрессия корреляция Множественная регрессия и

Скачать презентацию Множественная регрессия корреляция   Множественная регрессия и Скачать презентацию Множественная регрессия корреляция Множественная регрессия и

Множественная регрессия.ppt

  • Количество слайдов: 54

>Множественная регрессия корреляция Множественная регрессия корреляция

> Множественная регрессия и корреля 1.  Отбор факторов при построении модели множественной регрессии Множественная регрессия и корреля 1. Отбор факторов при построении модели множественной регрессии и выбор формы уравнения. 2. Оценка параметров уравнения множественной регрессии. 3. Показатели силы связи в модели множественной регрессии. 4. Показатели тесноты связи. 5. Оценка достоверности построенного уравнения. 6. Использование фиктивных переменных в моделях регрессии. Тест Чоу. 7. Проблемы, возникающие при построении регрессионных моделей: мультиколлинеарность и гетероскедастичность.

>МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И  КОРРЕЛЯЦИЯ МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И КОРРЕЛЯЦИЯ

>При отборе факторов в уравнение множественной ре  необходимо соблюдать следующее условия: p в При отборе факторов в уравнение множественной ре необходимо соблюдать следующее условия: p в модель нужно включать только существенные факторы, непосредственно формирующее результат p факторы должны быть количественно измерены p факторы не должны находиться в тесной взаимосвязи друг с другом (значение коэффициента корреляции между факторами, входящими в модель должно быть менее 0, 7)

>  Отбор факторов основан на: p  теоретическом анализе взаимосвязи результата с кругом Отбор факторов основан на: p теоретическом анализе взаимосвязи результата с кругом факторов p количественном анализе (на основе матрицы парных коэффициентов корреляции, матрицы частных коэффициентов корреляции).

>Отбор факторов на основе матрицы парн  коэффициентов корреляции Отбор факторов на основе матрицы парн коэффициентов корреляции

>Наиболее часто используются следую   функции: Наиболее часто используются следую функции:

>  Оценка параметров p  Для оценки параметров уравнения множественной регрессии применяют метод Оценка параметров p Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). При этом нелинейные функции приводятся к линейному виду по параметрам.

>Пример Пример

>Пример Пример

>Пример Пример

>  Использование Microsoft Excel для построения матрицы пар   коэффициентов корреляции p Использование Microsoft Excel для построения матрицы пар коэффициентов корреляции p Анализ данных p Корреляция В диалоговом окне «корреляция» задаются следующее параметры n Входной интервал – вводится ссылка на диапазон ячеек, содержащий исходную информацию. Для этого надо выделить исходные данные, записанные в лист Excel. Если данные выделяются с названием граф, то устанавливается флажок метки. n Параметры вывода: выходной интервал (вводится ссылка на любую свободную ячейку на данном рабочем листе); другой рабочий лист или другая рабочая книга. p ОК

>ВЫВОД ИТОГОВ Регрессионная статистика   Множественный R  0, 7698004 R-квадрат  ВЫВОД ИТОГОВ Регрессионная статистика Множественный R 0, 7698004 R-квадрат 0, 5925926 Нормированный R- квадрат 0, 3209877 Стандартная ошибка 2, 7080128 Наблюдения 6 Дисперсионный анализ df SS MS F Регрессия 2 32 16 2, 181818 Остаток 3 22 7, 333333 Итого 54 t- Коэффициен Стандартн статистик Нижние 95% Верхние 95% ты ая ошибка а Y-пересечение 5 3, 570159 1, 400498 -6, 36184 16, 36183774 x 1 1 1, 023533 0, 977008 -2, 25734 4, 257337641 x 2 2 1, 447494 1, 381699 -2, 60657 6, 606571069

>Пример Пример

> Абсолютные показатели силы связи p  Показывают, на сколько единиц в среднем изменяется Абсолютные показатели силы связи p Показывают, на сколько единиц в среднем изменяется результативный признак при изменении рассматриваемого факторного признака на одну единицу при условии, что остальные факторы зафиксированы на среднем уровне и не меняются

>Частные коэффициенты эластичности Частные коэффициенты эластичности

>Стандартизованные коэффициенты регресс Стандартизованные коэффициенты регресс

>Частные коэффициенты эластичности Частные коэффициенты эластичности

>Коэффициент множественной детерминации Коэффициент множественной детерминации

>Примера Примера

>Продолжение примера Продолжение примера

>  Продолжение примера. Расчет коэффициента детерминации для линей   функции Продолжение примера. Расчет коэффициента детерминации для линей функции

>Скорректированный коэффициент  детерминации Скорректированный коэффициент детерминации

> Коэффициент (индекс) множественной корреляции Коэффициент (индекс) множественной корреляции

>Оценка достоверности модели Оценка достоверности модели

>Таблица дисперсионного анализа Таблица дисперсионного анализа

>Оценка достоверности параметров Оценка достоверности параметров

>Оценка достоверности параметров Оценка достоверности параметров

> Доверительные интервалы для   оцениваемых параметров Доверительный интервал позволяет: n  Оценить Доверительные интервалы для оцениваемых параметров Доверительный интервал позволяет: n Оценить значимость параметра (параметр будет значим, если в доверительный интервал не входит ноль). n Дать экономическую интерпретацию коэффициента регрессии (с вероятностью (1‑α) при единичном изменении независимой переменной xj зависимая переменная у изменится не меньше, чем на bj, min и не больше, чем на bj, max.

>  Критерии выбора наилучшей функц p  Минимальная доля остаточной дисперсии в общей Критерии выбора наилучшей функц p Минимальная доля остаточной дисперсии в общей дисперсии, то есть максимальная величина коэффициента детерминации R 2. Если модели регрессии содержат разное количество параметров, вместо R 2 следует сравнивать скорректированные коэффициенты детерминации R 2 скорр. p Статистическая значимость всех параметров при независимых переменных. p Значимость всей функции в целом. p Выполнение требований Гаусса-Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.

>  Использование фиктивных переменных    моделях регрессии p  Фиктивная (структурная) Использование фиктивных переменных моделях регрессии p Фиктивная (структурная) переменная – это переменная, принимающая значение 1 или 0. Используется при решении следующих задач: n при моделировании качественных признаков n для учета структурной неоднородности, к которой приводят качественные признаки n для оценки сезонных колебаний

>Пример Пример

>Пример Пример

>Пример Пример

>Пример Пример

>  Исследование структурных изменений    помощью теста Чоу p  Используется Исследование структурных изменений помощью теста Чоу p Используется для оценки целесообразности фиктивных переменных. Алгоритм: n Совокупность разбивается по определенному критерию на две части. n Находят параметры трех уравнений регрессии. Первое уравнение строится для всей совокупности наблюдений, второе и третье – для соответствующих выделенных групп. n Для каждого трех уравнений находят остаточную сумму квадратов SSЕ (обозначим SS 0 для уравнения по всей совокупности и SS 1 и SS 2 для уравнений по выделенным группам). n Определяют фактическое значение F‑критерия по формуле:

>p  Где m 1 и m 2 – количество параметров (без свободного члена) p Где m 1 и m 2 – количество параметров (без свободного члена) в уравнениях, построенных по подмножествам, m – количество параметров (без свободного члена) для уравнения, построенного по всей совокупности, n – число наблюдений по всей совокупности. p Табличное значение F–критерия находят для степеней свободы df 1=m 1+m 2+1‑m и df 2=n-m 1 -m 2 -2. p Если фактическое значение окажется больше табличного, то имеют место структурные сдвиги и целесообразно строить уравнение регрессии с соответствующей фиктивной переменной.

>       Пример.  Стоимость проезда в электричках и Пример. Стоимость проезда в электричках и поездах дальнего следования из Сан Петербурга в зависимости от расстояния Тип Стоимость Станция Расстояние, поезда, проезда, y, поезда, проезда, y, назначения х1, км z 11 руб. Платформа 39 0 45 Платформа 152 0 144 Мга 42 0 54 М. Вишера 162 0 153 Платформа 44 0 54 Мга 42 1 98, 1 Платформа 47 0 54 Волхов 114 124, 9 Платформа 63 0 63 Чудово 118 155, 2 Платформа 67 0 72 Приозерск 141 137, 4 Платформа 69 0 72 Луга 147 137, 4 Платформа 78 0 81 М. Вишера 162 145, 5 Волхов 114 0 117 Новгород 192 198, 5 Чудово 118 0 117 Тихвин 192 157, 6 Платформа 138 0 135 Пикалево 230 169, 7 Лодейное Будогощь 140 135 поле 235 169, 7 Приозерск 141 0 135 Подпорожье 272 189, 8 Луга 147 0 135 Псков 284 189, 8 Платформа 148 0 144 Бологое 319 1 227, 9

>    Пример p  Исследовалась зависимость стоимости проезда от расстояния и Пример p Исследовалась зависимость стоимости проезда от расстояния и типа поезда (в электричках и в поездах дальнего следования. p Определим параметры уравнения для массивов данных: n для всех данных (n=30); n для данных о стоимости проезда в электричках (n=17); n для данных о стоимости проезда в поездах дальнего следования (n=13).

>  Уравнения регрессии и значения сумм   квадратов остатков p  По Уравнения регрессии и значения сумм квадратов остатков p По всем типам поездов: p Для проезда в электричках: p Для проезда в поездах дальнего следования: p Фактическое значение F-критерия равно: p Табличное значение F-критерия равно 3, 37 (при =0, 05 и df 1=1+1+1‑ 1=2 и df 2=30 1 1 2=26 степенях свободы).

>p  Так как фактическое значение F- критерия больше табличного, следует признать существенность различия p Так как фактическое значение F- критерия больше табличного, следует признать существенность различия характеристик зависимости стоимости проезда от расстояния для разных типов поездов. Следовательно, для каждого типа поезда следует строить свое уравнение регрессии или объединить их в одно, используя фиктивную переменную.

>  Проблемы, возникающие при построении  регрессионных моделей  p. Мультиколлинеарность  p. Проблемы, возникающие при построении регрессионных моделей p. Мультиколлинеарность p. Гетероскедастичность

>Симптомы мультиколлинеарности p  Завышенное значение коэффициента детерминации p  Высокие стандартные ошибки для Симптомы мультиколлинеарности p Завышенное значение коэффициента детерминации p Высокие стандартные ошибки для коэффициентов регрессии p Широкие доверительные интервалы p Низкое значение t-критерия p Появление при коэффициентах регрессии знаков, противоположных ожидаемым p Значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности

>  Выявление мультиколлинеарности с помощью матри  парных коэффициентов корреляции p  Наличие Выявление мультиколлинеарности с помощью матри парных коэффициентов корреляции p Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы. Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы ‑ единице. p Если связь между независимыми переменными близка к функциональной (то есть является очень тесной), то определитель матрицы будет близок к нулю.

>Меры по устранению мультиколлинеарно p  Удаление из модели переменных с высоким коэффициентом парной Меры по устранению мультиколлинеарно p Удаление из модели переменных с высоким коэффициентом парной корреляции между факторами, если это не противоречит теории, положенной в основу построения модели p Увеличение числа наблюдений p Изменение функциональной формы модели p Функциональные преобразования тесно связанных между собой переменных. Например, поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной «плотность населения» p Построение моделей по отклонениям от средней величины p Использование специальных методов обработки временных рядов

>   Гетероскедастичность p  Основные предпосылки МНК: n  случайный характер остатков Гетероскедастичность p Основные предпосылки МНК: n случайный характер остатков n нулевая средняя остатков, не зависящая от фактора x n гомоскедастичность (дисперсия каждого отклонения одинакова для всех значений x) n отсутствие автокорреляции остатков n остатки должны подчиняться нормальному распределению

> Меры по устранению гетероскедастичности p Увеличение числа наблюдений p Изменение функциональной формы Меры по устранению гетероскедастичности p Увеличение числа наблюдений p Изменение функциональной формы модели p Разделение исходной совокупности на качественно-однородные группы и проведение анализа в каждой группе p Использование фиктивных переменных, учитывающих неоднородность p Исключение из совокупности единиц, дающих неоднородность

>Зависимость остатков от выровненного  значения результата   нет зависимости (гомоскедастичность)  Зависимость остатков от выровненного значения результата нет зависимости (гомоскедастичность) дисперсия остатков увеличивается с увеличением выровненного значения результата (один из случаев гетероскедастичности

> Тесты, используемые для выявления  гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Тесты, используемые для выявления гетероскедастичности p Гольдфельда-Квандта p Парка p Глейзера p Уайта p Ранговой корреляции Спирмена

>   Тест Гольдфельда-Квандта p  Все наблюдения упорядочивают по мере возрастания какого-либо Тест Гольдфельда-Квандта p Все наблюдения упорядочивают по мере возрастания какого-либо фактора, который, как предполагается, оказывает влияние на возрастание дисперсии остатков. p Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема с числом единиц, больших, чем число параметров модели регрессии. Число отобранных единиц обозначим k p По первой и третьей группе находят параметры уравнений регрессии и остатки по ним. p Используя данные об остатках моделей первой и третьей группы, рассчитывают фактическое значение F-критерия

>Тест Гольдфельда-Квандта   df 1=df 2=k-m-1 Тест Гольдфельда-Квандта df 1=df 2=k-m-1

>Тест Парка Тест Парка

>    Тест Глейзера p  k – какое-либо число, например, k= Тест Глейзера p k – какое-либо число, например, k= – 1; – 0, 5; 1

>Тест Уайта Тест Уайта