Обобщенная линейная модель множественной регрессии o

Обобщенная линейная модель множественной регрессии

o При моделировании реальных экономических процессов мы нередко сталкиваемся с ситуациями, в которых условия классической линейной модели регрессии оказываются нарушенными.

Особенности обобщенной линейной модели множественной регрессии (ОЛММР)

Основные предпосылки ОЛММР: 1. X – детерминированная матрица; 2. M[ i]=0, i=1, 2…n 3. Ковариационная матрица возмущений имеет вид C = cov[ , ] = M[ T] = = 2 0, T – векторное произведение; T – знак транспонирования матрицы; 2 – неизвестная положительная константа; 0 - некоторая симметричная положительно определенная (корреляционная) матрица n – го порядка, которая полагается известной; 4. Возмущения являются нормально распределенными случайными величинами с нулевым средним значением и ковариационной матрицей = 2 0: e~N(0, ) 5. Векторы объясняющих переменных линейно независимы, т. е. ранг матрицы X равен числу ее столбцов: rank(X)=p+1

o Обобщенная модель отличается от классической только видом ковариационной матрицы ошибок: вместо С = 2 En для классической модели имеем С = для обобщенной. o Это означает, что в отличие от классической, в обобщенной модели ковариации и дисперсии объясняющих переменных могут быть произвольными. o При этом, в отличие от КЛММР, в рамках обобщенной модели, без дополнительных предположений о структуре матрицы 0 , параметр 2 уже нельзя интерпретировать как величину дисперсии регрессионных остатков. o Однако и в рамках ОЛММР он остается неизвестным параметром модели, который необходимо оценить.

Обычные МНК-оценки параметров ОЛММР o Для оценки параметров модели (1) можно применить обычный метод наименьших квадратов. o Полученная для классической модели МНК-оценка вектора коэффициентов b=(XTX)-1 XT y= +(XTX)-1 XT и в условиях ОЛММР остается несмещенной и состоятельной. o Однако полученная ранее формула для ковариационной матрицы вектора оценок Сb = 2(XTX)-1 оказывается неприемлемой в условиях обобщенной модели, т. к. для ОЛММР эта матрица Сb определяется выражением Сb = 2(XTX)-1 XT 0 X (XTX)-1. o Обычный метод наименьших квадратов в обобщенной линейной регрессионной модели дает смещенную оценку ковариационной матрицы Сb вектора оценок b.

o Оценка b хотя и будет состоятельной но не будет оптимальной в смысле теоремы Гаусса-Маркова. o Для получения наиболее эффективной оценки нужно использовать другую оценку, получаемую так называемым обобщенным методом наименьших квадратов.

Обобщенный метод наименьших квадратов (ОМНК) Вопрос об эффективности линейной несмещенной оценки вектора для ОЛММР решается с помощью теоремы Айткена: Если регрессионная модель (1) удовлетворяет условиям 1 - 3, 5, то ОМНК оценка b*=(XT 0 -1 X)-1 XT 0 -1 y Имеет наименьшую ковариационную матрицу в классе всех линейных несмещенных оценок (является наиболее эффективной).

Оценка параметров преобразованной модели регрессии o Оценкой преобразованной модели по выборке y*=X* + * (2) является уравнение o При оценке параметров уравнения (3) необходимо учитывать то, что, хотя в исходной обобщенной модели (1) содержится свободный член, переход к преобразованной модели не гарантирует его наличие.

o Поэтому в зависимости от вида модели (2) исходное выборочное уравнение регрессии в результате преобразования может принять следующий вид: или

o Оценка параметров уравнения (4) проводится традиционным образом. o Для уравнения (5) при оценке его параметров в соответствующих формулах необходимо положить o Число степеней свободы должно быть уменьшено на единицу.

Обобщенная линейная модель множественной регрессии с гетероскедастичными остатками

ГЕТЕРОСКЕДАСТИЧНОСТЬ o Ортогональность – ошибки некоррелированы с регрессорами o Сферичность – ошибки независимы, случайны o Нормальность – ошибки распределены нормально с нулевым средним o Идентичность – ошибки одинаково распределены ВЫПОЛНЕНИЕ ЭТИХ УСЛОВИЙ - ГОМОСКЕДАСТИЧНОСТЬ

ИЛЛЮСТРАЦИЯ ГЕТЕРОСКЕДАСТИЧНОСТИ 14

ГЕТЕРОСКЕДАСТИЧНОСТЬ ОШИБОК Причиной непостоянства дисперсии эконометрической модели часто является ее зависимость от масштаба рассматриваемых явлений. В модель ошибка входит как аддитивное слагаемое. В то же время часто она имеет относительный характер и определяется по отношению к измеренному уровню рассматриваемых факторов. 15

ПРИМЕР (зависимость выпуска промышленного сектора от ВВП в 2000 г. по странам) y x 16

ИСТИННАЯ И ЛОЖНАЯ ГЕТЕРОСКЕДАСТИЧНОСТЬ 1. Истинная гетероскедастичность Вызывается непостоянством дисперсии случайного члена, ее зависимостью от различных факторов. 2. Ложная гетероскедастичность Вызывается ошибочной спецификацией модели регрессии. 17

Истинная гетероскедастичность возникает в перекрестных выборках при зависимости масштаба изменений зависимой переменной от некоторой переменной, называемой фактором пропорциональности ( Z ). Очень часто Z совпадает (функционально связан) с одной из независимых переменных. Наиболее распространенный случай истинной гетероскедастичности : дисперсия растет с ростом одного из факторов. 18

Истинная гетероскедастичность возникает также и во временных рядах, когда зависимая переменная имеет большой интервал качественно неоднородных значений или высокий темп изменения (инфляция, технологические сдвиги, изменения в законодательстве, потребительские предпочтения и т. д. ). 19

Гетероскедастичность как следствие ошибки спецификации модели. Пример Если вместо истинной (гомоскедастичной) модели используется линейная модель , то дисперсия остатков линейной модели пропорциональна квадрату переменной Xj: 20

Гетероскедастичность простейшего вида Мы в дальнейшем будем рассматривать, главным образом, только гетероскедастичность простейшего вида: 21

СЛЕДСТВИЯ ГЕТЕРОСКЕДАСТИЧНОСТИ 1. Истинная гетероскедастичность не приводит к смещению оценок коэффициентов регрессии. 2. Стандартные ошибки коэффициентов (вычисленные в предположении гомоскедастичности) будут занижены. Это приведет к завышению t-статистик и даст неправильное (завышенное) представление о точности оценок. 22

ОБНАРУЖЕНИЕ ГЕТЕРОСКЕДАСТИЧНОСТИ Обнаружение гетероскедастичности в каждом конкретном случае – довольно сложная задача. Для знания необходимо знать распределение случайной величины Y/X=xi. На практике часто для каждого конкретного значения xi известно лишь одно yi, что не позволяет оценить дисперсию случайной величины Y/X=xi. Не существует какого-либо однозначного метода определения гетероскедастичности. 23

ОБНАРУЖЕНИЕ ГЕТЕРОСКЕДАСТИЧНОСТИ Предварительная работа: 1. Нет ли очевидных ошибок спецификации? 2. Можно ли содержательно предполагать какой-то вид гетероскедастичности? 3. Рассмотрение графиков остатков: 24

Графический анализ остатков При множественной регрессии вместо объясняющих переменных Xj по оси абсцисс откладывают значения Yi, получаемые из уравнения регрессии.

Особенности обобщенной линейной модели множественной регрессии с гетероскедастичными остатками o Линейная модель с гетероскедастичными регрессионными остатками является частным случаем ОЛММР (1), когда ковариационная матрица остатков С = = 2 0 имеет вид o Где 2 – неизвестный (оцениваемый по выборке) параметр регрессионной модели; i 2 – некоторые постоянные, которые пока полагаются известными.

Тесты на гетероскедастичность o Тест ранговой корреляции Спирмена o Тест Голдфелда-Квандта o Тест Уайта o Тест Глейзера o Тест Парка o Тест Бреуша-Пагана

Тест ранговой корреляции Спирмена В случае гетероскедастичности абсолютные величины остатков ei и значения регрессоров xi будут коррелированны. 1. Проводится оценка параметров модели регрессии с помощью традиционного МНК, и находятся абсолютные величины остатков |ei|. 2. Значения xi и |ei| ранжируются (упорядочиваются по величине). 3. Определяется коэффициент ранговой корреляции Спирмена.

di – разность между рангами. Ранг – это порядковый номер значений переменной в ранжированном ряду. (например, если х20 является 25 по величине среди всех наблюдений Х, а е 20 является 32, то di = 25 – 32 = -7). 4. Выдвигается основная гипотеза H 0: об отсутствии гетероскедастичности и формируется статистика критерия

Статистика критерия |t| при условии справедливости гипотезы H 0 имеет распределение Стюдента с k=n-2 степенями свободы. 5. Задается уровень значимости - вероятность того, что будет отвергнута правильная гипотеза H 0 , и с помощью статистических таблиц или стандартных функций в пакетах прикладных программ находится критическая точка tкр=tкр( ; k=n-2). 6. Если |t|< tкр, то принимается основная гипотеза H 0 об отсутствии гетероскедастичности. В противном случае, когда |t|> tкр , гипотеза H 0 отвергается и делается вывод о том, что имеется гетероскедастичность.

o Тест ранговой корреляции Спирмена и тест Голдфельда- Квандта позволяют обнаружить лишь само наличие гетероскедастичности, но они не дают возможности проследить количественный характер зависимости дисперсии ошибок регрессии от значений регрессоров и , следовательно, не представляют каких-либо способов устранения гетероскедастичности.

ТЕСТ УАЙТА Предполагается, что дисперсии связаны с объясняющими переменными в виде: где f( ) – квадратичная функция от аргументов. Т. к. дисперсии неизвестны, то их заменяют оценками квадратов отклонений ei 2. 32

ТЕСТ УАЙТА. Алгоритм применения (на примере трех переменных) 1. Строится уравнение регрессии: и вычисляются остатки . 2. Оценивают вспомогательное уравнение регрессии: 33

3. Определяют из вспомогательного уравнения тестовую статистику 4. Проверяют общую значимость уравнения с помощью критерия 2. Если то гипотеза гомоскедастичности отвергается. Число степеней свободы k равно числу объясняющих переменных вспомогательного уравнения. В частности, для рассматриваемого случая k = 9. 34

ИЛИ 3. О наличии или отсутствии гетероскедастичности остатков судят по величине F-критерия Фишера для квадратичной функции регрессии остатков. n Если фактическое значение F-критерия выше табличного, то, следовательно, существует четкая корреляционная связь дисперсии ошибок от значений факторов, включенных в регрессию, и имеет место гетероскедастичность остатков. n В противном случае делается вывод об отсутствии гетероскедастичности остатков регрессии.

ТЕСТ УАЙТА. Замечания Тест Уайта является более общим, чем тест Голдфелда-Квандта. Неудобство использования теста Уайта: Если отвергается нулевая гипотеза о наличии гомоскедастичности то неясно, что делать дальше. 36

ТЕСТ ПАРКА Здесь предполагается, что дисперсии связаны с фактором пропорциональности Z в виде: Т. к. дисперсии неизвестны, то их заменяют оценками квадратов отклонений ei 2. 37

ТЕСТ ПАРКА. Алгоритм применения 1. Строится уравнение регрессии: и вычисляются остатки . 2. Выбирается фактор пропорциональности Z и оценивают вспомогательное уравнение регрессии: 3. Проверяют значимость коэффициента при Значимость коэффициента на основе t статистики означает наличие гетероскедастичности. 38

Тест Глейзера Здесь предполагается, что дисперсии связаны с фактором пропорциональности Z в виде: Т. к. средние квадратические отклонения неизвестны, то их заменяют модулями оценок отклонений .

Тест Глейзера. Алгоритм применения 1. Строится уравнение регрессии: и вычисляются остатки . 2. Выбирается фактор пропорциональности Z и оценивают вспомогательное уравнение регрессии: Изменяя , строят несколько моделей: 3. Статистическая значимость коэффициента 1 в каждом случае означает наличие гетероскедастичности. 4. Если для нескольких моделей будет получена значимая оценка 1 , то характер гетероскедастичности определяют по наиболее значимой из них.

Тест Бреуша-Пагана Тест применим в предположении, что: Дисперсии зависят от некоторых дополнительных переменных :

Тест Бреуша-Пагана. Алгоритм применения 1. Строится уравнение регрессии: и вычисляются остатки: 2. Вычисляют оценку дисперсии остатков: 3. Строят вспомогательное уравнение регрессии:

Тест Бреуша-Пагана. Алгоритм применения 4. Для вспомогательного уравнения регрессии определяют объясненную часть вариации ESS. 5. Находим тестовую статистику: 6. Если верна гипотеза H 0: гомоскедастичность остатков, то статистика BP имеет распределение . Т. е. о наличии гетероскедастичности остатков на уровне значимости свидетельствует:

КОРРЕКЦИЯ ГЕТЕРОСКЕДАСТИЧНОСТИ 1. Использовать обобщенный метод наименьших квадратов. 2. Переопределить переменные. 3. Вычисление стандартных ошибок с поправкой на гетероскедастичность (метод Уайта). 44

ОБОБЩЕННЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ При нарушении гомоскедастичности и наличии автокорреляции остатков рекомендуется вместо традиционного МНК использовать обобщенный МНК. Его для случая устранения гетероскедастичности часто называют методом взвешенных наименьших квадратов. Метод применим, если известны дисперсии для каждого наблюдения. Основан на делении каждого наблюдаемого значения на соответствующее ему стандартное отклонение остатков. 45

МЕТОД ВЗВЕШЕННЫХ НАИМЕНЬШИХ КВАДРАТОВ. Случай парной регрессии Получили уравнение регрессии без свободного члена, но с дополнительной объясняющей переменной Z и с «преобразованным» остатком . Можно показать, что для него выполняются предпосылки 10 – 50 МНК. 46

На практике, значения дисперсии остатков, как правило, не известны. Для применения метода ВНК необходимо сделать реалистичные предположения об этих значениях. Например: Дисперсии пропорциональны Xi 2: 47

Предполагаем, что Разделим левую и правую части уравнения yi=a 0+a 1 xi+ i* на xi, получим yi/xi=a 0/xi+a 1+ i. Относительно новых переменных yi’=yi/xi и xi’=1/xi имеем классическую регрессионную модель yi’=a 1+a 0 xi’+ i. , параметры которой оцениваются с помощью МНК.

Автокорреляция в остатках o Опр. автокорреляция в остатках – это корреляционная зависимость между значениями остатков за текущий и предыдущий моменты времени. o Для определения автокорреляции в остатках используют критерий Дарбина-Уотсона:

o Если значение 4 -d попадает в интервал для критического значения d (min, max), то автокорреляция в остатках отсутствует. o Если автокорреляция в остатках присутствует, то уравнение регрессии не может быть использовано для прогноза. o Автокорреляция в остатках может означать, что в уравнение не включен какой-либо существенный фактор.

o Коэффициент автокорреляции остатков первого порядка определяется по формуле: o Критерий Дарбина-Уотсона и коэффициент автокорреляции остатков первого порядка связаны соотношением

ОЦЕНИВАНИЕ ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕССИИ ПРИ НАЛИЧИИ АВТОКОРРЕЛЯЦИИ В ОСТАТКАХ o Пусть критерий Дарбина - Уотсона показал наличие автокорреляции в остатках первого порядка тогда для оценки параметров уравнения используют обобщенный МНК. o Для его реализации необходимо выполнять следующие условия.

o Преобразовать исходные переменные и к виду и o Применить обычный МНК к , o Определить оценки параметров и. o Рассчитать параметр а исходного уравнения по формуле o Выписать исходное уравнение.

o Обобщенный метод наименьших квадратов аналогичен методу последовательных разностей. o Однако, мы вычитаем из (или ) не все значение предыдущего уровня (или ), а некоторую его долю- или . Если , данный метод есть просто метод первых разностей.

o Если , т. е. в остатках наблюдается полная отрицательная автокорреляция, то изложенный выше метод модифицируется следующим образом: o аналогично o поскольку o имеем: o следовательно o полученная модель называется моделью регрессии по скользящим средним.