537.ppt
- Количество слайдов: 55
Эконометрика Математико-статистические методы в экономике (БЗ, БСЗ, ФСЗ) Лекция № 3 2009
Проверка качества уравнения регрессии
Случайные составляющие коэффициентов регрессии После определения оценок коэффициентов регрессии b 0 и b 1 возникают вопросы -насколько близки оценки b 0 и b 1 к своим теоретическим значениям 0 и 1 ; - насколько точно эмпирическое уравнение регрессии соответствует уравнению для всей генеральной совокупности как близко оцененное значение к условному математическому ожиданию M[Y/X = xi]; - - насколько надежны найденные оценки 3
Оценки коэффициентов регрессии представляют собой случайные величины, зависящие от случайного члена в уравнении регрессии. Покажем это. Рассмотрим теоретическую модель парной линейной регрессии и ее оценку по выборке из n наблюдений: Y = 0 + 1 X + , Представим выборочную ковариацию Cov(x, y) в виде: Cov(x, y)= Cov(X, 0+ 1 X+ ) = Cov(X, 0) + Cov(X, 1 X) + Cov(X, ) = 1 sx 2 + cov(X, ). 4
Следовательно, где 1 постоянная составляющая (истинное значение коэффициента регрессии); случайная компонента Аналогичный результат можно получить и для коэффициента b 0 5
Оценки коэффициентов регрессии (а значит и качество построенного уравнения регрессии) представляют собой случайные величины, зависящие от случайного члена в уравнении регрессии. Доказано, что для получения по МНК наилучших результатов необходимо выполнение ряда предпосылок относительно случайного отклонения (при этом оценки bi обладают свойствами состоятельности, несмещенности и эффективности). 6
Предпосылки использования МНК (условия Гаусса – Маркова) 10. Случайное отклонение имеет нулевое математическое ожидание: M[ ] = 0. . Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную 7
20. Дисперсия случайного отклонения постоянна: D[ ] = 2 = const. Из данного условия следует, что несмотря на то, что при каждом конкретном наблюдении случайное отклонение i может быть различным, но не должно быть причин, вызывающих большую ошибку. Выполнимость данной предпосылки называется гомоскедастичностью, а невыполнимость – гетероскедастичночтью 8
Замечание: Таким образом, гипотеза гомоскедастичности эквивалентна условию: 9
30. Наблюдаемые значения случайных отклонений независимы друг от друга. Это означает отсутствие какой-бы то ни было взаимосвязи между любыми случайными отклонениями, т. е. Если данное условие выполняется, то говорят об отсутствии автокорреляции 10
40. Случайное отклонение д. б. независимо от объясняющей переменной, т. е. Замечание: Это условие выполняется, если объясняющая переменная не является случайной в данной модели. 11
5 0. Регрессионная модель является линейной относительно параметров, корректно специфицирована и содержит аддитивный случайный член. т. е. : Y = 0 + 1 X + . 12
Дополнительно: 60. Наряду с выполнимостью указанных предпосылок при построении линейных регрессионных моделей обычно делаются еще некоторые предположения, а именно: § случайное отклонение имеет нормальный закон распределения; § число наблюдений существенно больше числа объясняющих переменных; § отсутствуют ошибки спецификации; § отсутствует мультиколлинеарность (линейная взаимосвязь) между двумя или несколькими объясняющими переменными 13
Теорема Гаусса - Маркова Теорема. Если предпосылки 10 – 50 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1. Оценки являются несмещенными, т. е. M[b 0] = 0, M[b 1] = 1. Это говорит об отсутствии систематической ошибки при определении положения линии регрессии. 2. Оценки состоятельны, т. е. При n D[b 0] 0, D[b 1] 0. Это означает, что с ростом n надежность оценок возрастает. 3. Оценки эффективны, т. е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин yi. 14
Типичная картина выполнения условий Гаусса – Маркова 15
Типичная картина нарушения условий 20 и 4 0: D[ ] = const, cov( i, xi) = 0 16
Типичная картина нарушения условия 30: cov( i, j) = 0, i j 17
Система показателей качества парной регрессии 1. Показатели качества коэффициентов регрессии 2. Показатели качества уравнения регрессии в целом 18
Показатели качества коэффициентов регрессии 1. Стандартные ошибки оценок (анализ точности определения оценок). 2. Значения t-статистик (проверка гипотез относительно коэффициентов регрессии). 3. Интервальные оценки коэффициентов линейного уравнения регрессии. 19
Стандартные ошибки оценок Оценки b 0 и b 1 являются случайными величинами (в силу случайного отбора элементов в выборку). Отсюда следует, что стандартные ошибки коэффициентов регрессии – это средние квадратические отклонения коэффициентов регрессии от их истинных значений. Можно показать, что дисперсии оценок b 0 и b 1 равны: Из этих соотношений очевидны следующие выводы: 20
1. Дисперсии D[b 0] и D[b 1] прямо пропорциональны дисперсии случайного отклонения 2. Следовательно, чем больше фактор случайности, тем менее точными будут оценки. 2. Чем больше число наблюдений n, тем меньше дисперсии оценок. 3. Чем больше дисперсия (разброс значений ) объясняющей переменной, тем меньше дисперсия оценок коэффициентов регрессии. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении). 21
Заменив теоретическую дисперсию случайного отклонения 2 на ее несмещенную оценку получим: 22
Отметим, что представляет собой необъясненную дисперсию (меру разброса зависимой переменной вокруг линии регрессии). Отсюда имеем следующие стандартные ошибки 23
Стандартная ошибка регрессии: Стандартные ошибки коэффициентов регрессии: 24
Использование t-статистик для проверки значимости коэффициентов регрессии Проверка значимости на основе t-статистик заключается в установлении наличия линейной зависимости между Y и X. Данный анализ осуществляется по схеме проверки статистических гипотез. Проверяются альтернативные гипотезы H 0 : b 1 = 0 и H 1 : b 1 0. Если принимается гипотеза H 0, то считают, что величина Y не зависит от X. В этом случае говорят, что коэффициент b 1 статистически незначим (т. к. слишком близок к нулю). В противном случае говорят, что коэффициент b 1 статистически значим, что указывает на наличие линейной зависимости между Y и X. 25
Используют t-статистики Которые при справедливости H 0 имеют распределение Стьюдента с числом степеней свободы l = n – 2. 26
27
Интервальные оценки коэффициентов линейного уравнения регрессии Построение доверительных интервалов для коэффициентов линейной регрессии при заданном уровне значимости : для 0: для 1: которые с надежностью (1 ) накрывают определяемые параметры 0 и 1. 28
29
Применение пакета Excel 1. Расчет по формулам с использованием статистических функций Для расчета критического значения используется функция СТЬЮДРАСПОБР( ; n-2) Использование специальных функций (ЛИНЕЙН(У, Х, 1, 1)) 3. 4. Использование пакета анализа Сервис /Анализ данных/Регрессия/ 30
Показатели качества уравнения регрессии в целом Суть проверки общего качества уравнения регрессии – оценить насколько хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Основные показатели качества следующие: 1. Коэффициент детерминации R 2. Значение F-статистики 3. Средняя ошибка аппроксимации 31
Добавочно (косвенно): 1. Коэффициент корреляции rxy. 2. Сумма квадратов остатков 3. Стандартная ошибка регрессии. 32
Коэффициент детерминации R 2 К-т детерминации R 2 является суммарной мерой общего качества уравнения регрессии: Коэффициент R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной. 33
Основные свойства к-та детерминации 1. 2. 3. 4. 5. 0 R 2 1. Чем ближе R 2 к 1, тем лучше регрессия аппроксимирует статистические данные, тем теснее линейная связь между зависимой и объясняющими переменными. Если R 2 = 1, то статистические данные лежат на линии регрессии, т. е. между зависимой и объясняющими переменными имеется функциональная зависимость. Если R 2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных. К-ты R 2 в разных моделях с разным числом наблюдений (и переменных) несравнимы. 34
F-тест на качество оценивания уравнения регрессии(тест Фишера – Снедекора) Основан на основном тождестве дисперсионного анализа TSS – общая сумма квадратов отклонений ESS – объясненная сумма квадратов отклонений RSS – необъясненная сумма квадратов отклонений 35
F-статистика равна(для случая m переменных) где n – число выборочных наблюдений, m – число объясняющих переменных. F-статистика представляет собой отношение объясненной суммы квадратов (в расчете на одну независимую переменную) к остаточной сумме квадратов (в расчете на одну степень свободы). 36
Парная регрессия В парной (m = 1) регрессии F-статистика является отношением объясненной суммы квадратов к остаточной сумме квадратов (в расчете на одну степень свободы) Или в другой форме: 37
Статистика Фишера-Снедекора Проверка качества (значимости) ур-я регрессии на основе F-статистики: При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными F-статистика имеет F-распределение Фишера-Снедекора со степенями свободы k 1 = m, k 2 = n – m – 1. Поэтому уравнение регрессии значимо на уровне , если где – критическое значение F- распределение Фишера-Снедекора, определенное на уровне значимости при степенях свободы k 1 и k 2. 38
39
Средняя ошибка аппроксимации A Оценку качества модели дает также средняя ошибка аппроксимации – среднее отклонение расчетных значений зависимой переменной от фактических значений yi Допустимый предел значений A – не более 10%. Чем меньше значение A, тем лучше Значения A в моделях с разным числом наблюдений и одинаковым количеством переменных сравнимы 40
Коэффициент корреляции rxy Коэффициент корреляции указывает на наличие (или отсутствие) линейной связи между зависимой и объясняющей переменными Для проверки гипотезы об отсутствии линейной связи используется тот факт, что величина Имеет распределение Стьюдента с (n– 2) степенями свободы 41
Связь между значимостью коэффициента регрессии и уравнения в целом В парной регрессии F-статистика равна квадрату t-статистики; то же верно и для их критических уровней (односторонний для t-статистики) В парной регрессии значимость коэффициента регрессии и значимость уравнения в целом эквивалентны F-статистики в разных моделях с разным числом наблюдений и (или) переменных несравнимы 42
Взаимосвязь критериев в парном регрессионном анализе Коэффициент корреляции по абсолютной величине совпадает с квадратным корнем из коэффициента детерминации t-статистики для коэффициента корреляции и коэффициента регрессии b 1 совпадают Проверка значимости коэффициента регрессии эквивалентна проверке наличия линейной связи 43
Проверка значимости коэффициента детерминации Критическое значение R 2 связано с критическим значением Fстатистики Проверка значимости коэффициента детерминации эквивалентна проверке значимости уравнения регрессии в целом 44
Проверка значимости коэффициента детерминации Однофакторная регрессия Проверка значимости коэффициента детерминации эквивалентна проверке значимости уравнения регрессии в целом 45
Типичные ошибки в использовании показателей качества регрессии n n Величина коэффициентов регрессии не указывает на силу связи или силу влияния на зависимую переменную Значимость коэффициентов по t-тестам не позволяет сделать вывод о справедливости тех или иных теорий t-статистики не указывают на относительную важность коэффициентов регрессии Нельзя сравнивать t-статистики, Fстатистики, коэффициенты детерминации и др. у разных уравнений 46
Доверительные интервалы для зависимой переменной Одной из центральных задач эконометрики является прогнозирование значений зависимой переменной при определенных значениях объясняющих переменных. Здесь возможны два варианта: 1. Предсказать условное математическое ожидание зависимой переменной при определенных значениях объясняющих переменных (предсказание среднего значения). 2. Предсказать некоторое конкретное значение зависимой переменной (предсказание конкретного значения). 47
Предсказание среднего значения зависимой переменной Пусть построено уравнение регрессии На его основе необходимо предсказать условное м. о. переменной Y при X = xp. Вопрос: Как сильно может уклониться значение от 48
Если выполнены предпосылки Гаусса 1 -5 статистика имеет t-распределение Стьюдента с (n 2) степенями 49
В этом случае для заданной надежности Можно найти точность (оценку ошибки) и построить доверительный интервал 50
Величина доверительного интервала зависит от значения объясняющей переменной xp: при она минимальна, а по мере удаления xp от величина доверительного интервала увеличивается: 51
Выводы: 1. Прогноз значений (определение неизвестных значений) зависимой переменной Y по уравнению регрессии оправдан, если значение x объясняющей переменной X не выходит за диапазон ее значений по выборке. Причем, чем ближе xp к тем точнее прогноз (уже доверительный интервал). 2. Использование линии регрессии вне пределов обследованного диапазона значений объясняющей переменной (даже если оно оправдано, исходя из смысла решаемой задачи) может привести к значительным погрешностям. 52
Предсказание индивидуальных значений зависимой переменной Оценка дисперсии индивидуальных значений y 0 при x = xp равна 53
доверительный интервал для прогнозов индивидуальных значений y 0* определяется по формуле: 54
Ограниченность простой регрессии 55
537.ppt