Скачать презентацию 2 1 2 Предпосылки метода наименьших квадратов Переменная Скачать презентацию 2 1 2 Предпосылки метода наименьших квадратов Переменная

lek_2.ppt

  • Количество слайдов: 36

2. 1. 2 Предпосылки метода наименьших квадратов Переменная Y является СВ, напрямую связанной со 2. 1. 2 Предпосылки метода наименьших квадратов Переменная Y является СВ, напрямую связанной со случайными отклонениями i. Это означает, что свойства оценок коэффициентов регрессии, а следовательно, и качество построенной регрессии существенно зависят от свойств случайной составляющей. 1

Условия Гаусса-Маркова 1. Математическое ожидание случайного отклонения равно нулю: M( i ) = 0 Условия Гаусса-Маркова 1. Математическое ожидание случайного отклонения равно нулю: M( i ) = 0 для всех наблюдений. Данное условие означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. 2

В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения. 3

2. Дисперсия случайных отклонений i постоянна: D( i )=D( j )= 2 для любых 2. Дисперсия случайных отклонений i постоянна: D( i )=D( j )= 2 для любых наблюдений i и j. Это значит, что в каждом конкретном наблюдении не должно быть некой априорной причины, вызывающей большую ошибку (отклонение). 4

Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью. Данную Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений). Невыполнимость данной предпосылки называется гетероскедастичностью. Данную предпосылку можно переписать в форме: M( i 2)= 2. 5

3. Случайные отклонения i и j являются независимыми друг от друга для i j. 3. Случайные отклонения i и j являются независимыми друг от друга для i j. Выполнимость данной предпосылки предполагает, что отсутствует систематическая связь между любыми случайными отклонениями. То есть величина и знак любого случайного отклонения не должны быть причинами величины и знака любого другого отклонения. 6

Выполнимость данной предпосылки влечет следующее соотношение: Если данное условие выполняется, то говорят об отсутствии Выполнимость данной предпосылки влечет следующее соотношение: Если данное условие выполняется, то говорят об отсутствии автокорреляции. С учетом выполнимости первой предпосылки это соотношение может быть переписано в виде: M( i j)=0 (i j). 7

4. Случайное отклонение должно быть независимо от объясняющих переменных. 5. Модель является линейной относительно 4. Случайное отклонение должно быть независимо от объясняющих переменных. 5. Модель является линейной относительно параметров. 8

Теорема Гаусса-Маркова Если предпосылки 1 -5 выполнены, то оценки, полученные по МНК, обладают следующими Теорема Гаусса-Маркова Если предпосылки 1 -5 выполнены, то оценки, полученные по МНК, обладают следующими свойствами: 1. Оценки являются несмещенными, т. е. М(b 0)= 0, М(b 1)= 1. 9

 2. Оценки состоятельны, так как дисперсия оценок параметров при возрастании числа n наблюдений 2. Оценки состоятельны, так как дисперсия оценок параметров при возрастании числа n наблюдений стремится к нулю. Другими словами, при увеличении объема выборки надежность оценок увеличивается (b 0 наверняка близко к 0, b 1 – близко к 1). 10

 3. Оценки эффективны, т. е. они имеют наименьшую дисперсию по сравнению с любыми 3. Оценки эффективны, т. е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров. В англоязычной литературе такие оценки называют BLUE (Best Linear Unbiased Estimators) – наилучшие линейные несмещенные оценки. 11

Если выполнены предпосылки 1 -5, то говорят о классической линейной регрессионной модели. Наряду с Если выполнены предпосылки 1 -5, то говорят о классической линейной регрессионной модели. Наряду с выполнимостью указанных предпосылок при построении классических линейных регрессионных моделей делаются еще некоторые предположения: 12

ü объясняющие переменные не являются СВ; üслучайные отклонения имеют нормальное распределение; üчисло наблюдений существенно ü объясняющие переменные не являются СВ; üслучайные отклонения имеют нормальное распределение; üчисло наблюдений существенно больше числа объясняющих переменных; üотсутствуют ошибки спецификации. 13

Если предпосылки 2 и 3 нарушены, т. е. дисперсия отклонений непостоянна и (или) значения Если предпосылки 2 и 3 нарушены, т. е. дисперсия отклонений непостоянна и (или) значения i, j связаны друг с другом, то свойства несмещенности и состоятельности сохраняются, но свойство эффективности – нет. 14

2. 1. 3 Анализ точности определения оценок коэффициентов регрессии В силу случайного отбора элементов 2. 1. 3 Анализ точности определения оценок коэффициентов регрессии В силу случайного отбора элементов в выборку случайными являются также оценки b 1 и b 0 коэффициентов 1 и 0 теоретического уравнения регрессии. 15

Надежность получаемых оценок 2 тесно связана с дисперсией случайных отклонений i. Формулы связи дисперсий Надежность получаемых оценок 2 тесно связана с дисперсией случайных отклонений i. Формулы связи дисперсий коэффициентов D(b 0) и D(b 1) с дисперсией случайных 2 : отклонений 16

17 17

Выводы: ü Дисперсии b 0 и b 1 прямо пропорциональны дисперсии случайного отклонения. Следовательно, Выводы: ü Дисперсии b 0 и b 1 прямо пропорциональны дисперсии случайного отклонения. Следовательно, чем больше фактор случайности, тем менее точными будут оценки. 18

ü Чем больше число n наблюдений, тем меньше дисперсии оценок. Это вполне логично, так ü Чем больше число n наблюдений, тем меньше дисперсии оценок. Это вполне логично, так как чем большим числом данных мы располагаем, тем вероятнее получение более точных оценок. 19

ü Чем больше дисперсия (разброс значений ) объясняющей переменной, тем меньше дисперсия оценок коэффициентов. ü Чем больше дисперсия (разброс значений ) объясняющей переменной, тем меньше дисперсия оценок коэффициентов. Другими словами, чем шире область изменений объясняющей переменной, тем точнее будут оценки (тем меньше доля случайности в их определении). 20

В силу того что случайные отклонения i по выборке определены быть не могут, при В силу того что случайные отклонения i по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями ei=yi-b 0 -b 1 xi значений yi переменной Y от оцененной линии регрессии. 21

Дисперсия случайных отклонений заменяется ее несмещенной оценкой: 22 Дисперсия случайных отклонений заменяется ее несмещенной оценкой: 22

Тогда 23 Тогда 23

S 2 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии). Корень квадратный S 2 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии). Корень квадратный из необъясненной дисперсии, т. е. . называется стандартной ошибкой оценки (стандартной ошибкой регрессии). 24

 и - стандартные отклонения случайных величин b 0, b 1, называемые стандартными ошибками и - стандартные отклонения случайных величин b 0, b 1, называемые стандартными ошибками коэффициентов регрессии. 25

2. 1. 4 Проверка гипотез относительно коэффициентов линейного уравнения регрессии При проведении статистического анализа 2. 1. 4 Проверка гипотез относительно коэффициентов линейного уравнения регрессии При проведении статистического анализа возникает необходимость сравнения эмпирических коэффициентов регрессии b 0 и b 1 c теоретически ожидаемыми значениями этих коэффициентов. Данный анализ осуществляется по схеме статистической проверки гипотез. 26

Для проверки гипотезы используется статистика которая при справедливости H 0 имеет распределение Стьюдента с Для проверки гипотезы используется статистика которая при справедливости H 0 имеет распределение Стьюдента с числом степеней свободы v=n-2, где n - объем выборки. 27

Следовательно, отклоняется на основании данного критерия, если где - требуемый уровень значимости. При невыполнении Следовательно, отклоняется на основании данного критерия, если где - требуемый уровень значимости. При невыполнении этого условия считается, что нет оснований для отклонения Н 0. 28

Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления наличия линейной Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления наличия линейной зависимости между X и Y. Эта проблема может быть решена по той же схеме: 29

Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. Если Н 0 Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. Если Н 0 принимается, есть основания считать, что величина Y не зависит от X. В этом случае говорят, что коэффициент b 1 статистически незначим (он слишком близок к нулю). 30

При отклонении Н 0 коэффициент b 1 считается статистически значимым, что указывает на наличие При отклонении Н 0 коэффициент b 1 считается статистически значимым, что указывает на наличие определенной линейной зависимости между Y и X. 31

Поскольку полагается, что 1= 0, то формально значимость оцененного коэффициента регрессии b 1 проверяется Поскольку полагается, что 1= 0, то формально значимость оцененного коэффициента регрессии b 1 проверяется с помощью анализа отношения его величины к его стандартной ошибке. Данное отношение называется t-статистикой: 32

По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента b 0: По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента b 0: 33

Для парной регрессий более важным является анализ статистической значимости коэффициента b 1, так как Для парной регрессий более важным является анализ статистической значимости коэффициента b 1, так как именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y. 34

При оценке значимости коэффициента линейной регрессии на начальном этапе можно использовать следующее «грубое» правило, При оценке значимости коэффициента линейной регрессии на начальном этапе можно использовать следующее «грубое» правило, позволяющее не прибегать к таблицам. Если стандартная ошибка коэффициента больше его модуля (|t| 1), то коэффициент не может быть признан значимым. 35

Если 1<|t| 2, то найденная оценка может рассматриваться как относительно (слабо) значимая. Если 2<|t| Если 1<|t| 2, то найденная оценка может рассматриваться как относительно (слабо) значимая. Если 2<|t| 3, то это свидетельствует о значимой линейной связи между X и У. Наконец, если |t| >3, то это почти гарантия наличия линейной связи. 36