КРА.ppt
- Количество слайдов: 50
Корреляционнорегрессионный анализ • Корреляционно-регрессионный анализ позволяет на основе статистики о параметрах функционирования объекта исследования построить выражение, которое определяет вид связей между целевым показателем и показателями, влияющими на него.
• Корреляция ( лат. ) – взаимосвязь. • Корреляционный анализ используется для изучения стохастических, вероятностных связей. • Очевидно, что уровень любого экономического показателя формируется под влиянием множества факторов и условий и в зависимости от соотношения этих условий меняется величина показателей.
• В силу стохастического характера связей между показателями наблюдается явление, когда одному и тому же значению некоторого показателя соответствуют несколько значений другого показателя. • Взаимосвязи, носящие стохастический характер, называют корреляционными. • В корреляционном анализе различают функцию и аргумент.
• Функцией называют результирующий или целевой (моделируемый), т. е. такой показатель, который изменяется под влиянием некоторых условий или факторов. Т. о. функция является зависимым показателем.
Аргументами называют показатели, влияющие на результирующий показатель (предикторы). При проведении КРA решаются две основные задачи. 1. Определение степени взаимосвязи между рассматриваемыми показателями; при этом оценивается, насколько тесно колебания одного из показателей связаны с колебаниями другого показателя. Для этого рассчитывают специальные показатели тесноты связи.
2. Выявление закона изменения результирующего показателя под влиянием выбранных факторов. Такой закон представляет собой эконометрическую модель и обычно записывается в виде уравнения. В зависимости от количества факторов различают: парные модели (функция зависит только от одного фактора) x 0 = f (x 1). многофакторные х0 = f (x 1, x 2, . . . xp)
Корреляционно-регрессионный анализ может проводиться при условии получения качественных выводов. Для обеспечения качества анализа должны выполняться следующие предпосылки: стохастический характер изучаемых явлений и процессов: уровень результирующего показателя при этом определяется большим числом факторов, а сами закономерности проявляются лишь при большом числе наблюдений.
Корреляционный анализ особенно полезен для выявления главных факторов и второстепенных. Исходные данные должны подчиняться закону нормального распределения. В этом случае неизвестные значения параметров регрессионной модели будут наиболее качественными.
В экономико-статистическом моделировании выделяют следующие этапы: I этап - постановка задачи: определяется цель исследования; выбор результирующего показателя; подбор факторов, влияющих на величину результирующего показателя.
II этап – сбор статистических данных и первичная обработка информации III этап – отбор факторов в модель на основе количественного анализа. С помощью показателей тесноты связи в модель подбираются наиболее существенные факторы для данного результирующего показателя.
IV этап – выбор формы модели и расчёт параметров. На этом этапе определяется закон изменения результирующего показателя под влиянием выбранных факторов. Для этого подбирается аналитическое выражение, соответствующее закону изменения отклика. В этом выражении затем определяют конкретные значения параметров модели.
• V этап. Статистическая оценка точности полученных результатов. На этом этапе мы убеждаемся в надёжности выводов, полученных по модели. • VI этап. Экономическая интерпретация результатов анализа. Выводы.
Требования к исходным данным в КРА • Все показатели, включённые в модель должны быть количественно измерены. • Исходные данные должны представлять собой качественно однородную совокупность. Однородность может проверяться с помощью специальных критериев или на основе логического анализа. • - правило трех сигм • - коэффициент вариации
• Для проведения оценки однородности обычно строят гистограмму • количество интервалов по формуле Стерджеса k = 1+3, 32 lg n, n ≤ 100 • n = 100, 500 k = 8, 16 • наблюдения должны быть независимыми. • Наблюдения считаются независимыми, если результат каждого последующего наблюдения не связан с предыдущими и не содержит никаких сведений о последующих наблюдениях и не влияет на них.
• Для проверки независимости наблюдений используются различные критерии. Наиболее простой - критерий серии (определяется знак разности между последующим и предыдущим наблюдением) • Зависимость между наблюдениями ряда называется автокорреляцией. Существенность этого явления можно оценить по критерию Дарбина-Уотсона.
• количество наблюдений должно быть представительным, т. е. для анализа необходимо иметь достаточное число наблюдений: n – p + 1 > 30 ; n/p>4 • n – число наблюдений • p – число факторов в модели • Достаточно выполнения одной из формул
• факторы, включаемые в модель, не должны зависеть друг от друга. Если факторы тесно связаны, такое явление называют коллинеарностью.
• В экономических исследованиях среди факторов могут оказаться показатели, близкие по смыслу или характеризующие одни и те же условия. • Для тесно связанных факторов коэффициент парной корреляции rij ≥ 0, 7, где: i, j – i и j-й фактор.
• Тогда i и j-й фактор называют коллинеарными факторами. • Если тесно связанных факторов несколько • , то эти факторы называют мультиколлинеарными
• В случае коллинеарности или мультиколлинеарности в модели должен остаться один фактор, наиболее существенный для результирующего показателя • Анализ коллинеарности проводится после оценки коэффициентов корреляции по критерию Стьюдента.
Первичная обработка исходных данных • Первичная обработка сводится к вычислению исходных характеристик, обеспечивающих первичный анализ информации. К таким характеристикам относят: • среднее значение; • дисперсию; • стандартное отклонение; • показатель вариации.
• • • К первичной обработке также относят: проверку однородности; нормальности распределения; проверку независимости наблюдений. По результатам первичной обработки определяется приемлемый набор факторов и формулируются гипотезы о связи факторов с результирующим показателем. • Нормальное распределение представляется кривой Лапласа-Гаусса.
• На I этапе КРА анализируется структура связей между рассматриваемыми показателями. Оценка связей производится на основе показателей тесноты связи. Линейные показатели - коэффициенты парной корреляции и универсальные показатели типа корреляционного отношения связи η: • Коэффициент η [0; 1] • для линейных зависимостей | r | = η (парн. )
• η 2 – коэффициент детерминации • η 2 ∙ 100 % – такая величина показывает, на сколько % факторы, включённые в модель, определяют величину результирующего показателя. • Если все зависимости линейные, то можно посчитать множественный коэффициент корреляции:
• • • , R>r 0≤R≤ 1 R 2 – множественный коэффициент детерминации. R 2 ∙ 100 % характеризует полноту модели Кроме парных коэффициентов корреляции для оценки связей факторов с функцией рассчитывают частные коэффициенты корреляции, которые определяют доли вариации результирующего показателя, приходящиеся на конкретный фактор.
• Все показатели тесноты связи проверяют по критерию Стьюдента. •
• Если tрасч. > tтабл. , то проверяемый показатель считается надёжным, а связь существенной. • Замечание: Для анализа коллинеарности необходимо проверить надёжность коэффициентов парной корреляции.
Коэффициенты регрессионной модели и оценка её качества • Для построения регрессионной модели необходимо вначале обосновать вид модели. Обоснование может проводиться двумя способами: теоретическим, эмпирическим • Теоретический подход основывается на знании экономических закономерностей. • Эмпирический способ основывается на анализе полей корреляции. Обычно теоретический анализ дополняют эмпирическим.
• Обоснование вида зависимости между факторами и функцией можно провести для однофакторных или, в крайнем случае, двухфакторных моделей. • Для большого числа факторов неизвестны теоретические зависимости и необходимо эмпирическое обоснование. • Для решения такой задачи используют обоснование, выполненное для парных зависимостей, и комбинацию таких связей в многофакторной модели. • Широко используются парные модели. В экономике чаще всего применяют следующие соотношения:
• • уравнение прямой: х0 = а 0 + а 1 х1 уравнение параболы х0 = а 0 + а 1 х1 + а 2 х12 уравнение гиперболы х0 = а 0 + а 1/х1 В классе многофакторных моделей часто используют линейные многофакторные модели: х0 = а 0 + а 1 х1 + а 2 х2 +. . . + архр
• • • х0 – отклик а 0. . . ар – коэффициенты регрессии Кроме линейных моделей применяют нелинейные: полиномиальная: 2 х0 = а 0 + а 1 х1 + а 2 х2 + а 3 х2 + а 4/х3 мультипликативная а 1 а 2 а 3 х0 = а 0*х1 * х2 * х3 х х х3 х0 = а 0*а 1 1 * а 2 2 * а 3 Для расчёта параметров регрессионной модели используют методы: • наименьших квадратов; • метод максимального правдоподобия;
• косвенный метод наименьших квадратов. • двух- и трёхшаговый МНК. • Чаще всего пользуются МНК методом, который применим ко всем рассмотренным моделям.
• В полиномиальной модели вместо х22 можно ввести новую переменную у1, а вместо 1/х2 –у2 • В мультипликативной модели для преобразования её к линейному виду применяют операцию логарифмирования.
• ln х0 = ln а 0 + а 1 ln х1 + а 2 ln х2 + а 3 ln х3 • Теперь можно ввести необходимые переменные. Вместо ln х1 – z 1 и т. д. • При построении регрессионной модели стремятся получить такое уравнение регрессии, для которого предсказанные значения результирующего показателя в минимальной степени отклонялись бы от наблюдаемых значений.
• • Для парной модели
• Аналогично определяется условие для многофакторной модели: • Прежде чем делать выводы по результатам построения регрессионной модели, следует убедиться в том, что полученная модель статистически значима. Если модель надёжна, считается, что она правильно отражает изменение результирующего показателя под действием выбранных факторов.
• Поскольку одной из важнейших задач регрессионного анализа является индивидуальная оценка влияния каждого фактора, такое влияние можно определить по коэффициентам регрессии. Требуется также убедиться в статистической надёжности параметров регрессии.
• Надёжность модели или статистическую значимость определяют по критерию Фишера: • Fрасч > Fтабл. , модель надёжна • Fтабл = Fα, р, n-р-1
• Для оценки точности модели рассчитывается средняя ошибка аппроксимации • ε ≤ 10 % - допускается • ε ≤ 3 -4 % - планирование прогнозирование
• Параметры регрессионной модели – коэффициенты регрессии оцениваются по критерию Стьюдента.
• Если taj < t табл. = tα, n-р-1, то коэффициент регрессии aj признаётся ненадёжным, а влияние j-го фактора следует считать несущественным. Такой фактор необходимо исключить из модели.
• Коэффициент регрессии аj показывает на сколько единиц своего измерения увеличивается или уменьшается значение зависимого показателя, если j-й фактор увеличить на единицу его измерения, а остальные факторы зафиксировать на среднем уровне. • Коэффициент а 0 –свободный член уравнения регрессии можно интерпретировать как влияние прочих факторов, не включённых в модель.
• Замечание: Хотя коэффициенты регрессии в натуральном масштабе аj позволяют оценить прямой эффект для каждого фактора, в уравнении регрессии в натуральном масштабе не всегда возможно решить важную задачу управления: выбор наиболее эффективного фактора и построение ранжировки факторов по степени влияния на результат.
• Для решения проблемы выбора эффективного фактора строится регрессионная модель в стандартизированном масштабе: • t 0 = β 1 t 1 + β 2 t 2 +. . . + βр tp • Интерпретация: стандартизированный коэффициент регрессии βj показывает, на сколько стандартных отклонений увеличится или уменьшится значение результирующего показателя, если j-й фактор увеличить на одно стандартное отклонение, а остальные факторы зафиксировать на среднем уровне.
• Замечание: Поскольку в стандартном уравнении все факторы и результирующий показатель измеряются в одинаковых единицах стандартных отклонениях, то по стандартизированным коэффициентам можно судить о сравнительной силе влияния каждого фактора. • Поскольку в стандартизированном уравнении не учитывается влияние прочих факторов , то это уравнение чистой регрессии. • Для построения регрессионной модели может использоваться метод прямого расчёта параметров в регрессии и метод пошагового включения или исключения факторов.
• В методе включения на первом шаге строится уравнение регрессии для независимого показателя и наиболее существенного фактора. • х0 = а 0 + а 1 х1 • Рассчитывается F, R, R 2 • На втором шаге в полученное уравнение включается фактор, наиболее существенный среди оставшихся. Получаем новую модель. • х0 = b 0 + b 1 х1 + b 2 х2
• . . . и так далее. Процесс подключения новых факторов продолжается до тех пор, пока не будет исчерпан весь набор рассматриваемых факторов либо не будет построено значимое уравнение, т. е. уравнение, в котором все факторы значимы.
• На основе коэффициентов регрессии вычисляются коэффициенты эластичности. • Коэффициент эластичности Эi показывает на сколько % увеличится или уменьшится значение результирующего показателя, если j -й фактор увеличится на 1 %, а остальные факторы зафиксированы на среднем уровне.
• Замечание: Поскольку Эi измеряется в одних и тех же единицах измерения по ним тоже можно судить о сравнительной силе факторов. • По коэффициенту эластичности оцениваются мероприятия, приводящие к небольшим валовым расширениям факторов, а по стандартизированным коэффициентам мероприятия, существенно влияющие на величину факторов. • Основные направления практического использования регрессионных моделей.
• Нормативные. • Прогнозные, планирование и диагностика. • Оценка труднодоступных параметров системы. • Оценка эффективности функционирования системы. • Оптимальное регулирование параметров функционирования системы.