
lecture2_mod.ppt
- Количество слайдов: 25
Регрессионный анализ и моделирование
По степени информированности исследователя об объекте существует деление объектов на три типа «ящиков» : • «белый ящик» : об объекте известно все; • «серый ящик» : известна структура объекта, неизвестны количественные значения параметров; • «черный ящик» : об объекте неизвестно ничего. Задача состоит в том, чтобы, зная множество значений на входах и выходах, построить модель, то есть определить функцию ящика, по которой вход преобразуется в выход. Такая задача называется задачей регрессионного анализа.
Функция зависимости общий вид: Y = f(X 1, X 2, …, Xk) + ε линейная модель Y = b 0 + b 1*X 1 + b 2*X 2+ ε
Функция зависимости
Обобщенная модель нелинейная по переменным Примеры. 1. Полиномиальные модели: (1. 3) Новые переменные: После перехода к новым переменным получается линейная модель множественной регрессии: Оценка и анализ проводится уже известными методами
Обобщенная модель нелинейная по переменным 2. Модели гиперболического типа (1. 4) Новая переменная: В результате подстановки получим уравнение парной регрессии в виде:
Типы регрессий различают регрессию с участием одной свободной переменной и с несколькими свободными переменными — одномерную и многомерную регрессию. Различают линейную и нелинейную регрессию. Различают параметрическую и непараметрическую регрессию. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.
Подбор параметров Классический способ подбора параметров называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была бы минимальной.
Оценка качества модели Качество полученной регрессионной модели может быть оценено с учетом: 1. коэффициент корреляции должен быть значим; 2. все коэффициенты регрессии должны быть значимы; 3. коэффициент детерминации (R 2) должен быть больше 0. 7; 4. стандартная ошибка модели должна быть меньше 0. 67 стандартного отклонения исходного ряда y. Диагностика остатков: -Тест на нормальность распределения (Колмогоров-Смирнов, Шапиро-Уилк); -Присутствие автокорреляции (Дарбин-Уатсон, Лджанг-Бокс) -Гомоскедастичность (графически или по тесту Левене) -Выбросы
Множественная регрессия Отбор регрессоров: -Шаг вперед: стартуют с регрессора с наибольшим R 2. Добавляют регрессоры и оценивают возрастание R 2. -Шаг назад: стартуют с модели со всеми регрессорами и постепенно убирают регрессор с наименьшим R 2. -Комбинация : добавляют регрессор и далее тестируют его на выброс. Коллинеарность: - Когда один из регрессоров является линейной комбинацией других регрессоров. - Когда два регрессора хорошо коррелируют друг с другом. Решение проблемы : удаление одного из коррелирующих регрессоров
Модели динамики (анализ временных рядов) Ряд динамики – это расположенные в хронологическом порядке значения того или иного показателя, изменение которого отражает ход развития изучаемого явления.
Пример временного ряда 3. Временные ряды (динамические модели) Например вида: где f(t) – функция временного тренда T – период внутри которого производится моделирование
Общая тенденция Один из наиболее простых приемов сглаживания заключается в расчете скользящих, или, как иногда их называют, подвижных средних. Применение последних, позволяет сгладить периодические и случайные колебания и тем самым выявить присутствующую в развитии тенденцию.
Общая тенденция Сопоставив значения коэффициентов детерминации для различных типов кривых можно сделать вывод о том, что для исследуемого динамического ряда лучшей форма тренда будет
Среднее и скользящее среднее значение как предиктор Не годится для рядов с трендом и для рядов с выраженной сезонностью. Можно лишь убрав их влияние, сделав прогноз, а затем ввести назад их влияние 0. 9 0. 8 0. 7 NDVI 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0 Sep 1 Oct 1 Nov 1 Dec 1 Jan 1 Feb 1 Mar 1 Apr 1 May 1 Jun 1 Jul 1 dekad 2006_2007 Linear(2006_2007) Poly. (2006_2007) Aug 1
Стохастические процессы Стохастический временной процесс – последовательность случайных значений переменной во времени Стохастический процесс СТАЦИОНАРЕН если: -его среднее не изменяется во времени; -Его варьирование не изменяется во времени; -Автоковариация ряда также инвариантна во времени и зависит только от величины временного лага
ARIMA (авторегрессионное интегрированное скользящее среднее) (АРПСС) (Box-Jenkins метод) Этот метод базируется не на классической декомпозиции временного ряда, а на анализе стохастических процессов В рамках метода делается попытка сымитировать процесс образования временного ряда данных
ARIMA (p, d, q) p – процесс авторегрессии d – разница для приведения ряда к стационарности q - процесс скользящего среднего Определяются на основе анализа автокорреляционной функции (АКФ) и частичной автокорреляционной функции (ЧАКФ)
P=1 АКФ Q=1 ЧАКФ P=1 АКФ P=2 ЧАКФ Q=2 ЧАКФ P=1, Q=1 АКФ ЧАКФ
Самые простые виды моделей ARIMA: (1, 0, 0) – авторегрессионная функция; (0, 1, 0) – скользящая средняя; (1, 0, 1) – комбинированная модель авторегрессии и скользящей средней; (0, 1, 1) – экспоненциальная средняя; (1, 1, 1) – нестационарный процесс с линейным трендом;
Последовательность анализа предварительный анализ данных АКФ и ЧАКФ модель Box-Ljung<0. 05 диагностика остатки использование Box-Ljung>0. 05
Корреляция рядов динамики Корреляционная связь между уровнями двух динамических рядов называется кросс-корреляцией. Оценка тесноты связи в задачах исследования кросс-корреляции производится с использованием стандартного коэффициента корреляции Пирсона. Однако однонаправленность трендов и высокое значение коэффициента корреляции вовсе не означает наличие причинноследственной зависимости между рядами. Одним из условий применения корреляционно-регрессионного анализа является независимость наблюдений. В контексте изучения временных рядов – это отсутствие связи между уровнями ряда, т. е. автокорреляции. Существует несколько способов исключения автокорреляции : 1. переход от корреляции уровней ряда к корреляции остатков, отклонений фактических уровней от тренда; 2. непосредственное введение в уравнение регрессии фактора времени устраняет автокорреляцию, аналогично использованию отклонений фактических уровней от тренда
Корреляция рядов динамики На основании рассчитанных коэффициентов кросс-корреляции определяется лаг наиболее существенной взаимосвязи между динамическими рядами, то есть тот лаг, которому соответствует максимальный коэффициент кросс-корреляции
Критерии точности и надежности прогнозов О точности прогноза принято судить по величине погрешности (ошибки) прогноза – разности между прогнозируемым и фактическим значением исследуемой переменной. Однако такой подход к оценке точности возможен только в двух случаях: • Во-первых, когда период упреждения уже окончился и исследователь имеет фактические значения переменной. • Во-вторых, когда прогноз разрабатывается ретроспективно Наиболее простой мерой качества прогнозов при условии, что имеются данные об их реализации, может стать относительное число случаев, когда фактическая реализация охватывалась интервальным прогнозом, к общему числу прогнозов, т. е. где р – число прогнозов, подтвержденных фактическими данными; q – число прогнозов, не подтвержденных фактическими данными.
Критерии точности и надежности прогнозов Одним из исследователей проблем экономического прогнозирования, Г. Тейлом, предложен в качестве меры качества прогнозов коэффициент расхождения (или коэффициент несоответствия), числителем которого является среднеквадратическая ошибка прогноза, а знаменатель равен квадратному корню из среднего квадрата реализации. где Рt и At – соответственно предсказанное и фактическое (реализованное) изменения переменной. Коэффициент = 0, когда все Pt = At ; = 1, когда процесс прогнозирования приводит к той же среднеквадратической ошибке, что и “наивная” экстраполяция неизменности приростов; > 1, когда прогноз дает худшие результаты, чем предположение о неизменности исследуемого явления. Верхней границы коэффициент не имеет.