Скачать презентацию Регрессионный анализ и моделирование По степени информированности Скачать презентацию Регрессионный анализ и моделирование По степени информированности

lecture2_mod.ppt

  • Количество слайдов: 25

Регрессионный анализ и моделирование Регрессионный анализ и моделирование

По степени информированности исследователя об объекте существует деление объектов на три типа «ящиков» : По степени информированности исследователя об объекте существует деление объектов на три типа «ящиков» : • «белый ящик» : об объекте известно все; • «серый ящик» : известна структура объекта, неизвестны количественные значения параметров; • «черный ящик» : об объекте неизвестно ничего. Задача состоит в том, чтобы, зная множество значений на входах и выходах, построить модель, то есть определить функцию ящика, по которой вход преобразуется в выход. Такая задача называется задачей регрессионного анализа.

Функция зависимости общий вид: Y = f(X 1, X 2, …, Xk) + ε Функция зависимости общий вид: Y = f(X 1, X 2, …, Xk) + ε линейная модель Y = b 0 + b 1*X 1 + b 2*X 2+ ε

Функция зависимости Функция зависимости

Обобщенная модель нелинейная по переменным Примеры. 1. Полиномиальные модели: (1. 3) Новые переменные: После Обобщенная модель нелинейная по переменным Примеры. 1. Полиномиальные модели: (1. 3) Новые переменные: После перехода к новым переменным получается линейная модель множественной регрессии: Оценка и анализ проводится уже известными методами

Обобщенная модель нелинейная по переменным 2. Модели гиперболического типа (1. 4) Новая переменная: В Обобщенная модель нелинейная по переменным 2. Модели гиперболического типа (1. 4) Новая переменная: В результате подстановки получим уравнение парной регрессии в виде:

Типы регрессий различают регрессию с участием одной свободной переменной и с несколькими свободными переменными Типы регрессий различают регрессию с участием одной свободной переменной и с несколькими свободными переменными — одномерную и многомерную регрессию. Различают линейную и нелинейную регрессию. Различают параметрическую и непараметрическую регрессию. В целом, непараметрическая регрессия отличается от параметрической тем, что зависимая переменная зависит не от одного значения свободной переменной, а от некоторой заданной окрестности этого значения.

Подбор параметров Классический способ подбора параметров называется методом наименьших квадратов (МНК). Суть его заключается Подбор параметров Классический способ подбора параметров называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была бы минимальной.

Оценка качества модели Качество полученной регрессионной модели может быть оценено с учетом: 1. коэффициент Оценка качества модели Качество полученной регрессионной модели может быть оценено с учетом: 1. коэффициент корреляции должен быть значим; 2. все коэффициенты регрессии должны быть значимы; 3. коэффициент детерминации (R 2) должен быть больше 0. 7; 4. стандартная ошибка модели должна быть меньше 0. 67 стандартного отклонения исходного ряда y. Диагностика остатков: -Тест на нормальность распределения (Колмогоров-Смирнов, Шапиро-Уилк); -Присутствие автокорреляции (Дарбин-Уатсон, Лджанг-Бокс) -Гомоскедастичность (графически или по тесту Левене) -Выбросы

Множественная регрессия Отбор регрессоров: -Шаг вперед: стартуют с регрессора с наибольшим R 2. Добавляют Множественная регрессия Отбор регрессоров: -Шаг вперед: стартуют с регрессора с наибольшим R 2. Добавляют регрессоры и оценивают возрастание R 2. -Шаг назад: стартуют с модели со всеми регрессорами и постепенно убирают регрессор с наименьшим R 2. -Комбинация : добавляют регрессор и далее тестируют его на выброс. Коллинеарность: - Когда один из регрессоров является линейной комбинацией других регрессоров. - Когда два регрессора хорошо коррелируют друг с другом. Решение проблемы : удаление одного из коррелирующих регрессоров

Модели динамики (анализ временных рядов) Ряд динамики – это расположенные в хронологическом порядке значения Модели динамики (анализ временных рядов) Ряд динамики – это расположенные в хронологическом порядке значения того или иного показателя, изменение которого отражает ход развития изучаемого явления.

Пример временного ряда 3. Временные ряды (динамические модели) Например вида: где f(t) – функция Пример временного ряда 3. Временные ряды (динамические модели) Например вида: где f(t) – функция временного тренда T – период внутри которого производится моделирование

Общая тенденция Один из наиболее простых приемов сглаживания заключается в расчете скользящих, или, как Общая тенденция Один из наиболее простых приемов сглаживания заключается в расчете скользящих, или, как иногда их называют, подвижных средних. Применение последних, позволяет сгладить периодические и случайные колебания и тем самым выявить присутствующую в развитии тенденцию.

Общая тенденция Сопоставив значения коэффициентов детерминации для различных типов кривых можно сделать вывод о Общая тенденция Сопоставив значения коэффициентов детерминации для различных типов кривых можно сделать вывод о том, что для исследуемого динамического ряда лучшей форма тренда будет

Среднее и скользящее среднее значение как предиктор Не годится для рядов с трендом и Среднее и скользящее среднее значение как предиктор Не годится для рядов с трендом и для рядов с выраженной сезонностью. Можно лишь убрав их влияние, сделав прогноз, а затем ввести назад их влияние 0. 9 0. 8 0. 7 NDVI 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0 Sep 1 Oct 1 Nov 1 Dec 1 Jan 1 Feb 1 Mar 1 Apr 1 May 1 Jun 1 Jul 1 dekad 2006_2007 Linear(2006_2007) Poly. (2006_2007) Aug 1

Стохастические процессы Стохастический временной процесс – последовательность случайных значений переменной во времени Стохастический процесс Стохастические процессы Стохастический временной процесс – последовательность случайных значений переменной во времени Стохастический процесс СТАЦИОНАРЕН если: -его среднее не изменяется во времени; -Его варьирование не изменяется во времени; -Автоковариация ряда также инвариантна во времени и зависит только от величины временного лага

ARIMA (авторегрессионное интегрированное скользящее среднее) (АРПСС) (Box-Jenkins метод) Этот метод базируется не на классической ARIMA (авторегрессионное интегрированное скользящее среднее) (АРПСС) (Box-Jenkins метод) Этот метод базируется не на классической декомпозиции временного ряда, а на анализе стохастических процессов В рамках метода делается попытка сымитировать процесс образования временного ряда данных

ARIMA (p, d, q) p – процесс авторегрессии d – разница для приведения ряда ARIMA (p, d, q) p – процесс авторегрессии d – разница для приведения ряда к стационарности q - процесс скользящего среднего Определяются на основе анализа автокорреляционной функции (АКФ) и частичной автокорреляционной функции (ЧАКФ)

P=1 АКФ Q=1 ЧАКФ P=1 АКФ P=2 ЧАКФ Q=2 ЧАКФ P=1, Q=1 АКФ ЧАКФ P=1 АКФ Q=1 ЧАКФ P=1 АКФ P=2 ЧАКФ Q=2 ЧАКФ P=1, Q=1 АКФ ЧАКФ

Самые простые виды моделей ARIMA: (1, 0, 0) – авторегрессионная функция; (0, 1, 0) Самые простые виды моделей ARIMA: (1, 0, 0) – авторегрессионная функция; (0, 1, 0) – скользящая средняя; (1, 0, 1) – комбинированная модель авторегрессии и скользящей средней; (0, 1, 1) – экспоненциальная средняя; (1, 1, 1) – нестационарный процесс с линейным трендом;

Последовательность анализа предварительный анализ данных АКФ и ЧАКФ модель Box-Ljung<0. 05 диагностика остатки использование Последовательность анализа предварительный анализ данных АКФ и ЧАКФ модель Box-Ljung<0. 05 диагностика остатки использование Box-Ljung>0. 05

Корреляция рядов динамики Корреляционная связь между уровнями двух динамических рядов называется кросс-корреляцией. Оценка тесноты Корреляция рядов динамики Корреляционная связь между уровнями двух динамических рядов называется кросс-корреляцией. Оценка тесноты связи в задачах исследования кросс-корреляции производится с использованием стандартного коэффициента корреляции Пирсона. Однако однонаправленность трендов и высокое значение коэффициента корреляции вовсе не означает наличие причинноследственной зависимости между рядами. Одним из условий применения корреляционно-регрессионного анализа является независимость наблюдений. В контексте изучения временных рядов – это отсутствие связи между уровнями ряда, т. е. автокорреляции. Существует несколько способов исключения автокорреляции : 1. переход от корреляции уровней ряда к корреляции остатков, отклонений фактических уровней от тренда; 2. непосредственное введение в уравнение регрессии фактора времени устраняет автокорреляцию, аналогично использованию отклонений фактических уровней от тренда

Корреляция рядов динамики На основании рассчитанных коэффициентов кросс-корреляции определяется лаг наиболее существенной взаимосвязи между Корреляция рядов динамики На основании рассчитанных коэффициентов кросс-корреляции определяется лаг наиболее существенной взаимосвязи между динамическими рядами, то есть тот лаг, которому соответствует максимальный коэффициент кросс-корреляции

Критерии точности и надежности прогнозов О точности прогноза принято судить по величине погрешности (ошибки) Критерии точности и надежности прогнозов О точности прогноза принято судить по величине погрешности (ошибки) прогноза – разности между прогнозируемым и фактическим значением исследуемой переменной. Однако такой подход к оценке точности возможен только в двух случаях: • Во-первых, когда период упреждения уже окончился и исследователь имеет фактические значения переменной. • Во-вторых, когда прогноз разрабатывается ретроспективно Наиболее простой мерой качества прогнозов при условии, что имеются данные об их реализации, может стать относительное число случаев, когда фактическая реализация охватывалась интервальным прогнозом, к общему числу прогнозов, т. е. где р – число прогнозов, подтвержденных фактическими данными; q – число прогнозов, не подтвержденных фактическими данными.

Критерии точности и надежности прогнозов Одним из исследователей проблем экономического прогнозирования, Г. Тейлом, предложен Критерии точности и надежности прогнозов Одним из исследователей проблем экономического прогнозирования, Г. Тейлом, предложен в качестве меры качества прогнозов коэффициент расхождения (или коэффициент несоответствия), числителем которого является среднеквадратическая ошибка прогноза, а знаменатель равен квадратному корню из среднего квадрата реализации. где Рt и At – соответственно предсказанное и фактическое (реализованное) изменения переменной. Коэффициент = 0, когда все Pt = At ; = 1, когда процесс прогнозирования приводит к той же среднеквадратической ошибке, что и “наивная” экстраполяция неизменности приростов; > 1, когда прогноз дает худшие результаты, чем предположение о неизменности исследуемого явления. Верхней границы коэффициент не имеет.