занятие_11_рег_анализ_2011.ppt
- Количество слайдов: 79
Регрессионный анализ
Функция, позволяющая по величине одного признака (x) находить средние (ожидаемые) значения другого признака (y), связанного с x корреляционно, называется регрессией. Статистический анализ регрессии получил название регрессионного анализа.
ПРИЕМЫ РЕГРЕССИОННОГО АНАЛИЗА ПОЗВОЛЯЮТ: n выявить и графически отобразить зависимость изменения одного признака от изменений другого; n моделирование наблюдаемой зависимости путем подбора соответствующей функции, график которой и представляет собой теоретическую линию регрессии; n прогнозирование значений признака в зоне экстраполяции
Зона интерполяции Зона экстраполяции
ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ Уравнение прямой линии: . i Уравнение, описывающее зависимость между переменными x и y обычно и называют уравнением регрессии или регрессионной моделью. Расчет его параметров - в этом суть регрессионного анализа.
Пример. Изучаем влияние глубины на величину численности моллюсков Macoma calcarea. Для этого на 6 станциях на глубинах от 0. 5 до 3 м взято по 5 выборочных площадок площадью 0. 1 м 2, в каждой из которых посчитали количество моллюсков. показа тели 0. 5 1 1. 5 2 2. 5 3 yi 20 28 34 37 44 50 23 30 35 40 45 50 26 31 36 41 46 51 30 32 34 44 46 54 27 34 39 44 48 49 M Глубина, м 25, 2 31 35, 6 41, 2 45, 8 50, 8 Зависимая переменная (Y) – численность моллюсков, экз. /м 2; Независимая переменная (X)глубина, м. Зависимость численности моллюсков Macoma calcarea от глубины обитания. По оси абсцисс - Глубина, м; по оси ординат - Численность моллюсков, экз. /0, 1 м 2
Линейная регрессия Модель – уравнение прямой – Y = a + b*X Построение модели – расчет коэффициентов признак Y - эмпирические значения признака Y признак X
Линейная регрессия Модель – уравнение прямой – Y = a + b*X Построение модели – расчет коэффициентов признак Y - эмпирические значения признака Y - теоретические значения признака Y МНК –метод наименьших квадратов Прямая должна пройти так, чтобы сумма квадратов отклонений эмпирических значений Y от теоретических была минимальна. Прямая пройдет через точку (Xср, Yср) признак X
Линейная регрессия Модель – уравнение прямой – Y = a + b*X признак Y Построение модели – расчет коэффициентов b – тангенс угла α α a – точка пересечения прямой с осью ординат признак X
Расчет параметров уравнения регрессии где - предсказанное (теоретическое) значение Y для данного X. a и b - выборочные значения параметров регрессионной модели, их находят с использованием процедуры метода. наименьших квадратов Суть МНК заключается в минимизации сумм квадратов отклонений наблюдаемых значений зависимой переменной от их теоретических величин, принадлежащих линии регрессии. Т. е. a и b подбираются таким образом, чтобы при их подстановке в уравнение получалось минимальное значение E - суммы квадратов отклонения от линии регрессии.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ (МНК) a =( Y - b X)/n Необходимые для расчета величины: X; X 2; Y 2; XY = X 2 -( X)2/n = Y 2 -( Y)2/n = XY - X Y/n
СВОЙСТВА МНК-ОЦЕНОК Графически параметры парной регрессии представляют собой следующие характеристики прямой линии: b - тангенс угла наклона прямой a 0 - начальная ордината Принимает значения от 0 до ∞ сумма остатков равна нулю
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
b =SSXY / SSX a =( Y - b X)/n SSXY = XY- X Y/n
ТОЧНОСТЬ ОЦЕНКИ РЕГРЕССИИ Общая сумма квадратов отклонений значений зависимой переменной от средней может быть разложена на две составляющие: Сумма квадратов относительно среднего Y (общая) Сумма квадратов обусловленная регрессией (объясненная) Сумма квадратов относительно регрессии (необъясненная, остаток)
ТОЧНОСТЬ ОЦЕНКИ РЕГРЕССИИ Общая сумма квадратов отклонений значений зависимой переменной от средней может быть разложена на две составляющие: Сумма квадратов относительно среднего Y (общая) Сумма квадратов обусловленная регрессией (объясненная) Сумма квадратов относительно регрессии (необъясненная, остаток) КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ или - коэффициент парной корреляции
правой кнопкой мыши
правой кнопкой мыши
правой кнопкой мыши
правой кнопкой мыши
правой кнопкой мыши
Зависимость численности моллюсков Macoma calcarea от глубины обитания. По оси абсцисс - Глубина, м; по оси ординат - Численность моллюсков, экз. /0, 1 м 2
СВЯЗЬ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗОВ Коэффициент корреляции: Угловой коэффициент: SY, SX –средние квадратические отклонения переменных X, Y
ОШИБКА УРАВНЕНИЯ РЕГРЕССИИ ОШИБКИ КОЭФФИЦИЕНТОВ РЕГРЕССИИ А. Стандартная ошибка углового коэффициента Б. Стандартная ошибка свободного члена уравнения или
или
или
или
или
или
ОЦЕНКА ДОСТОВЕРНОСТИ УРАВНЕНИЯ РЕГРЕССИИ Достоверность регрессии может быть определена в результате анализа: 1. разложения общей девиаты зависимой переменной 2. коэффициента наклона b 3. коэффициента детерминации R 2
Достоверность регрессии может быть определена в результате анализа: 1. разложения общей девиаты зависимой переменной НО: в генеральной совокупности связь между переменными не имеет характера регрессионной. Следовательно, наблюдаемые проявления значимости изменений значений функции по оси аргумента - случайны. Т. е. H 1 : Для проверки гипотезы используется статистика . Если соблюдается условие , то нулевая гипотеза сохраняется
2. Достоверность наклона линии регрессии НО: В генеральной совокупности нет изменений значений функции по оси аргумента. Следовательно, наблюдаемое отличие углового коэффициента (b) от нуля случайно. H 1: угловой коэффициент по модулю больше 0. Нулевая гипотеза сохраняется, если соблюдается равенство:
3. Достоверность коэффициента детерминации НО: В генеральной совокупности регрессионной связи нет и наблюдаемое отличие коэффициента детерминации от нуля случайно. Н 1: коэффициент детерминации больше нуля. Нулевая гипотеза отвергается, если: При соблюдении этого условия коэффициент детерминации с вероятностью отличается от нуля
Так как tr (20. 1) > tst (1. 70), с вероятностью Р 0, 95 мы отвергаем нулевую гипотезу и признаем угловой коэффициент b статистически значимым
Так как F (404) > Fst (4, 2), с вероятностью Р 0, 95 мы отвергаем нулевую гипотезу и признаем коэффициент детерминации статистически значимым
Доверительная зона регрессии 95% доверительный интервал линии регрессии строится в соответствии с выражением t - критерий Стьюдента, =n-2, Следует сделать несколько расчетов для отдельных значений
Доверительная зона регрессии 95 % Доверительная зона регрессии
СРАВНЕНИЕ УРАВНЕНИЙ РЕГРЕССИИ. 1. Проверка гипотезы о близости величин остаточных дисперсий.
СРАВНЕНИЕ УРАВНЕНИЙ РЕГРЕССИИ. 1. Проверка гипотезы о близости величин остаточных дисперсий. 2. Проверка гипотезы о близости величин коэффициента регрессии уравнений.
СРАВНЕНИЕ УРАВНЕНИЙ РЕГРЕССИИ. 3. Проверка гипотезы о близости величин свободных членов уравнений.


