занятие_10_кор_анализ13.ppt
- Количество слайдов: 93
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
ФУНКЦИЯ - ЛЮБЫЕ ИЗМЕНЕНИЙ ОДНОГО ИЗ ЭЛЕМЕНТОВ СТАТИСТИЧЕСКОГО КОМПЛЕКСА ПРИ ИЗМЕНЕНИИ ДРУГИХ ЭЛЕМЕНТОВ. входные переменные выходная переменная независимые зависимая объясняемая объясняющие отклик аргументы функция (прогноз) предикторы Х Y случайные переменные остаточные компоненты (остатки) е
Общая цель статистического исследования зависимостей: По результатам n измерений исследуемых переменных и в анализируемой совокупности необходимо построить такую функцию, которая позволила бы наилучшим образом восстанавливать значения результирующих (прогнозных) Yi по заданным Хi
Можно выделить три типа конечных самостоятельных прикладных задач: n Установлен сам факт наличия (или отсутствия) статистически значимой связи между и Это аппарат корреляционного анализа. . n Восстановление (прогноз) неизвестных средних значений интересующих нас Y по заданным X. Это один из итогов регрессионного анализа. n Выявление причинных связей между объясняющими переменными и результирующими показателями и управление значениями Y путем регулирования значений X. Это область статистического моделирования с использованием также аппарата регрессионного анализа.
Зависимость между переменными случайными величинами и , при которой каждому значению одной из них соответствует не какое-то конкретное значение, а определенная групповая средняя другой величины, называется КОРРЕЛЯЦИОННОЙ или просто КОРРЕЛЯЦИЕЙ
Генеральная совокупность признаков X и Y признак Y средние значения признака Y для конкретных значений признака X X 1 X 2 X 3 признак X
КОРРЕЛЯЦИЯ Положительная Отрицательная
КОРРЕЛЯЦИЯ Положительная Отрицательная
КОРРЕЛЯЦИЯ Линейная (прямолинейная) Нелинейная (криволинейная)
КОРРЕЛЯЦИЯ Есть Нет
Пример. Изучаем влияние глубины на величину численности моллюсков Macoma calcarea. Для этого на 6 станциях на глубинах от 0. 5 до 3 м взято по 5 выборочных площадок площадью 0. 1 м 2, в каждой из которых посчитали количество моллюсков. Показатели Глубина, м 1. 5 2 2. 5 3 20 28 34 37 44 50 23 30 35 40 45 50 31 36 41 46 51 30 32 34 44 46 54 27 M 1 26 Числен -ность 0. 5 34 39 44 48 49 25, 2 31 35, 6 41, 2 45, 8 50, 8
Корреляционный анализ парных связей Исходные условия: n- имеется две переменные величины и. n - независимая и зависимая переменные являются случайными величинами. n - связь между переменными полагается линейной. n - характер распределения каждой случайной величины согласуется с нормальным законом
КОЭФФИЦИЕНТ ПАРНОЙ КОРРЕЛЯЦИИ (Пирсона) как оценка степени тесноты связи где cov – коэффициент ковариации, sy, sx – средние квадратические отклонения переменных x, y где в знаменателе корень из произведений девиат переменных, а в числителе - величина произведений отклонений каждой пары наблюдений за показателями X и Y от их средних
Для практических расчетов удобна формула: или SSx и SSy – суммы квадратов отклонений вариант от соответствующих средних
Свойства парного коэффициента корреляции Величина коэффициента корреляции может принимать значения от -1 до +1. Положительный знак указывает на однонаправленность тенденций взаимосвязанных изменений переменных X и Y, а отрицательный - на разнонаправленный. n Если распределение вариант обеих переменных подчиняется нормальному закону справедливо равенство: n
КОРРЕЛЯЦИЯ: сильная, или тесная 0, 70<=r; средняя при 0, 50<=r<0, 70; умеренная при 0, 30<=r<0, 50; слабая при 0, 20<=r<0, 30; очень слабая при r<0, 20.
r=1 r=0
Проверка гипотезы о статистической значимости линейной связи НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции по модулю больше нуля.
Проверка гипотезы о статистической значимости линейной связи НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции по модулю больше нуля. Для больших выборок m r= - ошибка коэффициента парной корреляции
Проверка гипотезы о статистической значимости линейной связи НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции по модулю больше нуля. Для больших выборок m r= - ошибка коэффициента парной корреляции При tr tst( , ) гипотеза об отсутствии корреляционной связи сохраняется
Проверка гипотезы о статистической значимости линейной связи НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции по модулю больше нуля. Для больших выборок m r= - ошибка коэффициента парной корреляции При tr tst( , ) гипотеза об отсутствии корреляционной связи сохраняется Для выборок объемом менее 100
Пример. Изучаем влияние глубины на величину численности моллюсков Macoma calcarea. Для этого на 6 станциях на глубинах от 0. 5 до 3 м взято по 5 выборочных площадок площадью 0. 1 м 2, в каждой из которых посчитали количество моллюсков.
… … …
… … …
… … …
… … …
… … …
… … …
… … …
… … tst( , =n-2) …
… … tst( , =n-2) …
… … … Так как tr (20. 1) > tst (1. 70), с вероятностью Р 0, 95 мы отвергаем нулевую гипотезу и признаем связь глубины и численности моллюсков статистически значимой.
Дальнейшие шаги в знакомстве с возможностями корреляционного анализа: n- оценка разности между коэффициентами корреляции; n - выявление эффектов множественных взаимодействий; n - определение тесноты нелинейных связей; n - оценка формы связи; n - определение тесноты связи качественных признаков
Оценка степени тесноты нелинейной связи КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ Расчет корреляционного отношения предполагает группировку вариант по оси объясняющей переменной (аргумента) и расчет “частных” средних …. внутри каждой группы.
Оценка степени тесноты нелинейной связи КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ Расчет корреляционного отношения предполагает группировку вариант по оси объясняющей переменной (аргумента) и расчет “частных” средних …. внутри каждой группы. k - число интервалов группировки вариант по оси X, nj - число выборочных значений в каждом интервале. Средние значения зависимой переменной внутри каждого интервала (ячейки) рассчитываются по выражению =
Оценка степени тесноты нелинейной связи КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ Расчет корреляционного отношения предполагает группировку вариант по оси объясняющей переменной (аргумента) и расчет “частных” средних …. внутри каждой группы. k - число интервалов группировки вариант по оси X, nj - число выборочных значений в каждом интервале. Средние значения зависимой переменной внутри каждого интервала (ячейки) рассчитываются по выражению где = - общая средняя
Т. е. ситуация очень близка к однофакторному дисперсионному анализу ОДНОФАКТОРНЫЙ АНАЛИЗ принято называть КОРРЕЛЯЦИОННЫМ ОТНОШЕНИЕМ зависимой переменной по независимой переменной.
Свойства статистики n В отличие от коэффициента парной корреляции корреляционное отношение не симметрично по отношению к исследуемым переменным - прямое корреляционное отношение не равно обратному n Корреляционное отношение по определению величина не отрицательная и меняет свое значение от 0 до 1. - Корреляционное отношение не может быть меньше абсолютного значения соответствующего коэффициента корреляции. - в случае линейной зависимости (при большом n) значения обеих статистик совпадают. n n
Оценка формы связи 1. Критерием нелинейности может служить статистика или критерий линейности Блекмана
Оценка формы связи 1. Критерием нелинейности может служить статистика или критерий линейности Блекмана НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связь между переменными линейна, и, следовательно, наблюдаемые различия между сравниваемыми коэффициентами случайны АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА:
Оценка формы связи 1. Критерием нелинейности может служить статистика или критерий линейности Блекмана НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связь между переменными линейна, и, следовательно, наблюдаемые различия между сравниваемыми коэффициентами случайны АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: Нулевая гипотеза отвергается
Оценка формы связи 1. Критерием нелинейности может служить статистика или критерий линейности Блекмана НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связь между переменными линейна, и, следовательно, наблюдаемые различия между сравниваемыми коэффициентами случайны АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: Нулевая гипотеза отвергается 2. В качестве экспресс-оценки линейности связи можно использовать произведение. Если …. . =11. 37, то связь с вероятностью 95% можно полагать линейной.
Но: На:
Но: На:
Но: На:
Но: На:
Но: На:
Но: На:
F. ОБР. ПХ
Но: На:
Таким образом признается справедливость высказанной нулевой гипотезы, следовательно, связь между переменными линейна.
Непараметрические показатели тесноты связи признаков Ранговый коэффициент корреляции Спирмена d - разность между рангами сопряженных значений признаков Х и У, n - число рангов. Ранговый коэффициент корреляции выражается в долях единицы и принимает значения от -1 до +1.
Оценка достоверности отличия rs от нуля НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции отличается от нуля.
Оценка достоверности отличия rs от нуля НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции отличается от нуля. а) при малом числе наблюдений - по критической точке t и mt - величины связанные с нормальным законом и выбранным уровнем значимости нулевой гипотезы: для <0. 05: t=1. 96 и mt =0. 16; для <0. 01: t=2. 58 и mt=0. 69. Нулевая гипотеза сохраняется при rs<=rst
Оценка достоверности отличия rs от нуля НУЛЕВАЯ ГИПОТЕЗА: в генеральной совокупности связи между переменными нет и отличие коэффициента корреляции от нуля случайно. АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: коэффициент корреляции отличается от нуля. б) при анализе больших рядов (к>=10) оценка значимости коэффициента может быть произведена по его ошибке с использованием критерия Стьюдента При tr tst( , ) гипотеза об отсутствии корреляционной связи сохраняется
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
n - объем выборки (число пар значений)
Нулевая гипотеза значений) и n - объем выборки (число пар принимается, связь между численностью насекомых и диаметром ловушек признается статистически не значимой.
занятие_10_кор_анализ13.ppt