Корреляционный анализ.ppt
- Количество слайдов: 17
СТАТИСТИЧЕСКИЕ МЕТОДЫ Область применения Метод Количественные переменные (нормальное распределение) Описание группы M S или M m Количественные и порядковые переменные Me, 25 и 75 персентили U критерий Манна. Уитни Качественные переменны е % Сравнение двух независимых выборок Т критрий Тест Фишера, 2 Сравнение более двух независимых выборок Дисперсионный анализ Фишера Дисперсионный анализ Краскел. Уоллиса 2 Сравнение двух зависимых выборок Парный Т критерий Критерий Вилкоксона Тест Мак. Немара Корреляции Пирсона Спирмена 2
Понятие о статистической и корреляционной связи
Типы связей Функциональная ( y=F(x) ) Статистическая
Корреляционная связь Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что различным значениям одной переменной соответствуют различные средние значения другой. С изменением значения x закономерным образом изменяется среднее значение признака y; в то время как в каждом отдельном случае значение признака y (с различными степенями вероятности) может принимать множество различных значений.
Корреляционная связь между признаками может возникать различными путями: 1. 2. 3. Причинная зависимость результативного признака (его вариации) от вариации факторного признака Корреляционная связь между двумя следствиями одной причины Взаимосвязь признаков, каждый из которых и причина и следствие.
Условия применения и ограничения корреляционно анализа 1. Наличие данных по достаточно большой совокупности явлений 2. Надежное выражение закономерности в средней величине 3. Необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей 4. Недопустимость применения корреляционного анализа к функционально связанным признакам
Измерение связи количественных признаков В случае, когда параметры измеряются количественно, теснота парной линейной корреляционной связи может быть измерена корреляционным отношением: Кроме того, при линейной форме уравнения применяется и другой показатель тесноты связи - коэффициент корреляции Rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результирующего признака:
Измерение связи количественных признаков Коэффициент корреляции был предложен английским статистиком Пирсоном. Его интерпретация такова: отклонение признака-фактора от его среднего значения на величину своего среднего квадратичного отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на Rxy его среднего квадратичного отклонения. 0<=|R|<=1
Пример 1 2 3 4 5 5 3 4 2 1 М 1=3, М 2=3 В числителе: (-2*2)+(-1*0)+(0*1)+(1*-1)+(2*-2)=-9 В знаменателе: 10 Итого: r=-0. 9
Измерение связи порядковых признаков Показатель ранговой корреляции Спирмена применяется в случаях, если изучается линейная связь между рядами, представленными в количественной или порядковой шкале. ri, si, i=1, 2, …, n – массивы рангов n – число пар вариант исследуемых рядов Bx, By – поправки на объединение рангов в соответствующих рядах m – число групп объединенных рангов в ряду ni, i=1, 2, … , m – число рангов в i-й группе
Измерение связи порядковых признаков Пример 1. Предположим, что группа городов ранжирована по численности населения и уровню загрязненности окружающей среды. а б в г д е ж з и к Численность 3 7 5 9 1 8 6 10 4 2 Загрязнение 2 4 3 5 1 9 8 10 7 6 Разности S 1 3 2 4 0 -1 -2 0 -3 -4 Разности S 2 1 9 4 16 0 1 4 0 9 16 Города
Измерение связи номинальных признаков Коэффициент взаимной сопряженности Бравайса где a, b, c, d - количество случаев отдельных комбинаций разновидностей исследуемых явлений.
Измерение связи номинальных признаков Коэффициент взаимной сопряженности Бравайса Имеются следующие данные о вакцинации против гриппа и заболеваемости гриппом во время эпидеми Всего Y 1 Заболело Y 2 Не заболело X 1 Вакцинировано 10 a 490 b 500 (a+b) X 2 Не вакцинировано 990 c 510 d 1500 (c+d) Всего 1000 (a+c) 1000 (b+d) 2000 (a+b+c+d) В числителе: 5100 -485100=-480000 В знаменателе: Корень(500*1000*1000)= 866025 r=-0. 55
Измерение связи номинальных признаков 2 ( «хи-квадрат» Пирсона) Признак B 1 … Bj … Bm A 1 n 11 … n 1 j … n 1 m … … … Ai ni 1 … nij … nim … … … Ak nk 1 … nkj … nkm
Критерий хи-квадрат Всего Y 1 Заболело Y 2 Не заболело X 1 Вакцинировано 10 a 13 b 23 (a+b) X 2 Не вакцинировано 5 c 12 d 17 (c+d) Всего 15 (a+c) 25 (b+d) 40 (a+b+ c+d) n*=10
Хи-квадрат для таблиц 2 х2 Хи-квадрат с поправкой Йетса
Измерение связи номинальных признаков Коэффициент Жаккара Простой коэффициент встречаемости (показатель подобия Сокала и Мичененра) Показатель подобия Рассела и Рао Коэффициент ассоциации Юла Хеммингово расстояние H=a+d Коэффициент детерминации R=r 2 Коэффициент определения R=100 r 2 Коэффициент акорреляции
Корреляционный анализ.ppt