Скачать презентацию КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Статистические методы изучения взаимосвязей 1 Скачать презентацию КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Статистические методы изучения взаимосвязей 1

Тема 6.Корреляционный анализ.ppt

  • Количество слайдов: 30

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ (Статистические методы изучения взаимосвязей ) 1 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ (Статистические методы изучения взаимосвязей ) 1

ВИДЫ ВЗАИМОСВЯЗЕЙ Статистические показатели могут состоять между собой в следующих основных видах связи: балансовой, ВИДЫ ВЗАИМОСВЯЗЕЙ Статистические показатели могут состоять между собой в следующих основных видах связи: балансовой, компонентной, факторной и корреляционной. Балансовая связь - характеризует зависимость между источниками формирования ресурсов (средств) и их использованием, например, Он + Р = В+ Ок, где Он - остаток товаров на начало отчетного периода; Р - поступление товаров за период; В - выбытие товаров в изучаемом периоде; Ок - остаток товаров на конец отчетного периода. Левая часть формулы характеризует предложение товаров (Он + Р), а правая часть - использование товарных ресурсов (В + Ок). 2

ВИДЫ ВЗАИМОСВЯЗЕЙ Компонентные связи показателей характеризуются тем, что изменение статистического показателя определяется изменением компонентов, ВИДЫ ВЗАИМОСВЯЗЕЙ Компонентные связи показателей характеризуются тем, что изменение статистического показателя определяется изменением компонентов, входящих в этот показатель, как множители: a = b*c. В статистике компонентные связи используются в индексном методе. Важное значение компонентной связи состоит в том, что она позволяет определять величину неизвестных компонентов через известные компоненты. При этом считается, что в и с не влияют друг на друга, а только на а. 3

ВИДЫ ВЗАИМОСВЯЗЕЙ Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. ВИДЫ ВЗАИМОСВЯЗЕЙ Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. При этом одни показатели выступают как факторные, а другие - как результативные. Факторные связи могут рассматриваться как функциональные и корреляционные. 4

ФАКТОРНЫЕ СВЯЗИ При функциональной связи изменение результативного признака (у) всецело зависит от изменения факторного ФАКТОРНЫЕ СВЯЗИ При функциональной связи изменение результативного признака (у) всецело зависит от изменения факторного признака (х): у = f(x). При корреляционной связи изменение результативного признака (у) не всецело зависит от факторного признака (х), а лишь в среднем, так как возможно влияние прочих факторов (ε): y=φ(x)+ε. Характерной особенностью корреляционных связей является то, что они проявляются не в единичных случаях, а в массе, т. е. в среднем. 5

ПОКАЗАТЕЛИ СВЯЗИ Для того чтобы установить, есть ли зависимость между величинами, используются статистические показатели, ПОКАЗАТЕЛИ СВЯЗИ Для того чтобы установить, есть ли зависимость между величинами, используются статистические показатели, позволяющие определить, тесноту связи (в одном случае она сильная, устойчивая, в другом - слабая) и форму связи (прямая, обратная, линейная, нелинейная). 6

Показатели тесноты связи между признаками называются КОЭФФИЦИЕНТАМИ КОРРЕЛЯЦИИ. Их выбор зависит от вида представления Показатели тесноты связи между признаками называются КОЭФФИЦИЕНТАМИ КОРРЕЛЯЦИИ. Их выбор зависит от вида представления исследуемых признаков. Коэффициент корреляции Количественные шкалы (признаки количественные) Линейный коэффициент корреляции rxy Корреляционное отношение η Порядковые шкалы (признаки представлены рангами) Коэффициент Спирмена p Коэффициент Конкордации w Номинальные шкалы (признаки качественные) Коэффициенты ассоциации и Контингенции ka, kk Коэффициенты сопряженности Пирсона и Чупрова 7

Область значений коэффициентов корреляции Коэффициенты корреляции изменяются от -1 до 1. Знак коэффициента корреляции Область значений коэффициентов корреляции Коэффициенты корреляции изменяются от -1 до 1. Знак коэффициента корреляции характеризует направление взаимосвязи, если он положительный, то связь между признаками прямая, и наоборот, если знак отрицательный, то связь обратная. Абсолютная величина коэффициента характеризует степень тесноты рассматриваемой связи. Если она равна 1, то связь функциональная, если 0, то связи нет. Если коэффициент корреляции возвести в квадрат, то получится коэффициент детерминации (изменяется от 0 до 1 и характеризует долю влияния фактора на результат). 8

КОЭФФИЦИЕНТЫ АССОЦИАЦИИ И КОНТИНГЕНЦИИ Используются для определения связи между двумя качественными признаками, каждый из КОЭФФИЦИЕНТЫ АССОЦИАЦИИ И КОНТИНГЕНЦИИ Используются для определения связи между двумя качественными признаками, каждый из которых имеет две градации, то есть признаки альтернативные. Обозначения для вычисления коэффициентов ассоциации и контингенции приведены в таблице a b a+b c d c+d a+c b+d a+b+c+d Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается значимой, если Ка > 0, 5 или Кк > 0, 3. 9

ПРИМЕР 1: Расчет Кк и Ка Группы населения (тыс. чел. ) Семейное положение Всего ПРИМЕР 1: Расчет Кк и Ка Группы населения (тыс. чел. ) Семейное положение Всего + - Не потребляющие наркотики 10 14, 5 24, 5 Потребляющие наркотики 2, 5 4, 5 7, 0 Итого 12, 5 19, 0 31, 5 Ка=(10*4, 5 -14, 5*2, 5)/(10*4, 5+14, 5*2, 5)=0, 108<0, 5 Кк=(10*4, 5 -14, 5*2, 5)/ √((10+14, 5)(14, 5+4, 5)(4, 5+2, 5)(2, 5+10)))=0, 043<0, 3 10

КОЭФФИЦИЕНТЫ СОПРЯЖЕННОСТИ ПИРСОНА И ЧУПРОВА Когда каждый из качественных признаков имеет более двух градаций, КОЭФФИЦИЕНТЫ СОПРЯЖЕННОСТИ ПИРСОНА И ЧУПРОВА Когда каждый из качественных признаков имеет более двух градаций, то для определения тесноты связи применяют коэффициенты сопряженности Пирсона и Чупрова, которые вычисляются по формулам: где χ² - критерий согласия рассчитывается как Проверка значимости связи в этом случае производится по критерию χ²α((К 1 -1)(К 2 -1)). К 1 и К 2 – число градаций признаков. Если расчетное значение χ² больше критического значения, то связь считается значимой. 11

Пример 2: Расчет Кп Условия производства Взаимоотношения в коллективе Хорошие Удовлетв Плохие Итого Хорошие Пример 2: Расчет Кп Условия производства Взаимоотношения в коллективе Хорошие Удовлетв Плохие Итого Хорошие 30 20 10 60 Удовлетворите 25 50 15 90 льные Плохие 10 40 50 100 Итого 65 110 75 250 χ²=250{(30²/60*65+25²/90*65+…+50²/100*75)-1}=0, 2003*250 =50, 075 Кп=√ 0, 2003/(1+0, 2003)=0, 408 >0 Табличное значение критерия равно χ² 0, 05((3 -1))=9, 488. 12 Связь значима с вероятностью 95%.

РАНГОВЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Ранг - это порядковый номер значений признака, расположенных в порядке возрастания РАНГОВЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Ранг - это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если отдельные значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих им номеров. Данные ранги называются связанными. Ранговые показатели связи используются для ее оценки как между количественными, так и между качественными признаками, если их значения могут быть проранжированы. Наиболее распространены ранговые парный коэффициент Спирмена (ρ) и множественный коэффициент конкордации (w). 13

КОЭФФИЦИЕНТ СПИРМЕНА Когда нет связных рангов рассчитывается по формуле: где di² - квадраты разности КОЭФФИЦИЕНТ СПИРМЕНА Когда нет связных рангов рассчитывается по формуле: где di² - квадраты разности рангов; n - число наблюдений. Если в совокупности есть связные ранги, то где по х и по у соответственно, к - число связных рангов, t - число значений признака, имеющих один ранг. Значимость его проверяется на основе t-критерия Стьюдента: Если расчетное значение критерия больше табличного коэффициента корреляции считается значимым. t(α ; к = n-2), то значение 14

Пример 3: Расчет p Вид Ранг по di di² продукции прогнозно реальному му объему Пример 3: Расчет p Вид Ранг по di di² продукции прогнозно реальному му объему продаж А 1 2 -1 1 В 2 1 1 1 С 3 4 -1 1 D 4 3 1 1 Итого 4 Связных рангов нет, то p=1 -(6*4/4(16 -1))=0, 6 tрас=(0, 6√(4 -2)/(1 -0, 6²)=1, 06

Пример 4: Расчет p (связные ранги) Объем продукции предприятия, млн. руб. Ранг предприятия по Пример 4: Расчет p (связные ранги) Объем продукции предприятия, млн. руб. Ранг предприятия по объему продукции Ранг предприятия по качеству продукции di² 300 (место 1) 1 3 (1 -3)²=4 250 (место 2 и 3) 2, 5 ((2+3)/2) 1 2, 25 250 (место 2 и 3) 2, 5 2 0, 25 200 (место 4, 5 и 6) 5 (15/3) 4 1 200 (место 4, 5 и 6) 5 5 0 200 (место 4, 5 и 6) 5 6 1 100 7 7 0 Итого 8, 5 p= 1 -(6*8, 5 -((1/12)((2³-2)+(3³-3))-0))/√((7³-7 -12*(1/12(((2³-2)+(3³-3)))(7³ 7))=1 - (48, 5/320, 6)=0, 85 t 0, 05(5)=0, 85√(5/0, 28)=3, 59>2, 57 - значим 16

КОЭФФИЦИЕНТ КОНКОРДАЦИИ Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент КОЭФФИЦИЕНТ КОНКОРДАЦИИ Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) где m – количество признаков; n - число наблюдений; S - отклонение суммы квадратов рангов от средней их квадратов, которое рассчитывается по формуле: где rij - ранг j-ой единицы i-гo признака. 17

КОЭФФИЦИЕНТ КОНКОРДАЦИИ Если в совокупности есть связные ранги, тогда где t - количество связных КОЭФФИЦИЕНТ КОНКОРДАЦИИ Если в совокупности есть связные ранги, тогда где t - количество связных рангов по отдельным значениям признака. Проверка значимости осуществляется соответственнопо формулам: 18

Пример 5: Расчет w № предпр иятия Ранги по показателям ∑rij (∑rij)² рентабельность качество Пример 5: Расчет w № предпр иятия Ранги по показателям ∑rij (∑rij)² рентабельность качество сбыт 1 4 4 3 11 121 2 1 3 1 5 25 3 3 1 2 6 36 4 7 6 5 18 324 5 5 5 7 17 289 6 6 8 6 20 400 7 2 2 4 8 64 8 8 7 8 23 529 108 1788 Итого S=1788 -(108)²/8=330; W=(12*330)/(3²(8³-8))=0, 873 Χ² =(12*330)/(2*(8 -1)8)=23, 57>Χ² 0, 05(8 -1)=14, 06, то значим 19

КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ Корреляционное отношение используется при изучении криволинейной зависимости между признаками, по которым осуществлена КОРРЕЛЯЦИОННОЕ ОТНОШЕНИЕ Корреляционное отношение используется при изучении криволинейной зависимости между признаками, по которым осуществлена аналитическая группировка. η вычисляется по формуле: η принимает значения от 0 до 1, если η = 0, то влияния фактора на результат нет, если η = 1, то признаки связаны функционально и на изменение результата не влияет никакой другой фактор. Значимость связи в этом случае оценивается на основе критерия Фишера, если Fрасч >Fa(v 1=m-1, v 2=n-m), то связь доказана с вероятностью 1 -а, где m - число групп, n - объем совокупности. 20

КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (только по сгруппированным данным) η²-эмпирический коэффициент детерминации – отношение межгрупповой дисперсии к КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (только по сгруппированным данным) η²-эмпирический коэффициент детерминации – отношение межгрупповой дисперсии к общей дисперсии признака: , где - общая средняя по всей совокупности; - средняя j-ой группы, - численность j-ой группы. Межгрупповая дисперсия характеризует вариацию признака, появившуюся в результате влияния группировочного признака на результативный признак. 21

ТЕОРЕМА О СЛОЖЕНИИ ДИСПЕРСИЙ Дисперсия признака в случае аналитической группировки раскладывается на сумму межгрупповой ТЕОРЕМА О СЛОЖЕНИИ ДИСПЕРСИЙ Дисперсия признака в случае аналитической группировки раскладывается на сумму межгрупповой дисперсии и средней из групповых дисперсий (остаточная дисперсия): 22

Остаточная дисперсия (средняя из внутригрупповых дисперсий) характеризует вариацию, возникшую под влиянием других факторов, она Остаточная дисперсия (средняя из внутригрупповых дисперсий) характеризует вариацию, возникшую под влиянием других факторов, она не зависит от признака, положенного в основу группировки. Определяется она по формуле : где σ²j - общая дисперсия вариации признака в j группе, nj – число единиц наблюдения в j-ой группе. 23

Пример 6: Расчет η и η² Форма обучения Число студентов Средний балл по экзаменам Пример 6: Расчет η и η² Форма обучения Число студентов Средний балл по экзаменам Дисперсия в группе Дневная 100 4, 3 0, 25 Вечерняя 50 4, 0 0, 21 Заочная 150 3, 6 0, 15 Итого 300 (4, 3*100+4*50+3, 6*150)/300=4 (0, 25*100+0, 21*5 0+0, 15*150)/300= 0, 19 δ²=((4 -4, 3)²*100+(4 -4)²*50+(3, 6 -4)²*150)/300=0, 11 σ²=0, 11+0, 19=0, 3 η²=0, 1/0, 3=0, 33 на 33% форма обучения влияет на успеваемость η=√ 0, 33=0, 57>0; F=(0, 33/(1 -0, 33)((300 -3)/(3 -1))=76, 5>Fa=19, 5 значим 24

ЛИНЕЙНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ rxy измеряет тесноту линейной связи между двумя признаками. Он рассчитывается для ЛИНЕЙНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ rxy измеряет тесноту линейной связи между двумя признаками. Он рассчитывается для несгруппированных данных по формулам: где n объем выборки, x и у- значения признаков, σх и σу - средние квадратические отклонения признаков. 25

Оценка значимости rxy Так как rxy рассчитан по конечному набору данных, то необходимо проверить Оценка значимости rxy Так как rxy рассчитан по конечному набору данных, то необходимо проверить гипотезу о неслучайности связи, то есть что rху ≠ 0. Для этого используется статистический t-критерий Стьюдента: Если tpac > ta(n-2), то связь между признаками существенная с вероятностью 1 -ą. То есть, гипотеза о том, что rxy=0 отвергается и связь между признаками значима с вероятностью 1 -ą. 26

МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если необходимо проанализировать линейную связь между результативным признаком (у) и двумя МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если необходимо проанализировать линейную связь между результативным признаком (у) и двумя факторными признаками (х, z), тогда используется формула расчета множественного линейного коэффициента корреляции Ryxz 27

МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если число факторов-признаков более двух, тогда совокупный множественный коэффициент корреляции имеет МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если число факторов-признаков более двух, тогда совокупный множественный коэффициент корреляции имеет вид: R² показывает в какой мере вариация результирующего признака обусловлена совместным влиянием признаковфакторов R – изменяется от 0 до 1, существенность также проверяется с помощью критерия Фишера 28

ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Позволяет установить степень «чистого» влияния факторного признака на результативный признак, при ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Позволяет установить степень «чистого» влияния факторного признака на результативный признак, при условии, что остальные факторы не влияют, изменяется от 0 до 1, не может быть больше по величине коэффициента множественной корреляции. Где R²k – коэффициент множественной детерминации между у и х1…хк; R²k-1 – коэффициент множественной детерминации между у и х1…хк-1; 29

ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если парный коэффициент корреляции между х и у больше частного коэффициента ЧАСТНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Если парный коэффициент корреляции между х и у больше частного коэффициента корреляции между х и у, то существует фактор, усиливающий влияние х на у, если наоборот, то существует фактор, ослабляющий это влияние 30