Презентация 10 КРА.ppt
- Количество слайдов: 43
КОРРЕЛЯЦИОННАЯ СВЯЗЬ И ЕЕ СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ Раздел статистики, который выявляет и измеряет связи между признаками, называется теорией корреляции.
1. Понятие и характеристика корреляционной связи. 2. Статистические методы выявления корреляционной связи между двумя признаками. 3. Измерение степени тесноты корреляционной связи между двумя признаками. 4. Расчет и интерпретация однофакторных уравнений регрессии.
1. Понятие и характеристика корреляционной связи ¡ ¡ Раздел статистики, который выявляет и измеряет связи между признаками, называется теорией корреляции. Основу изучения связей между признаками составляет анализ причинно следственных отношений между ними. Причинно следственные отношения проявляются в том, что одни признаки выступают в качестве причин (факторов), обуславливающих изменение других, связанных с ними признаков. Признаки, обуславливающие изменение других, связанных с ними признаков, называются факторными или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называют результативными.
Различают два типа связей между различными явлениями и их признаками: ¡ ¡ функциональные или жестко детерминированные; статистические или стохастически детерминированные. Строго определить различие этих типов связи можно, если дать им математическое описание.
¡ Функциональной называют такую связь, при которой каждому значению факторного признака (х) обязательно соответствует одно[1] строго определенное значение результативного признака (у). [1] В некоторых случаях при функциональной связи одному значению факторного признака может соответствовать несколько строго определенных значений результативного, например, если
¡ Статистическая (стохастически детерминированная) связь это вид причинной связи, проявляющейся не в каждой единице совокупности, а в среднем для совокупности в целом. ü Корреляционная связь - частный случай статистической связи. Корреляционная связь проявляется в том, что разным значениям факторного признака соответствуют различные средние значения результативного. ü Если же с изменением значений факторного признака х среднее значение признака результативного не изменяется закономерным образом, но с определенной закономерностью изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса), то связь, являясь статистической, не будет корреляционной.
Корреляционной связи присущи следующие черты: ü каждому значению факторного признака может соответствовать не одно значение результативного признака, а распределение его значений; ü с изменением факторного признака изменяется среднее значение результативного признака; ü корреляционная связь является неполной; ü она проявляется не в каждом единичном случае, а только в массе явлений.
Корреляционная связь между признаками может возникнуть различными путями ¡ ¡ ¡ Первая ситуация характеризуется наличием четко определяемой причинной обусловленностью вариации результативного признака вариацией факторного признака. Вторая ситуация ориентирует на правильную интерпретацию изучения корреляционной связи между двумя следствиями одной общей причины. Третья ситуация связана с изучением корреляции между признаками, каждый из которых может быть и причиной и следствием.
Классификация корреляционных связей ¡ По направлению связи l l ¡ По форме и аналитическому выражению l l ¡ прямая обратная линейная нелинейная (криволинейная) В зависимости от количества взаимодействующих признаков l l парная множественная
Классификация корреляционных связей ¡ По степени тесноты l l слабая сильная (измеряется с помощью линейного коэффициента корреляции, корреляционного отношения, ранговых коэффициентов корреляции, коэффициента ассоциации, коэффициента контингенции и др. ). Величина коэффициента корреляции Характер связи До │0, 3│ Практически отсутствует │0, 3│ │0, 5│ Слабая │0, 5│ │0, 7│ Умеренная │0, 7│ │0, 99│ Сильная
2. Статистические методы выявления корреляционной связи между двумя признаками ¡ Статистический анализ связей между признаками начинается с ответа на вопрос, существует ли между признаками корреляционная зависимость. Для этого статистика использует следующие методы: l l l элементарные приемы анализа; дисперсионный анализ; корреляционно регрессионный анализ.
Элементарные методы анализа ¡ сопоставление двух параллельных рядов значений признаков (наличие прямой или обратной связи); ¡ графическое представление данных с помощью поля корреляции (наличие связи и предположения о степени тесноты) и эмпирической линии регрессии (предполагать направление связи и форму связи); ¡ построение аналитической группировки и корреляционных таблиц (благодаря группировке ряды уплотняются, и связь проявляетсяболее отчетливо).
Характеристика тесноты корреляционной связи на основе поля корреляции Y . . . … …. . . . . …. …. …. . . . Y тесная связь X Y . . . . . Y умеренная связь . . . . . . . . . . X Y . . . . . Y слабая связь X . . . . . прямая корреляционная зависимость X отсутствие зависимости X обратная корреляционная зависимость X
Дисперсионный анализ позволяет: ¡ установить, в какой мере вариация результативного признака обусловлена влиянием факторного признака; ¡ измерить степень тесноты связи между факторным и результативным признаками; ¡ проверить с помощью F критерия существенность влияния факторного признака на результативный; ¡ отобрать факторы, наиболее существенно влияющие на результативный признак.
Корреляционно-регрессионный анализ включает два направления: ¡ корреляционный анализ, в задачи которого входит оценка тесноты связи между анализируемыми признаками и выявление факторов, оказывающих наиболее сильное влияние на результативный признак; ¡ регрессионный анализ, в задачи которого входит установление формы корреляционной связи, ее аналитическое выражение в виде уравнения регрессии и проверка адекватности (надежности) последнего.
КРА включает несколько этапов: ¡ ¡ ¡ сбор статистических данных и проверка их пригодности для проведения КРА; предварительное изучение связи между признаками с помощью элементарных методов; измерение тесноты связи между признаками; аналитическое выражение корреляционной связи с помощью уравнения регрессии; оценка надежности уравнения регрессии, его экономическая интерпретация и определение сферы и условий практического применения.
Требования к формированию исходных статистических данных для КРА ¡ ¡ ¡ достаточно большой объем совокупности, однородность совокупности по величине факторного и результативного признаков, распределение единиц совокупности по результативному и факторным признакам должно подчиняться нормальному закону распределения вероятностей (условие применения МНК), число включаемых в исследование факторов должно быть ограничено, при построении уравнений корреляционной связи факторные признаки должны иметь количественное выражение, иначе они не могут быть включены в модель.
3. Измерение степени тесноты корреляционной связи между двумя признаками ¡ Показатели степени тесноты связи характеризуют зависимость вариации результативного признака от вариации факторного признака. ¡ Выбор показателя тесноты связи зависит от того, в каких шкалах измерены признаки.
Показатели тесноты корреляционной связи позволяют решать следующие исследовательские задачи: ¡ ¡ ¡ установить целесообразность изучения данной связи между признаками и возможность практического применения результатов ее оценки; сопоставляя показатели тесноты связи для различных ситуаций, можно судить о степени и природе различий в ее проявлении для конкретных условий; сопоставляя показатели тесноты связи результативного признака с различными факторами, можно отобрать те, которые в данных конкретных условиях являются в решающей степени влияют на изменение величины результативного признака.
Коэффициент корреляции знаков иначе его называют коэффициентом Фехнера основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от их средних величин: Кф>0 предполагают наличие прямой связи, Кф<0 предполагают наличие обрат ной связи, Кф =0 делают вывод об отсутствии связи.
Линеный коэффициент корреляции характеризует тесноту, и направление корреляционной связи между двумя количественными признаками в случае если эта связь по форме является линейной: 1≤ r ≤ 1 При r >0 связь прямая, при r <0 связь обратная. Если | r |=1, это означает, что связь между х и у является функциональной. Чем ближе |r| к единице, тем связь между признаками теснее. Если же r =0, то делают вывод об отсутствии линейной корреляционной связи между х и у.
¡ При расчете линейного коэффициента корреляции необходимо оценить его существенность, или статистическую значимость. Для небольшого объема выборки (n<50) значимость линейного коэффициента корреляции проверяется на основе t критерия Стьюдента: Если расчетное значение t –критерия больше табличного: делают вывод о том, линейный коэффициент корреляции статистически значим, а связь является реальной.
¡ При расчете линейного коэффициента корреляции необходимо оценить его существенность, или статистическую значимость. Для большого объема выборки (n>=50) r считается статистически значимым (неслучайным), если выполняется условие: где Величина - средняя квадратическая ошибка коэффициента корреляции, расчет которой выполняется по формуле: определяется по таблице интеграла Лапласа.
В литературе приводится несколько упрощенный вариант проверки ¡ существенности линейного коэффициента корреляции при n ≥ 50: если линейный коэффициент корреляции r превышает свою среднюю квадратическую ошибку более чем в три раза, т. е. если то он считается значимым, а связь реальной.
Корреляционное отношение ¡ ¡ ¡ Корреляционное отношение используют для измерения тесноты связи в случае наличия как линейной, так и нелинейной зависимости между количественными признаками. Различают эмпирическое и теоретическое корреляционное отношение. Последний показатель иногда называют индексом корреляции. Эмпирическое корреляционное отношение рассчитывается на основе результатов аналитической группировки: или
Корреляционное отношение ¡ Теоретическое корреляционное отношение рассчитывают по теоретическим значениям результативного признака, полученным по уравнению регрессии: или - факторная дисперсия результативного признака, рассчитанная для теоретических значений результативного признака:
¡ ¡ ¡ Корреляционное отношение изменяется в пределах от 0 до 1. Чем ближе к единице, тем связь теснее. Оценка существенности корреляционного отношения проводится с помощью F критерия (критерия Фишера): m число групп m число параметров уравнения регрессии Например, для уравнения прямой m=2. корреляционное отношение признается существенным и, следовательно, можно говорить о статистической значимости связи между х и у.
Коэффициент корреляции рангов ¡ Эти методы применимы не только для качественных, но и для количественных признаков. ¡ Упорядочение единиц совокупности по значению признака называется ранжированием. ¡ Ранги это порядковые номера единиц совокупности в ранжированном ряду. ¡ Ранжировать оба признака необходимо в одном и том же порядке: либо от меньших значений к большим, либо наоборот. ¡ Измерение связи между ранжированными признаками производится с помощью ранговых коэффициентов корреляции Спирмена и Кендэлла.
Рассмотрим порядок расчета коэффициента корреляции рангов Спирмена: ¡ ¡ ¡ где - разность рангов признаков х и у для i ой единицы совокупности; n число наблюдаемых единиц. Проверка варьирует в пределах от 1, 0 существенности до +1, 0 (как и линейный коэффициент корреляции). Знак "плюс" указывает на наличие прямой связи, знак Формула используется, "минус" на наличие если отсутствуют обратной связи. связные ранги.
Коэффициенты ассоциации и контингенции ¡ предполагает формирование таблицы сопряженности Признак А А (да) А (нет) Итого В (да) а b а+b В (нет) с d с+d Итого а+с b+d n Признак В где а, b, с, d число единиц совокупности, обладающих определенным сочетанием признаков А и В. n численность совокупности.
Коэффициенты ассоциации и контингенции ¡ ¡ коэффициент ассоциации (Ка): коэффициент контингенции (Кк): При этом чем ближе абсолютная величина данных коэффициентов к единице, тем связь теснее. Знак указывает направление связи.
4. Расчёт и интерпретация однофакторных уравнений регрессии Задачей регрессионного анализа является моделирование корреляционной связи. Это означает, что нужно: ¡ выбрать вид уравнения связи; ¡ определить его параметры; ¡ оценить достоверность найденного уравнения связи.
¡ ¡ Уравнение, описывающее корреляционную связь, называют уравнением корреляционной связи или уравнением регрессии. Линия, построенная по точкам уравнения регрессии, называется теоретической линией регрессии. Линейная зависимость применяется тогда, когда эта форма связи выявляется в результате содержательного анализа характера связей изучаемых явлений или когда форма связи не установлена. При линейной зависимости результативный признак изменяется под влиянием факторного равномерно.
¡ Нахождение параметров уравнения прямой проводится на основе выравнивания по способу наименьших квадратов, что приводит к системе нормальных уравнений: где b коэффициент регрессии. Если связь прямая, то "b" имеет знак "плюс", если связь обратная, то "b" имеет знак "минус".
¡ Коэффициент регрессии показывает, насколько в среднем изменяется результативный признак при изменении факторного признака на единицу. ¡ ¡ ¡ Коэффициент регрессии "b" может быть определён на основе коэффициента корреляции: Коэффициент регрессии применяют для определения коэффициента эластичности: Коэффициент эластичности показывает, на сколько процентов в среднем изменится величина результативно го признака при изменении факторного на один процент.
¡ Достоверность уравнения регрессии оценивают с помощью средней квадратической ошибки уравнения: где n число единиц совокупности; m число параметров уравнения регрессии (для линейной связи m=2); Можно определить доверительные границы результативного признака в генеральной совокупности:
¡ ¡ Так как параметры уравнения регрессии определены по выборочным данным, необходимо оценить их средние квадратические ошибки и доверительные интервалы. Для параметра «а» средняя квадратическая ошибка рассчитывается по следующим формулам: или Если , то значение параметра «а» признается существенным. При этом - соответствует t-критерию Стьюдента при заданном уровне значимости α и (n-2) степенях свободы.
¡ Средняя квадратическая ошибка для параметра «b» определяется по формулам: или Если , значение параметра «b» существенно. Зная средние квадратические ошибки параметров уравнения регрессии, можно определить их доверительные интервалы:
Нелинейные зависимости ¡ Параболическая зависимость ¡ Уравнение гиперболы
¡ Для удобства восприятия средняя квадратическая ошибка уравнения регрессии может быть представлена относительной форме: ¡ Если величина А не превышает 10 15%, делают вывод, о том, что уравнение регрессии достаточно описывает изучаемую корреляционную связь и его можно использовать для целей анализа, планирования и прогнозирования. Средняя ошибка аппроксимации оценивается в процентах и рассчитывается по формуле: ¡ Рекомендуемое значение средней ошибки аппроксимации не более 10%.


