6 корреляция.ppt
- Количество слайдов: 106
Величина коэффициента корреляции До Характер связи Практически отсутствует Слабая Умеренная Сильная
№ студе нта Балл в сессию (y) Кол-во пропущенных семинаров (x) 1 2 3 4 5 6 7 8 9 5 3 4 4 3 2 5 4 5 10 3 Присоединенные параллельные данные x y 1 8 3 5 8 10 2 4 2 1 2 2 3 4 5 6 8 8 5 5 5 4 4 4 3 3 3 6 10 2
Статистическую связь между двумя признаками можно изобразить графиком с помощью поля корреляции значения результативного признака значения факторного признака
y 5 4 3 2 2 4 6 8 10 Кол-во пропущенных семинаров x
Характеризует связь между результативным и факторным признаком Аналитически связь описывается уравнениями Прямой Гиперболы Параболы
Система уравнений для нахождения параметров линейной парной регрессии: n – объем исследуемой совокупности (число единиц наблюдения)
Число профессион Совокупная № п/п выручка, алов, чел. млн. руб. (y) (x) x 2 xy yx 1 23 2, 62 529 60, 26 2, 661 2 32 3, 04 1024 97, 28 2, 967 3 50 3, 15 2500 157, 50 3, 579 4 53 3, 83 2809 202, 99 3, 681 5 55 3, 58 3025 196, 90 3, 749 6 58 4, 08 3364 236, 64 3, 851 7 59 4, 09 3481 241, 31 3, 885 8 62 4, 20 3844 260, 40 3, 987 9 69 4, 18 4761 288, 42 4, 225 10 75 4, 24 5625 318, 00 4, 429 Итог: 536 37, 01 30962 2059, 7 37, 010
При увеличении числа профессионалов на 1 человека её совокупная выручка увеличивается в среднем на 34 тыс. руб.
Балансо вая прибыль, млн. руб. (y) Объем произведенной продукции, млн. руб. (x) 300400 400500 500600 600700 700800 350 450 550 650 750 10 -20 15 2 2 20 -30 25 4 1 30 -40 35 2 5 4 40 -50 45 3 8 2 50 -60 55 2 4 30 10500 5 125 46250 11 385 180250 13 585 317250 3 9 495 327250 1620 881500 8 9 14 6 3 40 2800 4050 7700 3900 2250 20700 98000 18225 0 00 42350 00 25350 00 16875 00 11260 000 42, 6 51, 7 55, 0 25, 0 37, 2
Считая, что зависимость описывается уравнением прямой, коэффициенты а 0 и а 1 определяются из системы нормальных уравнений:
По 1 ой группе:
По 2 ой группе:
При увеличении объема выпуска на 1 млн. руб. балансовая прибыль в среднем увеличивается на 80 тыс. руб.
Если связь между признаками криволинейная и описывается уравнением параболы 2 ого порядка, то система нормальных уравнений имеет вид:
Оценка обратной зависимости между х и у осуществляется на основании уравнения гиперболы
Характеризующих зависимости между социально-экономическими движениями - Линейная - Степенная
- Показательная - Параболическая - Гиперболическая
№ банка 1 2 3 4 5 6 7 Итого Сумма активов(y) 3176 3066 2941 1997 1865 1194 518 14757 Кредитные вложения, (x 1) 2496 1962 783 1319 1142 658 311 8671 Собственн о капита, (x 2) 209 201 177 136 175 88 60 1046 7927296 6015492 2302803 2634043 2129830 785652 16198 21956214 6230016 3849444 613089 1739761 1304164 432964 96721 14266159 10086976 9400356 86494481 3988009 3478225 1425636 268324 37297007 521664 394362 138591 179384 199850 57904 18660 1510415 43681 40401 31329 18496 30625 7744 3600 175876 663784 616266 520557 271592 326375 105072 31080 2534726 3153* 3000 2554 1886 2533 1057 574 14757
Система нормальных уравнений имеет вид:
При увеличении кредитных вложений на 1 млн. руб. и собственного капитала коммерческих банков на 1 млн. руб. стоимость их активов в среднем увеличивается на 0, 0368 млн. руб. и 16, 77 млн. руб.
Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента – дисперсия коэффициента регрессии
Параметр модели признается статистически значимым, если – уровень значимости проверки гипотезы о равенстве нулю параметров, измеряющих связь – число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности
– дисперсия результативного признака – число факторных признаков в уравнении
– величина множественного коэффициента корреляции по фактору xi с остальными факторами
Проверка адекватности всей модели осуществляется с помощью расчета F-критерия и величины средней ошибки аппроксимации E Если при или То – гипотеза о несоответствии заложенных в уравнение регрессии связей реально существующим отвергается
n – число наблюдений k – число факторных признаков в уравнении
не должно превышать 12 -15%
– среднее значение соответствующего факторного признака – среднее значение результативного признака – коэффициент регрессии при соответствующем факторном признаке
По данным о сумме актов (y) кредитных вложений (x 1) и величине собственного капитала (х2) коммерческих банков рассчитать коэффициент эластичности
При увеличении кредитных вложений и собственного капитала на 1% стоимость актов в среднем возрастает собственно на 0, 02 и 1, 19%
– парный коэффициент корреляции между результативным и i-ным факторным признаками – соответственный коэффициент уравнения множественной регрессии в стандартизированном масштабе
Рассчитать частный коэффициент детерминации для фактора x 1 – кредитного вложения 1) 2) ;
3) 4) 5)
6) 2% вариации стоимости активов объясняется изменением величины кредитных вложений
Рассчитать частный коэффициент детерминации для фактора x 2 – собственный капитал 1) 2) ;
3) 4) 5)
6) На 88% изменение стоимости активов объясняется изменением собственного капитала
– используется для более точной оценки влияния каждого факторного признака на моделируемый – коэффициент вариации соответствующего факторного признака
Рассчитать Qx 1 для фактора x 1 – кредитного вложения 1) 2)
Рассчитать Qx 2 для фактора x 2 – собственный капитала 1) 2)
Различные модификации ф-ии для расчета данного коэффициента: 1) 2)
При изучении совокупностей малого объема: 3) 4) (Через дисперсии слагаемых)
– коэффициент регрессии в уравнении связи – среднее квадратичное отклонение, соответствующее статистически существенным факторным признакам
Значение линейного коэффициента связи Характер связи r=0 Отсутствует 0
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента при n<50
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента при n>100
Оценить тесноту связи между стоимостью активов (y) и кредитными вложениями (x 1) 1) 2)
Проверка значимости: Коэффициент корреляции значим
– общая дисперсия – межгрупповая дисперсия
– дисперсия выровненных значений результативного признака – дисперсия эмпирических (фактических) значений результативного признака
По данным группировки 40 предприятий легкой промышленности по величине балансовой прибыли и объему произведенной продукции определить эмпирическое корреляционное отношение
25, 0 8 -15, 5 240, 25 1922, 0 37, 2 9 -3, 3 10, 89 98, 01 42, 6 14 2, 1 4, 41 61, 74 51, 7 6 11, 2 125, 44 752, 64 55, 0 3 14, 5 210, 25 630, 75 Итого 40 3465, 4
Связь сильная
– общая дисперсия результативного признака – остаточная дисперсия
• В случае оценки связи между результативным и 2 мя факторными признаками определяется по формуле: r – парные коэффициенты корреляции между признаками
• Используя парные коэффициенты rij и коэффициенты регрессии в стандартизированном масштабе , рассчитывается по формуле:
Чтобы оценить общую вариацию результативности признака в зависимости от факторных признаков, коэффициент корректируется на основании выражения: k n – число факторных признаков – число наблюдений Не корректируется, если:
Проверка значимости коэффициента осуществляется на основании
Гипотеза коэффициента о незначимости отвергается Если:
По данным о сумме актов кредитных вложений и величине собственного капитала коммерческих банков рассчитать коэффициент множественной корреляции и проверить его значимость: 1) 3) 2)
4) Связь сильная, факторы x 1 и x 2 практически полностью обуславливают величину y.
Проверка значимости: Гипотеза о незначимости коэффициента отвергается
В случае зависимости y от 2 x факторных признаков: r – парные коэффициенты корреляции между указанными в индексе переменными
По данным о сумме актов кредитных вложений и величине собственного капитала коммерческих банков рассчитать частные коэффициенты корреляции и проверить их значимость: 1) 2) 3)
4) 5)
6)
Проверка значимости: 1) 2) 3)
Проверка значимости: 4) Не все полученные коэффициенты корреляции значимы
a b a+b c d c+d a+c b+d a+b+c+d
всегда Связь считается подтвержденной
Из них Семейное положение Число вкладчиков, чел. Одинокие 400 250 150 Семейные 1250 800 450 Итого: 1650 1050 600 Не Имеющие имеющие сбережен ия ия
y I II III Итого: I … … nyx nx II … … nx III … … nx Итого: ny ny x ny nx
– определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки минус 1
k 1 – число значений (групп) 1 ого признака k 2 – число значений (групп) 2 ого признака
Категории сотрудников Образова Итого: Руковод ние Служащие Рабочие ители Высшее Неполное высшее Среднее специаль ное Среднее общее Итого: 10 30 5 45 7 25 10 42 2 15 50 67 1 10 25 36 20 80 90 190
Связь близка к умеренной
-наиболее распространенный критерий согласия, используемый для проверки статистической гипотезы о виде распределения
(По данным таблицы об уровне образования сотрудников)
k 1 – число строк в таблице k 2 – число граф в таблице n – число наблюдений
(По данным таблицы об уровне образования сотрудников) Связь средняя
и – средние в группах – среднее квадратичное отклонение фактических значений признака от среднего уровня – доля первой группы – доля второй группы – табулированные значения zраспределения в зависимости от p
(Зависимость возраста и социального положения эмигрантов) Возраст, лет Основные категории потенциальных эмигрантов 50 и Всего, больше чел. : До 30 30 -40 40 -50 25 35 45 55 Руководители 5 30 39 26 100 Рабочие 21 38 28 13 100 Итого: 26 68 67 39 200
Связь умеренная
c – число совпадений знаков Н – число несовпадений отклонений знаков отклонений
– связь между признаками функциональная – связь отсутствует – связь обратная, с увеличением/снижением х снижается/увеличивается у – связь прямая, с увеличением/снижением х увеличивается/снижается у
№п/п Совокупная Общая численность выручка, профессионалов, чел. млн. руб. (y) (x) Знаки оклонений 1 2, 62 23 – – 2 3, 04 32 – – 3 3, 15 50 – – 4 3, 83 53 + – 5 3, 58 55 – + 6 4, 08 58 + + 7 4, 09 59 + + 8 4, 20 62 + + 9 4, 18 69 + + 10 4, 24 75 + + Итого 37, 01 536 Средняя 3, 701 53, 6
Связь между совокупной выручкой и численностью профессионалов аудиторско-консультационных фирм прямая и умеренная
2 di – квадрат разности рангов n – число наблюдений (число пар рангов)
Значимость коэффициента Спирмэна проверяется на основе t-критерия Стьюдента Значение статистически существенно
Объем Предп реализ. рияти продукц. , е млн. руб. (x) Балансов ая прибыль, млн. руб. (y) x Rx y Ранжирование Сравне ние рангов Ry Rx Ry di= Rx-Ry 1 1, 8 20 1, 3 1 20 1 2 1 1 1 2 2, 3 75 1, 8 2 42 2 3 3 0 0 3 8, 6 42 2, 3 3 75 3 10 2 8 64 4 1, 3 80 3, 5 4 80 4 1 4 -3 9 5 3, 5 107 3, 7 5 107 5 4 5 -1 1 6 3, 8 125 3, 8 6 125 6 6 6 0 0 7 4, 5 140 4, 5 7 140 7 7 7 0 0 8 5, 8 175 5, 8 8 175 8 8 8 0 0 9 3, 7 200 6, 5 9 200 9 5 9 -4 16 10 6, 5 210 8, 6 10 210 10 9 10 -1 1 Итого 92
Связь близка к умеренной
S – сумма разностей между числом последовательностей и числом инверсий по 2 ому признаку n – число наблюдений
(По данным группы предприятий) x 1, 3 1, 8 2, 3 3, 5 3, 7 3, 8 4, 5 5, 8 6, 5 8, 6 Итого: y 80 20 75 107 200 125 140 175 210 42 Ry 4 1 3 5 9 6 7 8 10 2 P 6 8 6 5 1 3 2 1 0 0 Q 3 0 1 1 4 1 1 0 32 -13
Связь близка к умеренной
Связь статистически значима Как правило При достаточно больших объемах совокупности
m – количество факторов n – число наблюдений S – отклонение суммы квадратов рангов от средней квадратов рангов
Значимость коэффициента конкордации проверяется на основе -критерия Пирсона
Собстве Стоимость Кредитные нный активов, вложения, Банк капитал, млн. руб. (y) (x 1) (x 2) Ry Rx 1 Rx 2 Сумма строк Квад раты сумм 1 3176 2496 209 7 7 7 21 441 2 3066 1962 201 6 6 6 18 324 3 2941 783 177 5 3 5 13 169 4 1997 1319 136 4 5 4 12 144 5 1865 1142 175 3 4 3 11 121 6 1194 658 88 2 2 2 6 36 7 518 311 60 1 1 1 3 9 84 1244 Итог
По таблице «распределение Пирсона» ( -распределение) Коэффициент конкордации значим, связь между признаками сильная