Скачать презентацию Элементы линейного регрессионного и корреляционного анализа План Скачать презентацию Элементы линейного регрессионного и корреляционного анализа План

Элементы линейного регрессионного анализа.ppt

  • Количество слайдов: 27

Элементы линейного регрессионного и корреляционного анализа Элементы линейного регрессионного и корреляционного анализа

План лекции: 1. Функциональная, статистическая и корреляционная зависимость. 2. Система случайных величин. Её функция План лекции: 1. Функциональная, статистическая и корреляционная зависимость. 2. Система случайных величин. Её функция распределения и плотность распределения вероятности. 3. Коэффициент корреляции. 4. Парная линейная регрессия.

Функциональная, статистическая и корреляционная зависимость Одной из основных задач математической статистики является исследование зависимости Функциональная, статистическая и корреляционная зависимость Одной из основных задач математической статистики является исследование зависимости между двумя или несколькими переменными. Две переменные X и У могут быть независимыми или связанными функциональной или статистической зависимостью. Строгая функциональная зависимость реализуется редко, так как хотя бы одна из них подвержена случайным факторам. Пример: Зависимость между переменными задана таблицей: Х 1 4 У 5 8 На основе линейного интерполирования записать функцию Y=F(x). Статистической зависимостью называется взаимосвязь двух признаков или величин; зависимость, при которой изменение одной из величин влечет за собой изменение распределения другой. Статистическая связь существует в том случае, когда с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения, но ее статистические характеристики изменяются по определенному закону.

Примеры: o кн Примеры: o кн

Динамика ВВП и инфляции в период восстановительного роста 1999 -2011 гг. Высшая школа экономики, Динамика ВВП и инфляции в период восстановительного роста 1999 -2011 гг. Высшая школа экономики, Москва, 2013 3

Важнейший частный случай статистической связи – корреляционная связь. Если при изменении одной из величин Важнейший частный случай статистической связи – корреляционная связь. Если при изменении одной из величин изменяется среднее значение другой, то в этом случае статистическую зависимость называют корреляционной. Пример: при увеличении высоты сосен в среднем растет и диаметр их стволов; однако сосны заданной высоты (например, 23 м) имеют распределение диаметров с довольно большим рассеянием. Если в среднем 23 -метровые сосны толще 22 -метровых, то для отдельных сосен это соотношение может заметным образом нарушаться.

o Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII o Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. o В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Цель изучения зависимостей между случайными величинами: прогнозирование с данной вероятностью области значений одной случайной Цель изучения зависимостей между случайными величинами: прогнозирование с данной вероятностью области значений одной случайной величины на основании наблюдаемых значений другой случайной величины. Связь между переменными рассматривают регрессия и корреляция. Они изучают, связана ли одна переменная с одной или несколькими другими. Регрессия – это метод определения математической зависимости между связанными переменными, корреляция – метод измерения силы этой взаимосвязи. Или иначе, регрессия показывает, имеется ли связь, корреляция показывает, насколько это связь сильна и заслуживает ли эта связь того, чтобы ее использовать.

Пример: Рассмотрим компанию, которая исследуют связь между объемами продаж одного из ее продуктов и Пример: Рассмотрим компанию, которая исследуют связь между объемами продаж одного из ее продуктов и количеством денег, потраченных на рекламу этого продукта. o Цель – либо это предсказание объемов будущих продаж, либо это оценивание эффективности рекламной компании. o Регрессия и корреляция основывается на данных, которые уже были когда-то получены, и поэтому первый наш шаг – это сбор этих данных из каких-то записей, источников (квартальные объемы продаж и затраты на рекламу).

Построим график объема продаж и объема затраченных средств на рекламу. Каждая точка относится к Построим график объема продаж и объема затраченных средств на рекламу. Каждая точка относится к одному кварталу. Например, точка «А» относится к кварталу, когда на рекламу было затрачено 12000 ден. единиц, а объем продаж составил 36000 ден. единиц

Регрессия занимается поиском формулы, корреляция показывает силу взаимосвязи. В нашем случае она показывает, будет Регрессия занимается поиском формулы, корреляция показывает силу взаимосвязи. В нашем случае она показывает, будет ли рост рекламных издержек вести к росту продаж, и насколько сильно будет эта тенденция прослеживаться с течением времени.

В статистике принято различать следующие виды зависимости: 1. 2. 3. o Парная корреляция – В статистике принято различать следующие виды зависимости: 1. 2. 3. o Парная корреляция – связь между 2 мя признаками результативным и факторным, либо между двумя факторными. Частная корреляция – зависимость между результативным и одним факторным признаком при фиксированном значении другого факторного признака. Множественная корреляция – зависимость результативного признака от двух и более факторных признаков включенных в исследование. Задачей корреляционного анализа является количественная оценка тесноты связи между признаками. В конце 19 века Гальтон и Пирсон исследовали зависимость между ростом отцов и детей.

Система случайных величин Существуют случайные величины, которые определяются двумя, тремя и т. д. числами. Система случайных величин Существуют случайные величины, которые определяются двумя, тремя и т. д. числами. Такие случайные величины называются двумерными, трехмерными и т. д. Пример 1: u = f(x, y, z), u – зарплата сотрудника, x – квалификация; y – стаж работы сотрудника, z - возраст. В зависимости от типа, входящих в систему случайных величин, системы могут быть дискретными, непрерывными или смешанными, если в систему входят различные типы случайных величин. Будем рассматривать системы двух случайных величин. Упорядоченная пара (Х, Y) случайных величин Х, Y называется двумерной случайной величиной (случайным вектором двумерного пространства).

Закон распределения системы случайных величин Законом распределения системы случайных величин называется соотношение, устанавливающее связь Закон распределения системы случайных величин Законом распределения системы случайных величин называется соотношение, устанавливающее связь между областями возможных значений системы случайных величин и вероятностями появления системы в этих областях. Пример 2: Двумерная СВ (Х, Y) задана законом распределения: Х Y 2 3 4 2 0. 3 0. 15 0. 05 3 0. 15 0. 1 0. 05 4 0. 05 5 0. 05 0 0 Найдем законы распределения Х и Y. Х Р 2 3 4 5 Y Р 2 3 4

Корреляционный момент характеризует связь между СВ Корреляционный момент (ковариация ) двух случайных величин Х Корреляционный момент характеризует связь между СВ Корреляционный момент (ковариация ) двух случайных величин Х и Y называют математическое ожидание произведения их отклонений: cov(X, Y) = M((X-M(X)(Y-M(Y)). После преобразований получим: cov(X, Y) = M(XY)-M(X)M(Y). Если Х, У независимы, то их ковариация равна 0. Практически используются формулы: для ДСВ: для НСВ:

Коэффициентом корреляции rxy случайных величин Х и Y называется отношение корреляционного момента к произведению Коэффициентом корреляции rxy случайных величин Х и Y называется отношение корреляционного момента к произведению средних квадратических отклонений этих величин: Коэффициент корреляции, в отличии от корреляционного момента является безразмерной величиной. 1) Если Х и Y независимы, то коэффициент корреляции равен нулю. 2) | rxy| ≤ 1. 3) | rxy| = 1 Х и Y линейно связаны, т. е. существуют числа a≠ 0 и b: Р(Y=a. X+b)=1. Случайные величины называются коррелированными, если их корреляционный момент отличен от нуля, и некоррелированными, если их корреляционный момент равен нулю.

Варианты диаграмм разброса с разными коэффициентами корреляции Варианты диаграмм разброса с разными коэффициентами корреляции

Пример 6: Для заданного закона распределения двумерной СВ (X, Y) найти коэффициент корреляции: 1) Пример 6: Для заданного закона распределения двумерной СВ (X, Y) найти коэффициент корреляции: 1) Р(Х = 1) = 0, 10 + 0, 20 + 0, 15 = 0, 45; Р(Х= 3) = 0, 05 + 0, 14 + 0. 11 = 0, 30; Р(Х = 4) = 0, 12 + 0, 08 + 0, 05 =0, 25. P(Y =2) = 0, 10 + 0, 05 + 0, 12 = 0, 27; P(Y =3) =0, 20 + 0, 14 + 0, 08 = 0, 42; P(Y =5) = 0, 15 + 0, 11+0, 05 = 0, 31. 2) Находим М(У): М(У) = 2 • 0, 27 + 3 • 0, 42 + 5 • 0, 31 =3, 35. Определяем М(Х): М(Х)= 1 • 0, 45 + 3 • 0, 3 + 4 • 0, 25 = 2, 35. 3) Вычисляем М(Х 2) и М(У 2): М(Х 2) = 1 • 0, 45 + 9 • 0, 3 + 16 • 0, 25 = 7, 15; М(У 2) = 4 • 0, 27 + 9 • 0, 42 + 25 • 0, 31 = 12, 611. 4) D(Х)= 7, 15 -2. 352 =7, 15 -5, 52=1, 63; D(Y)= 12, 61 -3, 352 = 12, 61 - 11, 22 =1, 39. 5) σ(X) = 1. 28; σ(Y) = 1, 18. 6) M(XY)= 1 • 2 • 0, 1 + 1 • 3 • 0, 2 + 1 • 5 • 0, 15 + 3 • 2 • 0, 05 + 3 • 0, 14 + 3 • 5 • 0, 11 + 4 • 2 • 0, 12 + 4 • 3 • 0, 08 + 4 • 5 • 0, 05=7, 68, cov(X, Y) = M(XY)-M(X)M(Y)=7. 68 -2. 35 • 3. 35=-0. 19. 7) r(X, Y) = cov(X, Y)/ (σ(X)σ(Y))=-0. 19/(1. 28 • 1. 18)=-0. 126

Эмпирический корреляционный момент и эмпирический коэффициент корреляции В статистических данных закон распределения не известен, Эмпирический корреляционный момент и эмпирический коэффициент корреляции В статистических данных закон распределения не известен, для оценки тесноты связи применяются эмпирический корреляционный момент и эмпирический коэффициент корреляции.

Линейная регрессия Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые Линейная регрессия Рассмотрим двумерную случайную величину (X, Y), где X и Y – зависимые случайные величины. Представим приближенно одну случайную величину как функцию другой. Точное соответствие невозможно. Будем считать, что эта функция линейная: Для определения этой функции остается только найти постоянные величины и . Функция g(X) называется наилучшим приближением случайной величины Y в смысле метода наименьших квадратов, если математическое ожидание принимает наименьшее возможное значение. Также функция g(x) называется среднеквадратической регрессией Y на X.

Прямая сренеквадратической регрессии Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле: Прямая сренеквадратической регрессии Теорема. Линейная средняя квадратическая регрессия Y на Х вычисляется по формуле: в этой формуле mx=M(X), my=M(Y), коэффициент корреляции величин Х и Y. Величина называется коэффициентом регрессии Y на Х. Прямая, уравнение которой называется прямой сренеквадратической регрессии Y на Х.

Пример 7: Для заданного закона распределения двумерной СВ (X, Y) (см. пример 6) найти Пример 7: Для заданного закона распределения двумерной СВ (X, Y) (см. пример 6) найти уравнение линии средней квадратической регрессии:

Оценка функции регрессии На практике часто используют выборочные уравнения линейной регрессии в виде Для Оценка функции регрессии На практике часто используют выборочные уравнения линейной регрессии в виде Для определения ρ и β используется получаемая на основании МНК система двух линейных уравнений:

Пример 8: С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти Пример 8: С целью анализа взаимного влияния зарплаты и текучести рабочей силы на пяти однотипных фирмах с одинаковым числом работников проведены измерения уровня месячной зарплаты X и числа уволившихся за год рабочих У: Найти линейную регрессию У на X и выборочный коэффициент корреляции.

Для определения ρ и β используем систему двух линейных уравнений Для определения ρ и β используем систему двух линейных уравнений

Для определения ρ и β используем систему двух линейных уравнений Для определения ρ и β используем систему двух линейных уравнений

Прогнозный расчет последствий роста экспорта Китая и Индии для мировой торговли (2020 г. к Прогнозный расчет последствий роста экспорта Китая и Индии для мировой торговли (2020 г. к 2005 г. , изменение доли в %; вторая строчка – с учетом повышения качества) Цивилизации и страны Группа товаров Лес Минерал ы Химическа я продукция Металлы Машины и оборудован ие Электроник а 0, 0 -0, 4 -1, 8 -0, 7 -2, 4 -2, 5 +0, 8 -0, 5 -3, 0 -1, 3 -5, 0 -11, 7 -0, 2 +0, 1 +0, 9 -0, 7 -2, 5 -3, 5 +0, 3 +0, 2 +1, 4 -0, 1 -4, 2 -11, 0 +41, 6 +36, 8 +42, 9 +38, 5 +37, 6 +35, 8 +34, 7 +36, 3 +39, 2 +34, 8 +40, 2 +58, 2 -1, 1 -1, 0 -2, 3 -2, 7 -6, 6 -4, 8 -1, 0 0, 6 -1, 4 -1, 9 -9, 0 -10, 7 +39, 8 +30, 7 +30, 6 +33, 9 +29, 2 +30, 7 +32, 1 +33, 9 +33, 1 +34, 0 +41, 5 +36, 5 Бразилия и Аргентина -1, 0 -2, 0 -3, 2 -4, 5 -3, 1 -0, 9 0, 0 -2, 8 -4, 5 -7, 4 -8, 0 Ближний Восток и Северная Африка -0, 7 -0, 5 -5, 8 -6, 6 -8, 3 -7, 2 -0, 7 +0, 3 -5, 9 -6, 5 -12, 9 -15, 9 Бывший СССР -0, 5 -1, 9 +1, 0 -3, 3 -4, 4 -3, 1 +0, 8 -2, 2 -1, 6 -2, 9 -7, 0 ЕС-25+Ассоциация свободной торговли США Китай Япония Индия 27