Методы исследования зависимостей 1. Корреляционный анализ (КА) 2.

Скачать презентацию Методы исследования зависимостей 1. Корреляционный анализ (КА) 2. Скачать презентацию Методы исследования зависимостей 1. Корреляционный анализ (КА) 2.

Семинар_1(корреляция_2мерная модель).ppt

  • Количество слайдов: 20

>Методы исследования зависимостей 1. Корреляционный анализ (КА) 2. Регрессионный анализ (РА) Методы исследования зависимостей 1. Корреляционный анализ (КА) 2. Регрессионный анализ (РА)

> Корреляция – это взаимосвязь (взаимозависимость) Главная задача КА: n Оценка взаимосвязи между переменными Корреляция – это взаимосвязь (взаимозависимость) Главная задача КА: n Оценка взаимосвязи между переменными величинами на основе выборочных данных.

>Различают два вида зависимостей между экономическими явлениями: функциональную и стохастическую n При функциональной зависимости Различают два вида зависимостей между экономическими явлениями: функциональную и стохастическую n При функциональной зависимости имеет место однозначность отображения множества значений изучаемых величин, т. е. существует правило y=f(x) - соответствия независимой переменной х и зависимой переменной у. В экономике примером функциональной связи может служить зависимость производительности труда от объема произведенной продукции и затрат рабочего времени. n Стохастической называется зависимость случайной величины, при которой изменение значения одной величины приводит к изменению законов распределения остальных. Например, при изучении потребления электроэнергии у в зависимости от объема производства х каждому значению х соответствует множество значений у и наоборот.

>Замечание Множественность результатов при анализе связи х и у объясняется прежде всего тем, что Замечание Множественность результатов при анализе связи х и у объясняется прежде всего тем, что зависимая переменная у испытывает влияние не только фактора х, но и целого ряда других факторов, которые не учитываются. Кроме того, влияние выделенного фактора может быть не прямым, а проявляется через цепочку других факторов. Корреляционная зависимость – это зависимость, при которой изменение значения аргументов Х 1, …. , Хn приводят к изменению только математического ожидания результативного признака У, т. е. у = МУ/Х =У(Х 1, …. Хn).

> При изучении корреляционной зависимости между переменными возникают следующие задачи: 1. Измерение силы (тесноты) При изучении корреляционной зависимости между переменными возникают следующие задачи: 1. Измерение силы (тесноты) связи. 2. Отбор факторов, оказывающих наиболее существенное влияние на результативный признак. 3. Обнаружение неизвестных причин связей. 4. Построение корреляционной модели и оценка ее параметров. 5. Проверка значимости параметров связи. 6. Интервальное оценивание параметров связи.

> Двумерная корреляционная модель n Рассмотрим случай изучения корреляционной зависимости между двумя признаками Y Двумерная корреляционная модель n Рассмотрим случай изучения корреляционной зависимости между двумя признаками Y и X. n Построение двумерной корреляционной модели предполагает, что закон распределения двумерной случайной величины в генеральной совокупности является нормальным, а выборка репрезентативной.

> Плотность двумерного нормального закона распределения задается формулой: И определяется пятью параметрами: 1. МХ= Плотность двумерного нормального закона распределения задается формулой: И определяется пятью параметрами: 1. МХ= х- математическое ожидание Х; 2. МY= y- математическое ожидание Y; 3. DX= 2 x- дисперсия Х; 4. DY= 2 y- дисперсия Y; 5. ρ - парный коэффициент корреляции, характеризует тесноту линейной связи между величинами Х и Y.

> Точечные оценки в КА n Для получения точечных оценок параметров двумерной корреляционной модели Точечные оценки в КА n Для получения точечных оценок параметров двумерной корреляционной модели обычно используют метод моментов, т. е. в качестве точечных оценок неизвестных начальных моментов первого и второго порядков генеральной совокупности берутся соответствующие выборочные моменты, и расчеты производят в соответствии со следующими формулами:

>оценка для х; оценка для у; оценка для М(X 2); М(Y 2); оценка для оценка для х; оценка для у; оценка для М(X 2); М(Y 2); оценка для х 2 ; у 2 ; оценка для ; для М(XY).

>Заметим, что n Полученные оценки являются состоятельными, а также обладают свойствами несмещенности и эффективности. Заметим, что n Полученные оценки являются состоятельными, а также обладают свойствами несмещенности и эффективности. Следует отметить, что в корреляционной модели распределение выборочных средних не зависит от законов распределения S 2 x, Sy 2, r. n Парный коэффициент корреляции в силу своих свойств является одним из самых распространенных способов измерения связи между случайными величинами в генеральной совокупности; для выборочных данных используется эмпирическая мера связи r.

>Коэффициент корреляции n Величина его лежит в пределах (-1 до +1). n Значение = Коэффициент корреляции n Величина его лежит в пределах (-1 до +1). n Значение = 1 свидетельствует о наличии функциональной зависимости между рассматриваемыми признаками. n Если =0, можно сделать вывод, что линейная связь между х и у отсутствует, однако это не означает, что они статистически независимы. В этом случае не отрицается возможность существования иной формы зависимости между переменными. n Отрицательный знак коэффициента свидетельствует об отрицательной корреляции.

> Коэффициент корреляции n Положительный знак коэффициента корреляции указывает на положительную корреляцию, т. е. Коэффициент корреляции n Положительный знак коэффициента корреляции указывает на положительную корреляцию, т. е. все данные наблюдения лежат вблизи прямой с положительным углом наклона в плоскости ху и с увеличением х растет у. Когда х уменьшается, то у уменьшается. n Чем ближе значение |r| к единице, тем связь теснее, приближение |r| к нулю означает ослабление линейной зависимости между переменными. n При |r|=1 корреляционная связь перерождается в функциональную.

> Поле корреляции n представляет собой диаграмму, на которой изображается совокупность значений двух признаков. Поле корреляции n представляет собой диаграмму, на которой изображается совокупность значений двух признаков. Каждая точка этой диаграммы имеет координаты (xi, yi), соответствующие размерам признаков в i-м наблюдении. у y r<0 r=0 r>0 х x

> Параметры связи n В двумерной модели параметрами связи являются коэффициент корреляции или коэффициент Параметры связи n В двумерной модели параметрами связи являются коэффициент корреляции или коэффициент детерминации 2 n По результатам выборки рассчитывают их точечные оценки r 2, проверяют гипотезу о значимости (существенности) параметров. n Коэффициент детерминации 2 объясняет долю дисперсии случайной величины У, объясняемую вариацией Х, а (1 - 2) или оценка (1 -r 2), объясняют остаточную дисперсию У, объясняемую другими факторами, неучтенными в модели. Например, r 2=0, 81, то 81% дисперсии У объясняется вариацией Х.

> Остаточная дисперсия. Дисперсия переменной У может быть представлена в виде: - выборочная дисперсия Остаточная дисперсия. Дисперсия переменной У может быть представлена в виде: - выборочная дисперсия регрессии У по Х, объясняемая вариацией переменной Х, а - остаточная дисперсия, объясняемая другими, неучтенными в модели факторами. формула Остаточной (условной) дисперсии: регрессии У по Х регрессии Х по У

> Проверка гипотезы Н 0: =0. n В двумерной модели достаточно проверить значимость только Проверка гипотезы Н 0: =0. n В двумерной модели достаточно проверить значимость только коэффициента корреляции n Если на уровне значимости гипотеза отвергается, то коэффициент корреляции считается значимым и рассчитанное по выборке значение r может быть использовано в качестве его точечной оценки. n Если коэффициент корреляции оказывается незначимым, то гипотеза не отвергается и на практике обычно принимают, что х и у в генеральной совокупности линейно независимы.

>Выделяют 2 способа проверки гипотезы n 1 -й на основе таблицы Фишера-Иейтса находят по Выделяют 2 способа проверки гипотезы n 1 -й на основе таблицы Фишера-Иейтса находят по таблице rтабл( , =n-2) и сравнивают рассчитанное значение r: если | r | > rкр, то гипотеза Но отвергается, т. е. ρ – значим. n 2 -й способ на основе t-критерия Стьюдента рассчитывают статистику tнабл = и сравнивают с найденным по таблице tкр(α; ν = n -2): если | tнабл | > tкр, то гипотеза Но отвергается, т. е. ρ – значим. А при n>100: =Ф(tтабл), т. е, если |tнабл|≤tтабл, то гипотеза Н 0 не отвергается, где

> Интервальные оценки n Для двумерной корреляционной модели, если гипотеза Но: ρ = 0 Интервальные оценки n Для двумерной корреляционной модели, если гипотеза Но: ρ = 0 отвергается, то параметры связи ρ, βху и βух считаются значимыми, и есть смысл найти интервальные оценки, которые с заданной надежность содержат истинные значения параметров. n А для этого надо знать закон распределения выборочных оценок параметров. Плотность вероятности выборочного коэффициента корреляции (r) имеет сложный вид, поэтому используют специально подобранные функции от выборочного коэффициента корреляции, которые подчиняются хорошо изученным законам, например, нормальному или Стьюдента.

>Доверительный интервал для генерального коэффициента корреляции с надежностью γ используют преобразование Фишера (или Z-преобразование): Доверительный интервал для генерального коэффициента корреляции с надежностью γ используют преобразование Фишера (или Z-преобразование): 1) по таблице 6 определяют Zr; 2) находят интервальную оценку для М(z): или где аγ=Ф 3) обратное преобразование от Zr к ρ: , помня, что z(-r) = - z(r), получают

>Задача. Производительность труда, Х 5 4 3 20 15 Себестоимость продукции, У 7 10 Задача. Производительность труда, Х 5 4 3 20 15 Себестоимость продукции, У 7 10 12 2 5 4 Найти: n а) выборочный коэффициент корреляции между Х и У; n б) выборочный коэффициент детерминации; n в) проверить значимость генерального коэффициента корреляции при α=0, 05; n г) с надежностью γ=0, 95 найти границы доверительного интервала для генерального коэффициента корреляции.