Тема 6 Статистические зависимости.ppt
- Количество слайдов: 45
Статистические зависимости Понятие статистической зависимости Качественные методы выявления корреляционной связи Статистические показатели силы корреляционной связи Коэффициенты корреляции рангов Показатели тесноты связи между качественными признаками Основы регрессионного анализа Метод наименьших квадратов Линейная регрессия Статистический анализ регрессионной модели Множественная регрессия 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей.
Понятие статистической зависимости • Объект (статистическая совокупность) находится под воздействием внешних факторов. • Их значения обозначим Xj, , j=1, 2, …J. Величины Xj называют факторными признаками. • Под действием факторов происходит изменение показателя, характеризующего объект или статистическую совокупность. • Этот показатель называют результативным признаком и обозначают Y. • Зависимость результативного признака от факторных обозначим Y=f(X 1, X 2, …, XJ) 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 2
• Связь между двумя переменными x и y называется функциональной, если определенному значению переменной x соответствует одно и только одно значение другой переменной y. • Связь называют статистической, если при одинаковом значении факторного признака результативный признак принимает разные значения. • Статистическая связь возникает, если при определении результативного признака учитывается влияние не всех факторных признаков. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 3
• В статистике рассматривают различные виды статистических связей. Основными являются корреляционная и регрессионная зависимости. • Корреляционная зависимость – это статистическая взаимосвязь двух или нескольких случайных величин (признаков). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. • Если рассматривается связь между двумя признаками, то корреляция называется парной, а если взаимодействующих признаков больше двух – множественной. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 4
• Исследование корреляционных зависимостей (корреляционный анализ) широко применяется в экономике и социальных науках. • Показатели корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. • Изучение корреляционных связей сводится к решению следующих задач: • 1) выявление наличия (отсутствия) корреляционной связи между изучаемыми признаками; • 2) оценка силы связи между признаками. • Методы обнаружения и оценки корреляционной связи: качественные и статистические. • Качественные опираются на понимание, объяснение и интерпретацию эмпирических данных. • Статистические базируются на положениях математической статистики и дают объективные количественные характеристики. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 5
Качественные методы выявления корреляционной связи • 1. Исследование табличных данных – пар значений признаков X и Y каждой из n единиц наблюдения. • Единицы необходимо расположить по возрастанию значений факторного признака X и сравнить с ним (визуально) поведение результативного признака Y. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 6
• 2. Графический метод – графическое изображение корреляционной зависимости. • Каждую пару значений X и Y изображают в виде точки на плоскости с координатами • Совокупность полученных точек представляет собой корреляционное поле При построении графика в Excel следует применять диаграмму типа «Точечная» . 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 7
• 3. Метод корреляционных таблиц предполагает комбинационное распределение единиц совокупности по двум количественным признакам. • В строках таблицы выделяются группы по факторному признаку X, а в столбцах – по результативному Y. • В ячейках таблицы на пересечении записывается число случаев (частоты) fij совпадения каждого значения xi с yj. • В последнем (правом) столбце приведены значения частот признака X: • В последней (нижней) строке – частоты признака Y: 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 8
• Корреляционная таблица 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 9
• О наличии и направлении связи можно судить по расположению в таблице частот fij. • Частоты расположены в ячейках таблицы беспорядочно отсутствии связи между признаками (или о незначительной зависимости). • Частоты сконцентрированы ближе к одной из диагоналей и к центру таблицы, образуя своего рода эллипс, наличие зависимости между X и Y, близкой к линейной. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 10
Статистические показатели силы корреляционной связи • Выборочный коэффициент корреляции характеризует силу и направление линейной связи между признаками • Выборочный ковариационный момент – мера совместной вариации признаков X и Y : 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 11
Свойства коэффициента корреляции 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 12
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 13
• • • Проверка коэффициента корреляции на значимость. Выборочный коэффициент корреляции рассчитывается для ограниченного числа наблюдений. Поэтому он подвержен случайным колебаниям и содержит случайную ошибку. Для того, чтобы оценить существенность связи между признаками X и Y проверяют гипотезу о незначимом отличии генерального коэффициента корреляции от нуля: При проверке гипотезы определяется расчетное отклонение, его величина сравнивается с критическим значением. Если число наблюдений небольшое (n<30), то расчетное отклонение (статистика) вычисляется по формуле 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 14
• Расчетное отклонение распределено по закону Стьюдента с n-2 степенями свободы. • Критическое отклонение есть квантиль распределения Стьюдента • Находится из таблиц или в Excel посредством функции СТЬДРАСПОБР(вероятность; степени свободы). • Вероятность равна /2. Уровень значимости задается или определяется через доверительную вероятность 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 15
• Доверительный интервал для генерального коэффициента корреляции рассчитывают с использованием преобразования Фишера: • Величина z распределена по нормальному закону со средним квадратическим отклонением • 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 16
• Выборочное корреляционное отношение –позволяет оценить силу корреляционной связи любого вида – линейной и нелинейной. • Пусть данные наблюдений над количественными признаками X и Y сведены в корреляционную таблицу. • Это означает, что наблюдаемые значения У разбиты на группы. Каждая группа содержит те значения У, которые соответствуют определенному значению X. • Общую дисперсию признака Y можно представить в виде суммы внутригрупповой и межгрупповой дисперсий: • 1) если Y связан с X функциональной зависимостью, то • 2) если Y связан с X корреляционной зависимостью, то 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 17
• Выборочным корреляционным отношением Y к X называют отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака Y: 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 18
• Свойства выборочного корреляционного отношения 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 19
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 20
Коэффициенты корреляции рангов • Непараметрические показатели оценки тесноты связи между двумя признаками. • Основаны на корреляции не самих значений признаков, а их рангов – порядковых номеров, присваиваемых каждому индивидуальному значению X и Y (отдельно) в ранжированном ряду. • Оба признака необходимо ранжировать (нумеровать) в одном и том же порядке: от меньших значений к большим или наоборот. • Если встречается несколько одинаковых значений X (или Y), то каждому из них присваивается ранг, равный частному от деления суммы рангов (мест в ряду), приходящихся на эти значения, на число равных значений. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 21
• Ранги признаков X и Y обозначают символами Rx и Ry соответственно. • Суждение о связи между изменениями значений X и Y основано на сравнении поведения рангов по двум признакам параллельно. • Если у каждой пары X и Y ранги совпадают, это означает максимально тесную связь. • Если наблюдается полная противоположность рангов, т. е. в одном ряду ранги возрастают от 1 до n, а в другом – убывают от n до 1, это максимально возможная обратная связь. • Коэффициент Спирмена: значения признаков X и Y нумеруют (отдельно) в порядке возрастания от 1 до n, т. е. им присваивают определенный ранг (Rx и Ry) – порядковый номер в ранжированном ряду. • Затем для каждой пары рангов находят их разность и квадраты этой разности суммируют: 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 22
• Коэффициент ρ может принимать значения от 0 до ± 1. • Коэффициент Спирмена учитывает разность только рангов, а не самих значений X и Y , он менее точен по сравнению с линейным коэффициентом. • Его крайние значения (1 или 0) нельзя безоговорочно расценивать как свидетельство функциональной связи или полного отсутствия зависимости между X и Y. • Во всех других случаях, т. е. когда ρ не принимает крайних значений, он близок к выборочному коэффициенту корреляции. • Важно, что для получения адекватного результата необязательно наличие нормального закона распределения коррелируемых рядов. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 23
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 24
• Коэффициент корреляции рангов Кендалла τ : расчет также начинается с ранжирования значений признаков X и Y. • Ранги X (Rx) располагают строго в порядке возрастания и параллельно записывают соответствующее каждому Rx значение Ry. • Каждому Ry определяют число следующих за ним рангов, превышающих его значение, и число рангов, меньших по значению. • Первые ( «правильное» следование) учитываются как баллы со знаком «+» , и их сумма обозначается буквой Р. • Вторые ( «неправильное» следование) учитываются как баллы со знаком «–» , и их сумма обозначается буквой Q. • Коэффициент корреляции рангов Кендала равен: 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 25
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 26
• Преимущества ранговых коэффициентов корреляции Спирмена и Кендалла: • - простота расчетов; • - позволяют изучать и измерять связь не только между количественными, но и между качественными (описательными) признаками, ранжированными определенным образом. - не требуется знать форму связи изучаемых явлений. • Если число ранжируемых признаков больше двух, то для измерения тесноты связи между ними используют предложенный М. Кендаллом и Б. Смитом коэффициент конкордации (множественный коэффициент ранговой корреляции). 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 27
Показатели тесноты связи между качественными признаками • Метод корреляционных таблиц применим не только к количественным, но и к описательным (качественным) признакам. • Такие таблицы называют таблицами сопряженности. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 28
• Критерий Пирсона χ2 позволяет судить о случайности (или неслучайности) распределения в таблицах взаимной сопряженности, а, следовательно, и об отсутствии или наличии зависимости между признаками группировки. • В таблице взаимной сопряженности наряду с эмпирическими частотами записывают теоретические частоты, рассчитываемые исходя из предположения, что распределение внутри таблицы случайно и, следовательно, зависимость между признаками группировки отсутствует. • То есть считается, что распределение частот в каждой строке (столбце) таблицы пропорционально распределению частот в итоговой строке (столбце). 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 29
χ2 крит=6, 63 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 30
• Применительно к таблице «четырех полей» , частоты которых обозначены через a, b, c, d, рассчитывают коэффициент ассоциации (Д. Юла) • Коэффициент контингенции Пирсона: • Связь считается достаточно значимой и подтвержденной, если >0, 5 или >0, 3. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 31
Основы регрессионного анализа • Задачи регрессионного анализа: • 1) подобрать класс функций, в котором целесообразно искать наилучшую аппроксимацию искомой зависимости; • 2) найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости; • 3) установить адекватность полученного уравнения искомой зависимости; • 4) выявить наиболее информативные входные переменные (факторы). • Совокупность перечисленных задач и составляет предмет исследований регрессионного анализа. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 32
• Исходные предположения • Требуется построить математическую модель, связывающую факторные признаки Х 1, . . . , Хр и результативный признак Y. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 33
• При выборе аппроксимирующей функции (модели регрессии): • 1) задают класс допустимых моделей регрессии, т. е. класс функций, среди которых ищут наилучшую аппроксимирующую функцию; • 2) выбирают критерий, по которому получают наилучшую аппроксимирующую функцию из заданного класса. • Проблема выбора параметрического семейства функций не имеет формализованных процедур для своего решения. • Иногда выбор определяют на основе экспериментальных данных или из теоретических соображений. • Чаще о механизме явления ничего не известно. Тогда аппроксимирующая ее функция может быть представлена в виде линейной комбинации некоторого набора линейно независимых базисных функций 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 34
• При выборе критерия используют функцию • В случае функции получаемую регрессию называют средней квадратичной, а метод, реализующий минимизацию функционала , принято называть методом наименьших квадратов (МНК). 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 35
Метод наименьших квадратов • • Предположения, лежащие в его основе МНК: 1) отсутствует систематическая погрешность модели; 2) случайные ошибки некоррелированы; 3) в любых точках факторного пространства случайные ошибки имеют одинаковую дисперсию; • 4) значения факторных переменных в процессе наблюдения измеряются без ошибок. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 36
• Функция регрессии неизвестна. • Аппроксимирующая функция • Отклонения экспериментальных точек от аппроксимирующей функции невязки (остатки). • Сумма квадратов остатков • Условием существования МНК-оценки параметра является равенство нулю ее частных производных 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 37
Линейная регрессия • Результат У зависит от одного фактора X. • Приближение искомой функции регрессии • Сумма квадратов невязок равна: • Система нормальных уравнений 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 38
• Оценки коэффициентов 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 39
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 40
Статистический анализ регрессионной модели • Проверка значимости параметров модели регрессии означает проверку гипотезы против альтернативной гипотезы • Если гипотеза принимается, то коэффициент незначим и может быть удален из модели. • Проверку гипотез проводят по критерию Стьюдента. • Расчетные отклонения равны: 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 41
• Доверительные интервалы оценок коэффициентов линейной регрессии равны • Границы доверительной области линейной регрессии • Коэффициент детерминации 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 42
45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 43
Множественная регрессия • Модель линейной множественной регрессии: • Система нормальных уравнений 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 44
• Множественный коэффициент детерминации • Чем ближе значение к 1, тем точнее уравнение множественной линейной регрессии отражает реальную связь между результативным и факторным признаками. 45 Ф. В. Голик Тема 6. Анализ статистических зависимостей. 45


