15.Корреляция.ppt
- Количество слайдов: 65
Корреляционно-регрессионный анализ Тема 15
1. Корреляционный анализ 2. Регрессионный анализ 3. Множественная регрессия
Литература n n n Малхотра Н. К. Маркетинговые исследования: Практ. руководство. 3 -е изд. М. : Изд. дом «Вильямс» , 2002. Черчилль Г. А. , Якобуччи Д. Маркетинговые исследования. 8 -е издание. – СПб. : Издательский Дом «Нева» , 2004. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. – СПб. : ООО «Диа. Софт. ЮП» , 2002.
1. Корреляционный анализ
Три основные цели изучения взаимосвязей n n n Описание и понимание взаимосвязей Прогнозирование и предсказание нового наблюдения Регулирование и управление процессом
Два базовых инструмента, с помощью которых анализируются двумерные данные n n Корреляционный анализ, позволяющий оценить степень взаимосвязи между двумя факторами Регрессионный анализ, показывающий, как можно предсказать или управлять одной переменной с помощью другой
Существуют два базовых инструмента корреляционного анализа: n n Построение диаграммы рассеяния; Расчет коэффициента корреляции.
Диаграмма рассеяния представляет каждое наблюдение (или элементарную единицу) в пространстве двух измерений, соответствующих двум факторам.
n переменная, рассматриваемая как «причина» , влияющая на другую переменную обозначается Х горизонтальная ось n реагирующая на влияние переменная обозначается У вертикальная ось
Сведения об итогах работы агентов предприятия по продаже
Диаграмма рассеяния
Корреляция, или коэффициент корреляции (R) - число в диапазоне от -1 до 1, характеризующее силу взаимосвязи в данных
Интерпретация коэффициента корреляции
Интерпретация коэффициента корреляции
Формула коэффициента корреляции
Линейная взаимосвязь, R=0, 974
Линейная взаимосвязь, R=0, 790
Линейная взаимосвязь, R= -0, 654
Отсутствие взаимосвязи, R=0, 11
Нелинейная взаимосвязь, R=-0, 895
Нелинейная взаимосвязь, R=-0, 0155
Кластеринг во взаимосвязи, R=0, 867 R=0. 993
Резко отклоняющееся значение нарушило корреляцию, R=-0, 623
Та же совокупность данных без выброса, R=0, 869
2. Регрессионный анализ
Термином линейный регрессионный анализ обозначают прогнозирование одной переменной на основании другой, когда между этими переменными существует линейная взаимосвязь
Переменные в регрессионном анализе
Линия регрессии
Уравнение линии регрессии y = cдвиг + (наклон) (x) = a + bx Строится методом наименьших квадратов
Насколько полезна построенная линия определяют по двум показателям n n стандартная ошибка оценки (S) (абсолютная мера величины ошибок прогнозирования) коэффициент детерминации (R 2) (относительная мера того, как много удалось объяснить)
Стандартная ошибка оценки n n Можно ожидать, что примерно 2/3 точек данных будут находиться на расстоянии не более S выше или ниже линии регрессии. Около 95% значений данных должны находиться не расстоянии не более чем 2 S от линии регрессии.
Стандартная ошибка оценки
Коэффициент детерминации R 2 n n показывает в какой степени изменчивость y объясняется поведением x вычисляется путем возведения коэффициента корреляции в квадрат
Например, коэффициент корреляции между количеством выпущенных изделий в неделю и затратами на их производство равняется R=0, 869. Следовательно, значение R 2=0, 755 или 75, 5% Это говорит о том, что 75, 5% вариации недельных затрат объясняется количеством изделий, выпущенных за неделю. Остальная часть (24, 5%) вариации общих затрат объясняется другими причинами.
Пример Фирма - крупный производитель шариковых ручек решила оценить эффективность своих маркетинговых усилий. Она использует для сбыта своих ручек региональных оптовых продавцов, собственных торговых производителей и дополняет их действия рекламой на телевидении. В качестве критерия эффективности работы используется показатель территориальных продаж.
Диаграмма рассеяния объема сбыта для разных вариантов рекламы
Диаграмма рассеяния объема сбыта для разного количества торговых представителей
Диаграмма рассеяния объема сбыта для разного индекса эффективности работы оптовых торговцев
Коэфф ициент ы Станд артна t. Pя стати Знач ошибк стика ение а Yпересече ние 123, 9 32, 6 3, 8 Перемен ная X 1 25, 7 2, 8 9, 2 Нижние 95% Верхние 95% 0, 0 57, 9 189, 9 0, 0 20, 0 31, 3
3. Множественная регрессия: прогнозирование одного фактора на основе нескольких других
Прогнозирование единственной переменной Y на основании двух или нескольких переменных X называется множественной регрессией
Множественная регрессия используется в следующих целях n n n Описание и понимание взаимосвязи Прогнозирование (предсказание) нового наблюдения Регулирование и управление процессом
Примеры переменных множественной регрессии
Входные данные для множественной регрессии
Результаты множественного регрессионного анализа
Результаты множественного регрессионного анализа
Результаты множественного регрессионного анализа
Результаты множественного регрессионного анализа
Сложности и проблемы, связанные с множественной регрессией n n n Проблема мультиколлинеарности Проблема выбора переменных Проблема неправильного выбора модели
Проблема мультиколлинеарности возникает когда какие-то из объясняющих X-переменных слишком схожи между собой и множественная регрессия не в состоянии отличить влияние одной переменной от влияния другой переменной.
Существование мультиколлинеарности определяется с помощью анализа корреляций для каждой пары переменных. Чем выше коэффициент корреляции между двумя X-переменными, тем больше мультиколлинеарность.
Индекс Реклама Число эффективно (количеств торговых сти работы о показов в представите оптовых месяц) лей торговцев Реклама (количество показов в месяц) Число торговых представител ей Индекс эффективнос ти работы оптовых 1 0, 653 0, 032 1 -0, 125
Статистический результат мультиколлинеарности заключается в росте стандартных ошибок некоторых или всех коэффициентов регрессии. В результате доверительные интервалы для соответствующих коэффициентов регрессии значительно расширяются, а t-тесты не будут значимыми.
Выбор переменных. Может быть, мы пользуемся «не теми» переменными? Включение лишней X-переменной, как и игнорирование необходимой Xпеременной приводит к искажению результатов множественной регрессии.
Для определения круга важных Xпеременных следует проанализировать решаемую задачу, имеющиеся данные и цели, которых вы хотите добиться. Затем необходимо составить список X-переменных, классифицированных по приоритетам.
Автоматизация процесса выбора переменных предполагает анализ всех подмножеств X-переменных. Если вы располагаете тремя независимыми X-переменными необходимо исследовать восемь подмножеств этих переменных, десятью - 1024 подмножества.
Неправильный выбор модели n n уравнение регрессии неадекватно описывает истинную взаимосвязь наблюдается неравная изменчивость Y имеются одно или несколько резко отклоняющихся значений или кластеров случайная компонента модели множественной регрессии зависит от различных периодов времени
С целью выявления нелинейности или неравной изменчивости следует n n проанализировать все возможные диаграммы рассеянья (каждая диаграмма соответствует определенной паре переменных); использовать диагностическую диаграмму.
Диагностическая диаграмма для множественной регрессии Представляет собой диаграмму рассеяния ошибок прогнозирования (остатков) в зависимости от прогнозируемых значений. Значения остатков откладываются по вертикальной оси, прогнозируемые значения - по горизонтальной.
Диагностическая диаграмма
Пример Представлены результаты анализа множественной регрессии, объясняющей сумму денег, расходуемых на приобретение кухонного оборудования для приготовления пищи в домашних условиях (Y), исходя из величины дохода (X 1), уровня образования (Х 2) и величины расходов на приобретение спортивного инвентаря (Х 3). Все "денежные" переменные представляют общие суммы (в долларах) за прошедший год; уровень образования указан в количестве лет учебы. Рассматривается 20 наблюдений.
Y=-9, 26+0. 00137 X 1+10, 8 X 2+0. 00548 X 3 Коэффи Стандартное циент отклонение коэффициента -9. 26247 13. 37258 tстатистик а -0. 69264 X 1 0. 00137 0. 000191 7. 165398 X 2 10. 7623 0. 798748 13. 47389 X 3 0. 00548 0. 025543 0. 214728 S=16, 11; R 2=94, 2%
n n Сколько, по вашему мнению, будет тратить человек на приобретение кухонного оборудования для приготовления пищи, если он зарабатывает $25 000 в год, проучился 14 лет и потратил в прошлом году $292 на приобретение спортивного инвентаря? Насколько удачно данное уравнение регрессии объясняет затраты на приобретение оборудования для приготовления пищи дома? В частности, на какой показатель в представленных здесь результатах следует обратить внимание и является ли он статистически значимым?
n n С какой приблизительно точностью (в долларах за год) можно прогнозировать затраты на приобретение оборудования для приготовления пищи дома применительно к людям, охваченным настоящим исследованием? Для каждой из трех Х-переменных укажите» оказывает ли она значимое влияние на затраты, связанные с приобретением оборудования для приготовления пищи дома (с учетом поправки на другие Х-переменные).


