Скачать презентацию ТЕХНОЛОГИИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА ВЫПОЛНИЛА СТ-КА ГР ПУ 51 Скачать презентацию ТЕХНОЛОГИИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА ВЫПОЛНИЛА СТ-КА ГР ПУ 51

КОРР.-РЕГР.АН.ppt

  • Количество слайдов: 30

ТЕХНОЛОГИИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА ВЫПОЛНИЛА: СТ-КА ГР. ПУ 51 ЧМЕЛЁВА Е. С. ТЕХНОЛОГИИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА ВЫПОЛНИЛА: СТ-КА ГР. ПУ 51 ЧМЕЛЁВА Е. С.

1. ПРЕДПОСЫЛКИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА Экономические данные почти всегда представлены в виде таблиц. Числовые данные 1. ПРЕДПОСЫЛКИ КОРРЕЛЯЦИОННОРЕГРЕССИОННОГО АНАЛИЗА Экономические данные почти всегда представлены в виде таблиц. Числовые данные в таблицах обычно имеют между собой явные (известные) или неявные (скрытые) связи. Явно связаны показатели, которые получены методом прямого счёта, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа заранее неизвестны. Однако люди должны уметь объяснять и предсказывать (прогнозировать) Связи же второго типа заранее неизвестны. Однако люди должны уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты при помощи наблюдений стараются выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Для этого служит корреляционно-регрессионный анализ

СПЕЦИАЛИСТЫ СТРОЯТ И ИСПОЛЬЗУЮТ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ДЛЯ 3 -Х ОБОБЩЕННЫХ ЦЕЛЕЙ: 1) для объяснения; СПЕЦИАЛИСТЫ СТРОЯТ И ИСПОЛЬЗУЮТ МАТЕМАТИЧЕСКИЕ МОДЕЛИ ДЛЯ 3 -Х ОБОБЩЕННЫХ ЦЕЛЕЙ: 1) для объяснения; 2)для предсказания; 3)для управления.

Представление экономических и других данных в электронных таблицах в наши дни стало простым и Представление экономических и других данных в электронных таблицах в наши дни стало простым и естественным. Оснащение же электронных таблиц средствами корреляционно-регрессионного анализа способствует тому, что из группы сложных, глубоко научных и потому редко используемых, почти экзотических методов, корреляционно-регрессионный анализ превращается для специалиста в повседневный, эффективный и оперативный аналитический инструмент. Однако, в силу его сложности, освоение его требует значительно больших знаний и усилий, чем освоение простых электронных таблиц.

Пользуясь методами корреляционно-регрессионного анализа, можно измерить тесноту связей показателей анализа с помощью коэффициента корреляции. Пользуясь методами корреляционно-регрессионного анализа, можно измерить тесноту связей показателей анализа с помощью коэффициента корреляции. При этом связи могут быть сильными, слабыми, умеренными различными по направлению — прямыми и обратными. Если связи существенны, то их математическое выражение изменяется в виде регрессионной модели с оценкой систематической значимости модели. Значимое уравнение используется для прогнозирования изучаемого явления или показателя.

Поэтому регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных Поэтому регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений. Электронные же таблицы делают такой наблюдений анализ легко доступным. Из множества видов этого анализа мы рассмотрим те, которые используются наиболее часто в качестве универсальных инструментов познания действительности Корреляционно-регрессионный анализ связей между переменными показывает, как один набор переменных (Х) может влиять на другой набор (У). Вот несколько примеров.

ПРИМЕР 1. Методами, изучающими пути продвижения товаров и потери в пути, можно проверить предположение ПРИМЕР 1. Методами, изучающими пути продвижения товаров и потери в пути, можно проверить предположение о том, что число консервных банок, испорченных при перевозке в вагонах, зависит от скорости вагонов при толчках. Это даёт возможность при перепроектировки упаковки и расфасовки товаров изменить способы доставки, и погасить естественную убыль. Собраны данные о скорости 13 вагонов (независимые переменные Х) и количество испорченных банок в каждом из них (зависимые переменные У). Если при обработке этих данных выявится сильная связь между Х и У, то необходимо будет построить её механическую модель для прогнозирования потерь при перевозке и нормировании товаров.

ПРИМЕР 2. Хиромантия утверждает, что длина «линии жизни» на левой ладони человека связана с ПРИМЕР 2. Хиромантия утверждает, что длина «линии жизни» на левой ладони человека связана с продолжительностью его жизни. Методом прямого наблюдения собранны данные об истинном возрасте 50 -ти умерших по длине «линии жизни» , чтобы с помощью корреляционно-регрессионного анализа измерить силу связи и найти научное объяснение хиромантии.

ПРИМЕР 3. Управляющий операцией одной из фирм принял ряд решений по мероприятиям на стадионе ПРИМЕР 3. Управляющий операцией одной из фирм принял ряд решений по мероприятиям на стадионе с учётом вероятной их посещаемости – сколько в каждом случае нужно открыть киосков и сколько работников вызвать на работу. Оказалось, что одна из главных независимых переменных, которую можно встроить в прогнозируемую модель, типа множественной линейной регрессионной модели – это число билетов, проданных на стадионе к моменту, когда до игры остаётся 24 часа.

ПРИМЕР 4. Замечено, что объём продаж зависит от площади торгового предприятия. На основе собранных ПРИМЕР 4. Замечено, что объём продаж зависит от площади торгового предприятия. На основе собранных данных необходимо найти уравнение этой зависимости, чтобы по известной площади универмага (Х) можно было планировать объем продаж в нём (Y). Конечно, важно иметь данные о типе предприятия, т. к. связь может быть неодинакова для крупных и мелких предприятий. Итак, такой подход используется в маркетинге, торговле, медицине. Получив знание о скрытых связях, можно улучшить аналитическую поддержку принятия решений и повысить их обоснованность.

В маркетинге широко применяются как однофакторные, так и множественные однофакторные регрессионные модели Корреляционно-регрессионный анализ В маркетинге широко применяются как однофакторные, так и множественные однофакторные регрессионные модели Корреляционно-регрессионный анализ – один из главных методов в маркетинге, наряду с оптимизированными расчётами, а также математическим и графическим моделированием трендов (тенденции).

2. ЭТАПЫ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА НУЛЕВОЙ ЭТАП. Цель – сбор данных. Данные должны быть наблюдаемыми, 2. ЭТАПЫ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА НУЛЕВОЙ ЭТАП. Цель – сбор данных. Данные должны быть наблюдаемыми, т. е. полученными в результате замера, а не расчёта. Наблюдения следует спланировать. Сколько необходимо данных для получения хорошего уравнения? Их должно быть в 46 раз больше, чем число факторов, влияние которых нужно выразить математически (по другим оценкам в 7 -8 раз больше). Это обеспечит эффективное погашение случайных отклонений от закономерного характера связей признаков.

ПЕРВЫЙ ЭТАП - КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. Цель – определить характер связи (прямая, обратная) и силу ПЕРВЫЙ ЭТАП - КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. Цель – определить характер связи (прямая, обратная) и силу связи (отсутствие связи; связь слабая, умеренная, сильная или малая). Характер и степень выраженности связей определяется коэффициентом корреляции, который используется корреляции для отбора существенных факторов, а также для планирования эффективности и последовательности расчёта параметра регрессивных уравнений.

Присутствие одного фактора вычисляется коэффициентом корреляции, а при наличии нескольких факторов строится корреляционная матрица, Присутствие одного фактора вычисляется коэффициентом корреляции, а при наличии нескольких факторов строится корреляционная матрица, из которой выявляется 2 вида связи: - связь зависимой переменной; - связь между независимыми переменными. Во-первых, выше выявленные факторы Во-первых действительно влияют на последующую зависимую переменную и необходимо выбрать (ранжировать) их по убыванию связи; во-вторых, минимизировать во-вторых число факторов в модели, исключив часть факторов, которые функционально связаны с другими факторами (связь независимых переменных между собой).

ВТОРОЙ ЭТАП - РАСЧЕТ ПАРАМЕТРОВ И ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ. Он заключается в том, чтобы ВТОРОЙ ЭТАП - РАСЧЕТ ПАРАМЕТРОВ И ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ. Он заключается в том, чтобы найти наиболее точную меру выявленной связи. Эту меру обобщенно выражаем математической моделью линейной множественной регрессионной зависимости: у = а 0 + в 1+х1+в 2 х2+…вnхn Величина Y – отклик, x 1, x 2 …xn –факторы, а 0 -const, b - коэффициент регрессии. На втором этапе корреляционно-регрессионного анализа после выбора коэффициентов происходит переход к третьему этапу — интеллектуальному, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

ТРЕТИЙ ЭТАП. На 3 -ем этапе вычисляется величина (параметр) значимости, т. е. пригодность постулированной ТРЕТИЙ ЭТАП. На 3 -ем этапе вычисляется величина (параметр) значимости, т. е. пригодность постулированной модели для анализа (разработки) в целях предсказания значений отклика. При этом программа рассчитывает по модели теоретическое значение для ранее наблюдаемых значений зависимой величины и вычисляет отклонение теоретических значений от наблюдаемых. На основе этого программа строит ряд графиков, в том числе график подборки (он иллюстрирует, насколько хорошо подобрана линия регрессии к наблюдаемым данным) и график элементов.

В остатках не должно наблюдаться закономерности, т. е. корреляции с какими-либо значениями. На этом В остатках не должно наблюдаться закономерности, т. е. корреляции с какими-либо значениями. На этом этапе исключительно важную роль играет коэффициент детерминации и F - критерий значимости регрессии. R Squared (R 2)—коэффициент детерминации – это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определённым набором факторов. Коэффициент детерминации измеряет действительность модели.

Он может принимать значение от 0 до 1. Эта величина особенно полезна для сравнения Он может принимать значение от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей из них. R 2 есть доля вариации прогнозной величины Y относительно наблюдаемых значений Y, объясненная за счёт включенных в модель факторов. Хорошо, если R 2≥ 80%. Остальная доля наблюдаемых значений Y зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R 2, и давать объяснения вариации прогноза, чтобы получить идеальное уравнение. Дубликаты исходных данных следует удалять из исходной таблицы до начала расчёта регрессии.

R 2=1 лишь при полном согласии экспериментальных (наблюдаемых) и теоретических (расчётных) данных, т. е. R 2=1 лишь при полном согласии экспериментальных (наблюдаемых) и теоретических (расчётных) данных, т. е. когда теоретическое значение точно совпадает с наблюдаемым. Средствами регрессионного анализа, в т. ч. EXCEL, вычисляется F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюдаемым данным значение FP (F—расчетный, наблюдаемый) следует сравнивать с соответствующим критическим значением FK (F— критический, табличный). FK выбирается из публикуемых статистических таблиц на заданном уровне вероятности (на том, на котором вычислялись параметры модели, например, 95%).

 Если наблюдаемое значение FP окажется меньше критического FK, то уравнение нельзя решить, т. Если наблюдаемое значение FP окажется меньше критического FK, то уравнение нельзя решить, т. е. можно сказать, что не отвергнута нуль–гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю. Наблюдаемое значение F должно не просто превышать выбранную процентную точку F— распределения, а превосходить её в 4 раза. Например, пусть F (10; 20; 0, 95)=2, 35, тогда наблюдаемое значение F-отношения должно превосходить 9, 4 для того, чтобы можно было расценивать полученное уравнение как удовлетворительную модель для предсказания.

ЧЕТВЕРТЫЙ ЭТАП. На 4 -ом этапе корреляционно-регрессионного исследования, если полученная модель систематически значима, ее ЧЕТВЕРТЫЙ ЭТАП. На 4 -ом этапе корреляционно-регрессионного исследования, если полученная модель систематически значима, ее применяют для прогнозирования (предсказания), управления или объяснения. Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.

3. ОСНОВНЫЕ МЕТОДЫ ПОИСКА НАИЛУЧШЕГО РЕШЕНИЯ Существует несколько способов и алгоритмов выбора наилучшего уравнения 3. ОСНОВНЫЕ МЕТОДЫ ПОИСКА НАИЛУЧШЕГО РЕШЕНИЯ Существует несколько способов и алгоритмов выбора наилучшего уравнения регрессии: 1. Метод всех возможных регрессий. 2. Метод выбора «наилучшего подмножества» предикторов. 3. Метод исключения. 4. Шаговый регрессионный метод. 5. Гребневая (ридж) регрессия. 6. Пресс. .

7. Регрессия на главных компонентах. 8. Регрессия на собственных значениях. 9. Ступенчатый регрессионный метод. 7. Регрессия на главных компонентах. 8. Регрессия на собственных значениях. 9. Ступенчатый регрессионный метод. 10. Устойчивая регрессия. 11. Другие, более ранние методы (метод деления пополам, метод складного ножа и т. д. )

Техногенный и шаговый методы наиболее эффективны при использовании ЭВМ. Метод исключения исследует не все, Техногенный и шаговый методы наиболее эффективны при использовании ЭВМ. Метод исключения исследует не все, а только наилучшие регрессионные уравнения, в чём и состоит его экономичность. На первом этапе рассчитывается уравнение, включающее все независимые переменные. Затем, рассматривая корреляционную матрицу, находят в ней независимую переменную, имеющую самую слабую (по модулю) связь с зависимой, т. е. с наименьшим по модулю значением коэффициента корреляции, и исключают её из уравнения. Заново пересматривают уравнение с меньшим числом независимых переменных.

Если по сравнению с предыдущим расчётом значимость уравнения в целом (FP) и коэффициент детерминации Если по сравнению с предыдущим расчётом значимость уравнения в целом (FP) и коэффициент детерминации (R 2) повысились, то исключение сделано верно. Затем отыскивают в корреляционной матрице следующую переменную с наименьшим значением коэффициента корреляции и поступают аналогично. Исключения независимых переменных (по одной) и пересчеты уравнений продолжают до тех пор, пока не обнаружат снижение значимости уравнения и доли объясненной вариации (R 2) по сравнению с последним предшествующим расчётом. Это служит сигналом нецелесообразности последнего исключения.

Шаговый метод — действует в противоположном направлении, начиная с однофакторной модели. При этом ориентируются Шаговый метод — действует в противоположном направлении, начиная с однофакторной модели. При этом ориентируются на данные корреляционной матрицы, т. е. на первом шаге расчёта в уравнении включают не все факторы, а только один с наибольшим по модулю значением коэффициента корреляции между независимой и зависимой переменными значениями. На каждом следующем шаге из оставшихся, не включенными в уравнение независимых переменных, в предыдущую модель добавляют только одну независимую переменную, наиболее связанную с зависимой, и заново пересчитывают все параметры регрессии.

 После пересчёта сравнивают полученные оценки нового уравнения с оценками предыдущего шага. Так продолжается После пересчёта сравнивают полученные оценки нового уравнения с оценками предыдущего шага. Так продолжается до тех пор, пока не получат наилучшее уравнение с наибольшим расчётным значением F и R 2. При поддержке множественного регрессивного анализа средствами EXCEL можно отслеживать очерёдность для каждого шага: номер шага, набор независимых переменных, вид уравнения, новые оценочные данные, коэффициент (F—расчётный и F —критический) и т. д.

ОДНА ИЗ ВОЗМОЖНЫХ ФОРМ ОФОРМЛЕНИЯ ВСПОМОГАТЕЛЬНОЙ ТАБЛИЦЫ ДЛЯ РЕГИСТРАЦИИ РЕЗУЛЬТАТОВ № шага Количество факторов ОДНА ИЗ ВОЗМОЖНЫХ ФОРМ ОФОРМЛЕНИЯ ВСПОМОГАТЕЛЬНОЙ ТАБЛИЦЫ ДЛЯ РЕГИСТРАЦИИ РЕЗУЛЬТАТОВ № шага Количество факторов Учавствующие независимые переменные Вид полученн ой модели FP FK R 2 Выводы о роли включенного или исключенного фактора, о значимости модели, о выборе лучшей модели 1 2 3 4 5 6 7 8 В эту таблицу заносятся результаты множественного регрессионного исследования, выполненные шаговым методом или методом исключения.

СПАСИБО ЗА ВНИМАНИЕ СПАСИБО ЗА ВНИМАНИЕ