
Презентация MBA .ppt
- Количество слайдов: 20
Обработка и анализ многомерных статистических данных в маркетинговых исследованиях 1
Репрезентативность выборки Цель маркетингового исследования: Дать обоснованное суждения о природе изучаемого процесса, позволяющего, в конечном итоге, с той или иной доверительной вероятностью получить его прогнозные оценки. Принципиальные моменты: 1. В своих исследованиях маркетолог работает не с генеральной совокупностью, которая, как известно, представляет множество всех значении изучаемой величины, а с некоторой ее выборкой; 2. Общеизвестные критерии репрезентативности выборки, требующие в расчетах знание значений математического ожидания и второго центрального момента, не подходят для исследований, где значения генеральной совокупности представлены в порядковой шкале. Пример: необходимо получить репрезентативный объем выборки для определения предпочтений жителей г. Перми к какому-либо товару. В нашем случае население г. Перми – это генеральная совокупность, тогда репрезентативный объем выборки можно получить из выражения: где m – численность генеральной совокупности, n – полученная численность выборки (репрезентативность выборки). 3. Корректный сравнительный анализ возможен только в однородных совокупностях. 2
Многомерность и мультиколлинеарность Современное исследование не обходиться без проекции исследуемой совокупности потребителей (товаропроизводителей) в двух-трехмерном пространстве классифицирующих признаков и обоснованного суждения о ее (совокупности) структуре. Причины позволяющие говорить о проблеме осмысления статистических данных и интерпретации получаемых статистических выводов: Причина № 1 – многомерность статистических наблюдений, когда в исследовательской работе приходится сталкиваться с ситуациями, где общее число Р признаков в метрической или порядковой шкале регистрируемых на каждом из множества обследуемых объектов (потребителей, семей, предприятий, регионов), - достаточно велико. Причина № 2 – дублирование информации, доставляемой взаимосвязанными признаками (мультиколлинеарность) сильно Классический алгоритм, решающий данные проблемы в задачах 3 сегментирования (кластеризации и классификации), - метод главных компонент.
Метод главных компонент (МГК) Метод позволяет перейти от исходного многомерного пространства в пространство меньшей размерности, являющееся системой линейных ортогональных комбинаций исходных признаков с сохранением исходной статистической информации. Техника сегментирования объектов измеренных в метрической шкале: 1. В основе МГК лежит решение задачи на собственные значения выборной ковариационной матрицы данных, которая как всякая ковариационная матрица симметрична и имеет следующую структуру: 2. Решение задачи на собственные значения позволяет нам получить диагональную кавариационную матрицу , которая имеет следующую структуру: где значения ковариации равно нулю, а сумма диагональных элементов, собственных значений матрицы Р - равна ее общей дисперсии, что и означает сохранение информации исходного массива данных. 4
Метод главных компонент (МГК) В общем виде выше сказанное можно представить как сингулярное разложение выборной ковариационной матрицы: где W - диагональная матрица, но диагонали которой стоят упорядоченные по убыванию собственные значения λ, а L – ортогональная матрица собственных векторов такая что: где I – единичная матрица, T – знак транспонирования. Примечание: Данный алгоритм можно реализовать в среде Mathcad посредством функции SVD и SVd. S или посредством функции eigenvals и eigenvecs, определяющих соответственно собственные числа и собственные вектора. 5
Пример сегментирования Сегментирование в среде “Statistica”: 1. Выбрать “Анализ главных компонент”; 2. Используем: - при не сопоставимых шкалах – матрицу корреляций; - при сопоставимых шкалах – матрицу ковариаций; 3. Опция “Собственные вектора”; 4. Опция “Собственные значения”. № X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 1 16, 476 2 10 25 6 55 4 1, 22 89 2 15, 476 2 -1 21 16 55 4 1, 03 90 3 14, 757 3 4 26 15 39 -3 0, 7 69 4 15, 145 4 -1 20 13 71 -6 1, 49 96 5 15, 596 5 -7 21 9 89 -6 1, 7 95 6 13, 64 1 0 22 15 18 -6 1, 33 85 7 14, 081 3 1 16 21 25 -6 0, 85 75 8 13, 827 3 -2 25 7 41 -5 0, 96 73 9 13, 187 2 -1 11 7 43 -1 0, 91 85 10 13, 029 4 1 12 11 35 -17 1, 82 92 11 12, 301 3 -3 11 4 34 -2 1, 41 80 12 11, 728 2 3 7 3 27 2 0, 77 90 13 12, 441 4 -7 3 2 69 1 1, 02 95 14 11, 728 4 -10 16 5 41 -16 0, 97 68 15 11, 386 4 -6 2 -2 67 4 1, 09 86 16 11, 258 4 -8 15 -4 32 0 1 60 Исходные данные: 1. Объект исследования: 16 инвестиционных фондов (оценка их состояния); 2. В качестве переменных используются следующие характеристики: - X 1 - доходность за 5 -летний период, млн. у. е. ; - X 2 – риск, оценка в баллах; - X 3, X 4, X 5, X 6, X 7 - ежегодный процент дохода за 5 -летний период; - X 8 - расходная часть, млн. у. е. ; - X 9 - налоговый рейтинг, оценка в баллах. 6
Пример сегментирования Вид главных компонент: 7
Пример сегментирования Описание модели: По весовым коэффициентом классифицируем первую главную компоненту как вектор, отвечающий за размер дохода фондов в первые 3 года - X 1, X 3, X 4, X 5, причем им противопоставляется переменная X 2, характеризующая степень риска. Следовательно, по этой главной компоненте и в близи ее будут располагаться объекты с относительно высокой доходностью при не высоких рисках: к этой группе относятся объекты № 1, № 2, № 3, № 6, № 7. Им противопоставляются объекты с относительно высоким риском и не высокой доходностью (расположены в отрицательном квадранте системы координат): № 11, № 13, № 14, № 15. Вторая главная компонента отражает общую характеристику объектов. Это следует из того, что все координаты вектора Z 2 одного знака. Знаки при коэффициентах X 3 и X 7 из–за их низких значений не рассматриваются. Данный вектор определяет следующие две группы объектов - № 4, № 5 и № 10 - с высоким рейтингом, высокими затратами и высоким риском; и группу фондов - № 2 и № 9 - с высоким рейтингом, низкими затратами и низким риском. 8
Непараметрическая статистика. Анализ соответствий. Примечание: 1. Теория оценок математической статистики построена на нормальном законе распределения с известным математическим ожиданием и дисперсией. В повседневной жизни принятие гипотезы нормальности является достаточно жестким условием; 2. Реальные данные практически ни когда не входят в какое–либо конкретное параметрическое семейство, а в маркетинговых исследованиях они, кроме этого, представлены еще и в порядковых шкалах. Непараметический метод исследования критерий хи-квадрат (X 2) Виды применения критерия хи-квадрат: 1. В качестве критерия согласия при исследовании свойств одной выборки, путем сравнения эмпирических или наблюдаемых частот с ожидаемыми частотами: где Q - наблюдаемое распределение частот; Е - ожидаемое распределение частот; k - количество градации изменения или количество сравниваемых категорий изучаемого процесса. Нулевая гипотеза формируется как наблюдаемое распределение частот изучаемого процесса соответствует ожидаемому, т. е. и число степеней свободы df = k- l. 9
Непараметрическая статистика. Анализ соответствий. Виды применения критерия хи-квадрат: 2. В качестве критерия независимости - применяется для сравнения распределений нескольких независимых выборок: где, k, Q и E соответствуют ранее введенным обозначением; l – количество сопоставляемых распределений (выборок); ij - соответствует ячейкам таблицы сопряженности. В этом случае нулевая гипотеза формируется как отсутствие связи между изучаемыми переменными, т. е. влияние одного изучаемого процесса на другой случайно, число степеней свободы при котором принимается данная 10 гипотеза df= (k-1)·(l-1).
Непараметрическая статистика. Анализ соответствий. Пример Таблица сопряженности - Отношение к предмету и сопоставление со сведениями об успеваемости Q 1 Q 2 Нравится Не нравится Всего по строкам Отлично 12 4 Хорошо 9 Удовлетворительно Всего по столбцам Успеваемость E 1 E 2 Ожидаемое (нравиться) Ожидаемое (не нравиться) 16 8, 24 7, 75 6 15 7, 73 7, 27 13 22 35 18, 03 16, 97 34 32 66 - - Ожидаемые частоты для каждой ячейки ij определяются следующим образом: где fi - сумма частот – строки или в терминах анализа соответствий – профиль – строки, fj - сумма частот – столбца или в терминах анализа соответствия профиль – столбца, например, для второй строки и первого столбца ожидаемая частота равна 11
Непараметрическая статистика. Анализ соответствий. Расчетное (эмпирическое) значение критерия хи-квадрат 6, 855. Критическое значение при доверительной вероятности – 0, 95 ( = 0, 95) и степеней свободы равное двум - (df = 2), согласно таблицы равно – 5, 99. 6, 855 > 5, 99 следовательно нулевая гипотеза отклоняется и принимается, что отношение студентов к предмету связано с их успеваемостью т. е. влияние успеваемости на предпочтение студентов не случайны. 12
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности При работе с двухвходовыми таблицами сопряженности большей размерностью, т. е. где градаций двух переменных гораздо больше, маркетологу полезно получить координаты строк или столбцов для проекцирования их в двух- или трехмерном графике. В этом случае вводится матрица относительных частот т. е. каждый элемент исходной матрицы наблюдаемых частот делится на сумму всех элементов (N=66), применительно к нашей задаче она имеет вид 0, 182 0, 136 0, 091 0, 197 P= 0, 061 0, 333 Сумма всех элементов матриц Р равна единице. 13
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Продолжение примера Примечание: В среде «Statistiсa» в модуле «Многомерный разведочный анализ» - «Анализ соответствий» . В среде Mathсаd: -определяем диагональную матрицу , элементы главной диагонали которой равны соответствующим суммам элементов строк матрицы Р; -определяем диагональную матрицу , элементы главной диагонали которой равны соответствующим суммам элементов столбцов матрицы Р; -определяем матрицу и в терминах анализа соответствий – матрицу инерции строк и столбцов. и Решаем задачу на собственные значения матрицы с минимальной размерностью по алгоритму, показанному в методе главных компонент 14
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Проекции строк и столбцов: Q 1 , Q 2 = (-0, 3127, 0, 332) Строка 1, 2, 3 = (-0, 4699, -0, 1697, 0, 2875) 15
Алгоритм выполнения анализа соответствий с двухвходовыми таблицами большей размерности Описание модели: Совместные проекции на прямой координат строк – «успеваемость» и столбцов – «отношение к предмету» убедительно демонстрируют разделение на следующие группы: студенты с успеваемостью отлично и хорошо положительно относятся к предмету и располагаются с лева относительно начала координат и соответственно с права вторая группа – с плохой успеваемость и отрицательным отношением к предмету. Основной целью данного метода является упрощенное представления (в пространстве меньшей размерности) информации, содержащейся в больших частотных таблицах. Возможность выявления различных особенностей: наличие кластеров, скопление некоторых точекстолбцов в близи тех или иных строк и наоборот, получение при этом разумной экономической интрепетации. 16
Дихотомические модели в анализе соответствий В качестве примера используются данные из работы К. В. Пьянковой «Методика выявления латентных знания потребителей как основа маркетинговых исследований регионального рынка продовольствия» . Таблица - Мотивации потребителя и их коды Номер переме нной Возможные мотивации потребительского поведения Качественные характеристики х1 Доходы потребителя Ниже среднего 1 Среднее (15500 рублей) 2 Выше средних 3 До 25 лет 1 22 -55 лет 2 Больше 55 лет 3 Считаю, что его увеличение не повлечет увеличение социальных благ для населения края 1 Не уверен, не в том не в другом 2 Считаю, что повлечет 3 Цена продукта 1 Доступность продукта 2 Бренд товаропроизводителя 3 Не всегда забочусь о своем здоровье 1 Всегда 2 Ниже среднего 1 Среднее 2 Выше среднего 3 х2 х3 х4 х5 х6 Возраст потребителя Отношение к краевому бюджету Предпочтения при покупке товаров Отношение к своему здоровью Оценка качества товаров региональных сельскохозяйственных товаропроизводителей Код 17
Дихотомические модели в анализе соответствий Продолжение: Правила перекодировки исходных признаков в бинарные и описание признаков представлены в таблицах Таблица 1 – Правила перекодировки признаков и условия при выполнении которого бинарному признаку присваивается единица Х 11 Х 12 Х 21 Х 22 Х 31 Х 32 Х 41 Х 42 Х 52 Х 61 Х 62 x>1 x>2 x=2 x>1 x>2 Таблица 2 – Описание бинарных признаков Вербальное описание Значение признака Х 11 = 0 Доходы ниже среднего Х 11 = 1 Доходы не ниже среднего Х 12 = 0 Доходы не выше среднего Х 12 = 1 Доходы выше среднего Х 21 = 0 Возраст до 25 лет Х 21 = 1 Возраст старше 25 лет Х 22 = 0 Возраст не старше 55 лет 18
Дихотомические модели в анализе соответствий Продолжение таблицы 2 Х 22 = 1 Возраст старше 55 лет Х 31 = 0 Не повлечет увеличение социальных благ Х 31 = 1 Не уверен, что не повлечет увеличение социальных благ Х 32 = 0 Не уверен, что повлечет увеличение социальных благ Х 32 = 1 Повлечет увеличение социальных благ Х 41 = 0 Главное цена Х 41 = 1 Главное не цена (доступность или бренд) Х 42 = 0 Главное не бренд (доступность или цена) Х 42 = 1 Главное бренд товаропроизводителя Х 52 = 0 Не всегда забочусь о своем здоровье Х 52 = 1 Всегда забочусь о своем здоровье Х 61 = 0 Качество ниже среднего Х 61 = 1 Качество не ниже среднего Х 62 = 0 Качество не выше среднего Х 62 = 1 Качество выше среднего 19
Рекомендуемая литература p С. А. Айвазян и др. «Классификация снижения размерности» гл. 13, 17. 20
Презентация MBA .ppt