12_MR14_analysis.ppt
- Количество слайдов: 45
Лекция 14 Обработка данных и введение в анализ данных
2 План лекции 14 1. 2. 3. 4. Процесс обработки и анализа данных Подготовка данных к анализу Методы описательной статистики Статистические методы проверки гипотез 5. Обзор методов статистического анализа данных
Процесс обработки и анализа данных Подготовка данных к анализу Кодирование данных Ввод данных Табуляция Статистический анализ 3
4 Подготовка данных к анализу Редактирование 2. Кодирование (кодировка) 3. Статистическая корректировка данных при необходимости 1.
5 Редактирование данных (editing) Редактирование – предварительная проверка анкет, устранение ошибок заполнения Типичные ошибки: § Недостаток инструкций § Пропуски § Неоднозначность ответа § Непоследовательность § Гало-эффект (эффект эха) § Нарушение процедуры отбора Возможные действия: Связаться с респондентом для уточнения ü Выбраковка анкеты ü Исключение ответов на отдельные вопросы ü Кодировка пропущенных и неоднозначных ответов как «не знаю» / «нет мнения» ü Подстановка ответа, исходя из ответов других респондентов ü
6 Кодировка – процедура перевода ответов респондентов в формат, приемлемый для анализа Ø Используется для облегчения обработки и анализа данных Ø Поскольку ответ предполагает несколько значений, то каждому из них присваивается цифровой код Ø Вопросы обычно кодируются в соответствии с их нумерацией (Q 1, Q 2, …). Ø Кодировка разрабатывается: • закрытые вопросы – одновременно с формулировкой вопросов (предварительное кодирование) • открытые вопросы – по окончании сбора данных – Подготовка перечня всех ответов – Объединение ответов в более крупные категории – Назначение и ввод кодов в таблицу
7 Примеры кодов • Наличие / отсутствие показателя – «Отдыхали ли Вы в этом году за границей? » да (код = 1), нет (код = 0) • Уровни значений – от «Совершенно согласен» (код = 5), до «Совершенно не согласен» (код = 1), • Код для отсутствия ответа – чаще всего обозначается кодом 9 (варианты – 88, 99, 0) • Сложные коды – для многовариантных вопросов с возможностью выбора нескольких вариантов ответа
8 Кодирование: организация данных в файле Вопрос 1 Вопрос 2 Вопрос 3 Вопрос 4 Вопрос 5 Запись 1 (респондент 1) Запись 2 (респондент 2) Запись 3 (респондент 3) Запись 4 (респондент 4) 1 5 245 1 2 2 3 356 3 2 2 6 32 5 3 1 2 243 3 2
9 Пример книги кодов (кодировочной таблицы) Вопрос Q 3. Тип договора Q 4. Продукт Q 5. Сбербанк – обычный банк, который не отличается от остальных Женский Мужской 1 0 Женат Не женат Разведен Не указано 1 2 3 88 кредитный некредитный 1 2 Премиум-Кредит Q 2. Семейное положение Коды Платинум Q 1. Пол Варианты ответов 1 2 3 Совершенно не согласен Не согласен Затрудняюсь ответить Согласен Совершенно согласен Нет ответа 1 2 3 4 5 88 Премиум
10 Ввод данных • Ввод данных из анкет непосредственно в компьютерную программу (Excel, Statistica, SPSS) • Выборочная проверка качества ввода (отсутствие ошибок ввода )
Статистическая корректировка данных ü Взвешивание ü Переопределение переменных ü Преобразование шкалы измерений 11
12 Взвешивание (weighting) Взвешивание – процедура, при которой каждому ответу в базе данных присваивается число (вес) в соответствии с некоторым заранее определённым правилом • Увеличение репрезентативности по некоторым характеристикам – категориям респондентов, недостаточно представленным в выборке, присваивается больший вес • Увеличение или уменьшение в выборке числа случаев, соответствующим определенным характеристикам • Придание большей важности ответам респондентов с определенными характеристиками – респонденту в базе данных присваивается весовой коэффициент, отображающий степень его значимости по сравнению с другими наблюдениями или респондентами
13 Переопределение переменных – процедура, при которой данные модифицируются таким образом, чтобы создать новые переменные, или несколько переменных объединяются с целью уменьшения их числа • Объединение категорий ответов • Использование фиктивных (качественных) переменных – Например, покупка может быть совершена в первой либо второй половине дня. Качественная переменная – «Время покупки» , число её уровней – 2 (m=2) – Количество фиктивных переменных определяется как m-1 – Тогда число фиктивных переменных в примере равно 1: покупка в первой половине дня = 0, во второй половине дня = 1 • Другие манипуляции с переменными – вычисление отношения двух переменных – взятие квадратного корня и логарифмов
14 Преобразование шкалы измерений (comparative scales) Преобразование шкалы – манипулирование значениями шкалы для обеспечения совместимости с другими шкалами Нормирование (стандартизация) – корректировка данных для приведения их к одной и той же шкале вычитанием выборочного среднего и деления полученного значения на стандартное отклонение • Нормирование позволяет сравнивать переменные, полученные с использованием разных типов шкал – Пример: разные дисперсии для объёма продаж (тыс. руб) и цены (руб. ) переменные необходимо привести к одинаковым единицам измерения • При нормировании среднее каждой переменной должно равняться 0, а стандартное отклонение – единице. Аналогично вычислению Z 1. Вычитание среднего из каждой переменной (каждого значения переменной) Xi 2. Деление полученного значения на стандартное отклонение Sx
15 Стратегия анализа данных Табуляция (табулирование) – подсчёт числа случаев, попадающих в ту или иную категорию – Помощь в очистке данных – Определение эмпирического распределения (распределения частот) переменной – Подсчёт показателей описательной статистики Перекрёстная табуляция (кросс-табуляция) – наличие взаимосвязи между двумя (номинальными) переменными Cтатистический анализ – более глубокий анализ данных Выбор типа анализа: • Цели исследования • Тип шкал измерения • Допущения, лежащие в основе статистической проверки
16 Описательная статистика помогает четко и лаконично представить результаты исследования с помощью свёртки данных Свёртка данных – использование нескольких чисел, таблицы или графика с целью обобщить или дать представление о большом массиве данных Компромисс: Наглядность vs. Точность и детализация
17 Табуляция Простая табуляция – моновариантный анализ (применяется к одной переменной) Представление результатов: ü распределение частот в табличной или графической форме (гистограммы, диаграммы) ü описательная статистика в форме числовых описаний при помощи структурных параметров (мода, медиана), дисперсии üанализ распределения переменной: показатели асимметрии и эксцесса (островершинности)
18 Табуляция: распределение частот Ваше образование? (отметьте что -нибудь одно)
19 Табуляция: распределение частот Каким видом транспорта вы воспользовались сегодня для посещения Планетария? Респондентов 206 Метро Нет ответа Всего 54 3 87 5 Автобусом/троллейбусом/трамваем 10 1 735 Автомобилем Доля, % ответивших – 2 000 100
20 Перекрёстная табуляция Перекрёстная (кросс-) табуляция – используется для изучения взаимосвязей между двумя переменными üОдновременно простой и информативный метод анализа üВыбор переменных для анализа üРасчёт долей (процентов) для каждой ячейки, может быть произведён на основе трёх различных баз: § сумма ответов по строкам § сумма ответов по столбцам § общая сумма ответов
21 Перекрёстная табуляция Число детей в семье Транспорт 0 1 2 3 Метро 72 36% 123 54% 402 95% 358 98% 567 100% 213 99% 1735 87% Автомобиль 88 44% 96 42% 17 4% 3 1% 0 0% 2 1% 206 10% Автобус/тролл ейбус/трамвай 40 20% 8 3% 3 1% 1 0% 54 3% 0 0% 2 1% 0 0% 3 1% 0 0% 5 0% 200 100% 229 100% 422 100% 365 100% 568 100% 216 100% 2000 100% Нет ответа Всего 4 Более 4 Всего
Исследование «Стиль жизни среднего класса» , весна 2011 г. 22 Индекс соответствия • отношение доли объектов с заданным параметром в некой выбранной частности к доле таких объектов в целом • статистический индекс, показывающий выраженность признака • в рекламе – Affinity Index
23 Описательная статистика: показатели центра распределения Средняя арифметическая (Mean) Мода (modе) – значение переменной, которое чаще всего встречается в в выборочном распределении Медиана (Median) – значение переменной которое приходится на середину распределения частот Возраст десяти респондентов: 42, 45, 43, 46, 48, 49, 39, 42, 45, 42 • Средняя – 44 года • Мода – 42 года • Медиана – 44 года Mean Median Mode
Описательная статистика: меры разброса данных • Дисперсия – среднее из квадратов отклонений переменной от ее средней величины • Среднеквадратическое отклонение (СКО) квадратный корень из значения дисперсии • Коэффициент вариации – отношение СКО к среднему арифметическому, выраженному в процентах. Показывает, какую долю среднего значения этой величины составляет ее средний разброс 24 (1) (2)
25 Статистическая значимость • Математическая значимость: § § По методике NPS вычислена доля критиков (30%) и промоутеров (33%) 33>30 • Статистическая значимость – если разница значений показателей превышает погрешность измерения, эта разница статистически значима
26 Введение в проверку гипотез Исследование стиля жизни среднего класса • Средняя сумма расходов на продукты, приобретаемые для домашнего питания, весной 2011 года составили 17100 рублей, тогда как весной 2007 г. – 9120 рублей • Доля расходов на продукты питания в структуре дохода домохозяйства в 2011 г. составляет 21%, в 2007 этот показатель едва достигал 17% Ø С учётом размера выборок обеих волн исследования, является ли эта разница статистически значимой?
27 Общая схема проверки гипотез Сформулировать нулевую (H 0) и альтернативную (H 1) гипотезы Выбрать подходящий статистический метод проверки (хи-квадрат, z-тест, t-тест) • Степени свободы • Независимая или зависимая выборка • Ошибки проверки гипотез Определить уровень значимости, число степеней свободы, выбрать критическое значение Вычислить значение соответствующего статистического критерия Сопоставить полученное значение с критическим Попадает ли вычисленное значение критерия в критическую область? Да H 0 отвергается Нет H 0 не отвергается
Критерии выбора критического значения для стат. проверки 28 • Степени свободы – число «свободных» (неограниченных) данных, использованных при вычислении статистики выборки или критерия проверки – число наблюдений (размер выборки) минус единица – выборка (n) имеет n – 1 степеней свободы • Уровень значимости (ошибки проверки гипотез) – Ошибка I рода – отклонение верной нулевой гипотезы. Вероятность совершить ошибку I рода – ά уровень (обычное значение ά =0, 05) – Ошибка II рода – принятие ложной нулевой гипотезы (β). (1 - β) – мощность критерия проверки гипотезы • Независимая или зависимая выборка – независимые выборки: измерение параметра в одной выборке не влияет на измерение параметра в другой
29 Критерий хи-квадрат (χ2) • Критерий хи-квадрат (χ2)– используется для проверки статистической значимости связей в таблицах сопряженности признаков • Проверка гипотезы о независимости признаков либо проверка гипотезы о соответствии (согласии) Не отклонять H 0 Отклонить H 0 1 -ά ά 2 Область критических значений
30 Критерий хи-квадрат (χ2) для одной выборки Для тестирования нового дизайна отделений Банк выбрал три отделения сравнимого размера и в течение трёх месяцев отслеживал число запросов потребителей в каждом из отделений: Отделение 1 Отделение 2 Отделение 3 11 154 10 789 11 003 (3) 1. Нулевая гипотеза (H 0): Число запросов в отделениях не отличается Альтернативная гипотеза (H 1) : Существует значимая разница в числе запросов в разных отделениях 2. Если H 0 верна, xср=(11 154+ 10 789 + 11 003)/3 = 10 982 3. Расчёт значения χ2 по формуле (3), где Oi – наблюдаемое значение, Ei – ожидаемое значение: 4. Установим уровень значимости ά =0, 05, число степеней свободы (k-1)=2 Табличное значение χ2 = 5, 99 Размер выборки 5. 6, 13>5, 99 нулевая гипотеза отвергается
31 Проверка гипотез о среднем и доле • Z-тест: если известно среднее значение параметра и стандартное отклонение ГС и размер выборки более 30 • t-тест: если не известно среднее значение параметра и стандартное отклонение ГС и размер выборки или размер выборки менее 30
Проверка гипотезы о среднем, Z-тест 32 В опросе 1000 потребителей исследовались предпочтения различных марок мобильных телефонов Nokia получила среднюю оценку качества 3, 6 по пятибалльной шкале. СКО=1, 8. Можно ли утверждать, что оценка Nokia значимо выше средней оценки по всем маркам, которая составляет 3, 1? 1. Нулевая гипотеза (H 0): Оценка Nokia меньше или равна 3, 1 Альтернативная гипотеза (H 1) : Оценка Nokia больше 3, 1 2. При уровне значимости 0, 05 табличное (критическое) значение Z=1, 64 3. Рассчитаем стандартную ошибку по формуле (1) лекции 13: Стандартная ошибка=1, 8/Коренькв(1000)=0, 06 4. Рассчитаем Z по формуле (3) лекции 13: Z =(3, 6 -3, 1)/0, 06=8, 3 5. 8, 3>1, 64 нулевая гипотеза отвергается: с вероятностью 95% оценка качества Nokia выше средней оценки качества
33 Методы одномерного анализа Параметрические критерии Непараметрические критерии Одна выборка • Хи-квадрат • Колмогоров а-Смирнова • RUNS Две и более выборки Независимые • Проверка Вилкоксона • Проверка Макнемара • Q-тест Кохрена Две и более выборки Зависимые • Хи-квадрат • Проверка суммарных рангов • Дисперсионный анализ Одна выборка • z-проверка • t-проверка Независимые • z-проверка • t-проверка Зависимые • t-проверка парных разностей
34 Методы одномерного анализа Одномерный анализ применим, когда: • проводится измерение одного показателя каждого из n объектов выборки • проводится измерение нескольких показателей каждого объекта, однако анализ каждой переменной проводится отдельно от других ü Неметрические данные непараметрические статистические проверки, не требуются допущения относительно распределения данных ü Метрические данные параметрические статистические проверки
35 Методы многомерного анализа Методы анализа зависимости Одна зависимая переменная • Дисперсионный (ANOVA) и ковариационный анализ • Множественная регрессия • Дискриминантный анализ • Совместный анализ Несколько зависимых переменных • Многофакторный дисперсионный и ковариационный анализ / MANOVA&MANCOVA • Каноническая корреляция Методы анализа взаимозависимости Фокус на переменных • Факторный анализ Фокус на объектах • Кластерный анализ • Многомерное шкалирование
36 Методы многомерного анализа Многомерный анализ применим, когда: • при каждом наблюдении проводится измерение двух и более показателей и анализировать переменные требуется одновременно ü Анализ зависимости возможен, если одна и более переменных могут быть квалифицированы как зависимые, а остальные – как независимые § Регрессионный, дисперсионный, дискриминантный, ковариационный, совместный анализ ü Анализ взаимозависимости проводится, если переменные не квалифицируются как зависимые и независимые, а проводится анализ всего набора переменных § Факторный анализ, кластерный анализ, многомерное шкалирование
37 Оценка взаимосвязей: корреляция • Корреляция – статистический метод оценки связи между двумя метрическими переменными с помощью коэффициента Ø Ø Коэффициент корреляции Пирсона – для данных, полученных по интервальной или относительной шкале Коэффициент корреляции Спирмана – для порядковых данных
38 Оценка взаимосвязей: регрессия • Регрессия – статистический метод установления формы и изучения связей между метрической зависимой переменной и одной или несколькими независимыми переменными • Задача регрессионного анализа – построить регрессионную модель или уравнение прогноза, связывающее зависимую переменную с одной или несколькими независимыми переменными – Линейная модель регрессии – Множественная регрессия – Оценка силы связи между переменными производится с помощью коэффициента детерминации R
39 Ковариационный анализ • Ковариационный анализ – учет неконтролируемых независимых переменных на зависимые переменные – При определении намерений потребителей по приобретению товара известной фирмы в зависимости от цены, необходимо учитывать отношение к торговой марке – Для определения того, как различные группы потребителей под влиянием рекламы оценивают бренд, необходимо контролировать, какой информацией априорно обладают члены этих групп
Совместный анализ (conjoint analysis) 40 Совместный анализ – метод анализа зависимости, при котором зависимой переменной является степень предпочтения респондентом концепции нового продукта, независимыми – уровни его характеристик Задачи совместного анализа: 1. Выбор наиболее перспективной концепции нового продукта или определение наилучшей конфигурации существующего продукта 2. Определение вклада каждой характеристики продукта в предпочтение потребителя: как изменится предпочтение продукта при изменении одной из характеристик (расчёт полезностей характеристик)
41 Совместный анализ Характеристика Уровни характеристики Значения Мощность 1 2 300 600 1 2 Цена 1 2 3 Гарантия возврата 1 денег 2 А Б 30 50 80 нет да Дизайн
Совместный анализ: продукт как комбинация характеристик 1. 2. 3. 4. 5. 6. … 22. 23. 24. Мощность 300 об/мин, дизайн А, цена 30 долл. , без гарантии Мощность 300 об/мин, дизайн Б, цена 30 долл. , без гарантии Мощность 600 об/мин, дизайн А, цена 30 долл. , без гарантии Мощность 600 об/мин, дизайн Б, цена 30 долл. , без гарантии Мощность 300 об/мин, дизайн А, цена 50 долл. , без гарантии Мощность 300 об/мин, дизайн Б, цена 80 долл. , с гарантией Мощность 600 об/мин, дизайн А, цена 80 долл. , с гарантией Мощность 600 об/мин, дизайн Б, цена 80 долл. , с гарантией Попарное сравнение всех комбинаций продукта с выявлением наиболее предпочтительного варианта в каждой паре 42
43 Совместный анализ Мощность Цена 0, 4 0, 25 0, 15 0 0 300 600 30 50 80 Гарантия возврата денег Дизайн 0, 2 0 А Б 0, 15 0 нет да
44 Литература к лекции 14 • Малхотра Н. Маркетинговые исследования, Главы 14 -15, С. 519 -547, С. 552 -598 • Аакер Д. , Кумар В. , Дэй Д. Маркетинговые исследования, Главы 16 -18, С. 480 -501, 505 -522, 528 -550 • Черчилль Г. , Браун Т. Маркетинговые исследования, Главы 19 -20, С. 502 -518, 520 -557 А также – Хили Дж. Статистика. Социологические и маркетинговые исследования, Главы 8 -11, С. 225 -348
45 Литература к лекции 15 • Аакер Д. , Кумар В. , Дэй Д. Маркетинговые исследования, Глава 13, С. 382 -412 • Малхотра Н. Маркетинговые исследования, Глава 7, С. 270 -308 • Черчилль Г. , Браун Т. Маркетинговые исследования, Главы 19 -20, С. 502 -518, 520 -557 А также – Ламбен Ж. Ж. Менеджмент, ориентированный на рынок, Глава 4, С. 207 – Дэвис Д. Дж. Исследования в рекламной деятельности, М. : Вильямс, 2003, Глава 7, С. 189 -221 (NB! примечания научного редактора)
12_MR14_analysis.ppt