Анализ Хи-квадрат: Поиск закономерностей для качественных данных
Тест Хи-квадрат • Проверка гипотезы для качественных данных – Категории вместо чисел – Основан на подсчете частот • Количество объектов в выборке , попадающих в каждую категорию – Статистика Хи-квадрат • Рассчитывает разницу между фактическими частотами и ожидаемыми частотами (в предположении о справедливости нулевой гипотезы) • где сумма вычисляется по всем категориям или комбинациям категорий
Обобщение качественных данных • Используйте частоты и проценты: – Сколько человек предпочитают ваш продукт? – Какой процент ваших клиентов готовы к обновлению продукта?
Независимость качественных переменных • Две качественные переменные независимы, если: – Знание значения одной переменной не помогает предсказать значение другой.
Проверка взаимосвязи • Хи-квадрат -тест – Данные: Таблица частот всех комбинаций категорий двух качественных переменных, созданная для двумерного набора данных – Гипотезы: H 0: Две переменные не зависят одна от другой H 1: Две переменные связаны; они не являются независимыми – Ожидаемая частота: • Показывает какая должна быть частота, если бы переменные были независимы
Проверка взаимосвязи (продолжение) – Допущения 1. Набор данных представляет собой случайную выборку из генеральной совокупности 2. Для каждой комбинации категори 1 ожидаемая частота не меньше 5 3. Хи-квадрат статистика : • Суммирование по всем комбинациям категорий – Степени свободы: – Результат : Наличие значимой связи, если Хи-квадрат статистика больше табличного значения
ПРИМЕР: Сегментация рынка (файл тренажеры. xls) • Данные: предпочтения покупателей тренажеров – Три модели тренажеров • Базовая, Улучшенная, Полная – Типы покупателей? • Практические и импульсивные Наблюдаемыечастоты Практ Импульс. Общие Базовая Улучшенная Полна 22 13 54 25 88 19 47 101 73 Total 89 132 221
ПРИМЕР • Проценты Общие проценты Практ. Импульс Общие Базовая Улучшенная Полная 10. 0% 5. 9% 24. 4% 11. 3% 39. 8% 8. 6% 21. 3% 45. 7% 33. 0% Total 40. 3% 59. 7% 100. 0%
Пример • Проценты по моделям Практ Импульс Общие Базовая Улучшенная Полная 46. 8% 12. 9% 74. 0% 53. 2% 87. 1% 26. 0% 100. 0% Общая 40. 3% 59. 7% 100. 0%
ПРИМЕР Tbl 17. 3. 4 • Проценты по типам покупателей Практ Импульс Общие Базовая Улучшенная Полная 24. 7% 14. 6% 60. 7% 18. 9% 66. 7% 14. 4% 21. 3% 45. 7% 33. 0% Общие 100. 0% Irwin/Mc. Graw. Hill © Andrew F. Siegel, 2003
Пример (продолжение) • Ожидаемые частоты – Умножить общее по строке на общее по столбцу и разделить на общее (из таблицы частоты) Ожидаемые частоты Практ Импульс. Базовая Улучш Полная Общие 89*47/221=18. 9 3 40. 67 29. 40 89. 00 Общие 28. 07 60. 33 43. 60 47. 00 101. 00 73. 00 132. 00 221. 00
Пример • Хи-квадрат статистика • 66. 8 • Степени свободы (Кол-во строк– 1)(Кол-во столбцов– 1) = (3 – 1)(2 – 1) = 2 • Результат Существует зависимость между типом покупателя и его предпочтением (p < 0. 001)