Подготовка данных.ppt
- Количество слайдов: 18
Подготовка данных Пол Мужской Женский Нет данных АНКЕТА «Воскресный опрос» Возраст ____ (укажите полное количество лет) Нет данных Собираетесь ли Вы принять участие в выборах в ВР Украины в ближайшее воскресенье? Да Скорее да, чем нет Скорее нет, чем да Нет Затрудняюсь ответить Нет данных За какую партию Вы проголосовали бы, если выборы в ВР Украины проходили в ближайшее воскресенье? ПР Батькивщина КПУ Удар Свобода СДПУ НУНС Другая Затрудняюсь ответить Нет данных
Кодирование АНКЕТА «Воскресный опрос» Возраст ____ (укажите полное количество лет) Возраст 99. Нет данных Пол 1. Мужской Пол 2. Женский 99. Нет данных Собираетесь ли Вы принять участие в выборах в ВР Украины в ближайшее воскресенье? 1. Да Участие 2. Скорее да, чем нет 3. Скорее нет, чем да 4. Нет 98. Затрудняюсь ответить 99. Нет данных За какую партию Вы проголосовали бы, если выборы в ВР Украины проходили в ближайшее воскресенье? П 1. ПР артии 2. Батькивщина 3. КПУ 4. Удар 5. Свобода 6. СДПУ 7. НУНС 8. Другая 98. Затрудняюсь ответить 99. Нет данных
Кодирование Кодировочная таблица устанавливает соответствие между отдельными вопросами анкеты и переменными Кодировочная таблица устанавливает соответствие между возможными значениями переменных и кодовыми числами
Матрица данных Пол Возраст Участие Партии Мужской 45 да ПР Женский 22 Скорее да, чем нет КПУ Женский 19 Скорее да, чем нет КПУ Мужской 42 Скорее да, чем нет ПР Женский 34 да Удар Мужской 72 да Батькивщина Женский 38 да КПУ Мужской 56 да КПУ … …
Анализ множественных ответов Как можно сделать партию более привлекательной? - Больше активности в период между выборами; - Повышение эффективности общих собраний; - Больше неформальных встреч; - Открытые общие собрания; - Большая близость к населению на местах; - Лучше информировать членов партии об актуальных событиях; - Привлечение не членов партии к различным партийным проектам; - Больше мероприятий по актуальным политическим темам на местах.
Анализ множественных ответов Что мешает Вашему участию в партийной работе? - Мне неизвестны возможности для участия в работе; - Функции уже распределены; - Поведение функционеров; - Групповщина не дает стимула для участия; - У меня слишком мало политического опыта; - Я опасаюсь негативного влияния на свою работу/карьеру; - Я опасаюсь негативного влияния на свою личную жизнь; -Не желаю; - Здоровье не позволяет.
Таблица сопряженности Пол Женщины Мужчины Крайне неустойчивое, неустойчивое абс. частота > ожидаемой частоты абс. частота < ожидаемой частоты Очень устойчивое, устойчивое абс. частота частоты < ожидаемой > ожидаемой
Таблица сопряженности Пол Крайне неустойчивое Неустойчивое Устойчивое Очень устойчивое Женщины 84, 2 45, 0 22, 0 16, 7 Мужчины 15, 8 55, 0 78, 0 83, 3
Кластерный анализ – разновидность статистического многомерного анализа. Кластерный анализ позволяет осуществить разбиение изучаемой совокупности объектов на отдельные группы, называемыми кластерами. Разбиение производится так, что объекты, отнесенные к одному кластеру, считаются «похожими» , близкими, однотипными, а к разным – «непохожими» , далекими, разнотипными. В общем случае искомые кластеры определяются выполнением на них некоторых эмпирических закономерностей. Чтени е, 0 10 20 30 40 50 Чтение, продолжительность мин. 60 продо лжит ельнос ть мин. 2 3 1 Просмотр телепередач
Кластерный анализ Критерий «похожести» в кластерном анализе задается в явном виде как мера близости между двумя объектами. Выбор меры близости в кластерном анализе, как и формулы для расчета коэффициента связи в корреляционном анализе зависит от принадлежности измеряемых признаков к той или иной метрической шкале. Наименование метрики Евклидово расстояние Мера сходства Хэмминга Мера сходства Роджерса–Танимото Манхэттенская метрика Расстояние Махалонобиса Расстояние Журавлева Тип признаков Количественные Номинальные (качественные) Номинальные шкалы Количественные Смешанные
Кластерный анализ Методы кластерного анализа - иерархические; - неиерархические. Суть иерархического метода состоит в построении совокупности разбиений, каждое из которых получается из предыдущего посредством либо объединения двух и более классов (агломеративные алгоритмы), либо разбиения классов (дивизимные алгоритмы). Суть неиерархического кластерного анализа состоит в разделении набора данных на определенное количество отдельных кластеров. Существует два подхода. Первый заключается в определении границ кластеров как наиболее плотных участков в многомерном пространстве исходных данных, т. е. определение кластера там, где имеется большое «сгущение точек» . Второй подход заключается в минимизации меры различия объектов.
Кластерный анализ Последовательный процесс кластеризации начинается с рассмотрения n объектов; затем два наименее удаленных (ближайших) объекта объединяются в один кластер и число кластеров становится равным n – 1. Процесс повторяется до тех пор, пока все n объектов не попадут в один кластер, содержащий все объекты. 1, 0 0, 9 0, 8 0, 7 0, 6 0, 5 Сходство 0 0, 1 0, 2 0, 3 0, 4 0, 5 Расстояние 1 3 6 5 4 2 Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, который осуществляется в терминах матрицы расстояний или сходства.
Кластерный анализ Пример 18 политиков оцениваются по 10 характеристикам: - Уверенность во время выступлений. - Сила убеждения. - Уровень аргументации в дебатах. - Командный дух. - Находчивость. - Имидж. - Степень узнаваемости. - Авторитет. - Харизматичность. - Доверие населения. Каждая из отмеченных характеристик может принимать значение от 1 до 10. В нашем примере реализуется иерархический агломеративный алгоритм. Перед началом кластеризации все объекты считаются отдельными кластерами, на первом шаге выбирается пара ближайших кластеров, которые объединяются в один кластер. Процедура повторяется, до тех пока не останутся два кластера.
Кластерный анализ В таблице представлены шаги агломерации. По двум колонкам, расположенным под общей шапкой «Объединение в кластеры» , можно увидеть, что на первом шаге были объединены наблюдения 1 и 4. Эти два наблюдения образовывают кластер с номером 1, в то время как кластер 4 в обзорной таблице больше не появляется. На следующем шаге происходит объединение наблюдений 14 и 18, затем 12 и 15 и т. д. Следующий столбец нашей таблицы – «коэффициент» . Под коэффициентом подразумевается расстояние между двумя кластерами, определенное на основании выбранной дистанционной меры с учётом предусмотренного преобразования значений (в нашем случае это квадрат евклидового расстояния, определенный с использованием стандартизованных значений). Этот показатель имеет решающее значение для определения, какое количество кластеров следовало бы считать оптимальным.
Кластерный анализ На шаге, где коэффициент расстояния между двумя кластерами увеличивается скачкообразно, процесс объединения в новые кластеры необходимо остановить (в противном случае будут объединены кластеры, находящиеся на относительно большом расстоянии друг от друга). В приведенном примере - это скачок с 12, 8 до 194, 0. Оптимальным считается число кластеров равное разности количества наблюдений (в нашем случае - 18) и количества шагов, после которого коэффициент увеличивается скачкообразно (в нашем случае - 14). В столбце «Последнее появление кластера» , фиксируется шаг, на котором появляется кластер в последний раз. «Следующий шаг» - это столбец отражающий шаг, на котором появляется кластер следующий раз.
Кластерный анализ Таблица иллюстрирует, как распределяются наблюдения по кластерам. В первый кластер входит 4 политика (Politname 1, Politname 4, Politname 12, Politname 15), во второй кластер входит 4 политика (Politname 2, Politname 6, Politname 10, Politname 17) и т. д. Наблюдение 1: Politname 1 2: Politname 2 3: Politname 3 4: Politname 4 5: Politname 5 6: Politname 6 7: Politname 7 8: Politname 8 9: Politname 9 4 кластера 1 2 3 1 4 2 4 4 3 Наблюдение 10: Politname 10 11: Politname 11 12: Politname 12 13: Politname 13 14: Politname 14 15: Politname 15 16: Politname 16 17: Politname 17 18: Politname 18 4 кластера 2 3 1 4 2 3
Кластерный анализ Кластер 1 Кластер 2 Кластер 3 Кластер 4 Уверенность во время выступлений 10, 00 4, 20 4, 80 Сила убеждения 10, 00 4, 80 4, 40 Уровень аргументации в дебатах Командный дух 9, 00 4, 25 10, 00 4, 00 10, 00 4, 40 4, 00 Находчивость 10, 00 4, 75 10, 00 4, 20 Имидж 9, 50 4, 40 10, 00 Степень узнаваемости 9, 25 3, 75 10, 00 4, 40 Авторитет 9, 75 4, 25 4, 00 10, 00 Харизматичность 10, 00 4, 25 3, 80 10, 00 Доверие населения 9, 50 4, 25 10, 00 5, 00
Кластерный анализ Данные в таблице можно интерпретировать следующим образом: кластер 1 объединяет политиков, для которых из выделенных характеристик пять имеют максимальное значение (10), а значения оставшихся пяти находятся в интервале от 9 до 9, 75; кластер 3 объединяет политиков, для которых из выделенных характеристик четыре имеют максимальное значение (10), однако оставшиеся шесть имеют значения существенно меньше от 3, 8 до 4, 8; кластеры 2 и 4 объединяет политиков, для которых из выделенных характеристик только три имеют максимальное значение (10), а значение оставшихся характеристик варьируют в интервале от 3, 75 до 5.