Многомерный статистический анализ Кластерный анализ
o Многомерный статистический анализ - раздел статистики математической, посвященный математическим методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практических выводов.
Основные подразделы: o Анализ многомерных распределений и их основных характеристик o 6. Анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака: анализ регрессионный, анализ дисперсионный, анализ ковариационнй, анализ факторный, анализ латентно-структурный, анализ логлинейный, 7. поиск взаимодействий o Анализ геометрической структуры исследуемой совокупности многомерных наблюдений : анализ дискриминантный, анализ кластерный, шкалирование многомерное 1. 2. 3. 4. 5. 1. 2. 3.
Прикладное значение многомерного статистического анализа: o o o - проблемы статистического исследования зависимостей между рассматриваемыми показателями; - проблемы классификации элементов (объектов или признаков); - проблемы снижения размерности рассматриваемого признакового пространства и отбора наиболее информативных признаков.
Кластерный анализ: o o «Совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя. " ("Статистический словарь» ) Это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение.
Алгоритмы кластеризации
Кластерный анализ (на примере сегментации потребителей) 8 потребителей и средняя продолжительность их разговоров (локальных и международных).
Y x
Евклидово расстояние для нахождения Центроидов для Кластеров Расстояние может быть вычислено и по другим формулам: • квадрат евклидова расстояния – для придания веса более отдаленным друг от друга объектам • манхэттенское расстояние – для уменьшения влияния выбросов • степенное расстояние – для увеличения/уменьшения влияния по конкретным координатам • процент несогласия – для категориальных данных и др.
Расстояние до С 1 и С 2 Для первого потребителя: Пренадлежность к С 1 или к С 2
o C 1 (1. 33, 2. 33) и C 2 (4. 4, 4. 2)
C 1 (1. 75, 2. 25) и C 2(4. 75, 4. 75)
Нормализация данных