КЛАСТЕРНЫЙ АНАЛИЗ

Скачать презентацию КЛАСТЕРНЫЙ АНАЛИЗ Скачать презентацию КЛАСТЕРНЫЙ АНАЛИЗ

лекция 5.ppt

  • Количество слайдов: 20

>   КЛАСТЕРНЫЙ АНАЛИЗ       ОБЪЕКТ  КЛАСТЕРНЫЙ АНАЛИЗ ОБЪЕКТ Хn Класс 3 Х 1 ПРИЗНАКИ Класс 2 Класс 1

>1. Симметрия. Даны два объекта х и у; расстояние между ними удовлетворяет условию d(x, 1. Симметрия. Даны два объекта х и у; расстояние между ними удовлетворяет условию d(x, y)=d(y, x) 0. 2. Неравенство треугольника. Даны три объекта x, y, z; расстояния между ними удовлетворяют условию d(x, y) d(x, z)+ d(y, z). 3. Различимость нетождественных объектов. Даны два объекта х и у: если d(х, z) 0, то х у. 4. Неразличимость идентичных объектов. Для двух идентичных объектов х и х’ d(x, x’)=0, т. е. расстояние между этими объектами равно нулю. Пусть wi — i-я группа (класс, кластер) объектов, Ni — число объектов, образующих группу wi, вектор i — среднее арифметическое объектов, входящих в wi

>1. Расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров:  2. Расстояние дальнего 1. Расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров: 2. Расстояние дальнего соседа — расстояние между самыми дальними объектами кластеров: 3. Расстояние центров тяжести равно расстоянию между центральными точками кластеров:

>4. Обобщенное (по Колмогорову) расстояние между классами, или обобщенное K-расстояние,  вычисляется по формуле 4. Обобщенное (по Колмогорову) расстояние между классами, или обобщенное K-расстояние, вычисляется по формуле

> МЕРЫ РАССТОЯНИЯ КЛАСТЕРНОГО АНАЛИЗА  1. Евклидово расстояние(x, y) = {  МЕРЫ РАССТОЯНИЯ КЛАСТЕРНОГО АНАЛИЗА 1. Евклидово расстояние(x, y) = { (xi - yi)2 }1/2 2. Квадрат евклидова расстояния расстояние(x, y) = (xi – yi)2 3. Расстояние городских кварталов (манхэттенское расстояние). расстояние(x, y) = |xi – yi| 4. Расстояние Чебышева. расстояние(x, y) = max |xi – yi|

>5. Степенное расстояние(x, y) = {   |xi – yi|p }1/r  6. 5. Степенное расстояние(x, y) = { |xi – yi|p }1/r 6. Процент несогласия. расстояние(x, y) = (Количество xi yi)/ i Центроид кластера Правила объединения или связи

>    Кластер 1 Кластер 3  Кластер 2 Кластер 1 Кластер 3 Кластер 2

>- Одиночная связь (метод ближайшего соседа).  - Полная связь (метод наиболее удаленных соседей). - Одиночная связь (метод ближайшего соседа). - Полная связь (метод наиболее удаленных соседей). - Невзвешенное попарное среднее. - Взвешенное попарное среднее. - Невзвешенный центроидный метод. - Взвешенный центроидный метод (медиана). - Метод Варда.

>   АГЛОМЕРАТИВНЫЕ МЕТОДЫ ПОСТРОЕНИЕ ДЕРЕВА РЕШЕНИЙ - ДЕНДРОГРАММЫ 1. Построение матрицы расстояний АГЛОМЕРАТИВНЫЕ МЕТОДЫ ПОСТРОЕНИЕ ДЕРЕВА РЕШЕНИЙ - ДЕНДРОГРАММЫ 1. Построение матрицы расстояний (меры расстояния) 1 -1; 1 -2; 1 -3; 1 -4; . . 1 -103; 1 -104; 1 -105; 2 -1; 2 -2; 2 -3; 2 -4; . . 2 -103; 2 -104; 2 -105; . . . . . . . . ; 103 -1; 103 -2; . . . 103 -103; 103 -104; 103 -105; 104 -1; 104 -2; . . . 104 -103; 104 -104; 104 -105; 105 -1; 105 -2; . . . 105 -103; 105 -104; 105 -105. 2. Два наблюдения (монокластера), между которыми самое минимальное расстояние, объединяются в один кластер 3. Анализ оставшихся монокластеров и присоединение нового объекта к существующему кластеру либо объединение двух наблюдений в кластер

>расстояние   признаки расстояние признаки

>   Матрица расстояний по признакам Squared Euclidean distances (cars. sta)  Матрица расстояний по признакам Squared Euclidean distances (cars. sta) PRICE ACCELER BRAKING HANDLING MILAGE PRICE , 0 62, 4 43, 9 30, 7 57, 7 ACCELER 62, 4 , 0 48, 6 51, 6 36, 8 BRAKING 43, 9 48, 6 , 0 40, 4 37, 4 HANDLING 30, 7 51, 6 40, 4 , 0 52, 2 MILAGE 57, 7 36, 8 37, 4 52, 2 , 0

>объекты объекты

>   Матрица расстояний   Acura  Audi  BMW  Buick Матрица расстояний Acura Audi BMW Buick Corvette Chrysler Dodge Acura , 0 9, 9 7, 7 16, 5 5, 7 5, 8 Audi 9, 9 , 0 1, 4 5, 0 6, 0 2, 5 3, 0 BMW 7, 9 1, 4 , 0 8, 0 3, 4 2, 1 2, 0 Buick 7, 7 5, 0 8, 0 19, 4 2, 9 3, 9 Corvette 16, 5 6, 0 3, 4 19, 4 , 0 9, 5 8, 3 Chrysler 5, 7 2, 5 2, 1 2, 9 9, 5 , 0 , 2 Dodge 5, 8 3, 0 2, 0 3, 9 8, 3 , 2 , 0

>  Итерационные методы  Метод k-средних Мак-Кина 1) выбираются или назначаются k наблюдений, Итерационные методы Метод k-средних Мак-Кина 1) выбираются или назначаются k наблюдений, которые будут первичными центрами кластеров; 2) при необходимости формируются промежуточные кластеры; 3) после назначения всех наблюдений отдельным кластерам производится замена первичных кластерных центров на кластерные средние; 4) предыдущая итерация повторяется до тех пор, пока изменения координат кластерных центров не станут минимальными.

>       Назначение    объекта – 1 Назначение объекта – 1 шаг кластером и центроидом Расчет расстояний 2 шаг до всех объектов и объединение с ближайшим объектом в кластер 3 шаг Пересчет центроидов классов Расчет расстояний от 4 шаг центроидов до объектов и объединение с ближайшим Шаг 2 -4 повторяется итерационно объектом в кластер

>      Окончательные Шаг N     центроиды Окончательные Шаг N центроиды Расчет расстояний от Шаг N+1 центроидов до объектов Перетягивание ближайших объектов, пересчет центроидов Повторение шагов N и N+1 до минимального изменения координат центроидов

>    Статистики для классов       Standard Статистики для классов Standard Mean Deviatn. Variance PRICE , 931687 1, 290655 1, 665791 ACCELER -, 782310 1, 112544 1, 237754 2 класс BRAKING , 099270 , 484478 , 234718 HANDLING , 280263 , 423215 , 179111 MILAGE -, 876397 , 655936 , 430252 Standard Mean Deviatn. Variance PRICE -, 434787 , 386686 , 149526 ACCELER , 365078 , 721615 , 520728 1 класс BRAKING -, 046326 1, 179907 1, 392180 HANDLING -, 130790 1, 168604 1, 365636 MILAGE , 408985 , 867383 , 752353

>ГРАФИК СРЕДНИХ ГРАФИК СРЕДНИХ

>ПОСЛЕ УДАЛЕНИЯ НЕЗНАЧИМЫХ ПРИЗНАКОВ ПОСЛЕ УДАЛЕНИЯ НЕЗНАЧИМЫХ ПРИЗНАКОВ

>    Статистики для классов    Standard   Статистики для классов Standard Mean Deviatn. Variance PRICE , 195402 , 622618 , 387654 3 КЛАСС ACCELER , 788538 , 558425 , 311838 MILAGE -, 480841 , 648858 , 421017 Standard Mean Deviatn. Variance 2 КЛАСС PRICE 1, 11989 1, 749815 3, 061852 ACCELER -1, 59237 , 595372 , 354468 MILAGE -, 89508 , 658416 , 433512 Standard Mean Deviatn. Variance PRICE -, 604276 , 118952 , 014150 ACCELER , 006119 , 541236 , 292936 MILAGE , 742706 , 828777 , 686872