Функционалы качества разбиения на классы Большое количество различных

Функционалы качества разбиения на классы Большое количество различных способов разбиения совокупности n элементов на p классов. Задача сравнительного анализа качества этих способов разбиения. С целью сравнения качества разбиения вводится понятие функционала качества разбиения Q(S).

Наиболее распространенные функционалы качества разбиения Пусть выбрана метрика d в пространстве X и пусть - некоторое фиксированное разбиение наблюдений на некоторое заданное число р - классов. Рассмотрим наиболее распространенные функционалы качества:

Наиболее распространенные функционалы качества разбиения n Взвешенная сумма мер внутриклассового разброса наблюдений (Сумма внутриклассовых дисперсий) d 2(, . . ) - квадрат расстояния между заданными точками анализируемого к-мерного пространства.

центр тяжести

Наиболее распространенные функционалы качества разбиения Сумма квадратов попарных внутриклассовых расстояний между элементами n или

Функционалы качества разбиения на классы Выбор конкретной формы критерия Q(S) опирается на профессиональные, эмпирические соображения исследователя, а не на строго формализованную схему.

Метод к-средних (метод динамических сгущений) Если число объектов, подлежащих классификации достаточно велико, то целесообразно использовать итерационные алгоритмы кластерного анализа, на каждом шаге которых последовательно обсчитывается лишь небольшая часть исходных наблюдений.

Метод к-средних (метод динамических сгущений) Идея метода к-средних состоит в разбиении множества объектов на заранее известное число р - кластеров, так, чтобы минимизировать функционал качества – сумму внутриклассовых дисперсий - вектор средних (центр тяжести) для sl группы.

Метод к-средних состоит из 2 -х последовательных этапов. На первом этапе в итерационном режиме производится последовательное уточнение «центров тяжести» ( «эталонных точек» ) искомых классов. На втором этапе производится разбиение наблюдений на классы.

Метод к-средних Алгоритм ПЗ Пусть наблюдения требуется разбить на заданное число р однородных (в смысле некоторой метрики расстояний) классов. Алгоритм состоит в последовательном уточнении эталонных точек (ν - номер итерации, ν=0, 1, 2. . ) с соответствующим пересчетом приписываемых «весов»

Метод к-средних Случайно выбирают l - точек (например, крайние) исследуемой совокупности, которые принимаются за центры классов. Таким образом: При определении нулевого приближения Е(0) эталоны желательно выбирать наиболее «взаимоудаленными» . По умолчанию нулевое приближение Е(0) строится с помощью случайно выбранных первых l-точек исследуемой совокупности

Метод к-средних (Алгоритм) 1. На первом шаге извлекается наблюдение и выясняется к какому из центров оно оказалось ближе всего. Именно этот, самый близкий к центр тяжести (эталон) заменяется новым эталоном, определяемым как центр тяжести старого эталона и присоединенной к нему точки (с увеличением на единицу соответствующего ему веса). Все другие эталоны остаются неизменными ( с прежними весами).

Метод к-средних (Алгоритм) Пересчет центров тяжести кластеров и их весов на ν- м шаге после извлечения наблюдения происходит для i-го кластера по следующей формуле

Метод к-средних (Алгоритм) Если обнаружится несколько одинаковых минимальных значений , то можно условиться относить точку минимальным порядковым номером. к эталону с

Метод к-средних (Алгоритм) При достаточно большом числе итераций или при достижении большой совокупности (n –велико) дальнейший пересчет центров тяжести практически не приводит к изменению, то есть имеет место сходимость ( в определенном смысле) к некоторому пределу при. На этом работа итерационного алгоритма метода к-средних заканчивается.

Метод к-средних Если при решении конкретной задачи не удается получить устойчивые (по ν) значения эталонных точек, то пользуются следующими приемами: n «Зацикливают» алгоритм, прогоняя его после рассмотрения последней точки Xn снова через точку X 1, затем X 2 и так далее, n Производят многократное повторение алгоритма, используя в качестве начального эталона Е(0) различные комбинации из l точек исследуемой совокупности и выбирая повторяющийся финальный эталон Е(n-p).

Применение кластерного анализа в SPSS

Кластерный анализ Результатом кластерного анализа являются р-классов возникает задача их качественного анализа. Для этого строят таблицу и график средних значений по кластерам показатели / кластеры X 1 X 2 X 3 S 1 S 2

Graph of means (График средних) • можно получить графическое изображение информации содержащейся в таблице, выводимой при нажатии на кнопку Analysis of Variance (Дисперсионный анализ). • На графике показаны средние значения переменных для каждого кластера. • По горизонтали отложены участвующие в классификации переменные, а по вертикали - средние значения переменных в разрезе получаемых кластеров.

График средних значений показателей 250 200 S 1 150 S 3 100 50 0 x 1 x 2 x 3 S 2

Вывод результатов

Иерархические кластер-процедуры Иерархические (древообразные) процедуры являются наиболее распространенными алгоритмами кластерного анализа. Они бывают двух типов: n агломеративные n дивизимные. Принцип работы агломеративных процедур заключается в последовательном объединении групп элементов сначала самых близких (анализ матрицы расстояний), а затем все более отдаленных друг от друга (т. е. начальным является разбиение, состоящее из n -одноэлементных классов, а конечным - из одного класса)

Иерархические кластер-процедуры n n Принцип работы дивизимных процедур заключается в последовательном разделении групп элементов сначала самых далеких, а затем все более близких друг от друга Большинство иерархических алгоритмов исходит из матрицы расстояний D.

Преимущества иерархические кластер-процедуры По сравнению с другими кластер-процедурами, дают более полный и тонкий анализ структуры исследуемого множества наблюдений. n Возможность наглядной интерпретации проведенного анализа в виде дендрограмм. Задачи 2 -х типов: 1. Разбиение на заданное число классов; 2. Разбиение на неизвестное число классов (например, с использованием функционалов качества). n

Дендрограмма Результаты классификации представляются графически в виде дендрограммы кластеры

Иерархические кластер-процедуры Недостатки иерархических КП n Громоздкость вычислительной реализации (на каждом шаге необходимо вычислять матрицу расстояний D) n При n>100 дендрограмма теряет наглядность.

Иерархические агломеративные алгоритмы (ИАА), использующие понятие порога Общая схема таких алгоритмов отличается от иерархических АА наличием монотонной последовательности порогов , которые используются следующим образом: n На первом шаге попарно объединяются элементы, расстояние между которыми не превышает С 1 n На втором шаге объединяются элементы (группы элементов), расстояние между которыми не превышает С 2 n ……. n На последнем t-м шаге объединяются все n -элементов в один класс.

Иерархические алгоритмы, использующие понятие порога Пороговые алгоритмы эффективны для исходных совокупностей, у которых слабо выражен цепочный эффект и они естественно распадаются на какое-то количество достаточно отдаленных скоплений точек (кластеров)

Алгоритмы кластерного анализа типа «Форель» Термин «Форель» был предложен Загоруйко Н. Г. и Ёлкиной В. Н. в 1967 г. в институте Математики СО РАН при решении прикладной задачи в области палеонтологии. FOREL (Формальный Элемент) является примером эвристического алгоритма классификации, основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения. v v v v - k-средних (k-means); - графовые алгоритмы кластеризации; - статистические алгоритмы кластеризации; - алгоритм ФОРЕЛЬ; - иерархические методы кластеризации таксономия; - нейронная сеть Кохонена; - ансамбль кластеризаторов.

Алгоритмы кластерного анализа типа «Форель» Рассмотрим алгоритм «Форель-1» Пусть совокупность наблюдений нужно разбить на некоторое, заранее неизвестное число классов. 1. Пусть найдены: n вектор средних n - радиус минимальной гиперсферы с центром в , содержащий все точки исследуемой совокупности.

Алгоритмы кластерного анализа типа «Форель» Алгоритм «Форель-1» 2. Зададим произвольный радиус и из любой точки , принятой за центр, радиусом R 1 описывается гиперсфера С 1.

Алгоритмы кластерного анализа типа «Форель» Алгоритм «Форель-1» Находится центр тяжести точек совокупности, попавших в гиперсферу С 1. 3. Из радиусом R 2 описывается гиперсфера С 2 и определяется - центр тяжести точек, попавших в С 2.

Форель-1 Т. о. мы на каждом шаге двигаем сферу в сторону локального сгущения объектов выборки, т. е. стараемся захватить как можно больше объектов выборки сферой фиксированного радиуса.

Алгоритмы кластерного анализа типа «Форель-1» Процедура построения гиперсфер и точек повторяется до тех пор, пока «центры тяжести» , точки не перестанут меняться. Точки совокупности, попавшие в «стационарную» гиперсферу, принимаются за первый класс S 1.

Алгоритмы кластерного анализа типа «Форель» Алгоритм «Форель-1» (продолжение) Для всех оставшихся точек, не попавших в класс S 1 процедура повторяется заново и выделяется класс S 2 …………………. . и так далее до тех пор, пока все точки совокупности не будут распределены по классам S 1

Алгоритмы кластерного анализа типа «Форель» Применение алгоритма «Форель-1» для ряда последовательных значений позволяет ориентировочно оценить наиболее предпочтительное число классов для совокупности объектов. При этом основанием для выбора числа классов может служить многократное повторение одного и того же числа классов для нескольких последовательных значений .

Алгоритмы кластерного анализа типа «Форель» Процедура алгоритма Форель является сходящейся за конечное число шагов в евклидовом пространстве любой размерности произвольном расположении точек и любом выборе гиперсферы.

Алгоритмы кластерного анализа типа «Форель» Если начальную точку, в которую переносится центр сферы, на шаге № 2 менять случайным образом, может получиться несколько вариантов кластеризации, из которых выбирается тот, на котором достигается минимум функционала качества (либо исходя из профессиональных соображений исследователя).

Алгоритмы кластерного анализа типа «Форель» . Обратная задача Если ставится задача разбить совокупность на заданное число классов р, то используется одна их модификаций алгоритма «Форель-2» , позволяющая методом последовательного приближения находить минимальный радиус , дающий разбиение на р-классов.

Преимущества • Точность минимизации функционала качества (при удачном подборе параметра R) • Наглядность визуализации кластеризации • Сходимость алгоритма • Возможность операций над центрами кластеров - они известны в процессе работы алгоритма • Возможность подсчета промежуточных функционалов качества, например, длины цепочки локальных сгущений • Возможность проверки гипотез сходимости и компактности в процессе работы алгоритма

Недостатки Ø Ø Относительно низкая производительность (пересчет поиск центра при добавлении нового объекта внутрь сферы) Плохая применимость алгоритма при плохой разделимости выборки на кластеры Неустойчивость алгоритма (зависимость от выбора начального объекта) Необходимость априорных знаний о ширине (диаметре) кластеров.

Построение регрессии по неоднородным данным

Часто построению уравнений регрессии должно предшествовать разбиение всей совокупности наблюдений на однородные группы (кластеры). Полученные таким образом уравнения регрессии называют типологическими регрессиями, т. к. они строятся по отдельным типологическим группам наблюдений.

1. Временная информация Исследуя зависимость спроса от цены товара, взяв для исследования данные за 1999 и 2009 гг. , мы получим зависимость , из которой следует, что увеличение цены приводит к росту спроса на товар.

2. Пространственные данные Пример 1 Каждое i-ое наблюдение (фирма) характеризуется набором k – признаков: прибылью, объемом выпущенной продукции, численностью работников, себестоимостью продукции и т. д. Абсолютная величина показателей часто связано не с эффективностью работы фирмы, а с ее величиной (масштабностью). Поэтому, прежде, чем переходить к построению регрессионных моделей, необходимо выделить из n - рассматриваемых фирм p – однородных по комплексу признаков групп (кластеров), используя типологические группировки (например, малые, средние, крупные предприятия и предприятия-гиганты).

Пример 2 Исследование зависимости миграционных процессов от уровня полученного образования xi (лет) - общая продолжительность процесса обучения взрослого (в возрасте не менее 25 лет) жителя региона yi - процент уехавших из региона за рассматриваемый промежуток времени взрослых жителей среди всех взрослых жителей с уровнем образования xi. Регрессионное уравнение, построенное для всей совокупности объектов свидетельствует об отсутствии зависимости между переменными, несмотря на гипотетическую уверенность специалистов в обратом.

Пример Геометрическое изображение данных: Содержательный анализ каждой подвыборки позволил обнаружить скрытый сопутствующий признак z (тип полученного образования с двумя градациями: 1 – естественно – научно техническое; 2 – гуманитарное.

Пример Геометрическое изображение данных: Разделение данных на подвыборки по сопутствующей переменной и построение искомой регрессионной зависимости отдельно для каждой из подвыборок дают две различные модели: - для жителей с гуманитарным образованием ( «крестики» на рисунке) интенсивность эмиграции падает, - для жителей с естественнонаучно-техническим образованием (точки) интенсивность эмиграции растет.

Линейные регрессионные модели с переменной структурой При анализе сложных социально-экономических процессов возникают ситуации, когда собранные исходные статистические данные представляют смесь нескольких регрессионно однородных подвыборок, но выявить эти подвыборки по значениям сопутствующих переменных сложно (мы не можем). неудачи при построении регрессионных моделей.

В таком случае исследование в зависимости от условий проводится по одной из схем: 1) воздействующие качественные факторы наблюдаемы в ходе сбора исходных статистических данных. Объем данных позволяет разбить всю имеющуюся выборку на регрессионно однородные выборки таких объемов, которые обеспечивают возможность статистически надежного регрессионного анализа отдельно по каждой выборке, при этом воздействие качественных факторов может приводить к скачкообразному изменению практически всех регрессионных коэффициентов.

В этом случае анализируется столько регрессионных зависимостей, сколько имеется регрессионно однородных выборок, причем построение и анализ модели регрессии производятся отдельно по каждой такой выборке.

2) Воздействие качественных факторов может приводить к скачкообразному изменению лишь части регрессионных коэффициентов модели. В этом случае анализ регрессионной модели производится на базе объединенной (регрессионно неоднородной) выборки с помощью введения в модель так называемых фиктивных переменных или в рамках модели ковариационного анализа. Данный подход особенно актуален в условиях дефицита исходных статистических данных.

3) Если воздействия сопутствующих качественных факторов на структуру КЛММР скрыты, то возможна ситуация, когда собранные статистические данные в действительности представляют собой смесь нескольких регрессионно однородных подвыборок, выявить которые по значениям сопутствующих переменных нельзя. В таком случае построение единой регрессионной зависимости нецелесообразно, рекомендуется использовать итерационную процедуру «типологической регрессии» .

Общая процедура построения регрессионной модели по неоднородным данным в условиях отсутствия изменений по качественным сопутствующим переменным Z имеет итерационный характер. Каждая итерация состоит из двух шагов. Шаг 1 ( «Типология» ). Осуществляется разбиение данных в соответствующем (p+1)-мерном пространстве на некоторое число k регрессионно однородных подвыборок. На начальной итерации разбиение производится с помощью метода kсредних или с помощью метода расщепления смеси нормальных распределений. Далее – с помощью одного из общих алгоритмов эталонного типа, когда каждое из наблюдений относится к классу с тем номером j 0 , расстояние ρi( j 0 ) до эталона которого оказывается наименьшим. В моделях линейных регрессий расстояние ρi( j 0 ) равно: ρi 2( j )= ρ2((Xi, yi); ЦТ(j))+ρ2((Xi, yi); fi) где ρ2((Xi, yi); ЦТ(j)) – квадрат евклидова расстояния от точки (Xi, yi) до центра тяжести j-й подвыборки, определенной на предыдущей итерации, ρ2((Xi, yi); fi) – квадрат длины перпендикуляра, опущенного из точки (Xi, yi) на гиперплоскость регрессии y= fi (X).

v v ПРИМЕЧАНИЕ. В случае наличия нескольких (m) минимумов по j у расстояния ρi( j ) принимается рандомизировнное (с вероятностями 1/m ) решение об отнесении точки (Xi, yi) к одному из этих m классов. На рисунках схематично представлены варианты возможных расположений подвыборок Bni(j) для случая регрессии (p=1) и двух регрессионно однородных подвыборок (k=2), а также – геометрический смысл предложенного выше расстояния ρi( j ).