
Форель.pptx
- Количество слайдов: 24
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ, СТАТИСТИКИ И ИНФОРМАТИКИ АЛГОРИТМЫ ТИПА «FOREL» Презентацию подготовили: Вальдман Алена и Вальдман Мария Группа дэт-301 Преподаватель: Архипова Марина Юрьевна 2010 г.
Кластерный анализ Общая постановка задачи Всю анализируемую совокупность объектов разбить на сравнительно небольшое число однородных, в определенном смысле, групп или классов Решение задачи Определение естественного расслоения исходных наблюдений на четко выраженные кластеры, лежащие друг от друга на некотором расстоянии.
Кластерный анализ Полученные в результате разбиения группы обычно называются кластерами. Методы их нахождение – кластеранализом (КА).
Основные понятия КА n – подлежащих классификации наблюдений; p – число признаков; X – матрица наблюдений, размерности nxp. p – число признаков; X – матрица наблюдений, размерности nxp.
Среди наиболее известных методов кластеризации можно выделить следующие: v - k-средних (k-means); v - графовые алгоритмы кластеризации; v - статистические алгоритмы кластеризации; v - алгоритм ФОРЕЛЬ; v - иерархическую кластеризацию или v таксономию; v - нейронную сеть Кохонена; v - ансамбль кластеризаторов
FOREL (Формальный Элемент) является примером эвристического дивизимного алгоритма классификации , основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения. Данный термин был предложен Загоруйко и Ёлкиной в 1967 г. при решении одной прикладной задачи в области палеонтологии.
Цель кластеризации Разбить выборку на такое (заранее неизвестное число) таксонов, чтобы сумма расстояний от объектов кластеров до центров кластеров была минимальной по всем кластерам. Т. е. наша задача - выделить группы максимально близких друг к другу объектов, которые в силу гипотезы схожести и будут образовывать наши кластеры.
Минимизируемый алгоритмом функционал качества где первое суммирование ведется по всем кластерам выборки, второе суммирование - по всем объектам x, принадлежащим текущему кластеру Sl , а Wl- центр текущего кластера, ρ - расстояние между объектами.
Необходимые условия работы Выполнение гипотезы компактности, предполагающей, что близкие друг к другу объекты с большой вероятностью принадлежат к одному кластеру (таксону). Наличие линейного или метрического пространства кластеризуемых объектов
Кластеризуемая выборка Может быть задана признаковыми описаниями объектов - линейное пространство либо матрицей попарных расстояний между объектами. Параметр R - радиус поиска локальных сгущений. Его можно задавать как из априорных соображений (знание о диаметре кластеров), так и настраивать скользящим контролем. Кластеризация на заранее неизвестное число таксонов
Принцип работы На каждом шаге мы случайным образом выбираем объект из выборки, раздуваем вокруг него сферу радиуса R, внутри этой сферы выбираем центр тяжести и делаем его центром новой сферы. Т. о. мы на каждом шаге двигаем сферу в сторону локального сгущения объектов выбоки, т. е. стараемся захватить как можно больше объектов выборки сферой фиксированного радиуса. После того как центр сферы стабилизируется, все объекты внутри сферы с этим центром мы помечаем как кластеризованные и выкидываем их из выборки. Этот процесс мы повторяем до тех пор, пока вся выборка не будет кластеризована.
Пример работы алгоритма Допустим, было дано некоторое множество классифицируемых объектов. Пусть каждый объект обладает только двумя свойствами; это позволит отобразить исходные данные на геометрической плоскости:
Шаг 1 Построить гиперсферу радиуса R 0, охватывающую все множество точек:
Шаг 2 Установить радиус гиперсферы R 1=0, 9 R 0 и перенести центр сферы в любую из внутренних точек (расстояние до которых меньше радиуса):
Шаг 3 Вычислить новый центр тяжести и перенести в него центр сферы
Шаг 4 Если новый центр тяжести отличается от предыдущего необходимо вернуться к шагу 2 и повторить цикл. Цикл будет повторяться до тех пор пока центр тяжести не перестанет смещаться. Таким образом, центр сферы перемещается в область локального сгущения точек. В предложенном примере X 0≠X 1 , поэтому: необходимо установить новый радиус сферы R 2=0, 9 R 1 и перенести центр сферы в произвольную внутреннюю точку.
Шаг 5 Вычислить новый центр тяжести и перенести в него центр сферы. Новый центр тяжести X 2=X 1, поэтому внутренние точки текущей сферы объединяются в таксон:
Шаг 6 Точки принадлежащие новому таксону исключаются из анализа и работа алгоритма повторяется с шага № 1. И так до тех пор пока все точки не будут исключены из анализа:
Процедура алгоритма Форель является сходящейся за конечное число шагов в евклидовом пространстве любой размерности произвольном расположении точек и любом выборе гиперсферы. Если начальную точку, в которую переносится центр сферы, на шаге № 2 менять случайным образом, может получиться несколько вариантов таксономии, из которых выбирается тот, на котором достигается минимум функционала качества.
Алгоритм Форель 2 является модификацией исходного алгоритма и применяется в тех случаях, когда необходимо получить изначально заданное количество кластеров (таксонов). Таким образом, данный алгоритм позволяет методом последовательного приближения находить минимальный радиус Rmin, дающий разбиение на k класов. Наилучшему варианту таксономии отвечает минимум функции при числе таксонов равном заданному.
Преимущества • Точность минимизации функционала качества (при удачном подборе параметра R) • Наглядность визуализации кластеризации • Сходимость алгоритма • Возможность операций над центрами кластеров - они известны в процессе работы алгоритма • Возможность подсчета промежуточных функционалов качества, например, длины цепочки локальных сгущений • Возможность проверки гипотез схожести и компактности в процессе работы алгоритма
Недостатки Относительно низкая производительность (решается введение функции пересчета поиска центра при добавлении 1 объекта внутрь сферы) Плохая применимость алгоритма при плохой разделимости выборки на кластеры Неустойчивость алгоритма (зависимость от выбора начального объекта) Произвольное по количеству разбиение на кластеры Необходимость априорных знаний о ширине (диаметре) кластеров
Область применения Решение задач кластеризации Решение задач ранжирования выборки Спектр применений кластерного анализа очень широк: его используют в археологии, медицине, психологии, химии, биологии, государственном управлении, филологии, антропологии, маркетинге, социологии и других дисциплинах.
Спасибо за внимание!