
Data mining-Ассоциативные правила.pptx
- Количество слайдов: 29
Data Mining Ассоциативные правила Исполнитель: магистрант 1 курса Косницкая А. С.
Деревья решений - общие принципы работы Деревья решений – классификатор, полученный из обучающего множества, содержащего объекты и их характеристики. Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение.
Область применения Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов. Классификация: Деревья решений отлично справляются с задачами классификации, т. е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения. Регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования(предсказания значений целевой переменной).
Преимущества использования деревьев решений 1. быстрый процесс обучения; 2. генерация правил в областях, где эксперту трудно формализовать свои знания; 3. извлечение правил на естественном языке, например: если возраст > 35 и доход > среднего, то Выдать кредит; 4. интуитивно понятная классификационная модель: результат работы представляется в легко интерпретируемом для человека виде; 5. высокая точность прогноза;
Практическое применение деревьев решений Банковское дело. Оценка кредитоспособности клиентов банка при выдаче кредитов. Промышленность. Контроль за качеством продукции (выявление дефектов), испытания без разрушений (например проверка качества сварки) и т. д. Медицина. Диагностика различных заболеваний. • Молекулярная биология. Анализ строения аминокислот.
Нейронные сети - математический аппарат Схема нейрона Состояние нейрона определяется по формуле: где n – число входов нейрона; xi – значение i-го входа нейрона; wi – вес i-го синапса. Значение аксона нейрона по формуле: Y = f(S) где f – некоторая активационная функция. Наиболее часто в качестве неё используется так называемый сигмоид, который имеет следующий вид:
Достоинства нейросетей 1. Одним из основных достоинств нейронных сетей является то, что они имеют широкую область применения. Деревья решений напротив, ограничены в рамках задач классификации, следует заметить, что существуют алгоритмы решающие задачи прогнозирования, но они значительно уступают нейронным сетям; 2. Нейронные сети по своей природе являются универсальными аппроксиматорами и позволяют моделировать очень сложные закономерности, что, скажем, не доступно классическим регрессионным моделям; Нет необходимости заранее знать вид аппроксимируемой функции; 3. 4. Нейронная сеть может быть легко дообучена с учетом вновь поступивших данных, для деревьев решений на сегодняшний день это большая проблема, поскольку не разработана методика "достроения" дерева, приходится строить дерево с нуля, не учитывая ранее построенное; 5. Существуют нейросетевые парадигмы, например, карты Кохонена, в которых процесс обучения происходит без учителя, т. е. сеть сама разбирает структуру данных;
Ассоциативные правила •
•
Настройки параметров поиска правил Минимальная и максимальная поддержка. Ассоциативные правила ищутся только в некотором множестве всех транзакций. Для того чтобы транзакция вошла в это множество, она должна встретиться в исходной выборке количество раз, больше минимальной поддержки и меньше максимальной. Минимальная и максимальная достоверность. Это процентное отношение количества транзакций, содержащих все элементы, которые входят в правило, к количеству транзакций, содержащих элементы, которые входят в условие. Достоверность характеризует, насколько часто покупаются товары, входящие в следствие, если заказ содержит товары, вошедшие во всё правило.
Задача нахождения ассоциативных правил работает в два этапа: 1. Нахождение всех наборов элементов, которые удовлетворяют порогу minsupport. Такие наборы элементов называются часто встречающимися. 2. Генерация правил из наборов элементов, найденных согласно 1. с достоверностью, удовлетворяющей порогу minconfidence.
Apriori - масштабируемый алгоритм поиска ассоциативных правил Алгоритм Apriori был предложен в 1994 г. (Agrawal и Srikant, исследовательская группа Almaden IBM) и в настоящее время является одним из наиболее популярных алгоритмов поиска ассоциативных правил. Свойства масштабируемого алгоритма: 1. 2. 3. 4. 5. Однопроходность – алгоритм должен использовать не более одного прохода БД, при этом желательно досрочно завершать проход. Возможность отсечения по времени – алгоритм должен быть способен выдать наилучшее на данный момент решение в любое время, даже если процесс вычислений не доводится до естественной остановки. Прерываемость и продолжаемость – алгоритм должен предусматривать возможность временной приостановки и продолжения работы. Промежуточные результаты должны быть сохраняемы с возможностью дальнейшего продолжения вычислений, а может быть, с использованием новых данных. Ограниченность по объему требуемой памяти – алгоритм должен работать в пределах ограниченного объема памяти компьютера, выделяемого пользователем. Однонаправленность – при проходе базы данных последовательность считывания записей производится только в одном направлении. Такой режим работы называется режимом однонаправленного указателя, когда указатель движется только вперед и без возможности обратного перемещения.
Алгоритм Apriori ü Предобработка данных: 1. привести все данные к бинарному виду; 2. изменить структуру данных. Обычный вид базы данных транзакций: Нормализованный вид: ü На первом шаге необходимо найти часто встречающиеся наборы элементов, а затем, на втором, извлечь из них правила.
Свойство анти-монотонности Ø «поддержка любого набора элементов не может превышать минимальной поддержки любого из его подмножеств» Поддержка 3 -элементного набора {Хлеб, Масло, Молоко} будет всегда меньше или равна поддержке 2 -элементных наборов {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}. Дело в том, что любая транзакция, содержащая {Хлеб, Масло, Молоко}, также должна содержать {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}, причем обратное не верно. Ø «с ростом размера набора элементов поддержка уменьшается, либо остается такой же»
Генерация правил из часто встречающихся наборов •
Стимулирование продаж в интернет магазине Компания Adventure Cycle. Work Russia является дистрибьютором спортивных (серия Sport), горных (серия Mountain) и дорожных (серия Road) велосипедов и комплектующих к ним компании Adventure Cycle. Work на территории России и стран СНГ. Офисы компании работают в шести городах России. У фирмы есть склад и собственная сборочная база.
Импорт данных в среду аналитического пакета Deductor
Запуск обработчика Ассоциативные правила
Построение набора правил
Различные варианты представления правил Визуализатор «Правила»
Визуализатор «Популярные наборы» – таблица, в которой представлены часто встречающиеся предметные наборы с поддержкой больше либо равной заданного порога.
Визуализатор «Дерево правил»
Визуализатор «Что-если»
Правила для получения интересных зависимостей 1. Уменьшение минимальной поддержки приводит к тому, что увеличивается количество потенциально интересных правил, однако это требует существенных вычислительных ресурсов. Одним из ограничений уменьшения порога минимальной поддержки является то, что слишком маленькая поддержка правила делает его статистически необоснованным. 2. При большом значении параметра максимальная поддержка программа будет формировать множество тривиальных правил, не содержащих никакой новой информации. Это, скорее всего, означает то, что либо правило всем известно, либо товары, присутствующие в нем, являются лидерами продаж, откуда следует их низкая практическая ценность. При таком раскладе не представляется возможным уменьшить минимальный порог поддержки до того значения, при котором могут появляться интересные правила. Причиной тому является просто огромное число правил и, как следствие, нехватка системных ресурсов. Причем получаемые правила процентов на 95 содержат товары – лидеры продаж. Поэтому не рекомендуется устанавливать его на уровне более 20%. 3. Как уже отмечалось, следует ограничивать параметр мощность часто встречающихся множеств. Правила, в условие которых включено более 2 -3 предметов, обычно очень трудно интерпретировать. 4. Уменьшение порога минимальной достоверности приводит к необоснованному увеличению количества правил, поэтому значение этого параметра не должно быть слишком низким. Кроме того, правило с достоверностью порядка 10%, даже если оно отражает реальные взаимосвязи, чаще всего не будет иметь никакого практического значения. 5. Правила с очень большой максимальной достоверностью (более 90%) также не имеют ценности в контексте решаемой задачи. Товары, входящие в следствие такого правила, покупатель, скорее всего, купит сам, без каких-либо усилий со стороны маркетинговых служб.
Интерпретация полученных правил
Содержательный анализ правил ü шины, велокамеры и велосипеды часто встречаются в условиях и следствиях правил, это лидеры продаж магазина, поэтому и правила с ними имеют высокую достоверность (до 85%); ü правила, входящие в группы {Велокамера —> Шина) и {Шина —> Велокамера}, тривиальны сами по себе: понятно, что эти запчасти обычно меняют одновременно; ü правила типа {Фляга —> Держатель фляги} тоже тривиальны, так как никому не нужна велосипедная фляга без возможности закрепить ее на раме; ü правила типа {Велосипед —> Фляга} хотя и тривиальны, но, возможно, имеют ценность; никогда не будет лишним при покупке велосипеда предложить флягу и держатель к ней. ü теперь рассмотрим правило {Пластыри для велокамеры + Шина HL Mountain —> Велокамера Mountain}. Его условие непонятно: почему пластыри покупаются именно с шинами Mountain, ведь есть и другие шины? Анализ популярных наборов подтвердил, что это происходит из-за того, что велокамеры Mountain продаются чаще других камер (что, в свою очередь, объясняется популярностью велосипедов Mountain).
Все полученные правила, имеют уровень достоверности более 40%, и даже при достоверности 42 -43% получаются тривиальные правила. Вероятно, имеет смысл сделать следующее: запустить заново алгоритм Apriori с интервалом допустимой достоверности от 25% до 40%; не рассматривать правила, в следствиях и условиях которых содержатся велосипеды, шины и велокамеры (очевидные лидеры продаж).
Список литературы 1. Кацко И. А. , Паклин Н. Б. - Практикум по анализу данных на компьютере - Колос, 2009. 2. Deductor Руководство аналитика. Версия 5. 2. 3. Deductor Руководство по алгоритмам. Версия 5. 2. 0. 4. R. Agrawal, T. Imielinski, A. Swami. – "Mining Associations between Sets of Items in Massive Databases" , 1993. 5. R. Agrawal, R. Srikant. "Fast Discovery of Association Rules", 1994.
Спасибо за внимание!