Скачать презентацию Data Mining 1 История 2 Введение в Data Скачать презентацию Data Mining 1 История 2 Введение в Data

Деревья решений.ppt

  • Количество слайдов: 47

Data Mining 1 История 2 Введение в Data Mining 3 Деревья решений 4 Метод Data Mining 1 История 2 Введение в Data Mining 3 Деревья решений 4 Метод ближайшего соседа

История Data Mining • 1960 -е гг. – первая промышленная СУБД система IMS фирмы История Data Mining • 1960 -е гг. – первая промышленная СУБД система IMS фирмы IBM. • 1970 -е гг. – Conference on Data System Languages (CODASYL) • 1980 -е гг. – SQL • 1990 -е гг. – Data Mining

Возникновение Data Mining. Способствующие факторы • совершенствование аппаратного и программного обеспечения; • совершенствование технологий Возникновение Data Mining. Способствующие факторы • совершенствование аппаратного и программного обеспечения; • совершенствование технологий хранения и записи данных; • накопление большого количества ретроспективных данных; • совершенствование алгоритмов обработки информации.

Понятие Data Mining • Data Mining - это процесс обнаружения в сырых данных ранее Понятие Data Mining • Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory Piatetsky-Shapiro • Это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Мультидисциплинарность Мультидисциплинарность

Задачи Data Mining • • • Классификация Кластеризация Прогнозирование Ассоциация Визуализация анализ и обнаружение Задачи Data Mining • • • Классификация Кластеризация Прогнозирование Ассоциация Визуализация анализ и обнаружение отклонений Оценивание Анализ связей Подведение итогов

Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ Стадии Data Mining СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ) ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ АНАЛИЗ ИСКЛЮЧЕНИЙ

Методы Data Mining. Технологические методы. • Непосредственное использование данных, или сохранение данных: кластерный анализ, Методы Data Mining. Технологические методы. • Непосредственное использование данных, или сохранение данных: кластерный анализ, метод ближайшего соседа, метод kближайшего соседа, рассуждение по аналогии (этот метод будет рассмотрен подробнее) • Выявление и использование формализованных закономерностей, или дистилляция шаблонов: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях

Методы Data Mining. Статистические методы. • • Дескриптивный анализ и описание исходных данных. Анализ Методы Data Mining. Статистические методы. • • Дескриптивный анализ и описание исходных данных. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др. ). Анализ временных рядов (динамические модели и прогнозирование).

Методы Data Mining. Кибернетические методы. • Искусственные нейронные сети (распознавание, кластеризация, прогноз); • Эволюционное Методы Data Mining. Кибернетические методы. • Искусственные нейронные сети (распознавание, кластеризация, прогноз); • Эволюционное программирование (в т. ч. алгоритмы метода группового учета аргументов); • Генетические алгоритмы (оптимизация); • Ассоциативная память (поиск аналогов, прототипов); • Нечеткая логика; • Деревья решений; этот метод будет рассмотрен подробнее. • Системы обработки экспертных знаний.

Визуализация инструментов Data Mining. • Для деревьев решений - визуализатор дерева решений, список правил, Визуализация инструментов Data Mining. • Для деревьев решений - визуализатор дерева решений, список правил, таблица сопряженности. • Для нейронных сетей - в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения. • Для карт Кохонена: карты входов, выходов, другие специфические карты. • Для линейной регрессии - линия регрессии. • Для кластеризации: дендрограммы, диаграммы рассеивания.

Проблемы и вопросы • Data Mining не может заменить аналитика! • Сложность разработки и Проблемы и вопросы • Data Mining не может заменить аналитика! • Сложность разработки и эксплуатации приложения Data Mining. Основные аспекты: ØКвалификация пользователя ØСложность подготовки данных ØБольшой процент ложных, недостоверных или бессмысленных результатов ØВысокая стоимость ØНаличие достаточного количества репрезентативных данных

Области применения Data mining • Database marketers - Рыночная сегментация, идентификация целевых групп, построение Области применения Data mining • Database marketers - Рыночная сегментация, идентификация целевых групп, построение профиля клиента • Банковское дело - Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами • Кредитные компании - Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов , cross-selling программы • Страховые компании - Привлечение и удержание клиентов, прогнозирование фингансовых показателей • Розничная торговля - Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами • Биржевые трейдеры - Выработка оптимальной торговой стратегии, контроль рисков

Области применения Data mining. Продолжение. • Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика, Области применения Data mining. Продолжение. • Телекоммуникация и энергетика - Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств • Налоговые службы и аудиторы - Детекция подлогов, прогнозирование поступлений в бюджет • Фармацевтические компании - Предсказание результатов будущего тестирования препаратов, программы испытания • Медицина - Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства • Управление производством - Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса • Ученые и инженеры - Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач

Перспективы технологии Data Mining. • выделение типов предметных областей с соответствующими им эвристиками • Перспективы технологии Data Mining. • выделение типов предметных областей с соответствующими им эвристиками • создание формальных языков и логических средств, с помощью которых будет формализованы рассуждения • создание методов Data Mining, способных не только извлекать из данных закономерности, но и формировать некие теории, опирающиеся на эмпирические данные; • преодоление существенного отставания возможностей инструментальных средств Data Mining от теоретических достижений в этой области.

Литература по Data Mining • Литература по Data Mining • "Wikipedia about Data Mining" (http: //en. wikipedia. org/wiki/Data_mining) • "Data Mining Tutorials" (http: //www. eruditionhome. com/datamining/tut. html) • "Thearling intro paper" (http: //www. thearling. com/text/dmwhite. htm) • "Что такое Data mining? “ (http: //www. megaputer. ru/doc. php? classroom/whatis_ dm/whatis_dm. html) • "INTUIT. ru: Учебный курс - Data Mining“ (http: //www. intuit. ru/department/database/datamining/) • "Data Mining - подготовка исходных данных“ (http: //www. basegroup. ru/tasks/datamining_prepare. ht m)

Деревья решений. История и основные понятия. • Возникновение - 50 -е годы (Ховиленд и Деревья решений. История и основные понятия. • Возникновение - 50 -е годы (Ховиленд и Хант (Hoveland, Hunt) ) • Метод также называют деревьями решающих правил, деревьями классификации и регрессии • Это способ представления правил в иерархической, последовательной структуре

Деревья решений. Пример 1. Деревья решений. Пример 1.

Деревья решений. Пример 2. Деревья решений. Пример 2.

Область применения деревья решений • Описание данных: Деревья решений позволяют хранить информацию о данных Область применения деревья решений • Описание данных: Деревья решений позволяют хранить информацию о данных в компактной форме, вместо них мы можем хранить дерево решений, которое содержит точное описание объектов. • Классификация: Деревья решений отлично справляются с задачами классификации, т. е. отнесения объектов к одному из заранее известных классов. Целевая переменная должна иметь дискретные значения. • Регрессия: Если целевая переменная имеет непрерывные значения, деревья решений позволяют установить зависимость целевой переменной от независимых(входных) переменных. Например, к этому классу относятся задачи численного прогнозирования(предсказания значений целевой переменной).

Деревья решений. Преимущества метода. • Интуитивность деревьев решений • Возможность извлекать правила из базы Деревья решений. Преимущества метода. • Интуитивность деревьев решений • Возможность извлекать правила из базы данных на естественном языке • Не требует от пользователя выбора входных атрибутов • Точность моделей • Разработан ряд масштабируемых алгоритмов • Быстрый процесс обучения • Обработка пропущенных значений • Работа и с числовыми, и с категориальными типами данных

Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирования деревьев: • Деревья решений. Процесс конструирования. Основные этапы алгоритмов конструирования деревьев: • "построение" или "создание" дерева (tree building) • "сокращение" дерева (tree pruning).

Как построить дерево решений? • Пусть через {C 1, C 2, . . . Как построить дерево решений? • Пусть через {C 1, C 2, . . . Ck} обозначены классы(значения метки класса), тогда существуют 3 ситуации: 1. множество T содержит один или более примеров, относящихся к одному классу Ck. Тогда дерево решений для Т – это лист, определяющий класс Ck; 2. множество T не содержит ни одного примера, т. е. пустое множество. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;

Как построить дерево решений? 3. множество T содержит примеры, относящиеся к разным классам. В Как построить дерево решений? 3. множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O 1, O 2, . . . On. T разбивается на подмножества T 1, T 2, . . . Tn, где каждое подмножество Tiсодержит все примеры, имеющие значение Oi для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу

Деревья решений. Остановка построения дерева. Остановка - такой момент в процессе построения дерева, когда Деревья решений. Остановка построения дерева. Остановка - такой момент в процессе построения дерева, когда следует прекратить дальнейшие ветвления. Варианты остановки: • "ранняя остановка" (prepruning) • ограничение глубины дерева • задание минимального количества примеров

Деревья решений. Сокращение дерева или отсечение ветвей. Критерии: • Точность распознавания • Ошибка Деревья решений. Сокращение дерева или отсечение ветвей. Критерии: • Точность распознавания • Ошибка

Алгоритмы, реализующие деревья решений • CART, C 4. 5, New. Id, ITrule, CHAID, CN Алгоритмы, реализующие деревья решений • CART, C 4. 5, New. Id, ITrule, CHAID, CN 2 1. CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии. 2. C 4. 5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации. •

Классификация алгоритмов • Большинство из известных алгоритмов являются Классификация алгоритмов • Большинство из известных алгоритмов являются "жадными алгоритмами". Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение. • Поскольку все объекты были заранее отнесены к известным нам классам, процесс построения дерева решений называется обучением с учителем. Процесс обучения также называют индуктивным обучением или индукцией деревьев.

Деревья решений. Алгоритмы. CART. • CART (Classification and Regression Tree) • разработан в 1974 Деревья решений. Алгоритмы. CART. • CART (Classification and Regression Tree) • разработан в 1974 -1984 годах четырьмя профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford) • CART предназначен для построения бинарного дерева решений. Особенности: Ø функция оценки качества разбиения; Ø механизм отсечения дерева; Ø алгоритм обработки пропущенных значений; Ø построение деревьев регрессии.

Деревья решений. Алгоритмы. C 4. 5. • Строит дерево решений с неограниченным количеством ветвей Деревья решений. Алгоритмы. C 4. 5. • Строит дерево решений с неограниченным количеством ветвей у узла • Дискретные значения => только классификация • Каждая запись набора данных ассоциирована с одним из предопределенных классов => один из атрибутов набора данных должен являться меткой класса. • Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

Правило разбиения. Каким образом следует выбрать признак? • Для построения дерева на каждом внутреннем Правило разбиения. Каким образом следует выбрать признак? • Для построения дерева на каждом внутреннем узле необходимо найти такое условие (проверку), которое бы разбивало множество, ассоциированное с этим узлом на подмножества. В качестве такой проверки должен быть выбран один из атрибутов. Общее правило для выбора атрибута можно сформулировать следующим образом: выбранный атрибут должен разбить множество так, чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т. е. количество объектов из других классов ("примесей") в каждом из этих множеств было как можно меньше.

Теоретико-информационный критерий • Алгоритм C 4. 5, усовершенствованная версия алгоритма ID 3 , использует Теоретико-информационный критерий • Алгоритм C 4. 5, усовершенствованная версия алгоритма ID 3 , использует теоретико-информационный подход. Для выбора наиболее подходящего атрибута, предлагается следующий критерий: • где Info(T) – энтропия множества T, а • Множества T 1, T 2, . . . Tn получены при разбиении исходного множества T по проверке X. Выбирается атрибут, дающий максимальное значение по критерию (1)

Статистический критерий • Алгоритм CART использует так называемый индекс Gini (в честь итальянского экономиста Статистический критерий • Алгоритм CART использует так называемый индекс Gini (в честь итальянского экономиста Corrado Gini), который оценивает "расстояние" между распределениями классов. • Где c – текущий узел, а pj – вероятность класса j в узле c. CART был предложен Л. Брейманом (L. Breiman) и др.

Правило остановки. Разбивать дальше узел или отметить его как лист? • • В дополнение Правило остановки. Разбивать дальше узел или отметить его как лист? • • В дополнение к основному методу построения деревьев решений были предложены следующие правила: Использование статистических методов для оценки целесообразности дальнейшего разбиения, так называемая "ранняя остановка" (prepruning). В конечном счете "ранняя остановка" процесса построения привлекательна в плане экономии времени обучения, но здесь уместно сделать одно важное предостережение: этот подход строит менее точные классификационные модели и поэтому ранняя остановка крайне нежелательна. Признанные авторитеты в этой области Л. Брейман и Р. Куинлен советуют буквально следующее: "Вместо остановки используйте отсечение". Ограничить глубину дерева. Остановить дальнейшее построение, если разбиение ведет к дереву с глубиной превышающей заданное значение. Разбиение должно быть нетривиальным, т. е. получившиеся в результате узлы должны содержать не менее заданного количества примеров.

Правило отсечения. Каким образом ветви дерева должны отсекаться? • Очень часто алгоритмы построения деревьев Правило отсечения. Каким образом ветви дерева должны отсекаться? • Очень часто алгоритмы построения деревьев решений дают сложные деревья, которые "переполнены данными", имеют много узлов и ветвей. Такие "ветвистые" деревья очень трудно понять. К тому же ветвистое дерево, имеющее много узлов, разбивает обучающее множество на все большее количество подмножеств, состоящих из все меньшего количества объектов. • Ценность правила, справедливого скажем для 2 -3 объектов, крайне низка, и в целях анализа данных такое правило практически непригодно. Гораздо предпочтительнее иметь дерево, состоящее из малого количества узлов, которым бы соответствовало большое количество объектов из обучающей выборки. И тут возникает вопрос: а не построить ли все возможные варианты деревьев, соответствующие обучающему множеству, и из них выбрать дерево с наименьшей глубиной? К сожалению, это задача является NP-полной, это было показано Л. Хайфилем (L. Hyafill) и Р. Ривестом (R. Rivest), и, как известно, этот класс задач не имеет эффективных методов решения.

Отсечение ветвей • Для решения вышеописанной проблемы часто применяется так называемое отсечение ветвей (pruning). Отсечение ветвей • Для решения вышеописанной проблемы часто применяется так называемое отсечение ветвей (pruning). • Пусть под точностью (распознавания) дерева решений понимается отношение правильно классифицированных объектов при обучении к общему количеству объектов из обучающего множества, а под ошибкой – количество неправильно классифицированных. Предположим, что нам известен способ оценки ошибки дерева, ветвей и листьев. Тогда, возможно использовать следующее простое правило: 1. построить дерево; 2. отсечь или заменить поддеревом те ветви, которые не приведут к возрастанию ошибки. 3. В отличии от процесса построения, отсечение ветвей происходит снизу вверх, двигаясь с листьев дерева, отмечая узлы как листья, либо заменяя их поддеревом. Хотя отсечение не является панацеей, но в большинстве практических задач дает хорошие результаты, что позволяет говорить о правомерности использования подобной методики.

Преимущества использования деревьев решений Рассмотрев основные проблемы, возникающие при построении деревьев, было бы несправедливо Преимущества использования деревьев решений Рассмотрев основные проблемы, возникающие при построении деревьев, было бы несправедливо не упомянуть об их достоинствах: • быстрый процесс обучения; • генерация правил в областях, где эксперту трудно формализовать свои знания; • извлечение правил на естественном языке; • интуитивно понятная классификационная модель; • высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети); • построение непараметрических моделей. • В силу этих и многих других причин, методология деревьев решений является важным инструментом в работе каждого специалиста, занимающегося анализом данных, вне зависимости от того практик он или теоретик.

Деревья решений. Перспективы метода и выводы. • Разработка новых масштабируемых алгоритмов (Sprint, предложенный Джоном Деревья решений. Перспективы метода и выводы. • Разработка новых масштабируемых алгоритмов (Sprint, предложенный Джоном Шафером) • Метод деревьев - иерархическое, гибкое средство предсказания принадлежности объектов к определенному классу или прогнозирования значений числовых переменных. • Качество работы зависит как от выбора алгоритма, так и от набора исследуемых данных. • Чтобы построить качественную модель, необходимо понимать природу взаимосвязи между зависимыми и независимыми переменными и подготовить достаточный набор данных.

Метод Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев. Прецедент - это описание ситуации в сочетании с подробным указанием действий, предпринимаемых в данной ситуации. Этапы: • сбор подробной информации о поставленной задаче; • сопоставление этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев; • выбор прецедента, наиболее близкого к текущей проблеме, из базы прецедентов; • адаптация выбранного решения к текущей проблеме, если это необходимо; • проверка корректности каждого вновь полученного решения; • занесение детальной информации о новом прецеденте в базу прецедентов.

Метод Метод "ближайшего соседа". Преимущества. • Простота использования полученных результатов. • Решения не уникальны для конкретной ситуации, возможно их использование для других случаев. • Целью поиска является не гарантированно верное решение, а лучшее из возможных.

Метод Метод "ближайшего соседа". Недостатки. • Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт • Cложность выбора меры "близости" (метрики). • Высокая зависимость результатов классификации от выбранной метрики. • Необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость. • Типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.

Метод Метод "ближайшего соседа". Решение задачи классификации новых объектов.

Метод Метод "ближайшего соседа". Решение задачи прогнозирования.

Метод Метод "ближайшего соседа". Оценка параметра k методом кросс-проверки. • Кросс-проверка - известный метод получения оценок неизвестных параметров модели. • Основная идея - разделение выборки данных на v "складок". V "складки" здесь суть случайным образом выделенные изолированные подвыборки.

Метод Метод "ближайшего соседа". Примеры использования и реализации. • Использование - программное обеспечение центра технической поддержки компании Dell, разработанное компанией Inference. • Реализация - CBR Express и Case Point (Inference Corp. ), Apriori (Answer Systems), DP Umbrella (VYCOR Corp. ), KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США), а также некоторые статистические пакеты, например, Statistica.

? • Вопросы? ? ? • Вопросы? ?