Скачать презентацию Введение в Data Mining Л П Дьяконова Скачать презентацию Введение в Data Mining Л П Дьяконова

Лекция_DataMining_Введение.ppt

  • Количество слайдов: 29

 Введение в Data Mining Л. П. Дьяконова Введение в Data Mining Л. П. Дьяконова

Data Mining – это процесс обнаружения в «сырых» данных, ранее неизвестных и нетривиальных, практически Data Mining – это процесс обнаружения в «сырых» данных, ранее неизвестных и нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других

Добыча данных • Data Mining – процесс построения моделей Mining и поиска закономерностей. Найденные Добыча данных • Data Mining – процесс построения моделей Mining и поиска закономерностей. Найденные при этом правила и закономерности описывают новые связи, позволяют предсказывать значения одних признаков на основе других. • Алгоритмы Data Mining: – – – Деревья решений Нейронные сети Самообучающиеся карты Ассоциативные правила Генетические алгоритмы …

Data Mining В основе - математический аппарат, возникший и развивающийся на базе достижений прикладной Data Mining В основе - математический аппарат, возникший и развивающийся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных

Data Mining Knowledge discovery in databases - Обнаружение знаний в базах данных Data Mining Knowledge discovery in databases - Обнаружение знаний в базах данных

Обнаружение знаний в базах данных • Knowledge Discovery in Databases – Databases методология анализа Обнаружение знаний в базах данных • Knowledge Discovery in Databases – Databases методология анализа данных, описывающая процесс обнаружения знаний в базах данных как комбинацию 5 базовых операций: – – – Выборка данных Очистка Трансформация Построение моделей – Data Mining Интерпретация результатов

Knowledge Discovery in Databases Источники данных Исходные данные Выборка Очищенные данные Очистка Трансформация Трансформированные Knowledge Discovery in Databases Источники данных Исходные данные Выборка Очищенные данные Очистка Трансформация Трансформированные данные Data Mining Модели (шаблоны) Знания Интерпретация

Тиражирование знаний Реализованные в KDD механизмы обеспечивают тиражирование знаний, когда результаты, полученные аналитиками, используются Тиражирование знаний Реализованные в KDD механизмы обеспечивают тиражирование знаний, когда результаты, полученные аналитиками, используются всеми сотрудниками организации без необходимости понимания способов и методов обработки

KDD – интерпретация В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы KDD – интерпретация В случае, когда извлеченные знания непрозрачны для пользователя, должны существовать методы постобработки, позволяющие привести их к интерпретируемому виду Для оценки качества полученной модели нужно использовать как формальные методы оценки, так и знания эксперта Полученные модели являются по сути формализованными знаниями эксперта, поэтому их можно тиражировать

Data Mining – задачи Задачи, решаемые методами Data Mining: – Классификация – это отнесение Data Mining – задачи Задачи, решаемые методами Data Mining: – Классификация – это отнесение объектов к одному из заранее известных классов – Регрессия – установление зависимости непрерывных выходных переменных от входных значений – Кластеризация – объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры

Data Mining – задачи Задачи, решаемые методами Data Mining: – Ассоциация – нахождение зависимости, Data Mining – задачи Задачи, решаемые методами Data Mining: – Ассоциация – нахождение зависимости, что из события X следует событие Y. – Последовательность – установление зависимостей между связанными во времени событиями. Можно говорить еще и о задаче анализа отклонений – выявление наиболее нехарактерных шаблонов

Решаемые бизнес-задачи Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Из базовых блоков собирается Решаемые бизнес-задачи Подавляющее большинство бизнес-задач сводится к комбинированию описанных методов. Из базовых блоков собирается практически любое бизнес-решение: – План-фактный анализ – визуализация данных – Прогнозирование – задача регрессии – Управление рисками – регрессия, кластеризация и классификация – Стимулирование спроса – кластеризация, ассоциация – Оценка эластичности спроса – регрессия – Выявление предпочтений клиентов – последовательность, кластеризация…

Data Mining - примеры Банковское дело • Выявление мошенничества с кредитными карточками – поиск Data Mining - примеры Банковское дело • Выявление мошенничества с кредитными карточками – поиск стереотипов мошенничества • Сегментация клиентов – различные виды услуг разным группам • Прогнозирование изменений клиентуры – прогнозные модели ценностей клиентов

Практика применения Data Mining Оптовая торговля прогнозирование спроса, оптимизация продаж, анализ клиентской среды, аналитическая Практика применения Data Mining Оптовая торговля прогнозирование спроса, оптимизация продаж, анализ клиентской среды, аналитическая отчетность… Розничная торговля консолидация данных, многомерный анализ, оптимизация закупок… Банки скоринговые системы, оценка рисков, оптимизация продуктовой линейки, прогнозирование… Производство оптимизация производства, контроль качества, планирование…

OLAP и Data Mining OLAP Data Mining Какова средняя Существуют ли величина ежедневных стереотипные OLAP и Data Mining OLAP Data Mining Какова средняя Существуют ли величина ежедневных стереотипные схемы покупок по украденной и покупок для случаев неукраденной мошенничества с кредитной карточке? кредитными карточками?

Data Mining – алгоритмы Для решения вышеописанных задач используются различные методы и алгоритмы Data Data Mining – алгоритмы Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining. Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение.

Анализ данных Анализ данных

Классификация – Дискриминантный анализ – Логистическая регрессия • Бинарная логистическая регрессия, применяется в случае, Классификация – Дискриминантный анализ – Логистическая регрессия • Бинарная логистическая регрессия, применяется в случае, когда зависимая переменная является бинарной (т. е. может принимать только два значения). Иными словами, с помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т. д. ). – Алгоритм k-ближайших соседей – Деревья решений • способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение – Нейронные сети

Регрессия – Линейная регрессия – Логистическая регрессия • Бинарная логистическая регрессия, применяется в случае, Регрессия – Линейная регрессия – Логистическая регрессия • Бинарная логистическая регрессия, применяется в случае, когда зависимая переменная является бинарной (т. е. может принимать только два значения). Иными словами, с помощью логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т. д. ). – Нейронные сети

Кластеризация • Иерархические методы • К-средних • Кластеризация категорийных данных масштабируемый алгоритм CLOPE • Кластеризация • Иерархические методы • К-средних • Кластеризация категорийных данных масштабируемый алгоритм CLOPE • Самоорганизующиеся карты Кохонена – одна из разновидностей нейросетевых алгоритмов

Ассоциативные правила – Впервые это задача была предложена поиска ассоциативных правил для нахождения типичных Ассоциативные правила – Впервые это задача была предложена поиска ассоциативных правил для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).

Data Mining: Нейронные сети Data Mining: Нейронные сети

Нейронные сети: пример Нейронные сети: пример

Data Mining: Деревья решений Data Mining: Деревья решений

Деревья решений: пример Деревья решений: пример

Data Mining: Ассоциации Data Mining: Ассоциации

Ассоциации: Дерево правил Ассоциации: Дерево правил

Ассоциации: Что-Если Ассоциации: Что-Если

Достоинства и недостатки моделей Достоинства: – – Обработка огромных объемов данных – Возможность тиражирования Достоинства и недостатки моделей Достоинства: – – Обработка огромных объемов данных – Возможность тиражирования знаний Обнаружение нетривиальных закономерностей – Формализация процесса принятия решений Недостатки: – Строгие требования к качеству и количеству данных – Неспособность анализировать нестандартные случаи – Высокие требования к знаниям эксперта