Методы и модели анализа данных в ИАСБ.ppt
- Количество слайдов: 25
Методы и модели анализа данных в информационно-аналитических системах безопасности Технология Data Mining © Баранова Е. К.
Связь понятий 2
Data Mining - это процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. 3
Типы закономерностей, выявляемых методами Data Mining 4
Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Классификация выявляет признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Последовательность - цепочка связанных во времени событий. Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Типы закономерностей, выявляемых методами Data Mining 5
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Методы Data Mining 6
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т. е. количественный и качественный анализ данных. К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционнорегрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов. Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств. Методы и стадии Data Mining 7
Стадия 2. Стадия 1. Выявление закономерностей (свободный поиск) Использование выявленных закономерностей для предсказания неизвестных Стадия 3. Анализ исключений Стадии Data Mining 8
Стадия 1. Выявление закономерностей (свободный поиск) Система Data Mining на этой стадии определяет шаблоны, для получения которых в системах OLAP, например, аналитику необходимо обдумывать и создавать множество запросов. Здесь же аналитик освобождается от такой работы - шаблоны ищет за него система. Особенно полезно применение данного подхода в сверхбольших базах данных, где уловить закономерность путем создания запросов достаточно сложно, для этого требуется перепробовать множество разнообразных вариантов. Свободный поиск представлен такими действиями: • выявление закономерностей условной логики (conditional logic); • выявление закономерностей ассоциативной логики (associations and affinities); • выявление трендов и колебаний (trends and variations). Методы и стадии Data Mining 9
Стадия 2. Использование выявленных закономерностей для предсказания неизвестных Вторая стадия Data Mining - прогностическое моделирование использует результаты работы первой стадии. Здесь обнаруженные закономерности используются непосредственно для прогнозирования. Прогностическое моделирование включает такие действия: • предсказание неизвестных значений (outcome prediction); • прогнозирование развития процессов (forecasting). В процессе прогностического моделирования решаются задачи классификации и прогнозирования. Методы и стадии Data Mining 10
Стадия 3. Анализ исключений На третьей стадии Data Mining анализируются исключения или аномалии, выявленные в найденных закономерностях. Действие, выполняемое на этой стадии, выявление отклонений (deviation detection). Для выявления отклонений необходимо определить норму, которая рассчитывается на стадии свободного поиска. Методы и стадии Data Mining 11
Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования. 1. Непосредственное использование данных, или сохранение данных. В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов - при их использовании могут возникнуть сложности анализа сверхбольших баз данных. Методы этой группы: кластерный анализ, метод ближайшего соседа, метод k-ближайшего соседа, рассуждение по аналогии. 2. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Методы этой группы: логические методы; методы визуализации; методы кросс-табуляции; методы, основанные на уравнениях. Классификация технологических методов Data Mining 12
1. Дескриптивный анализ и описание исходных данных 3. Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др. ) 2. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ) 4. Анализ временных рядов (динамические модели и прогнозирование) Статистические методы Data Mining 13
Искусственные нейронные сети (распознавание, кластеризация, прогноз) Генетические алгоритмы (оптимизация) · Эволюционное программирование (в т. ч. алгоритмы метода группового учета аргументов) Нечеткая логика Ассоциативная память (поиск аналогов, прототипов) Деревья решений Кибернетические методы Data Mining 14
Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств. Среди основных свойств и характеристик методов Data Mining рассмотривают следующие: q точность, q масштабируемость, q интерпретируемость, q проверяемость, q трудоемкость, q гибкость, q быстрота, q популярность. Свойства методов Data Mining 15
Большинство инструментов Data Mining, предлагаемых сейчас на рынке программного обеспечения, реализуют сразу несколько методов, например, деревья решений, индукцию правил и визуализацию, или же нейронные сети, самоорганизующиеся карты Кохонена и визуализацию. В универсальных прикладных статистических пакетах (например, SPSS, SAS, STATGRAPHICS, Statistica, др. ) реализуется широкий спектр разнообразнейших методов (как статистических, так и кибернетических). Следует учитывать, что для возможности их использования, а также для интерпретации результатов работы статистических методов (корреляционного, регрессионного, факторного, дисперсионного анализа и др. ) требуются специальные знания в области статистики. Свойства методов Data Mining 16
Уровень 3. Приложения Уровень 2. Дейстия Уровень 1. Задачи • Знания • Результат • Прогностическое моделирование • Анализ информации • Классификация • Данные • Запросы Уровни Data Mining 17
Первый уровень. Данные - база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи - это задача классификации. Второй уровень: определяем действие - прогностическое моделирование. С помощью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, нового клиента, к одному из известных классов постоянный клиент, или это, скорее всего, его разовая покупка. Третий уровнь - воспользуемся приложением для принятия решения. В результате приобретения знаний, фирма может существенно снизить расходы, например, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы. Пример уровней Data Mining для задачи “удержание клиентов” 18
1. Системы Data Mining применяются по двум основным направлениям: • как массовый продукт для бизнес-приложений; • как инструменты для проведения уникальных исследований 2. Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных "скрытых" знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются. 3. Вместе с тем, главной проблемой логических методов обнаружения закономерностей является проблема перебора вариантов за приемлемое время. Известные методы либо искусственно ограничивают такой перебор (алгоритмы КОРА, Wiz. Why), либо строят деревья решений (алгоритмы CART, CHAID, ID 3, See 5, Sipina и др. ), имеющих принципиальные ограничения эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные методы поиска логических правил не поддерживают функцию обобщения найденных правил и функцию поиска оптимальной композиции таких правил. ВЫВОДЫ 19
Программный инструментарий для интеллектуального анализа данных
21
22
23
Название Web-Observer Аналитик-2 Компания Finport Technologies IQmen Сайт http: //www. webobserver. ru/ http: //iqmen. ru/ ИАС Астарта Cognitive Technologies Ltd. http: //www. cognitive. ru/ RCO Fact Extractor Гарант-Парк-Интернет http: //www. rco. ru RCO KAOT Гарант-Парк-Интернет http: //www. rco. ru ИАС «Семантический архив» «Аналитические бизнес решения» www. anbr. ru ООО «Вербин и партнеры» E-mail: vipcompanys@infoline. su Корпорация Галактика www. galaktika-zoom. ru ИПК «Тренд» Галактика Zoom Примеры программного инструментария. Информацию по системам, представленным в таблице, можно найти на интернет портале it 2 b-pro. ru. 24
Контрольные вопросы 1. 2. 3. 4. 5. 6. 7. Методы и стадии технологии Data Mining Классификация технологических методов Data Mining Статистические методы Data Mining Кибернетические методы Data Mining Свойства методов Data Mining Уровни Data Mining Программный инструментарий для методов Data Mining 25