
Web Mining (презентация).pptx
- Количество слайдов: 22
Тема 2 Технологии Data Mining и Web Mining
Технологии Data Mining и Web Mining 1. Определение Data Mining. 2. Задачи, решаемые Data Mining. 3. Технология Web Mining. 4. Примеры применения Data Mining и Web Mining. Цель занятия – рассмотреть и проанализировать технологии Data Mining и Web Mining. Задачи: Ø проанализировать задачи, решаемые с помощью технологий Data Mining и Web Mining; Ø рассмотреть рабочий цикл технологий Data Mining и Web Mining; Ø провести сравнение технологий Data Mining и Web Mining; Ø исследовать общую схему работы с технологиями Data Mining и Web Mining.
1. Определение Data Mining У термина Data Mining есть несколько вариантов перевода (и значений): Ø извлечение, сбор данных, добыча данных (еще используют Information Retrieval или IR); Ø извлечение знаний, интеллектуальный анализ данных (Knowledge Data Discovery или KDD, Business Intelligence).
1. Определение Data Mining Выделим несколько уровней информации: Ø исходные данные (сырые данные, исторические данные или просто данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой или объекта и отображающие его состояние в конкретные моменты времени (например, данные о котировках акций за прошедший год); Ø информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде (например, результаты поиска); Ø знания – несут в себе некое ноу хау, отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация); данные с большой энтропией (или мерой неопределенности).
1. Определение Data Mining ü Извлечение, сбор данных, добыча данных (IR) оперирует первыми двумя уровнями информации. ü Извлечение знаний, интеллектуальный анализ данных (KDD) работает с третьим уровнем. ü Первый вариант относиться к прикладной области, где главной целью являются сами данные, второй – к математике и аналитике, где важно получить новое знание из большого объема уже имеющихся данных. ü Чаще всего извлечение данных (сбор) является подготовительным этапом для извлечения знаний (анализ).
1. Определение Data Mining
1. Определение Data Mining. Обнаружение знаний Целевые данные Данные Выбор Преобразованные, «чистые» данных Предобработка, Шаблоны Data Mining очистка Алгоритм обнаружения знаний Интерпретация (таблица, текст, дерево, перекрёстная таблица) и оценка
1. Определение Data Mining. Рабочий цикл Data Mining Формирование гипотез Изначально закономерности неизвестны Сбор данных Очистка данных Передача в эксплуатацию лучших моделей Построение моделей Мониторинг качества Проверка адекватности текущей модели
2. Задачи, решаемые Data Mining Задачи, решаемые методами Data Mining: Ø Классификация. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы приобретают также «кока колу» , а при наличии скидки за такой комплект его покупают в 85% случаев; Ø Регрессия. Ø Кластеризация. Ø Ассоциация. Ø Последовательность. Например, после покупки дома через некоторое время 60% новоселов обзаводятся холо дильником, а в 45% случаев покупают еще и новую кухонную плиту. Можно говорить еще и о задаче анализа отклонений (выявление наиболее нехарактерных шаблонов).
2. Задачи, решаемые Data Mining Учетные системы СУБД Документы Интернет Хранилище данных Извлечение данных Визуализация: Построение моделей: Регулярная отчетность, нерегламентированные запросы Очистка, трансформация, кластеризация, классификация, регрессия, ассоциация, последовательность Интерпретация результатов
3. Технология Web Mining Извлечение данных из Интернет (Web Mining) Анализ использования вебресурсов (Web Usage Mining) Web Usage Mining • Логи веб серверов; • Предпочтений посетителей. Извлечение вебструктур (Web Structure Mining) Извлечение вебконтента (Web Content Mining) Web Structure Mining Web Content Mining • Ссылки • HTML страницы; • Взаимосвязь между страницами • Информация и знания.
3. Технология Web Mining Ø Web Content Mining означает автоматизированный поиск знаний из различных источников в Интернете, а так же кластеризацию документов. Второе направление более приспособлено для коммерческого использования. Ø Web Structure Mining рассматривает взаимосвязи между веб-страницами. Соответственно построенные модели могут быть использованы для категоризации веб-ресурсов, поиска схожих и распознавания авторских сайтов. Ø Web Usage Mining подразумевает обнаружение закономерностей в действиях посетителя сайта, а так же сбор статистики и последующий ее анализ. Это позволит Интернет-ресурсу выполнить пожелания клиента, которые он не выражал напрямую.
3. Технология Web Mining
3. Технология Web Mining ü Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. ü Технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах. ü В основу современного подхода положена концепция шаблонов (паттернов), представляющих собой закономерности, свойственные предвыборкам данных.
3. Технология Web Mining Сравнение Web Mining Data Mining Шкала Обработка поиска не большая Обработка поиска большая Доступ Web Mining предоставляет публичный доступ к данным. Не скрываются данные, к которым осуществляется доступ в веб-базе данных. Но получаетсям разрешение для доступа к данным Data Mining предоставляет доступ к данным только в частном порядке и разрешает пользователю доступ к данным в базе данных Структура Web Mining получает Data Mining получает информацию из явных структурированных, неструктурированных и Data Mining не работает с полуструктурированных веб- информацией из обширных баз данных, сравнительно с Web страниц. Web Mining извлечекает информацию из Mining обширной базы данных
Технология Web Mining В Web Mining можно выделить следующие этапы: 1. входной этап – получение "сырых" данных из источников (логи серверов, тексты электронных документов); 2. этап предобработки – данные представляются в форме, необходимой для успешного построения той или иной модели; 3. этап моделирования; 4. этап анализа модели – интерпретация полученных результатов.
3. Технология Web Mining решает следующие задачи: Ø описание посетителей сайта (кластеризация, классификация); Ø описание посетителей, которые совершают покупки в интернет магазине (кластеризация, классификация); Ø определение типичных сессий и навигационных путей пользователей сайта (поиск популярных наборов, ассоциативных правил); Ø определение групп или сегментов посетителей (кластеризация); Ø нахождение зависимостей при пользовании услугами сайта (поиск ассоциативных правил).
4. Примеры применения Data Mining и Web Mining. Data Mining Интернет технологии Ø персонализация посетителей Web-сайтов Ø поиск случаев мошенничества с кредитными картами Ø Web Mining: Web content mining и Web usage mining Торговля Ø анализ рыночных корзин и сиквенциональный анализ Телекоммуникации Ø анализ доходности и риска потери клиентов Ø защита от мошенничества, Ø выявление категорий клиентов с похожими стepeoтипами пользования услугами и разработка привлекательных наборов цен и услуг
4. Примеры применения Data Mining и Web Mining. Data Mining Промышленное производство Ø прогнозирование качества изделия в зависимости от замеряемых параметров технологического процесса. Медицина и биология Ø построение диагностической системы Ø исследование эффективности хирургическoгo вмешательства Ø биоинформатика – изучение генов, разработка новых лекарств Банковское дело Ø оценка кредитоспособности заемщика
4. Примеры применения Data Mining и Web Mining С помощью алгоритмов кластеризации можно проводить сегментацию посетителей или их сессий в зависимости от активности. Используя идентификатор сессии и данные о просмотренных страницах, выделяют несколько кластеров. Проанализировав содержание кластеров, находят более и менее приоритетные группы. Когда пользователь будет на сайте, его сессию в режиме on-line можно отнести к тому или иному кластеру (для этого можно использовать алгоритмы классификации). Затем посетителю «подсказывают» , какие страницы также стоит посмотреть.
4. Примеры применения Data Mining и Web Mining Применяя строковые функции, нетрудно выделить записи, которые отражают факт покупки конкретного товара. За определенный период посетители интернет-магазина покупают некоторый набор товаров. Эти данные можно использовать для поиска ассоциативных правил. Сформированное условие Страницы для выбора Рассчитанное следствие
Применение технологий Data Mining и Web Mining способствует: Ø созданию персонализированного маркетинга в электронной торговле, который в конечном итоге приводит к увеличению объемов торговли; Ø установлению более тесных взаимоотношений предприятий с клиентами, предоставляя им именно то, что им нужно; Ø пониманию потребностей клиентов и соответствующей реакции на них; Ø поиск, привлечение и удержание клиентов, экономия на себестоимости продукции за счет использования приобретенного понимания требований заказчика; Ø повышение рентабельности предприятий за счет целевого ценообразования на основе созданных профилей и т. д.
Web Mining (презентация).pptx