Web Mining применение методов и алгоритмов Data

Web Mining – применение методов и алгоритмов Data Mining для обнаружения и поиска зависимостей и знаний в сети Интернет.

Примеры задач • описание посетителей сайта (кластеризация, классификация); • описание посетителей, которые совершают покупки в интернет-магазине (кластеризация, классификация); • определение типичных сессий и навигационных путей пользователей сайта (поиск популярных наборов, ассоциативных правил); • определение групп или сегментов посетителей (кластеризация); • нахождение зависимостей при пользовании услугами сайта (поиск ассоциативных правил). • др.

Примеры задач Поиск аномалий. Подозрительные записи собираются в отдельном кластере и их доля в общей массе мала. Поиск сессий с большим количеством действий и высокой продолжительностью.

Кластеризация Для анализа деятельности электронного магазина проводят сегментацию посетителей по их предпочтениям. • Посетитель заходит на сайт и открывает некоторые страницы. • Рассчитывается, к какому кластеру он ближе (поведение было приписано к некоторому кластеру). • Посетителю предлагается просмотреть и остальные страницы из данного кластера (с соответствующей информацией) В течение сессии посетитель динамически может быть классифицирован к разным кластерам (каждый раз ему будут предлагаться новые страницы).

Сегментация С помощью алгоритмов кластеризации можно проводить сегментацию посетителей или их сессий в зависимости от активности. Используя идентификатор сессии и данные о просмотренных страницах, выделяют несколько кластеров. Проанализировав содержание кластеров, находят более и менее приоритетные группы. Когда пользователь будет на сайте, его сессию в режиме on-line можно отнести к тому или иному кластеру (для этого можно использовать алгоритмы классификации). Затем посетителю «подсказывают» , какие страницы также стоит посмотреть.

Анализ рыночной корзины Можно выделить записи, которые отражают факт покупки конкретного товара. За определенный период посетители интернет-магазина покупают некоторый набор товаров. Эти данные можно использовать для поиска ассоциативных правил.

Популярный навигационный путь Если выявить ассоциативные правила для всего набора данных, то можно определить часто используемые (популярные) навигационные пути, по которым перемещаются посетители сайта.

Категории Web Mining 1. Анализ использования веб-ресурсов (Web Usage Mining). 2. Извлечение веб-структур (Web Structure Mining). 3. Извлечение веб-контента (Web Content Mining).

Анализ использования веб-ресурсов Извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет. Выявив, какие страницы и в какой последовательности открывал пользователь, можно сделать вывод о его предпочтениях. Анализ общих тенденции среди всех посетителей показывает, насколько эффективно работает электронный портал, какие его страницы посещаются больше всего, какие меньше. На основе этого анализа можно оптимизировать сайт: найти ранее не замеченные проблемы в функционировании, дизайне и много другое.

Извлечение веб-структур Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации веб-ресурсов, поиска схожих и распознавания авторских сайтов. В зависимости от поставленной задачи структура сайта моделируется с определенным уровнем детализации. В простом случае гиперссылки представляют в виде направленного графа: G = (D, L), где D – это набор страниц, узлов или документов; L – набор ссылок. Извлечение веб-структур может быть использовано как подготовительный этап для извлечения вебконтента.

Извлечение веб-контента Поиск знаний в сети Интернет. Основывается на сочетании возможностей информационного поиска, машинного обучения и Data Mining. Анализируется содержание документов: находятся схожие по смыслу слова и их количество. Затем решается задача кластеризации или классификации. Так документы группируются по смысловой близости. Это направление может быть использовано для оптимизации поиска индексированных документов.

Взаимосвязь между категориями Web Mining и задачами Data Mining

Этапы Web Mining • входной этап (input stage) – получение "сырых" данных из источников (логи серверов, тексты электронных документов); • этап предобработки (preprocessing stage) – данные представляются в форме, необходимой для успешного построения той или иной модели; • этап моделирования (pattern discovery stage); • этап анализа модели (pattern analysis stage) – интерпретация полученных результатов.

Лог-файлы веб-серверов Для каждого запроса браузера к веб-серверу отклик генерируется автоматически, и все сведения заносятся в веб-лог. Различные форматы журналов веб-серверов (количество полей). Общие для всех логов: • Поле "удаленный хост « ( содержит IP-адрес или имя) • Поле "дата/время". • Поле «HTTP запроса» (метод запроса, URI (Uniform Resource Identifier) заголовок, протокол). • Поле кода состояния • Поле переданного количества данных.

Формат Microsoft IIS • • • • IP адрес клиента; имя пользователя; дата; время; сервис; имя сервера; IP адрес сервера; пройденное время; количество данных, отправленных клиентом; количество данных, отправленных сервером; код состояния сервиса; код состояния Windows; тип запроса; цель операции; параметры.

Обработка веб-лога Данные о посещениях сайта хранятся в лог файлах веб сервера (текстовые файлы с разделителями).

Очистка и предобработка • удаление записей, содержащих запросы графических файлов; • удаление записей, отражающих активность веб -ботов; • выделение отдельных сессий посетителей сайта ( различные сессии у каждого пользователя и рассматриваются как отдельные транзакции). Используются строковые функции и фильтры.

Определение неавторизованных пользователей 1. Создание временного штампа для количество секунд от базовой даты). записей (прошедшее 1. Определить базовую дату. 2. Найти, сколько прошло полных дней от базовой даты. 3. Умножить полученные значения на 86 400 (количество секунд в сутках). 4. Найти прошедшее время в секундах от полуночи. 5. Сложить значения, полученные на этапах 1. 3 и 1. 4. Это и будет временной штамп. 2. Упорядочить все записи лога по IP-адресу, затем по временному штампу. 3. Каждую отдельную полученную группу IP-адресов определить как отдельного пользователя. .

Определение сессии Каждый определенный пользователь в течение исследуемого периода мог посещать портал несколько раз, и с различными целями. Поэтому визиты пользователей необходимо разбить на сессии. 1. Определение времени t – максимальный интервал перехода от одной страницы к другой в течение сессии. 2. Сортировка записей по номеру пользователя и по временному штампу. 3. Расчет количества секунд, прошедших от предыдущего просмотра. 4. Если полученное значение превышает заданный интервал t, то запись рассматривается как начало новой сессии.

Определение сессии Пример: пользователь 42. 23 марта он посетил 3 страницы, и следующие визиты были им сделаны уже 26 числа. У пользователя 42 было две сессии: 23 и 26 марта.

Выделение отдельных сессий посетителей сайта

Пример анализ использования веб-ресурсов. Какая страница чаще всего является точкой входа на сайт? • Упорядочение записи по ID-сессии и по временному штампу. • Сгруппировать данные по ID-сессии, в качестве факта назначив адрес запрошенной страницы (выбрать первую запись). • Просмотреть статистику и выявить частые точки захода на сайт. Наибольшие доли входа на сайт приходятся на страницу форума "бесплатные компоненты" (8, 1%) и на главную (4, 9%). Почему главная занимает второе место, а не первое?

Анализ точек захода на сайт.

Кластеризация Для анализа деятельности электронного магазина проводят сегментацию посетителей по их предпочтениям. • Посетитель заходит на сайт и открывает некоторые страницы. • Рассчитывается, к какому кластеру он ближе (поведение было приписано к некоторому кластеру). • Посетителю предлагается просмотреть и остальные страницы из данного кластера (с соответствующей информацией) В течение сессии посетитель динамически может быть классифицирован к разным кластерам (каждый раз ему будут предлагаться новые страницы).

Social Mining – применение методов и алгоритмов Data Mining для поиска и обнаружения зависимостей и знаний в социальных сетях.

Social Mining Акторы описываются атрибутами: каждый человек (или группа людей) имеет свойственные ему характеристики. Совокупности разнообразных связей между акторами образуют сетевую структуру. Некоторые акторы могут быть связаны друг с другом сильнее, чем с другими. Чем больше интересов связывает людей, чем чаще они общаются – тем сильнее связь между ними. При анализе необходимо учитывать как структуру отношений между акторами, так и местоположение отдельных узлов.

Social Mining Социальную сеть также можно представить как «большую систему» , которая имеет свои свойства. Как единое целое она способна взаимодействовать с окружающей средой и реагировать на происходящие внешние процессы.

Social Mining виртуальной (онлайновой) социальной сетью понимается Под социальная структура Интернет-среды, узлы которой составляют организации или отдельные люди, а связи обозначают установленные взаимодействия (политические, корпоративные, служебные, семейные, дружеские, по интересам). Формально данные сети представлены в виде специально разработанных электронных порталов, таких как «Одноклассники» , «Вконтакте» и других. На рисунке: Группы внутри социальной сети.

Задачи Social Mining Анализ информационных потоков позволяет выявить лидеров мнений в социальных сетях, осуществлять управление PR-акциями, поиск мест утечек информации и многое другое. • Поиск объектов, наиболее активно общающихся с представителями других фирм. • Поиск объектов, наиболее активно участвующих в переписке внутри фирмы. • Поиск объектов, имеющих наибольшее количество связей. • Поиск наиболее "могущественных" объектов. • Поиск объектов, имеющих наиболее активный входящий трафик сообщений и т. п. Сферы применения: маркетинг, реклама, безопасность, корпоративная психология и оптимизация сетей. Персонификация предложений позволяет сделать социальную сеть более эффективной и привлекательной для конечного пользователя. • сбор и обогащение информации о пользователях социальной сети; • сегментация пользователей; • интерпретация и описание сегментов; • сегментация гостевых пользователей на базе построенной модели; • персонифицированное предоставление информации сегментам пользователей. • Персонифицированное обращение к пользователям сети, выделение их реальных потребностей, кастомизация контента и сервисов являются одними из основных составляющих в процессе привлечения и удержания пользователей.

Задачи Social Mining Поиск аномалий, компьютерных ботов и мошенников. В социальной сети могут быть пользователи с подозрительно высокой активностью, либо их поведение может значительно отличаться от других. Примером этого может быть массовая рассылка спама с целью проведения вирусного маркетинга. Причем в тексте сообщения часто встречаются ссылки на вредоносные ресурсы. Таких пользователей необходимо вовремя находить и применять к ним специальные меры. В этой ситуации используют алгоритмы кластеризации и классификации. Таким образом, анализ позволяет повысить эффективность политики безопасности в социальной сети. Social Mining, Web Mining и Data Mining тесно взаимосвязаны между собой.

Анализ связей объектов всей сети Для получения наиболее корректной информации о месте объекта в сети необходимо проанализировать взаимодействия всех объектов, не разбивая их на группы и не исключая из рассмотрения ни одного из них, даже если на первый взгляд он кажется абсолютно не значимым. Используя исходные данные о фактах связей, построим матрицу смежности графа. Матрицей смежности А = [aij] графа G называется квадратная матрица c размерностью n*n (где n – кол-во вершин), а элемент aij определяется по следующему правилу: • aij = 1 – если в графе G есть дуга (xi; xj), • aij = 0 – если в графе G отсутствует дуга (xi; xj). Далее, чтобы получить искомую информацию, построчно суммируем матрицу. . Посчитав количество связей, можно сказать, какому числу объектов может быть передана информация. Есть возможность оценить степень влияния узлов сети, но каждый из них, на который оно оказывается, в свою очередь связан (или не связан) с другими узлами. Рассмотри более конкретный пример:

Объект обладает большим влиянием, но узлы, с которыми он связан, не имеют такого качества (никакого влияния) Объект имеет меньшее влияние, но он более могущественный, т. к. объекты, с которым он связан, также имеют некоторое влияние в сети. Для поиска наиболее могущественного объекта сети (имеющего наибольшую силу) вычисляют итерированную силу объекта с учетом связей других элементов.

Вычисление итерированной силы объекта

Далее все объекты сортируются по значению рассчитанной силы P и им присваивается значение рейтинга для объекта, у которого Pmax – это 1, и так далее по убыванию. Используя информацию, полученную в результате этого алгоритма, можно делать выводы о том, какие объекты наиболее влиятельны в сети, какие способствуют наиболее эффективному распространению информации в ней (если, например, необходимо внутри этой сети распространить некую информацию, имея ограничение на колво обращений, то очевидно, что более эффективным будет начать распространение с объектов, расположенных в первых строках таблицы).

Анализ связей на уровне групп Объекты сети можно объединить в группы по какому-то признаку: пол, фирма, отдел, город проживания и т. п. Можно перейти на более высокий уровень анализа, например, если объектами сети являются работники разных фирм, которые каким-то образом связаны между собой, то можно перейти от анализа связей объектов к анализу связей групп объектов. Далее с группами можно работать как с отдельными объектами, этот прием поможет, например, когда для удобства анализа надо сократить кол-во рассматриваемых объектов с нескольких тысяч до десятков. Исходная информация аналогична показанной ранее, но дополненная сведениями о принадлежности объектов к группам.

Пример результатов анализа: какие группы наиболее активно общаются, какие находятся в изоляции, кто является источником информации, а кто агрегирует ее.

• • Компании New-Vasyuki, ltd. и Black Mesa генерируют трафик между собой; Компании Bol-L-Gol Gardening и Skynet также генерируют трафик между собой; Компания No. Name, inc. получает большее количество сообщений от Skynet и передает в компанию Acme Corporation; Компания Acme Corporation генерирует большую часть трафика внутри себя. Видны две явные группы: New-Vasyuki, ltd. + Black Mesa и Bol-L-Gol Gardening + Skynet. Компания No. Name, inc. является дочерней фирмой компании Acme Corporation.

Анализ связей объектов с группами Для того чтобы работать с группами и наблюдать внутреннюю структуру связей между ними, необходимо анализировать связи объектов с группами. Группы связаны между собой через узлы 1 -3 и 2 -4. Причем связь 2 -4 односторонняя (объект № 4 передает сообщения объекту № 2, не получая ответных сообщений), причем объект № 4 имеет одностороннюю входящую связь внутри группы. Исходные данные аналогичны предыдущим примерам.

Можно сделать выводы о том, какие объекты являются связующими звеньями между группами, какие объекты сети генерируют наибольший трафик между группами. Анализ графов в социальных сетях позволяет делать выводы: какие объекты наиболее эффективны при распространении информации, какие объекты групп сети генерируют основной трафик между другими группами, какие группы объектов изолированы от сети и т. п.

Использование результатов • Интернет. Выявление лидеров мнений в социальных сетях, запуск "сарафанного радио", управление PR-акциями. • Маркетинг. Анализ связей как одного из свойств клиентов для формирования более полного его "портрета", обогащение данных о клиенте. • Реклама. Продвижение сложных товаров через сеть лояльных партнеров/клиентов, кросс-продажи. • Безопасность. Поиск мест утечек конфиденциальной информации, выявление объектов источников дезинформации, обнаружение агентов влияния, мониторинг контактов между группами узлов сети. • Корпоративная психология. Организация эффективных рабочих групп, формирование проектных команд. • Оптимизация сети. Перераспределение мощностей для оптимальной обработки трафика.