
BI - система поддержки принятия решений.ppt
- Количество слайдов: 138
Данные, данные … или нам НУЖНА система анализа и поддержки принятия решений!!!
Содержание • Задачи руководства и проблемы аналитика • Почему создаются хранилища данных • Основные компоненты и функциональность систем поддержки принятия решений • OLAP – определения, операции и примеры • Клиентские OLAP-приложения • Data Mining – интеллектуальный анализ данных • Обзор категорий систем Data Mining • Пример системы BI - Microsoft BI • Выводы
Литература и ссылки 1. Паклин Н. Б. , Орешков В. И. Бизнес-аналитика: от данных к знаниям (+CD): Учебное пособие. 2 -е изд. , испр. — СПб. : Питер, 2013. — 704 с. : ил. 2. Барсегян А. А. , Куприянов М. С. , Степаненко В. В. , Холод И. И. Методы и модели анализа данных: OLAP и Data Mining. — СПб. : БХВ-Петербург, 2004. — 336 с. : ил. 3. Барсегян А. А. , Куприянов М. С. , Степаненко В. В. , Холод И. И. Технологии анализа данных: Data Mining, Visual Mining. Text Mining — 2 -е изд. , перераб. и доп. СПб. : БХВ-Петербург, 2007. — 384 с. : ил. • CD-ROM 4. Макленнен Дж. , Танг Ч. , Криват Б. Microsoft SQL Server 2008: Data Mining - интеллектуальный анализ данных. Пер. с англ. —СПб. : БХВ-Петербург, 2009. — 720 с. 5. Нестеров С. А. Интеллектуальный анализ данных средствами MS SQL Server 2008. Курс на intuit. ru 6. Чубукова И. А. Data Mining, Курс на intuit. ru и ее блог http: //irinachubukova. blogspot. ru/ 7. Билл Джелен и Майкл Александер Сводные таблицы в Microsoft Excel 2013, «ВИЛЬЯМС» , 2013 - 464 стр. 8. http: //microsoftbi. ru/ - блог И. Косякова архитектора программных систем (SQL/BI) в Технологическом центре Microsoft
Главная задача руководителей Задача - совершенствовать бизнес а для этого: Требуется быстро получать необходимую информацию и иметь возможность ее анализировать с целью принятия на основе результатов анализа обоснованного управленческого решения.
Основные проблемы аналитика • • • И главное: как представить сложные данные в таком • виде, чтобы их можно было осмыслить и • интерпретировать? Слишком много данных отовсюду! Производственные системы не интегрированы и представляют данные по-разному. Я же не имею доступа в некоторые системы… Что мне тут выгрузил администратор? А как мне это обработать? Почему мои отчеты не стыкуются? А как организовать совместную работу с информацией? Начальство хочет результаты, как всегда, вчера. . .
Как перекинуть мост? Реляционные БД информационных систем • Хранят громадные количества разнородных данных ? Табличные процессоры и ПО пользователей • Анализируют небольшие объемы данных • Требуют профессиональных ITзнаний при работе • Разбросаны среди конечных пользователей • Содержат минимальные возможности вычислительного анализа • Отсутствует корпоративная целостность данных
Системы поддержки принятия решений (СППР) = Business Intelligence (BI) Определение Gartner: BI - это категория приложений и технологий для сбора, хранения, анализа и публикации данных, позволяющая корпоративным пользователям принимать лучшие решения.
Технологический взгляд на организацию BI Архитектура СППР = OLTP + ХД + Подсистема анализа
Основные определения • OLTP (Online Transaction Processing) – подсистемы транзакционной обработки данных - для сбора и хранение информации, а также решение задач информационно-поискового запроса (реализуются средствами систем управления базами данных (СУБД). • ХД - предметно-ориентированный, интегрированный, редко меняющийся, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. • Подсистема анализа (- удобные средства визуализации данных, агрегирования, поиска тенденций, прогнозирования для работы с единым источником информации (ХД).
Когда необходимо ХД? • Имеющихся отчетных средств оперативных систем недостаточно для построения аналитических запросов • Необходимо анализировать информацию из различных оперативных систем • Функциональность и производительность имеющихся систем недостаточна для построения аналитических отчетов
Подсистема анализа может быть построена на основе: • подсистемы информационно-поискового анализа на базе реляционных СУБД и статических запросов с использованием языка SQL; • подсистемы оперативного анализа. Для реализации таких подсистем применяется технология оперативной аналитической обработки данных OLAP, использующая концепцию многомерного представления данных; • подсистемы интеллектуального анализа, реализующие методы и алгоритмы Data Mining.
Архитектура системы с Хранилищем Данных OLAP Server Конверторы Отчет OLAP-клиент Оперативные системы (приложения, АРМы, …) Реляционное Хранилище данных Data Mining
Архитектура системы с Хранилищем Данных (другой вид)
Функциональный взгляд на организацию BI Функциональность BI = Интеграция + Доставка + Анализ
Подробная карта функциональности BI
Интеграция • Общая BI-инфраструктура — все инструменты платформы должны использовать одни и те же средства обеспечения безопасности, общие метаданные, средства администрирования, средства генерации запросов, а также иметь однотипные интерфейсы. • Управление метаданными — все инструменты приложения должны не только опираться на одни и те же метаданные, но также должны обеспечиваться быстрый поиск, хранение, использование и публикация таких объектов метаданных, как размерности, иерархии, параметры оценки производительности и параметры оформления отчетов.
Интеграция • Средства разработки — наряду со средствами создания отдельных BIприложений, BI-платформа должна предоставлять средства программной разработки для интеграции приложений в общий бизнес-процесс или обеспечивать их встраивание в другое приложение. • Совместная работа и управление рабочими процессами — данная возможность позволяет BI-пользователям разделять информацию и обсуждать ее с помощью общих папок и средств ведения дискуссионных тредов (discussion threads). В дополнение BI-приложения могут назначать и отслеживать события или задачи, возложенные на отдельных пользователей, на основе неких заранее определенных бизнес-правил (workflow-инструменты).
Доставка информации • Средства создания отчетов (Reporting) — дают возможность создавать форматированные интерактивные отчеты. В дополнение к этому поставщики BI-платформ должны предоставлять широкий набор типов отчетов (финансовых, операционных и т. п. ) в виде приборных панелей дэшбордов (dashboards). • Дэшборды (Dashboards) — одна из составных частей отчетов, представление информации в виде интуитивно понятного графического изображения, включая диаграммы, круговые шкалы, светофоры и т. п. Девиз концепции: «Если вы не можете это измерить, значит вы не можете этим управлять»
Reporting, Dashboards
Доставка информации • Генератор нерегламентированных запросов (Ad hoc query) — данная функция, известная также как создание отчетов в режиме самообслуживания + ответы на все вопросы + средства навигации по ресурсам данных. • Интеграция с Microsoft Office — в ряде случаев BIплатформы используются как промежуточное звено в цепочке анализа информации, а Microsoft Office (в частности Excel) выступает как BI-клиент. В этих случаях очень важно, чтобы BI-вендор обеспечивал интеграцию с Microsoft Office, включая поддержку форматов документов, формул и сводных таблиц.
Анализ • Продвинутая визуализация — инструменты продвинутой визуализации позволяют представлять данные для более эффективного их восприятия посредством использования интерактивных картинок и диаграмм вместо таблиц. Обычно пользователи в динамическом режиме могут менять графическое представление, использовать масштабирование, объединять данные, изменять цвета. • Карты показателей (Scorecards) используют контрольные показатели, отображаемые на информационной панели, для более глубокого анализа путем наложения их на некоторую стратегическую карту, которая увязывает ключевые параметры производительности со стратегическими задачами. • OLAP и Data Mining – будет подробнее далее.
Продвинутая визуализация
Карты показателей (Scorecards)
Категории вендоров систем Business Intelligence Вендор (англ. vendor ) - это поставщик товаров и услуг, которые объединены торговой маркой. Вендоры BI платформ классифицируются на лидеров, провидцев, претендентов и нишевых игроков (по методологии Magic Quadrant).
Категории вендоров Business Intelligence Источник Gartner, март 2011, "BI Platforms User Survey, 2011: Customers Rate their BI Platform Functionality"
Категории вендоров Business Intelligence
Линейки продуктов по направлениям BI Для реализации всего спектра задач BI проекта важно подобрать правильную линейку продуктов. Примеры различных вариантов BI продуктов для лидеров магического квадрата Gartner. Для каждой группы функций разработчики платформ BI предлагают наборы продуктов, возможен выбор продуктов как от одного, так и от нескольких разработчиков. В примерах приведены наборы программных продукты для отчетов, аналитики, интеграции данных, доступа к сверхбольшим объемам данных, а также технологии, которые помогают сделать BI решение более интуитивным или эффективным.
OLAP: определение • OLAP (Online Analytical Processing) - технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.
Многомерность (постановка проблемы или какой анализ данных требуется) • Мы управляем торговой компанией и нас интересуют объемы продаж за некоторый период, к примеру за только что завершившийся месяц. Предположим, что наша компания продает не один, а множество видов товаров и имеет большое число клиентов, "разбросанных" по разным регионам страны. • «Двумерность» (таблица) - даст ответа типа «группа товаров – названия регионов» или «группа товаров – месяцы» • «Трехмерность» (куб) - даст ответа типа «регион - группа товаров - месяцы» А нам нужна полная картина состояния дел!!! Попробуем выяснить, каким конкретно клиентам и из каких регионов были отгружены наши товары. А кроме того, нам также хотелось бы знать, какие торговые менеджеры курировали данные сделки, чтобы увидеть их "вклад" в обороты компании. И, разумеется, нам надо сравнить полученные итоги с предыдущим периодом (чтобы понять, насколько лучше или, наоборот, хуже мы стали работать и почему). А еще нас интересует не только объем продаж , но и чистая прибыль и дебиторская задолженность, остаток на складе и т. д. Да и некоторые измерения имеют «иерархию» ! Значит это уже «Многомерность» (гиперкуб или OLAP-куб) !!! Значит это уже
Термины OLAP • Факты или меры – анализируемые величины (количество продаж, объем затрат, остаток на складе, чистая прибыль) • Измерения – параметры, относительно которых производится анализ (продукт, регион, время, клиенты) • Ячейка (cell) - атомарная структура куба, соответствующая полному набору конкретный значений измерений.
Термины OLAP ги он • Иерархия - группировка объектов одного измерения в объекты более высокого уровня. Например – «день-месяцквартал-год» . Иерархии в измерениях необходимы для возможности агрегации и детализации значений показателей согласно их иерархической структуре. В Продукт Регион Время Продукт Ре Ю С Тайд Лоск Миф Омо Аист Дося Группа Страна Год Категория Регион Квартал Продукт Город Месяц Неделя 1 2 3 4 5 6 7 Месяц Магазин День
Операции над OLAP-кубом • Агрегация и детализация - операции, которые определяют переход вверх по направлению от детального представления данных к агрегированному и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями. Например, если при анализе данных о продажах в Северной Америке выполнить операцию детализации для измерения "Регион", то будут отображены такие элементы, как "Канада", "Восточные штаты США" и "Западные штаты США". В результате дальнейшей детализации элемента "Канада" будут отображены элементы "Торонто", "Ванкувер" и т. д.
Операции над OLAP-кубом • Срез - формируется подмножество многомерного массива данных, соответствующее единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Срезы очень удобны для ответов на вопросы руководства • Каковы продажи молока по северо-западному региону за 1998 г. ? Это значение ячейки с координатами (молоко, северо-западный регион, 1998 г. )
Операции над OLAP-кубом • Вращение - изменение расположения измерений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот.
Вращение OLAP-куба Финансы Прибыль по подразделению по стране за месяц Продажи план/факт Выручка по продуктам по регионам по сотрудникам поквартально Маркетинг Доход по клиентам по отрасли по каналам по неделям Операции Объем по заводу по смене по продуктам по дням
Таблицы фактов • Таблица фактов - является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. 4 типа таблиц фактов: • • факты, связанные с транзакциями (Transaction facts); факты, связанные с "моментальными снимками" (Snapshot facts); факты, связанные с элементами документа (Line-item facts). ; факты, связанные с событиями или состоянием объекта (Event or state facts).
Таблицы фактов (пример)
OLAP – идеальный инструмент аналитика • Можно проводить анализ разных фактов • Можно погружаться в детали и подниматься обратно на более высокие ступени иерархии • Куб можно вращать и рассматривать под разными углами • Каждое сечение плоскостью (срез) – фактически готовый отчет
Клиентское приложение • Отображение многомерных данных • Визуальное построение запросов • OLAP-манипуляции (Drill Down (детализация), Drill Up (агрегация), Collapse (свернуть), Expand (развернуть), Pivot (повернуть), Isolate (изолировать), Eliminate (устранение)) • Фильтрация • Сортировка
Варианты клиентских приложений • • • Microsoft Excel + Power Pivot Microsoft Data Analyzer Cognos Power. Play Hyperion Analyzer Business Objects …
Microsoft Excel • Сводные таблицы и диаграммы
Microsoft Excel • Сводные таблицы и диаграммы
Ресурсы интернет по OLAP Англоязычные ресурсы • http: //www. microsoft. com/sql/evaluation/bi/bianalysis. asp - раздел сайта Microsoft, посвященный Analysis Services; • http: //www. mosha. com/ - подборка линков на ресурсы по OLAP технологии; Русскоязычные ресурсы • http: //www. olap. ru/ – российский портал, посвященный OLAP технологиям; • http: //www. osp. ru/ – огромное количество статей, посвященных OLAP технологии; • http: //www. sql. ru/forum/actualtopics. aspx? bid=26 – самый «живой» форум по OLAP технологиям; • http: //www. interface. ru/ - много полезной информации по OLAP на сайте компании Interface.
Пример использования OLAP технологий для торговой компании Анализ операций по продаже товаров
1. Выгружаем нужные данные из хранилища во всех интересующих нас измерениях для анализа в сводную таблицу (куб) 2. По данным из сводной таблицы можно построить любой отчет выбрав интересующие измерения
3. Проводим конкретизацию или добавление измерений (по «Номенклатуре» ) 4. Можно провести фильтрацию по любому критерию (только по «Региону» - Москва и Подмосковье)
5. Построим сводную таблицу, включающюю в себя измерения "Менеджер", "Покупатель", "Счет" и "Номенклатура" – оценка эффективности работы персонала
6. Добавим измерения, представляющие собой нужный отрезок времени, т. е. "Год", "Месяц", Квартал", или "Сутки" – сравниваем объемы продаж с прошедшим периодом, выявляем факторы изменившие данные.
Пример использования OLAP технологий для бухучета Получение развернутой картины движения денежных средств
1. Выгружаем нужные данные из «гиперкуба» для анализа в сводную таблицу по измерениям "Корсчет", "Квартал", "Месяц" и "Сутки" – получаем развернутую картину движения денежных средств в выбранном нами периоде
OLAP и финансовый анализ: Финансовый анализ позволяет оценить состояние предприятия, эффективность деятельности. Одна из самых благодатных областей применения OLAP-технологий – это: • Бюджет • Движение денежных средств Практически ни одна современная система бюджетирования не считается завершенной без наличия в ее составе OLAP-инструментария для анализа бюджета.
OLAP и финансовый анализ: В финансовом анализе применение OLAP-инструментария позволит следующее: 1. Анализировать приходы и оттоки денежных средств в разрезе бизнес-операций, контрагентов, валют и времени с целью их оптимизации потоков; 2. Строить финансовую и управленческую отчетность (с аналитикой, которая необходима руководству); 3. Проводить анализ прибыльности подразделений; 4. Оценивать взаимоотношения с контрагентами; 5. Следить за состоянием предприятия по активам и пассивам; 6. Контролировать денежные средства на расчетном счету, в кассе.
OLAP и финансовый анализ: Примеры практических задач: • Состояние взаиморасчетов покажет "проблемных" клиентов. Наиболее злостным неплательщикам в следующий раз откажете в скидке. • Анализ динамики оборотных средств позволит судить о "картине" финансового состояния предприятия на сегодня и перспективах развития компании. Эта информация поможет определить источники финансирования будущих проектов. • Динамика движения денежных средств на расчетном счету и/или в кассе позволит выявить закономерности поступления/расходования средств. Такая информация может стать основой для финансового планирования, сравнительного анализа расходования средств и для оптимизации затрат.
OLAP и анализ продаж 1. Анализ структуры и динамики клиентской базы поможет в достижении двух основных целей клиентской стратегии предприятия: найти новые рынки, новых клиентов, не потеряв при этом старых. 2. Менеджеры по продажам следят за динамикой продаж каждого из своих клиентов. 3. Top-менеджмент оценивает продажи по категориям покупателей, корректируя маркетинговые усилия компании на рынке. 4. Анализ структуры продаж может быть использован для формирования эффективных адресных предложений. 5. Торговые сети проводят анализ географии продаж. Факторов, определяющих спрос в конкретном районе, много: наличие конкурентов, культурные особенности, климат и т. д. Анализ продаж по филиалам (магазинам) позволит нарисовать "картину спроса". 6. Данные о продажах пригодятся для оценки работы персонала.
OLAP и анализ поставок 1. Важная характеристика товара - соотношение "цена/качество". 2. Возвраты поставщикам и от покупателей помогут составить мнение о партнере и/или товаре. 3. Для оценки партнерских отношений также полезно оценить надежность поставщика, например, по динамике поставок и/или цен. 4. Рутинные функции по планированию объемов закупок. 5. Борьба за высокое качество ежедневных решений, то есть их информационную обоснованность - это борьба за снижение издержек. 6. Комплексную оценку динамики продаж, складских запасов и уровня цен.
Примеры отчетности Итоги такого анализа позволяют принять обоснованные управленческие решения о дополнительном финансировании или закрытии конкретных проектов, об оптимальном распределении материальных ресурсов, о "перестройке" ассортимента продукции, о пересмотре действующих отпускных цен и т. д.
Вывод по OLAP Благодаря технологиям OLAP - многомерного анализа данных, информация, накопленная в системах и программах, перестает быть "вещью в себе" и максимально способствует повышению эффективности бизнеса!!!
Data Mining – интеллектуальный анализ данных За последние десятилетия на предприятиях ERP, CRM, Финансовые и прочие ИИС в своих реляционных БД накопили грандиозные объемы данных в самых различных областях и приложениях. Для чего реально использовались эти данные? Выпустили пару раз отчетность на их основе, потом сагрегировали, заархивировали и забыли? И лежат они чаще мертвым грузом вместо того, чтобы работать и приносить прибыль. Даже если инструменты поиска и обработки нам дают возможность что-то быстро найти и проанализировать, то этого далеко недостаточно.
Data Mining – интеллектуальный анализ данных Что же еще можно получить аналитикам от этой информации? Data. Mining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации. (Григорий Пятецкий-Шапиро – основатель направления Data. Mining)
Data Mining – интеллектуальный анализ данных Данные и Знания • Данные – реактивный характер, т. е. отчет о состоявшемся событии • Знания – проактивный характер, т. е. заглядывание в будущее • Дано: летит кирпич (мозг неявно оценивает его вес, скорость, направление, боковой ветер и пр. ) • В это время некий аналоговый компьютер на основе этих данных и имеющихся моделей (сиречь опыта) рассчитывает: пролетит мимо или лучше отойти • В конечном счете знания помогают выживать! Совершенно аналогично обстоит дело в бизнес-ситуациях • Управление заказами и складскими запасами • Сколько товара будет продано завтра в этом магазине? • Управление рисками • Выдавать ли кредит этому клиенту? • Управление клиентской базой • Кто наши клиенты? Какие группы товаров они предпочитают? • Довольны ли они обслуживанием, кто из них может уйти к конкуренту? • Как правильно спланировать маркетинговую кампанию и оценить ее эффект? • Выявление мошенничеств • Не является ли этот страховой случай обманным? • . . .
Data Mining – интеллектуальный анализ данных Data. Mining – это средство превратить данные в знания Мало прока от строки в таблице, говорящей, что в день A клиент B приобрел товар C в магазине D на сумму. . . в кол-ве. . . и т. д. Однако просмотрев миллионы подобных строк можно заметить, например: что товар С в магазине D расходится лучше, чем в других торговых точках что клиент B проявляет покупательскую активность в дни А что товар C 1 продается в основном с товаром С. . . Эти знания уже можно непосредственно использовать в бизнесе
Data Mining – определение Data Mining – это анализ данных с целью отыскания в них типовых образцов или стереотипных изменений, скрытых от нас по причине невозможности держать в голове такое количество данных и анализировать такое количество взаимосвязей между ними.
Data Mining –этапы проведения Этапы проведения по Microsoft • постановка задачи; • • • подготовка данных; изучение данных; построение моделей; исследование и проверка моделей; развертывание и обновление моделей.
Процесс интеллектуального анализа Тренировочные данные Модель Предсказываемые данные DM Engine Модель Данные с предсказаниями
Алгоритмы интеллектуального анализа данных Decision Trees (дерево принятия решений) Naïve Bayes (упрощенный алгоритм Байеса) Neural Nets (нейронные сети) Association Rules (взаимосвязи) Sequence Clustering (кластеризация последовательностей) Linear Regression (линейная регрессия) Clustering (кластеризация) Time Series (временные ряды) Logistic Regression (логистическая регрессия)
Data Mining – типовые задачи Классификация • Разбить случаи на предопределенные классы (напр. , хорошо, плохо, . . . ) • Бизнес-задачи: анализ кредитных рисков, анализ клиентской базы, целевая реклама • Алгоритмы: деревья решений, нейронные сети, наивный байесовский алгоритм Регрессия • Сходна с задачей классификации, но предсказываемый атрибут здесь является непрерывной величиной • Бизнес-задачи: предсказать скорость ветра (курс доллара, . . . ) на основе температуры, давления, влажности, . . . • Алгоритмы: линейная регрессия, логистическая регрессия, регрессионные деревья, нейронные сети
Data Mining – типовые задачи Кластеризация, или сегментирование • Определить естественные группы случаев, базируясь на множестве атрибутов. Случаи внутри группы имеют схожие значения атрибутов • Бизнес-задачи: профилирование клиентов Ассоциация • Подобно кластеризации, определяет наиболее популярные наборы значений плюс устанавливает ассоциативные правила: например, если клиент взял пепси и чипсы, то с вероятностью 80% он выберет еще сок • Бизнес-задачи: анализ рыночной корзины, кросс-селлинг
Data Mining – типовые задачи Прогноз • Имеется в виду во времени, т. е. Forecast, а не абы какое Prediction • Бизнес-задачи: какой будет курс доллара (акций Microsoft температура, влажность, . . . ) на завтра (послезавтра, через неделю, . . . ) • Алгоритмы: анализ временного ряда Анализ отклонений • В известном смысле задача, обратная вышеперечисленным – требуется отыскать «незакономерность» , т. е. отклонение от ранее наблюдавшегося поведения • Бизнес-задачи: выявление мошенничеств с кредитными карточками, определение вторжения в сеть • Алгоритмы: в настоящее время не существует устоявшихся методик, остается областью активных исследований. Основная проблема: как отличить такие случаи от помех и не отфильтровать вместе с водой ребенка
Data Mining – типовые задачи Примеры применения интеллектуального анализа данных Информационные технологии Торговля Финансовая сфера Классификация Оценка кредитоспособности Регрессия Оценка допустимого кредитного лимита Прогнозирование продаж Прогнозирование цен акции Кластеризации Сегментация клиентов Определения взаимосвязей Анализ потребительской корзины Анализ переходов по последовательностей страницам web-сайта Анализ отклонений Обнаружение вторжений в информационные системы Выявление мошенничества с банковскими картами
Data Mining – типовые задачи Задачи бизнеспользователей Marketing Strategy - разработка маркетинговых стратегий Задачи аналитиков Predictive Analytics - прогнозная (предиктивная) аналитика Develop a Loyalty Program - разработка Программ лояльности, Classification - задачи классификация Customer Segmentation - сегментация клиентов Regression - задачи регрессии Cross-Sell Analysis - анализ кросс-продаж (совместных покупок) Forecasting - задачи прогнозирования Client Targeting - таргетинг клиентов Direct Marketing Models - модели директ-маркетинга Churn Analysis - анализ оттока Customer Retention - задачи удержания клиентов Time Series Analysis - анализ временных рядов Fraud Detection - анализ фрода (мошенничества) Risk Analysis - анализ рисков Visualization - визуализация
Инструменты Data Mining – обзор популярности Из результатов ежегодного опроса "The 13 th annual KDnuggets Software Poll" R, Excel, и Rapid. Miner являются самыми популярными инструментами. Около 30% опрошенных указали эти инструменты. Statistica, SAS, Matlab, IBM SPSS Statistics и IBM SPSS Modeler - самые популярные коммерческие инструменты (их использует от 7 до 14% опрошенных). Statsoft Statistica становится самым популярным коммерческим инструментом, опередив SAS.
Пример использования Data Mining Интеллектуальный анализ данных в СУБД Microsoft SQLServer 2008 R 2 (Службы Analysis Services)
Интеллектуальный анализ данных с использованием Data Mining Add-ins Analysis Services Доступен MS SQL Server 2008 R 2 в (Enterprise, Developer или, c некоторыми ограничениями, Standard) Размещение Результаты База данных Data Mining Add-ins
Серверная архитектура DM BIDS Excel Visio SSMS Развертывание Analysis Services Server Excel/Visio/SSRS/Your App OLE DB/ADOMD/XMLA/AMO App Data Mining Model Data Mining Algorithm Data Source
Описание примера • Компания Adventure Works Cycles — крупная транснациональная производственная компания, производящая и реализующая металлические и композитные велосипеды на рынках Северной Америки, Европы и Азии. • По окончанию успешного финансового года Компания Adventure Works Cycles хочет расширить свое присутствие на рынке путем направленной рекламы для своих лучших клиентов, повысить доступность продукта при помощи внешнего вебсайта и уменьшить стоимость продаж за счет снижения стоимости производства. • Полный объем информации о клиентах, продажах, товарах, поставщиках, менеджерах и т. д. , который накоплен компанией содержится в базе данных Adventure. Works_2012, развернутой в Microsoft SQLServer 2008 R 2, а также в более урезанном варианте в таблицах для MS Excel 2010 (локализованный ( пример для Excel взят с http: //russiandmaddins. codeplex. com/)
Надстройки интеллектуального анализа данных для MS Office 2010
Описание примера Упрощенный алгоритм Байеса • В рамках постоянной стратегии продвижения отдел маркетинга компании Adventure Works Cycle решил разослать листовки потенциальным клиентам. Чтобы снизить себестоимость, было принято решение рассылать листовки только тем клиентам, которые, вероятно, ответят. • Необходимо использовать накопленные данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили велосипед, и теми, которые не купили.
Упрощенный алгоритм Байеса (Microsoft Naïve Bayes) • Используется для: − Классификации − Ассоциации с несколькими предсказываемыми атрибутами • Предполагает, что все входные данные независимы • Простой механизм классификации, основанный на вероятности выполнения условий • Требует меньшего количества вычислений
Описание примера Упрощенный алгоритм Байеса Рассчитывается вероятность состояния каждого входного столбца (возраст, удаленность от работы, число авто, число детей) при каждом возможном состоянии прогнозируемого столбца (купил-не купил). Например, если расстояние от дома до работы клиента (показано здесь в столбце «Commute Distance» ), составляет от одной до двух миль, то клиент приобретет велосипед с вероятностью 0, 387 и не приобретет с вероятностью 0, 287.
Описание примера Дерево принятия решений • Отделу маркетинга компании Adventure Works Cycles нужно идентифицировать характеристики предыдущих заказчиков, которые могут указывать на высокую вероятность приобретения этими заказчиками продукта в будущем. • В базе данных База данных Adventure. Works 2008 R 2 хранятся демографические данные, описывающие предыдущих заказчиков. • Используя алгоритм дерева принятия решений (Майкрософт) для анализа этих данных, маркетинговый отдел может построить модель, которая прогнозирует, будет ли конкретный заказчик покупать продукты, на основании состояний известных столбцов, содержащих данные об этом заказчике, например демографические данные и сведения о покупках в прошлом.
Алгоритм дерева принятия решений (Decision Trees) • Используйте для: − Классификации: анализ рисков и перехода клиентов − Регрессии: предсказание прибыли или дохода − Анализа ассоциаций, основанного на предсказании нескольких переменных • Строит одно дерево для каждого предсказываемого атрибута • Быстрый
Описание примера Дерево принятия решений Для дискретных атрибутов: Алгоритм дерева принятия решений строит модель интеллектуального анализа данных путем создания ряда разбиений в дереве. Эти разбиения представлены как узлы. Алгоритм добавляет узел к модели каждый раз, когда выясняется, что входной столбец имеет значительную корреляцию с прогнозируемым столбцом.
Описание примера Дерево принятия решений Для непрерывных атрибутов: Когда алгоритм дерева принятия решений строит дерево, основанное на непрерывном прогнозируемом столбце, каждый узел содержит регрессионную формулу. Разбиение осуществляется в точке нелинейности в этой регрессионной формуле. Для использования метода требуется задать: ключевой столбец, прогнозируемый столбец (дискретный или непрерывный) и входные столбцы.
Описание примера Дерево принятия решений
Описание примера Дерево принятия решений
Описание примера Кластеризация (сегментация) Решение задачи кластеризации – это разделение всего множества вариантов на "естественные" группы, члены которых наиболее близки по ряду признаков. Подобная задача также называется задачей сегментации. В компании Adventure Works есть описание множества клиентов и Adventure Works нужно разделить их на небольшое количество групп (чтобы отдельным группам сформировать специальное предложение и т. п. ).
Описание примера Кластеризация (сегментация) Алгоритм кластеризации сначала определяет связи в наборе данных и формирует ряд кластеров на основе этих связей. Точечная диаграмма является хорошим способом визуально представить, как алгоритм группирует данные. Точечная диаграмма представляет все варианты в наборе данных, и каждый вариант является точкой на диаграмме. Группа кластеров указана на диаграмме точками и показывает связи, идентифицированные алгоритмом. На первом этапе имеется множество вариантов, Итоговые кластеры, поименованные по характерным свойствам
Алгоритм кластеризации (Clustering) • Применим к: • Сегментации: группировка клиентов, маркетинговая рассылка предложений • Также: классификация и регрессия • Обнаружение аномалий • Дискретные и непрерывные атрибуты • Замечания: • Атрибуты «Predict Only» нельзя использовать
Описание примера Кластеризация (сегментация) • Назначаем интересующие нас поля – параметры и, если нужно, число категорий.
Описание примера Кластеризация (сегментация) • Получаем 3 вида отчетов: Выделенные категории с частотой Описание категорий
Описание примера Кластеризация (сегментация) Диаграмма профилей категорий
Описание примера Кластеризация (сегментация) Сопоставление категорий записям в исходной таблице
Описание примера Кластеризация (выделение исключений) Инструмент позволяет выявить данные, выделяющиеся среди имеющегося набора. Это может быть полезно в ряде случаев. • Во-первых, это могут быть ошибочные данные (например, результаты ошибки оператора при вводе каких-то значений). • Во-вторых, исключения могут представлять отдельный интерес (как, например, в случае обнаружения мошеннических действий с банковскими картами и т. п. ). • Кроме того, анализ исключений может рассматриваться как предварительная часть интеллектуального анализа данных с помощью других методов. В частности, это позволяет исключить попадание нетипичных примеров в обучающую выборку.
Обнаружение аномалий Возраст Clustering Мужчина Сын Дочь Родитель Женщина
Описание примера Кластеризация (выделение исключений) • Создаем временную модель интеллектуального анализа с использованием алгоритма Microsoft. Clustering. • Для каждой анализируемой строки оценивается степень принадлежности выявленным кластерам. • Значения, находящиеся далеко от всех кластеров, помечаются как исключения.
Описание примера Кластеризация (выделение исключений) Задаем исходную таблицу, параметры кластеризации (поля) и точность – порог отклонения от нормы в %:
Описание примера Кластеризация (выделение исключений) Отчет о количестве исключений
Описание примера Анализ ключевых факторов влияния Решение задачи ключевых факторов влияния – это оценка степени взаимного влияния разных параметров друг на друга. Выбирается целевой параметр и параметры, влияние которых мы хотим оценить. Если целевой или другой столбец, обрабатываемый инструментом Analyze Key Influencers, содержит много различных числовых значений, то проводится дискретизация. Весь интервал значений делится на несколько диапазонов, каждый из которых рассматривается как одно из возможных значений (например, вместо точного значения 2, 5 мы получим "диапазон от 2 до 3"). Например, компании Adventure Works необходимо выяснить от чего Adventure Works необходимо выяснить зависит решение клиента о покупке велосипеда.
Описание примера Анализ ключевых факторов влияния • Выбираем в качестве целевого столбца – «Приобрел велосипед» . У него всего два состояния «да» или «нет» . • И выбираем параметры от которых зависит параметр - «Приобрел велосипед» .
Описание примера Анализ ключевых факторов влияния • Получаем отчет о значениях влияющих столбцов и степени их влияния от 0 до 100 баллов. • Из представленного отчета видно, что на решение не покупать велосипед в наибольшей степени влияет наличие 2 -х автомобилей. Второй по уровню влияния на отказ от покупки фактор «Женат, не замужем» . Очень сильно влияет на покупку отсутствие машины.
Описание примера Анализ ключевых факторов влияния • Можно построить сравнительный отчет для двух выбранных значений, в котором видно чем отличается выбор в пользу одного значения целевого столбца от выбора в пользу другого.
Описание примера Расчет прогноза строится на использовании временных рядов или алгоритмах регрессии, оптимизированные для прогноза непрерывных значений, таких как продажи продуктов, во времени. В отличие от других алгоритмов Майкрософт, таких как деревья решений, модель временных рядов не требует дополнительных столбцов новых сведений, чтобы прогнозировать тенденцию. С помощью модели временных рядов можно прогнозировать тенденции на основе только исходного набора данных, использованного для создания модели. При прогнозировании можно вводить в модель новые данные и автоматически задействовать их при анализе тенденций.
Алгоритмы линейной и логистической регрессии Линейная регрессия • Находит лучшую прямую через набор точек Логистическая регрессия • Находит кривую путем применения логистического преобразования Используются для предсказательного анализа (определения отношений между числовыми атрибутами)
Описание примера Расчет прогноза Пример диаграммы - модель прогнозирования продаж продукта в четырех различных регионах в течение определенного времени. Модель на диаграмме отображает продажи в каждом регионе, показанные красной, желтой, сиреневой и синей линиями. Линия для каждого региона состоит из двух частей. Данные предыстории отображаются слева от вертикальной линии и представляют данные, используемые алгоритмом для создания модели. Исходные данные + прогнозируемые данные = ряд Прогнозируемые данные отображаются справа от вертикальной линии и представляют прогноз, подготовленный моделью.
Описание примера Расчет прогноза Пример: По таблице сумм объемов продаж велосипедов марки М 200 Пример: По таблице сумм объемов продаж по месяцам в трех разных регионах сделаем прогноз на 5 следующих месяцев.
Описание примера Расчет прогноза
Описание примера Расчет прогноза Отчет инструмента «Прогноз» графический
Описание примера Расчет прогноза Отчет инструмента «Прогноз» табличный
Описание примера Прогноз и заполнение по примеру Кроме этого, прогнозирование используется для решения задач прогнозирования неизвестных значений дискретных параметров с целью заполнения по примеру. Например, компании Adventure Works необходимо оценить, является Adventure Works необходимо ли данный клиент высокодоходным и от чего зависит решение клиента о покупке велосипеда.
Описание примера Прогноз и заполнение по примеру Для оценки сначала строим модель по имеющейся обучающей выборке, в которой в целевом столбце высокодоходность «да» – «нет» отмечено у некоторых известных клиентов.
Описание примера Прогноз и заполнение по примеру Остальные параметры выбираем как влияющие.
Описание примера Прогноз и заполнение по примеру Запускаем алгоритм и получаем отчет об обнаруженных шаблонах. Видно, что весовой коэффициент для "Да", соответствующий значению "2 -5 км" параметра "Расстояние до работы", равен 34, значит этот можно интерпретировать, как "расстояние 2 -5 км до работы" во многом определяет выбор в пользу покупки велосипеда.
Описание примера Прогноз и заполнение по примеру Заполненная по полученному шаблону исходная таблица
Описание примера Анализ покупательской корзины – алгоритм взаимосвязей Он позволяет, например, на основе данных о покупках выделить товары, чаще всего встречающиеся в одном заказе, и сформировать рекомендации относительно совместных продаж. Выбираем исходную таблицу для анализа.
Алгоритм взаимосвязей (Association Rules) • Используйте для анализа: − Анализа рыночной корзины − Кросс-продаж и рекомендаций • Находит часто встречающиеся наборы элементов и связей • Чувствителен к параметрам
Описание примера Анализ покупательской корзины В его настройках надо указать идентификатор транзакции (Transaction. ID), в нашем случае, это Order Number и предмет анализа (мы будем проводить анализ для категорий - Category). Необязательным параметром, количественно характеризующим предмет анализа (Item Value), в нашем случае будет цена. Результаты работы Shopping Basket Analysis отображаются в двух отчетах - Bundled Items и Recommendations.
Описание примера Анализ покупательской корзины Отчет Shopping Basket Analysis Содержит информацию о наиболее часто встречающихся в "одном чеке" сочетаниях категорий товаров. Чаще всего встречается сочетание категорий "дорожные велосипеды" и "шлемы" (Road. Bikes, Helmets)
Описание примера Анализ покупательской корзины Отчет Recommendations. Содержит рекомендации о товарах, которые могут быть предложены вместе. Например, третья строчка отчета указывает, что людям купившим шлем, стоит также предложить приобрести шины. Это заключение базируется на том, что среди 3794 покупок включающих шлемы, 1617 включали и шины. Доля таких связанных продаж равна 42, 62%. Далее приводится средний доход от связанных продаж (общая стоимость, деленная на число транзакций, которые содержат "рекомендующий" продукт, в нашем случае - шлем) и общая сумма связанных продаж. Основываясь на подобном отчете, владелец магазина может решить, как разместить товары, какие связанные предложения можно сформировать и
Описание примера Логистическая регрессия Алгоритм логистической регрессии является вариантом алгоритма нейронной сети. Логистическая регрессия является известным статистическим методом, применяемым для моделирования двоичных результатов типа «да-нет» . Алгоритм логистической регрессии весьма гибок, принимает входные данные любого рода и поддерживает несколько различных аналитических задач. • Использование демографических данных для составления прогнозов о результатах, например оценка риска некоторого заболевания. • Исследование и взвешивание факторов, влияющих на результат. Например, поиск факторов, побуждающих клиентов совершить повторное посещение магазина. • Классификация документов, электронной почты и других объектов, имеющих множество атрибутов.
Описание примера Логистическая регрессия Пример: Рассмотрим группу людей, имеющих сходные демографические данные и покупающих продукты в компании Adventure Works. Путем моделирования данных, связанных с определенным результатом, например приобретением выбранного продукта, можно увидеть, как демографические данные влияют на вероятность приобретения целевого продукта тем или иным клиентом. В качестве целевого столбца указываем "Приобрел велосипед" и значение "Да". Далее можно указать столбцы для анализа.
Описание примера Логистическая регрессия Отчет Prediction Calculator позволяет оценить вероятность покупки данным клиентом товара? Т. е. выше ли у него сумма баллов 572 порогового значения 565.
Описание примера Логистическая регрессия Отчет «Таблица баллов для параметров» позволяет оценить вероятность покупки данным клиентом товара вручную.
Описание примера Логистическая регрессия Отчет Prediction Calculator Report позволяет указать прибыль от истинных прогнозов и убыток от ложных. На основе этих данных определяется пороговое значение, обеспечивающее максимум прибыли (на графике точка максимума соответствует порогу – 565 баллов). За прибыль взято значение $10 от продажи одного велосипеда.
Описание примера Логистическая регрессия Отчет Prediction Calculator Report. За прибыль взято значение $50 от продажи одного велосипеда. Тогда пороговое значение, обеспечивающее максимум прибыли станет – 443 балла).
Описание примера Логистическая регрессия - анализ сценариев Позволяет моделировать влияние, оказываемое изменением одного из параметров (значений одного столбца) на другой, связанный с первым. Инструмент Scenario Analysis включает две составные части - "Анализ сценария поиска решений" (Goal. Seek) и "Анализ возможных вариантов"("What-If"). • Goal. Seek позволяет оценить, сможем ли мы достичь желаемого значения в целевом столбце, меняя значения выбранного параметра. Инструмент позволяет провести анализ как для одной записи, так и для всей таблицы. • Инструмент What-If позволяет решить обратную по отношению к Goal. Seek задачу: оценить значение целевой переменной при определенном изменении заданного параметра.
Описание примера Логистическая регрессия - анализ сценариев Пример анализа сценария поиска решений (Goal. Seek). Задача: Необходимо узнать, как будет влиять образование на уровень достатка человека. Порядок операций: 1) Выбираем интересующего клиента из таблицы данных. 2) Запускаем инструмент Goal. Seek и указываем целевой столбец «Доход» и значение (например 125%) от текущего, которое мы ходим достигнуть для нашего клиента. 3) Изменяемый столбец берем «Образование» .
Описание примера Логистическая регрессия - анализ сценариев Пример анализа сценария поиска решений (Goal. Seek).
Описание примера Логистическая регрессия - анализ сценариев Отчет по результатам анализа – с уровнем вероятности Confidence с уровнем вероятности (довольно высокий) это будет «Неоконченное высшее» . Теперь можно выбрать следующего клиента и рассчитать для него результат или оценить результаты для всей таблицы.
Описание примера Логистическая регрессия - анализ сценариев Отчет по результатам анализа – для всей таблицы. Отчет по результатам анализа –
Описание примера Логистическая регрессия - анализ сценариев Пример анализа возможных вариантов (What-If). Задача: оценить, как изменился бы уровень дохода человека, если бы повысился его уровень образования. . Порядок операций: 1) Выбираем интересующего клиента из таблицы данных. 2) Запускаем инструмент What-If и указываем целевой столбец «Доход» и укажем параметры сценария: образование меняется на "Высшее".
Описание примера Логистическая регрессия - анализ сценариев Пример анализа возможных вариантов (What-If). для этой строки результат показывает, что при изменении уровня образования доход может несколько вырасти (исходное значение 90000, среднее значение для нового шаблона 104448). Но степень уверенности в прогнозе не слишком высокая.
Описание примера Логистическая регрессия - анализ сценариев Пример анализа возможных вариантов (What-If). При анализе всей таблицы к ней добавляются два столбца - один показывает новое значение целевого параметра, второй - оценку достоверности в процентах от 0 до 100.
Алгоритм нейронной сети (Neural Network) • Применим к: − Классификациии − Регрессии • Хорош для нахождения сложных взаимосвязей между атрибутами − Но сложно интерпретировать результаты Output Layer Loyalty Hidden Layers Input Layer Age Education Sex Income
Вывод по Data Mining Технология Data Mining позволяет обнаружить в больших объемах накопленных «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности: • • • Банковское дело; Страхование; Телекоммуникации; Электронная коммерция; Промышленное производство; Маркетинг; Фондовый рынок; CRM – системы; Розничная торговля; Исследования для правительства.
Общий вывод по BI Главной задачей бизнес-аналитики лежит организация доступа конечных пользователей к данным и анализ этих данных. Системы BI с точки зрения бизнеспользователя является многофункциональным инструментом, включающий доступ к данным и их последующий анализ, которые обеспечивают формирование выводов, нахождение взаимосвязей в целях эффективного управления компанией. Благодаря уникальной интеграции в BI современных технологических, аппаратных, алгоритмических и программных средств, эти системы занимают все более прочные позиции в различных сферах бизнеса.
Общий вывод по BI Не даром, на очередной конференции Symposium/ITxpo в конце 2011 года исследовательская компания Gartner назвала 10 технологий (TOP 10 Strategic Technology Trends for 2012), которые будут иметь стратегическое значение для большинства организаций в 2012 году. 6 -й пункт в нем – это Аналитика нового поколения, 7 -й – Большие объемы данных, 8 -й - Вычисления в оперативной памяти
Общий вывод по BI Развитие аналитики происходит по трем главным векторам: 1. От традиционной автономной аналитики на ПК - к встроенной аналитике в потоке данных. Это было целью многих усилий в прошлом и будет продолжать оставаться важной целью в будущем. 2. От анализа ретроспективных данных, чтобы объяснить то, что случилось, - к анализу на ретроспективной основе данных в реальном времени от множества систем, чтобы моделировать и предсказывать будущее. 3. В ближайшие три года аналитика станет зрелой и на третьем векторе: от простых и структурированных данных, анализируемых отдельными пользователями - к анализу сложной информации многих типов (текст, видео и т. д. ) от множества систем, поддерживающих процесс коллективного принятия решений, который сводит многих людей вместе для анализа, мозгового штурма и принятия взвешенных решений.
Общий вывод по BI Аналитика начинает также перемещаться в облако и использовать облачные ресурсы для высокопроизводительных и grid-вычислений. В 2012 -13 гг. аналитика будет всё более нацелена на принятие решений и коллективную работу. Новый шаг состоит в том, чтобы предоставить моделирование, прогнозирование, оптимизацию и другие аналитические средства, а не просто информацию, и тем самым обеспечить еще большую гибкость принятия решений в момент и на месте совершения каждого шага бизнес-процесса.