Опер среды (СППР) .pptx
- Количество слайдов: 25
Системы поддержки принятия решения Информация БД Большие массивы данных Точные расчеты и детальный анализ Анализ – сложный процесс Законы предметной области Информация Данные для анализа Анализ Аналитик СППР Лист 1
Системы поддержки принятия решения Ввод данных СППР Хранение данных Лист 2 Предметная область Анализ данных Поиск решений Эргономичность СППР оператор Расширенная визуализация результатов аналитик Механизмы автоматического сбора данных датчик
Системы поддержки принятия решения Лист 3 СППР Информационно поисковые Фиксированный набор запросов Оперативно аналитические Динамическая генерация запросов Интеллектуальные Алгоритмы поиска закономерностей в данных
Системы поддержки принятия решения Лист 4
Системы поддержки принятия решения Лист 5
Системы поддержки принятия решения Лист 6
Хранилище данных Предметная ориентация Хранилище данных Интеграция Поддержка хронологии Неизменяемость Лист 7
Хранилище данных Лист 8 СППР с витринами данных СППР с ХД и ВД
Хранилище данных Детальные аддетивные измерения факты Лист 9 Агрегированные полуаддетивные неаддетивные
Хранилище данных Лист 10 Метаданные Объекты Причины атрибуты, значения, источники информации требования, статистика обращений и др. Пользователи идентификация, права доступа, действия, и др. Время Место хранения Действия сервер, ПО, данные при переносе, при эксплуатации, и др. загрузка, архивирование, агрегирование, извлечение, и др.
Хранилище данных Лист 11 ETL процесс Входной поток Extraction извлечение Load загрузка Запись детальных данных Вспомогательное ПО Transformation преобразование Средства OLTP систем Обобщение Перевод значений Архивирование Очистка данных Создание полей Запись агрегированных данных
Хранилище данных Лист 12 Очистка данных Ячейка Запись Таблица Противоречивость данных разных полей Опечатки Пустые значения Нарушение уникальности Целостность Дублирование Противоречивость Фиктивные значения Этапы очистки Логические ошибки 1. 2. 3. 4. 5. Кодированные значения Составные значения Одиночная БД Определение важных данных Выявление проблем в данных Определение правил очистки Тестирование правил очистки Очистка данных Процедуры над отдельными ОИД 1. 2. 3. 4. 5. 6. Расщепление атрибутов Проверка допустимости и исправления Стандартизация Сопоставление данных, относящихся к одному элементу Слияние записей Исключение дубликатов Множество БД Различие структур Одинаковые наименования разных атр. Разное представление одинак. данных Различие классификаторов Различная временная градация Различные ид. одного и того же объекта
Хранилище данных Особенности: Не решаемые задачи: Подготовка данных для анализа Способ организации данных для анализа Отсутствует предопределение архитектуры аналитической системы Организация доступа к данным Использование технологии анализа данных Лист 13
OLAP системы Лист 14 1993 г. Кодд (недостатки OLTP для многомерного анализа) Основные понятия Операции Показатель Гиперкуб OLAP Оперативно-аналитическая обработка Методы сбора, хранения и обработки информации Поддержка принятия решения
OLAP системы Лист 15 Правила Кодда для OLAP, тест FASMI 1. Многомерность 2. Прозрачность 3. Доступность 4. Постоянная производительность при разработке отчетов 5. Клиент-серверная архитектура 6. Равноправие измерений 7. Динамическое управление разреженными матрицами 8. Поддержка многопользовательского режима 9. Неограниченные перекрестные операции 10. Интуитивная манипуляция с данными 11. Гибкие возможности создания отчетов 12. Неограниченная размерность и число уровней агрегаций Fast Analysis Shared Multidimensional Information
OLAP системы Лист 16 Архитектура OLAP система OLAP клиент MOLAP ROLAP HOLAP DOLAP JOLAP Особенности MOLAP гиперкуб Способ реализации гиперкуба OLAP сервер поликуб Высокая скорость поиска Расширяемость по функциям Увеличение объема данных в 2, 5 – 100 раз Высокая степень разреженности Чувствительность к структурным изменениям Реккомендации Объем данных не более нескольких Гб Набор измерений стабилен Время отклика критично Необходимость функционального расширения
OLAP системы Лист 17 Архитектура OLAP систем MOLAP 1 Звезда 1 Таблицы измерений Адаптация схемы 1 * Снежинка Типы фактов 1 * * * Таблица фактов 1 * * 1 1 1 * * 1 Особенности Связь с транзакциями Transaction facts Факты Анализ реляционных ИД Связь с моментальными снимками Snapshot facts Добавление нового измерения не требует полной физической реорганизации Связь с элементами документа Line-item facts Отработаны вопросы безопасности Связь с событиями/состояниями объекта Event/state facts Меньший размер хранилища Эффективная работа с разреженными данными Снижение производительности
Data Mining Лист 18 Пятецкий – Шапиро (1996 г. ) Data Mining Знания ранее не известные нетривиальные практически полезны скрытые интерпретируемые
Data Mining Классификация задач Data Mining Лист 19 Задачи Data Mining Описательные Предсказательные Кластеризация Классификация Поиск ассоциативных правил Обучение без учителя Регрессия Обучение с учителем Задачи Data Mining
Data Mining Лист 20 Задача классификации, регрессии Фильтрация эл. почты место работы размер з/п составе семьи кредитная история др. Частота появления определенных слов зависимые независимые Кредитоспособность да нет спам Построение функции классификации (регрессии) Большая обучающая выборка Охват всей области определения На каждом интервале ОЗ много объектов Построение обучающей выборки не спам Распознавание образа цифры Матрица точек 0123456789 Проблемы overfitting underfitting Интерпретация частного случая Множество ошибок
Data Mining Лист 21 Задача поиска ассоциативных правил / сиквенциальный анализ Задача кластеризации Последовательность событий {e 1, e 5, e 3, …} Комплекты товаров, продаваемых вместе Комплекты услуг Симптомы болезни кластеризация Кластеры Сегментация рынка Таблица Менделеева Объекты Способ разбиения зависит от: 1. Природы элементов (детерм. , стохастич) 2. Связи объект – кластер (например, возможность принадлежности нескольким кластерам) Области применения Телекоммуникации Интернет-технологии Медицина Торговля Промышленность Банковское дело
Data Mining Лист 22 Модели Data Mining Классификации Использование обучающей выборки Последовательности Прогнозирование событий на основании предыд. Предсказательные Регрессионные Кластеризации Модели Описательные Функциональная зависимость (незав /зав) Разбиение на группы Исключений Анализ уникальных фактов Ассоциации Итоговые X -> Y Факты, верные для всех записей, но редко встреч. в общей выборке
Data Mining Процесс обнаружения знаний Лист 23
Data Mining Лист 24 Подготовка данных Методы Data Mining Эл. письмо Текст Выбор и расчет Параметры письма Числовые Таблица фактов Обработанная таблица фактов Нечисловые Частота встречаемости ключевых слов Средняя длина предложений Параметры сочетаемости предложений Формирование таблицы фактов Исключение идентичных объектов Предварительная обработка, очистка Исключение ряда категориальных признаков Исключение не важных полей
Data Mining Проверка построенных моделей Таблица фактов, V 1 БД Лист 25 получение Таблица фактов, V 2 V 1 >> V 2 проверка Модель Data Mining
Опер среды (СППР) .pptx