Скачать презентацию Лекция 3 Хранилища данных и системы аналитической обработки Скачать презентацию Лекция 3 Хранилища данных и системы аналитической обработки

__3_25_02_11.ppt

  • Количество слайдов: 31

Лекция 3. Хранилища данных и системы аналитической обработки А. Ф. Оськин Кафедра технологий программирования Лекция 3. Хранилища данных и системы аналитической обработки А. Ф. Оськин Кафедра технологий программирования Методы и алгоритмы принятия решений

Mind-карта лекции Методы и алгоритмы принятия решений Mind-карта лекции Методы и алгоритмы принятия решений

Хранилища данных a. Архитектура СППР b. Понятие хранилища данных c. Физические и виртуальные хранилища Хранилища данных a. Архитектура СППР b. Понятие хранилища данных c. Физические и виртуальные хранилища данных d. Проблематика построения хранилищ данных e. Витрины данных Методы и алгоритмы принятия решений

Хранилища данных. Архитектура СППР Методы и алгоритмы принятия решений Хранилища данных. Архитектура СППР Методы и алгоритмы принятия решений

Хранилища данных. Понятие хранилища данных Хранилища данных (ХД) – предметноориентированный, интегрированный, редко меняющийся, поддерживающий Хранилища данных. Понятие хранилища данных Хранилища данных (ХД) – предметноориентированный, интегрированный, редко меняющийся, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений. Предметная ориентация означает, что ХД интегрируют информацию, отражающую различные точки зрения на предметную область. Интеграция предполагает, что данные, хранящиеся в ХД, приводятся к единому формату. Поддержка хронологии означает, что все данные в ХД соответствуют последовательным интервалам времени. Методы и алгоритмы принятия решений

Хранилища данных. Физические хранилища данных Методы и алгоритмы принятия решений Хранилища данных. Физические хранилища данных Методы и алгоритмы принятия решений

Хранилища данных. Виртуальные хранилища данных Достоинства виртуального ХД: a. минимизация объема хранимых данных; • Хранилища данных. Виртуальные хранилища данных Достоинства виртуального ХД: a. минимизация объема хранимых данных; • работа с текущими, актуальными данными. Методы и алгоритмы принятия решений

Хранилища данных. Виртуальные хранилища данных Недостатки виртуального ХД: a. более высокое, по сравнению с Хранилища данных. Виртуальные хранилища данных Недостатки виртуального ХД: a. более высокое, по сравнению с физическим ХД время обработки запросов; • необходимость постоянной доступности всех OLTPисточников; • снижение быстродействия OLTP-систем; • OLTP-системы не ориентированы на хранение данных за длительный период времени, по мере необходимости данные выгружаются в архивные, поэтому не всегда имеется физическая возможность получения полного набора данных в ХД. Методы и алгоритмы принятия решений

Хранилища данных. Проблематика построения хранилища данных a. Интеграция разнородных данных. b. Эффективное хранение и Хранилища данных. Проблематика построения хранилища данных a. Интеграция разнородных данных. b. Эффективное хранение и обработка больших объемов данных. c. Организация многоуровневых справочников метаданных. d. Обеспечение информационной безопасности ХД. Методы и алгоритмы принятия решений

Хранилища данных. Витрины данных Структура СППР с самостоятельными витринами данных Методы и алгоритмы принятия Хранилища данных. Витрины данных Структура СППР с самостоятельными витринами данных Методы и алгоритмы принятия решений

Хранилища данных. Витрины данных Структура СППР с ХД и ВД Методы и алгоритмы принятия Хранилища данных. Витрины данных Структура СППР с ХД и ВД Методы и алгоритмы принятия решений

Архитектура OLAP-систем Функции OLAP-системы: a. Сбор данных из различных источников; • Согласование данных; • Архитектура OLAP-систем Функции OLAP-системы: a. Сбор данных из различных источников; • Согласование данных; • Преобразование данных; • Загрузка данных в хранилище; • Хранение аналитической информации; • Регламентная отчетность; • Поддержка произвольных запросов; • Многомерный анализ; • Другие функции. Методы и алгоритмы принятия решений

Архитектура OLAP-систем Методы и алгоритмы принятия решений Архитектура OLAP-систем Методы и алгоритмы принятия решений

Архитектура OLAP-систем. Слой извлечения, преобразования и загрузки данных Функции слоя: a. Извлечение данных из Архитектура OLAP-систем. Слой извлечения, преобразования и загрузки данных Функции слоя: a. Извлечение данных из различных баз данных и текстовых файлов; • Выполнение очистки данных и различных типов согласования данных; • Преобразование данных при перемещении их от источника к хранилищу; • Загрузка согласованных и очищенных данных в структуры хранилища. Методы и алгоритмы принятия решений

Архитектура OLAP-систем. Слой хранения данных Назначение слоя- хранение значимой, проверенной, согласованной, непротиворечивой и хронологически Архитектура OLAP-систем. Слой хранения данных Назначение слоя- хранение значимой, проверенной, согласованной, непротиворечивой и хронологически целостной информации, которую с достаточно высокой степенью уверенности можно считать достоверной. Методы и алгоритмы принятия решений

Архитектура OLAP-систем. Слой анализа данных Слой реализует следующие виды аналитической деятельности: a. стандартная отчетность; Архитектура OLAP-систем. Слой анализа данных Слой реализует следующие виды аналитической деятельности: a. стандартная отчетность; • нерегламентированные запросы; • многомерный анализ (OLAP); • извлечение знаний (Data Mining). Методы и алгоритмы принятия решений

Клиентские OLAP-средства В состав Microsoft Office 2007 входят три отдельных OLAP-компонента: a. клиент извлечения Клиентские OLAP-средства В состав Microsoft Office 2007 входят три отдельных OLAP-компонента: a. клиент извлечения и обработки данных для Excel позволяет создавать проекты извлечения и обработки данных на базе служб SSAS и управлять ими из Excel 2007; • средства анализа таблиц для приложения Excel позволяют использовать встроенные в службы SSAS функции извлечения и обработки информации для анализа данных, хранящихся в таблицах Excel; • шаблоны извлечения и обработки данных для приложения Visio позволяют визуализировать деревья решений, деревья регрессии, кластерные диаграммы и сети зависимостей на диаграммах Visio. Методы и алгоритмы принятия решений

Серверные OLAP-средства Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами сходны с преимуществами Серверные OLAP-средства Преимущества применения серверных OLAP-средств по сравнению с клиентскими OLAP-средствами сходны с преимуществами применения серверных СУБД по сравнению с настольными: в случае применения серверных средств вычисление и хранение агрегатных данных происходят на сервере, а клиентское приложение получает лишь результаты запросов к ним, что позволяет в общем случае снизить сетевой трафик, время выполнения запросов и требования к ресурсам, потребляемым клиентским приложением. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Технические аспекты многомерного хранения данных OLAP-серверы скрывают от конечного пользователя способ реализации многомерной модели. Они формируют гиперкуб, с которым пользователи посредством OLAP-клиента выполняют необходимые манипуляции, анализируя данные. Однако способ реализации важен, поскольку от него зависят производительность решения и требуемые ресурсы. Существует три основных способа реализации многомерной модели – MOLAP, ROLAP, HOLAP. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. MOLAP (Multidimensional OLAP)предполагает создание явного, физически хранимого многомерного куба Технические аспекты многомерного хранения данных. MOLAP (Multidimensional OLAP)предполагает создание явного, физически хранимого многомерного куба (или нескольких кубов) с выполнением аналитических запросов только над ними, без обращения к реляционной БД. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. MOLAP. Пример куба данных Измерения Меры Магазин Время Поставщик Технические аспекты многомерного хранения данных. MOLAP. Пример куба данных Измерения Меры Магазин Время Поставщик Товар Количество Стоимость № 1 01. 10 Иванов Картофель 100 80 000 № 1 01. 10 Иванов Морковь 50 50 000 № 1 02. 01. 10 Иванов Картофель 150 120 000 № 2 02. 01. 10 Петров Морковь 200 000 Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. MOLAP. Преимущества a. Поиск и выборка данных осуществляется значительно Технические аспекты многомерного хранения данных. MOLAP. Преимущества a. Поиск и выборка данных осуществляется значительно быстрее, чем при многомерном концептуальном взгляде на реляционную БД, так как многомерная БД денормализована и содержит заранее агрегированные показатели, обеспечивая оптимизированный доступ к запрашиваемым ячейкам и не требуя дополнительных преобразований при переходе от множества связанных таблиц к многомерной модели. b. Многомерные БД легко справляются с задачами включения в информационную модель разнообразных встроенных функций, тогда как объективно существующие ограничения языка SQL делают выполнение этих задач на основе реляционных БД достаточно сложным, а иногда и невозможным. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. MOLAP. Недостатки a. Объем исходных данных для анализа не Технические аспекты многомерного хранения данных. MOLAP. Недостатки a. Объем исходных данных для анализа не слишком велик (не более нескольких гигабайт). b. В подавляющем большинстве случаев информационный гиперкуб является сильно разряженным. Поэтому в реальных системах приходится искать компромисс между быстродействием и избыточностью дискового пространства, занятого базой данных. c. Многомерные БД чувствительны к изменениям в многомерной модели. Например, при добавлении нового измерения приходится изменять структуру всей БД, что влечет за собой большие затраты времени. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. MOLAP. Область применения a. Объем исходных данных для анализа Технические аспекты многомерного хранения данных. MOLAP. Область применения a. Объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), т. е. уровень агрегации данных достаточно высок. b. Набор информационных измерений стабилен. c. Время ответа системы на нерегламентированные запросы является наиболее критичным параметром. d. Требуется широкое использование сложных встроенных функций для выполнения кроссмерных вычислений над ячейками гиперкуба, в том числе возможность написания пользовательских функций. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. ROLAP (Relational OLAP)для реализации многомерной модели используется реляционная БД. Технические аспекты многомерного хранения данных. ROLAP (Relational OLAP)для реализации многомерной модели используется реляционная БД. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. ROLAP. Преимущества a. В большинстве случаев корпоративные ХД реализуются Технические аспекты многомерного хранения данных. ROLAP. Преимущества a. В большинстве случаев корпоративные ХД реализуются средствами реляционных СУБД, и инструменты ROLAP позволяют производить анализ непосредственно над ними. При этом размер хранилища не является таким критичным параметром, как в случае MOLAP. b. В случае переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP-системы с динамическим представлением размерности являются оптимальным решением, т. к. в них такие модификации не требуют физической реорганизации БД. c. Реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. ROLAP. Недостатки a. Главный недостаток ROLAP по сравнению с Технические аспекты многомерного хранения данных. ROLAP. Недостатки a. Главный недостаток ROLAP по сравнению с многомерными СУБД — меньшая производительность. доступа. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. HOLAP (Hybrid OLAP)для реализации многомерной модели используется и многомерные Технические аспекты многомерного хранения данных. HOLAP (Hybrid OLAP)для реализации многомерной модели используется и многомерные и реляционные БД. Методы и алгоритмы принятия решений

Технические аспекты многомерного хранения данных. HOLAP-серверы используют гибридную архитектуру, которая объединяет технологии ROLAP и Технические аспекты многомерного хранения данных. HOLAP-серверы используют гибридную архитектуру, которая объединяет технологии ROLAP и MOLAP. В отличие от MOLAP, которая работает лучше, когда данные более-менее плотные, серверы ROLAP показывают лучшие параметры в тех случаях, когда данные довольно разрежены. Серверы HOLAP применяют подход ROLAP для разреженных областей многомерного пространства и подход MOLAP — для плотных областей. Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствующим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю. Методы и алгоритмы принятия решений

OLAP. Достоинства a. Простота использования и восприятия выходных таблиц. b. Полнота аналитических данных. c. OLAP. Достоинства a. Простота использования и восприятия выходных таблиц. b. Полнота аналитических данных. c. Полная и легкая настройка отчета без программиста. d. Возможность детализировать отчет в процессе анализа данных. e. Высокая скорость формирования отчетов. f. Непротиворечивость данных между отчетами. g. Консолидация информации из разных баз данных. h. Повышенная защита данных. i. Один OLAP-отчет эквивалентен целому набору простых отчетов. Методы и алгоритмы принятия решений

OLAP. Недостатки a. OLAP не ориентирован на получение форм отчетности с произвольным дизайном. b. OLAP. Недостатки a. OLAP не ориентирован на получение форм отчетности с произвольным дизайном. b. Некоторые пользователи визуально плохо воспринимают выходные таблицы. c. Ограниченные возможности при создании оперативных отчетов. d. Основная проблема- необходимость разработки хранилищ данных. Методы и алгоритмы принятия решений