Хранилища данных.ppt
- Количество слайдов: 21
Бушова Мария Корикова Анастасия группа 658 (М)
Уильям Г. Инмон (William H. Inmon) Построение хранилищ данных (1992) (Building the Data Warehouse) «предметно-ориентированная, интегрированная, вариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений» Хранилище данных - это пассивный объект в составе ДПД (диаграмм потоков данных), в котором данные сохраняются для последующего доступа.
ДПД - это граф, на котором показано движение значений данных от их источников через преобразующие их процессы к их потребителям в других объектах. Процесс преобразует значения данных.
ДПД - это граф, на котором показано движение значений данных от их источников через преобразующие их процессы к их потребителям в других объектах. Поток данных соединяет выход объекта (или процесса) с входом другого объекта (или процесса).
ДПД - это граф, на котором показано движение значений данных от их источников через преобразующие их процессы к их потребителям в других объектах. Активный объект обеспечивает движение данных, поставляя или потребляя их.
Сравнительные характеристики хранилищ данных и оперативных сис Системы хранилищ данных Оперативные системы Используются руководством Используются работниками «переднего края» Стратегическое значение Тактическое значение Поддерживают стратегические Поддерживают повседневную деятельность направления развития бизнеса Используются анализа для интерактивного Используются для обработки транзакций Предметно-ориентированные Ориентированны на приложения Хранят исторические данные Хранят только текущие данные Непредсказуемые запросы Предсказуемые запросы
Хранилище данных создается с целью: • Интеграции в одном месте, согласования и, возможно, агрегации ранее разъединенных детализированных данных: o Исторических архивов o Данных из оперативных систем o Данных из внешних источников • Разделения наборов данных, используемых для оперативной обработки, и наборов данных, используемых для решения задач поддержки принятия решений. • Обеспечения всесторонней информационной поддержки максимальному кругу пользователей. Хранилище - совокупность данных, отвечающая следующим характеристикам: • ориентированность на предметную область или ряд предметных областей, • интегрированность, • зависимость от времени (поддержка хронологии), • постоянство.
Компоненты хранилища данных Ø подсистемы загрузки данных, Ø подсистемы обработки запросов и представления данных, Ø подсистемы администрирования хранилища. Подсистема загрузки данных - ПО, которое в соответствии с определенным регламентом извлекает данные из источников и приводит их к единому формату, определенному для хранилища. Подсистема обработки запросов и представления данных • ПО регламентированной отчетности, которое характеризуется заранее предопределенными запросами данных и их представлениями бизнес пользователям (ROLAP). • ПО нерегламентированных запросов пользователей (MOLAP) • ПО добычи знаний, которое реализует сложные статистические алгоритмы искусственного интеллекта, предназначенные для поиска скрытых в данных закономерностей Подсистема администрирования хранилища • Администрирование данных, которое включает в себя регулярное пополнение данных из источников. • Администрирование хранилища данных. • Администрирование доступа к данным. • Администрирование метаданных системы.
Использование финансового Хранилища данных Преимущества: • • • Ускорение и повышение достоверности онлайновых запросов и отчетов. Увеличение объемов информации масштаба предприятия. Улучшение клиентского обслуживания. Повышение технологичности. Расширение управления активами. Недостатки: • Хранилище данных накапливает исторические данные с помощью внутренних систем обработки транзакций, которые могут иметь ограниченное применение. • Системы Хранилища данных могут усложнять бизнес-процессы. • Организация может не нуждаться в Хранилище данных. • Длительный период обучения персонала. • Системы Хранилищ данных слишком дороги в обслуживании. • Слишком продолжительное время и высокая стоимость подготовки данных.
Единое централизованное хранилище данных
Распределенное хранилище данных
Таблица фактов • факты, связанные с транзакциями (Transaction facts); • факты, связанные с «моментальными снимками» (Snapshot facts); • факты, связанные с элементами документа (Line-item facts); • факты, связанные с событиями или состоянием объекта (Event or state facts). Пример на основе базы данных Northwind
Таблица измерений Схема «звезда» Схема «снежинка»
Иерархия в измерении Несбалансированная иерархия
ü ü ü Неоднородность программной среды. Распределенность. Защиты данных от несанкционированного доступа. Построения и ведения многоуровневых справочников метаданных. Эффективное хранение и обработка очень больших объемов данных. Уровень приложения (внешних источников данных) Описывает структуру данных в операционных БД и других источниках данных. Обычно, этот уровень достаточно сложен для понимания неподготовленного пользователя и является приложение ориентированным Уровень ядра Хранилища Данных Описывает логическую и физическую структуру и взаимосвязи данных в Хранилище Данных. Уровень конечного пользователя Описывает структуры данных в Хранилище Данных в терминах предметной области конечного пользователя. Уровни метаданных в Хранилище Данных
1. Консолидация данных 2. 3. 4. 5. Интеграция данных Агрегация данных Расчеты производных показателей Предоставление данных для поддержки принятия решений (DSS) Консолидация данных
Интеграция данных – это объединение данных, которые изначально вводятся в разные системы.
Агрегация данных – это вычисление обобщенных показателей для поддержки стратегического или тактического управления из детальных данных.
• Проблема качества данных В Ewha Women's University разработан прототип инструментального средства DAQUM (Data Quality Measurement). • Проблемы выбора источников данных Max. Centra • Проблемы производительности и масштабируемости Max. Scan и Ab Initio механизм быстрой сортировки Sync. Sort
Хранилища данных.ppt