5 Хранилища данных.pptx
- Количество слайдов: 25
Хранилища данных
• Хранилища данных – это процесс сбора, отсеивания и предварительной обработки данных с целью представления результирующей информации пользователям для статистического анализа и аналитических отчетов.
Требования к хранилищам данных • поддержка высокой скорости данных из хранилища; • поддержка внутренней непротиворечивости данных; • возможность получения и сравнения данных; • наличие удобных утилит просмотра данных хранилища; • полнота и достоверность хранимых данных; • поддержка качественного процесса пополнения данных.
Продукты реализации ХД • средства хранения данных • средства их извлечения и просмотра • средства пополнения хранилищ данных.
Отличия от БД • Обычная база данных предназначена для того, чтобы помочь пользователям выполнять повседневную работу, тогда как хранилища данных предназначены для принятия решений;
• Обычная база данных подвержена постоянным изменениям в процессе работы пользователей, а хранилища данных относительно стабильно; данные в нем обновляются согласно расписанию (например, ежечасно, ежедневно, ежемесячно), в идеале, процесс пополнения данными за определенный период времени без изменения прежней информации находящейся уже в хранилище.
• Обычная база данных чаще всего является источником данных попадающих в хранилище, кроме того хранилище может пополняться за счет внешних источников (например, сжатия данных).
Принципы построения • Информация, которая загружается в хранилище, должна интегрироваться в целостную структуру • минимизируются несоответствия между данными из различных оперативных систем, в хранилище именуются и выражаются единым образом.
• информация структурируется по разным уровням детализации: – высокая степень суммаризации; – низкая степень суммаризации; – текущая детальная информация
Основные компоненты хранилища данных • оперативные источники данных; • реляционного хранилища; • средств переноса и трансформации данных; • OLAP‑хранилища; • метаданных – включают каталог хранилища и правила преобразования данных при загрузке их из оперативных баз данных; • средств доступа и анализа данных
Технологии управления информацией • СУБД, к которым предъявляются специальные требования: высокая производительность загрузки данных; – возможность обработки данных на уровне загрузки; – наличие средств управления качеством данных; – высокая производительность запросов; – широкая масштабируемость по размеру и количеству пользователей; – возможность организации сети хранилищ данных; – наличие средств администрации хранилищ данных; – поддержка интегрированного многомерного анализа; – расширенный набор функциональных средств запросов.
• OLAP‑технология -технология комплексного многомерного анализа данных. Для построения систем OLAP используются специализированные многомерные базы данных, либо надстройки над обычными реляционными базами данных.
Витрины данных • Это набор тематически связанных БД, содержащие информацию, относящуюся к отдельным аспектам деятельности организации. (Концепция ВД была предложена Forrester Research в 1991 году)
• ВД максимально приближены к конечному пользователю и содержат только тематические подмножества заранее агрегированных данных, по размерам гораздо меньшие, чем общекорпоративное ХД. • Концепция ВД ориентирована исключительно на хранение, а не на обработку корпоративных данных
• В 1994 году M. Demarest предложил объединить концепции ХД и ВД в одной реализации, и использовать ХД в качестве единого интегрированного источника для многочисленных ВД
Трехуровневая структура 1. Общекорпоративное централизованное ХД на основе одной из развитых современных реляционных СУБД. 2. Тематические ВД (витрины данных) на уровне подразделений. Поддерживаются ВД на основе многомерной системы управления базами данных (примером такой системы является Oracle Express Server ). Они содержат ссылки на ХД и добирают оттуда информацию по мере поступления запросов 3. Рабочие места конечных пользователей, снабженные аналитическим инструментарием оперативного анализа данных •