Скачать презентацию Предвестники новых манифестов управления данными Сергей Кузнецов Корпоративные Скачать презентацию Предвестники новых манифестов управления данными Сергей Кузнецов Корпоративные

74fa2bcd562bfef151d337d642355bee.ppt

  • Количество слайдов: 68

Предвестники новых манифестов управления данными Сергей Кузнецов Корпоративные базы данных 11 апреля 2006 1 Предвестники новых манифестов управления данными Сергей Кузнецов Корпоративные базы данных 11 апреля 2006 1

Введение (1) l l 4 -6 мая 2003 г. , Лоуэлл, шт. Массачусетс (США) Введение (1) l l 4 -6 мая 2003 г. , Лоуэлл, шт. Массачусетс (США) До этого собрания в Лагуна-Бич (1989 г. ) и Асиломаре (1996 г. ) Отчет опубликован в 2003 г. Джимом Греем на сайте компании Microsoft В середине 2005 г. появилась официальная публикация Корпоративные базы данных 11 апреля 2006 2

Введение (2) l l l Отчеты собраний строятся на основе мнения большинства участников Носят Введение (2) l l l Отчеты собраний строятся на основе мнения большинства участников Носят очень компромиссный характер, определяя общие проблемы и задачи, но не концентрируясь на конкретных технологических решениях Затем более узкие группы авторов предлагают подходы к решению этих проблем и задач, основанные на более конкретных идеях и методах Корпоративные базы данных 11 апреля 2006 3

Введение (3) l l Показательным является отчет Лагуна -Бич На абстрактном уровне говорилось о Введение (3) l l Показательным является отчет Лагуна -Бич На абстрактном уровне говорилось о необходимости внедрения в СУБД встроенных средств расширения возможностей систем для удовлетворения потребностей новых приложений Корпоративные базы данных 11 апреля 2006 4

Введение (4) l l Среди авторов Дэвид Девитт и Дэвид Майер, с одной стороны, Введение (4) l l Среди авторов Дэвид Девитт и Дэвид Майер, с одной стороны, и Филипп Бернштейн, Джим Грей, Брюс Линдсей, Лоуренс Роув и Майкл Стоунбрейкер, с другой стороны В том же 1989 г. группа исследователей, в которую входили Девитт и Майер, опубликовала «Манифест систем объектноориентированных баз данных» Корпоративные базы данных 11 апреля 2006 5

Введение (5) l l Годом позже другой группой, в которой активно участвовали Берштейн, Грей, Введение (5) l l Годом позже другой группой, в которой активно участвовали Берштейн, Грей, Роув и Стоунбрейкер, был выпущен «Манифест систем баз данных третьего поколения» В этих, уже практически бескомпромиссных документах предлагались практические шаги для решения общих проблем на основе сравнительно конкретных технологий Корпоративные базы данных 11 апреля 2006 6

Введение (6) l l l Эти два манифеста оказали существенное воздействие на современный облик Введение (6) l l l Эти два манифеста оказали существенное воздействие на современный облик технологии баз данных До конца 2005 г. не были заметны какиелибо попытки конкретизации подходов к решению проблем, перечисленных в Лоэллском отчете Однако в декабрьском номере журнала ACM SIGMOD Record за 2005 г. появились две статьи, обладающими, на мой взгляд, некоторыми свойствами манифестов Корпоративные базы данных 11 апреля 2006 7

Введение (7) l l M. Stonebraker, U. Cetintemel, and S. Zdonik: The 8 Requirements Введение (7) l l M. Stonebraker, U. Cetintemel, and S. Zdonik: The 8 Requirements of Real-Time Stream Processing M. Franklin, A. Halevy and D. Maier: From Databases to Dataspaces: A New Abstraction for Information Management Обе статьи явно или неявно опирается на идеи Лоэлловского отчета В каждой из них предлагается некоторая стратегическая линия развития технологии управления данными Корпоративные базы данных 11 апреля 2006 8

Лоуэллский отчет (1) l l Нецелесообразно выдвижение очередной «сверхзадачи» (Grand Challenge) в области управления Лоуэллский отчет (1) l l Нецелесообразно выдвижение очередной «сверхзадачи» (Grand Challenge) в области управления данными Область управления данными должна способствовать решению «сверхзадач» , выдвигаемых в других областях человеческой деятельности Должна способствовать развитию новой инфраструктуры управления данными, облегчающих решение проблем в различных прикладных областях Структуризация и классификация предложений Лоуэллского отчета Корпоративные базы данных 11 апреля 2006 9

Лоуэллский отчет (2) Различные аспекты интеграции данных l l Интеграция текста, данных, кода и Лоуэллский отчет (2) Различные аспекты интеграции данных l l Интеграция текста, данных, кода и потоков Нужно переосмыслить базовую архитектуру СУБД с целью поддержки структурированных данных; текстовых, пространственных, темпоральных и мультимедийных данных; процедурных данных, т. е. типов данных и инкапсулирующих их методов; триггеров; потоков и очередей данных как равноправных компонентов первого сорта внутри архитектуры СУБД Корпоративные базы данных 11 апреля 2006 10

Лоуэллский отчет (3) Различные аспекты интеграции данных l l Слияние информации «…подход хранилищ (Data. Лоуэллский отчет (3) Различные аспекты интеграции данных l l Слияние информации «…подход хранилищ (Data. Warehouse) и витрин (data mart) данных на основе извлечения операционных данных, их трансформации к единой схеме и загрузки данных в хранилище (процедура ETL – extraction, transformation, loading) пригоден для использования на предприятии с несколькими десятками операционных баз данных, находящихся под единым контролем. В Internet парадигма ETL не приемлема. » Корпоративные базы данных 11 апреля 2006 11

Лоуэллский отчет (4) Различные аспекты интеграции данных l l l Сенсорные данные и сенсорные Лоуэллский отчет (4) Различные аспекты интеграции данных l l l Сенсорные данные и сенсорные сети «… при запросе данных у сенсорной сети часто более выгодным является полное распределение вычислений по отдельным узлам… При вычислении запроса необходимо уметь изменять план запроса при изменении сети по причине выхода из строя сенсора или его отключения от сети. » Одна из пионерских работ Tiny. DB в этом направлении была начата в университете Беркли и продолжается теперь в лаборатории Intel в Беркли Корпоративные базы данных 11 апреля 2006 12

Лоуэллский отчет (5) Различные аспекты интеграции данных l l l Мультимедийные запросы «…объем мультимедийных Лоуэллский отчет (5) Различные аспекты интеграции данных l l l Мультимедийные запросы «…объем мультимедийных данных (изображения, аудио, видео и т. д. ) значительно возрастает. Проблемой сообщества баз данных является создание простых способов анализа, обобщения, поиска и обозрения электронных подборок мультимедийной информации, относящейся к некоторому человеку. » Это частный аспект интеграции данных: требуется, прежде всего, унифицированное представление метаданных на этими данными. Корпоративные базы данных 11 апреля 2006 13

Лоуэллский отчет (6) Новые черты обработки запросов l l l Использование неточных данных «…СУБД Лоуэллский отчет (6) Новые черты обработки запросов l l l Использование неточных данных «…СУБД должны обеспечивать встроенную поддержку неточных данных. … должна иметься возможность задания неточных запросов, и процессор запросов должен относиться к этому как к дополнительному источнику неполноты и неточности. » В последние годы достаточно интенсивно исследуется частный случай этой проблемы, так называемые top-K-запросы Корпоративные базы данных 11 апреля 2006 14

Лоуэллский отчет (7) Новые черты обработки запросов l l l Персонализация «… ответы на Лоуэллский отчет (7) Новые черты обработки запросов l l l Персонализация «… ответы на запросы должны зависеть от профиля пользователя. Ответ на запрос эксперта должен отличаться от ответа на запрос новичка. Релевантность ответа тоже должна зависеть от пользователя и от контекста. …требуется среда для накопления и использования соответствующих метаданных. » Этот пункт близок к предыдущему. В ответ на запрос «новичка» - не обязательно абсолютно точные данные, а те, которые в наибольшей степени соответствуют его профилю Корпоративные базы данных 11 апреля 2006 15

Лоуэллский отчет (8) Новые черты обработки запросов l l Конфиденциальность «Решения о правомерности доступа Лоуэллский отчет (8) Новые черты обработки запросов l l Конфиденциальность «Решения о правомерности доступа должны основываться не только на том, кто запрашивает данные, но и на том, что он собирается с ними делать. » Развивается тема персонализации доступа к данным Решение о правомерности доступа и о виде ответа на запрос должно решаться в зависимости не только от профиля пользователя, но и от его текущей роли в сценарии использования запрашиваемых данных Корпоративные базы данных 11 апреля 2006 16

Лоуэллский отчет (9) Новые черты обработки запросов l l l Системы, заслуживающие доверия «Очень Лоуэллский отчет (9) Новые черты обработки запросов l l l Системы, заслуживающие доверия «Очень важно обеспечивать корректность результатов запросов и вычислений над большими объемами данных, в особенности во встроенных приложениях. Для подтверждения корректности может оказаться полезной технология логического вывода, например, методы доказательства теорем или верификации моделей. » Близость с проблемой качества интегрированных данных, достаточном для целей оперативного анализа Корпоративные базы данных 11 апреля 2006 17

Лоуэллский отчет (10) Совершенствование технологии l l l Самоадаптация «Для многих новых приложений требуется Лоуэллский отчет (10) Совершенствование технологии l l l Самоадаптация «Для многих новых приложений требуется необслуживаемое функционирование СУБД должна сама распознавать внутренние неисправности и неисправности коммуникационных компонентов, находить поврежденные данные, обнаруживать сбои приложений и что-то делать по этому поводу. » Попытками решения отдельных аспектов этой проблемы заняты все ведущие компании, производящие СУБД Корпоративные базы данных 11 апреля 2006 18

Лоуэллский отчет (11) Совершенствование технологии l l Оптимизация запросов «Нужно продолжать работать в областях Лоуэллский отчет (11) Совершенствование технологии l l Оптимизация запросов «Нужно продолжать работать в областях оптимизации средств интеграции информации, языков запросов полуструктурированных данных, таких как XQuery, процессоров потоков, сенсорных сетей и т. д. » «Требуются исследования «межзапросной» оптимизации над большим числом традиционных, чисто реляционных запросов. » «Межзапросная» оптимизация, по сути, очень близка к «самоадаптации» системы Корпоративные базы данных 11 апреля 2006 19

Лоуэллский отчет (12) Совершенствование технологии l Data Mining l «Проблемой data mining в области Лоуэллский отчет (12) Совершенствование технологии l Data Mining l «Проблемой data mining в области баз данных является разработка алгоритмов и структур данных для просеивания базы данных в поисках «жемчужин» . Такая обработка должна вестись в фоновом режиме с потреблением остаточных системных ресурсов. Другой важной проблемой является интеграция data mining с подсистемой поддержки запросов, оптимизацией и другими средствами базы данных, такими как триггеры. » Методы data mining активно используются в подходе Сураджита Чаудхари к «межзапросной» оптимизации запросов l Корпоративные базы данных 11 апреля 2006 20

Лоуэллский отчет (13) Совершенствование технологии l l l Новые пользовательские интерфейсы «Отличные системы визуализации Лоуэллский отчет (13) Совершенствование технологии l l l Новые пользовательские интерфейсы «Отличные системы визуализации информации – QBE и Visi. Calc – были предложены еще в 80 -е гг. прошлого века» «Тридцать лет исследований в области языков запросов сводятся к тому, что «мы двигаемся от SQL к XQuery» «…наиболее интересные возможности связаны с исследованиями, ассоциируемыми с термином «semantic Web» . » Мое скептическое отношение к направлению использования естественных языков для запросов к базам данным Корпоративные базы данных 11 апреля 2006 21

Лоуэллский отчет (14) Столетнее хранение l l «…человечество нуждается в средствах хранения, поддерживающих неограниченный Лоуэллский отчет (14) Столетнее хранение l l «…человечество нуждается в средствах хранения, поддерживающих неограниченный во времени доступ к данным в полезной форме. Эти средства должны … автоматизировать процесс миграции данных из одного формата в другой и/или поддерживать аппаратнопрограммные механизмы, требующиеся для доступа к данным. Вместе с хранимыми документами должны присутствовать описывающие их метаданные. » По моему мнению, решение этой проблемы выходит за пределы возможностей области управления данными Корпоративные базы данных 11 апреля 2006 22

Управление потоковыми данными (1) Введение l l l Майкл Стоунбрейкер с конца 1990 -х Управление потоковыми данными (1) Введение l l l Майкл Стоунбрейкер с конца 1990 -х гг. является профессором MIT В начале 2000 -х гг. совместно с группами из Brandeis University и Brown University (Стенли Здоник и Угур Гетинтемел основал проект Aurora В MIT выполнялся отдельный проект Medusa На основе результатов проектов Aurora и Medusa выполняется новый совместный проект Borealis В 2003 г. он основал компанию Stream. Base Systems для коммерциализации технологии, разработанной в проектах Aurora и Medusa Корпоративные базы данных 11 апреля 2006 23

Управление потоковыми данными (2) Введение l l l Хотя в исследовательском сообществе известно несколько Управление потоковыми данными (2) Введение l l l Хотя в исследовательском сообществе известно несколько реализованных проектов в области управления потоковыми данными, Стоунбрейкер и Здоник являются наиболее активными и последовательными представителями этой части сообщества баз данных Поэтому я имею основания считать их публикацию «предманифестом» систем обработки потоковых данных На манифест систем баз данных третьего поколения также оказала сильнейшее влияние система Postgres Майкла Стоунбрейкера Корпоративные базы данных 11 апреля 2006 24

Управление потоковыми данными (3) Восемь требований Стоунбрейкера и Здоника (i) l l l В Управление потоковыми данными (3) Восемь требований Стоунбрейкера и Здоника (i) l l l В системе потоковой обработки реального времени сообщения должны обрабатываться “в потоке”, без потребности их сохранения до выполнения какой-либо операции или группы операций Система должна быть в состоянии выполнять обработку сообщений, не прибегая к дорогостоящим операциям с внешней памятью Существует дополнительная проблема задержек в пассивных системах, которые до начала обработки ждут, пока приложение скажет им, что нужно делать Корпоративные базы данных 11 апреля 2006 25

Управление потоковыми данными (4) Восемь требований Стоунбрейкера и Здоника (ii) l l Должен поддерживаться Управление потоковыми данными (4) Восемь требований Стоунбрейкера и Здоника (ii) l l Должен поддерживаться высокоуровневый язык “Stream. SQL” со встроенными ориентированными на потоки примитивами и операциями Stream. SQL должен расширять семантику SQL путем добавления к нему мощных оконных конструкций и потоковых операций Требуются новые, ориентированные на потоки операции, не представленные в стандартном SQL Набор операций должен быть расширяемым, чтобы разработчики могли легко получить от системы новые функции Корпоративные базы данных 11 апреля 2006 26

Управление потоковыми данными (5) Восемь требований Стоунбрейкера и Здоника (iii) l l l Должны Управление потоковыми данными (5) Восемь требований Стоунбрейкера и Здоника (iii) l l l Должны иметься встроенные механизмы, обеспечивающие устойчивость к “дефектам” потоков, включая отсутствие и нарушение порядка данных, что обычно присутствует в реальных потоках данных Инфраструктура должна обеспечить управление данными, которые запаздывают, отсутствуют или поступают не в ожидаемом порядке Для работы с данными, нарушающими порядок, должен обеспечиваться механизм, позволяющий окнам оставаться открытыми в течение дополнительного периода времени Корпоративные базы данных 11 апреля 2006 27

Управление потоковыми данными (6) Восемь требований Стоунбрейкера и Здоника (iv) l l Процессор обработки Управление потоковыми данными (6) Восемь требований Стоунбрейкера и Здоника (iv) l l Процессор обработки потоков должен гарантировать предсказуемые и повторяемые результаты Во всем обрабатывающем конвейере системы должна поддерживаться упорядоченная по времени, детерминированная обработка Предсказуемые результаты также важны и с точки зрения отказоустойчивости и восстановления Воспроизведение и повторная обработка того же входного потока должны приводить к тем же результатам независимо от времени выполнения Корпоративные базы данных 11 апреля 2006 28

Управление потоковыми данными (7) Восемь требований Стоунбрейкера и Здоника (v) l l l Должна Управление потоковыми данными (7) Восемь требований Стоунбрейкера и Здоника (v) l l l Должна иметься возможность эффективного хранения, доступа и модификации информации о состоянии, а также ее комбинирования с реальными потоковыми данными Для бесшовной интеграции в системе должен использоваться единообразный язык для работы с обеими разновидностями данных Состояние должно сохраняться в адресном пространстве той же операционной системы, в среде которой работает приложение, с использованием встроенной системы баз данных Корпоративные базы данных 11 апреля 2006 29

Управление потоковыми данными (8) Восемь требований Стоунбрейкера и Здоника (vi) l l l Приложения Управление потоковыми данными (8) Восемь требований Стоунбрейкера и Здоника (vi) l l l Приложения должны быть работоспособными и доступными, а данные всегда целостными независимо от наличия сбоев Cистема потоковой обработки должна основываться на решении с высоким уровнем доступности Перезапуск операционной системы и восстановление приложения по журналу порождают слишком большие накладные расходы и поэтому неприемлемы для обработки в реальном времени Корпоративные базы данных 11 апреля 2006 30

Управление потоковыми данными (9) Восемь требований Стоунбрейкера и Здоника (vii) l l Система потоковой Управление потоковыми данными (9) Восемь требований Стоунбрейкера и Здоника (vii) l l Система потоковой обработки должна распределять свою обработку по нескольким процессорам и машинам для достижения инкрементной масштабируемости В идеале это распределение должно быть автоматическим и прозрачным Должна иметься возможность расщепить приложение для выполнения на нескольких машинах, а также многопотоковое функционирование Должна обеспечиваться балансировка нагрузки результирующего приложения между машинами Корпоративные базы данных 11 апреля 2006 31

Управление потоковыми данными (10) Восемь требований Стоунбрейкера и Здоника (viii) l l l Должен Управление потоковыми данными (10) Восемь требований Стоунбрейкера и Здоника (viii) l l l Должен иметься высоко оптимизированный процессор поддержки выполнения с минимальными накладными расходами, обеспечивающий выработку результатов в реальном времени приложениями с большими объемами данных Важной проблемой является минимизация числа «пересечений границ» путем интеграции всех важнейших функций (например, обработки и сохранения) в одном системном процессе При разработке всех компонентов должны учитываться требования производительности Корпоративные базы данных 11 апреля 2006 32

Управление потоковыми данными (11) Связь восьми требований с Лоуэллским отчетом l l Требование устойчивости Управление потоковыми данными (11) Связь восьми требований с Лоуэллским отчетом l l Требование устойчивости к “дефектам” потоков находится в явном родстве пунктом Лоуэллского отчета об использовании неточных данных В данном случае требуется, чтобы система выдавала предельно точные ответы на запросы при различных нарушениях потоков данных Корпоративные базы данных 11 апреля 2006 33

Управление потоковыми данными (12) Связь восьми требований с Лоуэллским отчетом l l Требование бесшовной Управление потоковыми данными (12) Связь восьми требований с Лоуэллским отчетом l l Требование бесшовной интеграции потоковых и хранимых данных соответствует положению об интеграции текста, данных, кода и потоков Соответствие является предельно точным: в модели системы потоковой обработки Стоунбрейкера и Здоника и потоки, и хранимые данные являются сущностями «первого класса» ; ни одна из них не реализуется на основе другой Корпоративные базы данных 11 апреля 2006 34

Управление потоковыми данными (13) Связь восьми требований с Лоуэллским отчетом l l Наконец, требование Управление потоковыми данными (13) Связь восьми требований с Лоуэллским отчетом l l Наконец, требование высоко оптимизированного процессора является уточнением пункта об оптимизации запросов В случае потоковых систем, поддерживающих ответы на запросы в реальном времени, оптимизация запросов является одновременно критическим фактором приемлемости системы и новой, интересной и сложной задачей Корпоративные базы данных 11 апреля 2006 35

Пространства данных (1) Введение l l l Дэвид Майер - профессор Portland State University Пространства данных (1) Введение l l l Дэвид Майер - профессор Portland State University (до этого много лет работал в Oregon Health and Science University) Theory of Relational Databases Stanley B. Zdonik, David Maier. Readings in Object. Oriented Database Systems Майкл Франклин – профессор университета Беркли с 2004 г. Алон Хэлеви с 1998 г. работает в University of Washington, профессор этого университета Корпоративные базы данных 11 апреля 2006 36

Пространства данных (2) Введение l l Два ведущихся проекта, ориентированных на поддержку пространств индивидуальных Пространства данных (2) Введение l l Два ведущихся проекта, ориентированных на поддержку пространств индивидуальных данных Проект SEMEX – SEMantic Explorer выполняется в University of Washington под руководством Хэлеви Проект i. Mex выполняется с 1 апреля 2006 г. под руководством Йенса-Петера Диттриха в ETH Zurich Вокруг идей пространств данных сплачивается значительная часть сообщества баз данных, что также дает возможность рассматривать этот документ как предвестник манифеста Корпоративные базы данных 11 апреля 2006 37

Пространства данных (3) Свойства и архитектура систем пространств данных l Измерение “административной близости” показывает, Пространства данных (3) Свойства и архитектура систем пространств данных l Измерение “административной близости” показывает, насколько близки различные источники данных с точки зрения административного управления Измерение “семантической интеграции” является мерой того, насколько близко могут быть сопоставлены схемы различных источников данных Поиск в Web Далеко Виртуальная организация Административная близость Корпоративный портал Федеративная СУБД Близко Высокая l Поиск в десктопе СУБД Корпоративные базы данных 11 апреля 2006 Семантическая интеграция Низкая 38

Пространства данных (4) Свойства и архитектура систем пространств данных l l l Традиционные СУБД Пространства данных (4) Свойства и архитектура систем пространств данных l l l Традиционные СУБД представляют только одну точку в пространстве решений управления данными Все данные находятся под единым административным управлением и соответствуют единой схеме СУБД могут обеспечить развитые средства манипулирования данными и обработки запросов с понятной и строгой семантикой, а также строгие транзакционные гарантии обновлений, параллельного доступа и долговременного хранения Корпоративные базы данных 11 апреля 2006 39

Пространства данных (5) Свойства и архитектура систем пространств данных l l Важной точкой пространства Пространства данных (5) Свойства и архитектура систем пространств данных l l Важной точкой пространства решений являются “системы интеграции данных” Особенность состоит в том, что в системах интеграции данных требуется семантическая интеграция до того, как могут быть обеспечены какие-либо прочие услуги Система должна знать точные взаимосвязи между элементами, используемыми в каждой схеме В результате для создания системы интеграции данных требуется существенная предварительная работа Корпоративные базы данных 11 апреля 2006 40

Пространства данных (6) Свойства и архитектура систем пространств данных l l l Цель поддержки Пространства данных (6) Свойства и архитектура систем пространств данных l l l Цель поддержки пространства данных состоит в обеспечении базового набора функций надо всеми источниками данных, а не в их интеграции Например, DSSP (Data. Space Support Platform) может обеспечить надо всеми своими источниками данных поиск по ключевым словам При потребности в более сложных операциях, таких как запросы в реляционном стиле, анализ данных (data mining) или мониторинг каких-либо источников, можно приложить дополнительные усилия к более тесной интеграции этих источников в инкрементной манере Корпоративные базы данных 11 апреля 2006 41

Пространства данных (7) Свойства и архитектура систем пространств данных l l l Аналогичная гибкость Пространства данных (7) Свойства и архитектура систем пространств данных l l l Аналогичная гибкость имеется и в измерении административной близости Если желательно наличие административной автономии, то DSSP не сможет гарантировать согласованность, устойчивость результатов операций обновления и т. д. Для удовлетворения потребности в более строгих гарантиях нужны дополнительные усилия для достижения соглашений между владельцами источников данных и открытия некоторых интерфейсов (например, для протоколов фиксации транзакций) Корпоративные базы данных 11 апреля 2006 42

Пространства данных (8) Свойства и архитектура систем пространств данных l l l Отличительные свойства Пространства данных (8) Свойства и архитектура систем пространств данных l l l Отличительные свойства систем пространств данных DSSP должны работать с данными и приложениями в разнообразных форматах, доступных от многих систем через различные интерфейсы От DSSP требуется поддержка всех данных пространства данных, без каких-либо исключений Корпоративные базы данных 11 апреля 2006 43

Пространства данных (9) Свойства и архитектура систем пространств данных l l Хотя DSSP обеспечивает Пространства данных (9) Свойства и архитектура систем пространств данных l l Хотя DSSP обеспечивает средства интегрированного поиска, запрашивания, обновления и администрирования пространств данных, те же самые данные часто могут быть доступны для чтения и обновления через собственный интерфейс системы, непосредственно управляющей данными Поэтому, в отличие от СУБД, DSSP не имеет полного контроля над своими данными Корпоративные базы данных 11 апреля 2006 44

Пространства данных (10) Свойства и архитектура систем пространств данных l l Могут обеспечиваться разные Пространства данных (10) Свойства и архитектура систем пространств данных l l Могут обеспечиваться разные уровни услуг по обработке запросов к DSSP, и в некоторых случаях они могут возвращать наилучшие из возможных приблизительные ответы Например, если некоторые источники данных становятся недоступными, DSSP может обеспечить наилучший из возможных результат на основе данных, доступных во время выполнения запроса Корпоративные базы данных 11 апреля 2006 45

Пространства данных (11) Свойства и архитектура систем пространств данных l DSSP должны поддерживать средства Пространства данных (11) Свойства и архитектура систем пространств данных l DSSP должны поддерживать средства для обеспечения более тесной интеграции данных пространства, если это становится необходимо Корпоративные базы данных 11 апреля 2006 46

Пространства данных (12) Свойства и архитектура систем пространств данных l l Каталог и просмотр Пространства данных (12) Свойства и архитектура систем пространств данных l l Каталог и просмотр Каталог содержит информацию обо всех участниках пространства данных и о связях между ними Для каждого участника каталог должен включать схему источника, статистические данные, скорость изменения, точность, возможности ответов на запросы, информацию о владельце и данные о политике доступа Связи могут сохраняться в виде преобразований запросов, графов зависимости, и даже текстовых описаний Корпоративные базы данных 11 апреля 2006 47

Пространства данных (13) Свойства и архитектура систем пространств данных l l l При наличии Пространства данных (13) Свойства и архитектура систем пространств данных l l l При наличии возможности в каталоге должен содержаться базовый реестр элементов данных в каждом участнике: идентификатор, тип, дата создания и т. д. Тогда в нем можно поддерживать базовую возможность просмотра объединенного реестра всех участников Интерфейс просмотра можно использовать для ответов на вопросы пользователей о наличии или отсутствии элемента данных или определения того, какие участники хранят документы данного типа Корпоративные базы данных 11 апреля 2006 48

Пространства данных (14) Свойства и архитектура систем пространств данных l l l Поиск и Пространства данных (14) Свойства и архитектура систем пространств данных l l l Поиск и запрашивание У пользователей должна иметься возможность запроса любого элемента данных, независимо от его формата и модели данных В начале работы с пространством данным DSSP должна поддерживать для каждого участника запросы по ключевым словам По мере получения большей информации об участнике, DSSP должна постепенно начать поддерживать более сложные запросы Должно поддерживаться плавное переключение между запросами по ключевым словам, просмотром и структурированными запросами Корпоративные базы данных 11 апреля 2006 49

Пространства данных (15) Свойства и архитектура систем пространств данных l l Структурированные запросы могут Пространства данных (15) Свойства и архитектура систем пространств данных l l Структурированные запросы могут поддерживаться на основе общих интерфейсов (схем-посредников), обеспечивающих доступ к нескольким источникам, или же они могут адресоваться к конкретному источнику данных (с использованием его собственной схемы) с намерением получения ответов и от других источников Запросы могут формулироваться на разнообразных языках (и на основе разных моделей данных), и они должны наилучшим образом переформулироваться на другие модели данных и схемы, обеспечивая точные и приближенные семантические отображения Корпоративные базы данных 11 апреля 2006 50

Пространства данных (16) Свойства и архитектура систем пространств данных l l l В системе Пространства данных (16) Свойства и архитектура систем пространств данных l l l В системе должен поддерживаться широкий спектр запросов к метаданным Должны обеспечиваться возможности получения данных об источнике ответа или о том, как этот ответ был выведен или вычислен; обеспечения временных меток на элементах данных, которые участвовали в вычислении ответа; указания того, какие другие элементы данных в пространстве данных могут зависеть от заданного элемента данных; запрашивания источников и уровня недостоверности ответа DSSP должны также поддерживать запросы на установление местоположения данных, ответами на которые являются источники данных Корпоративные базы данных 11 апреля 2006 51

Пространства данных (17) Свойства и архитектура систем пространств данных l l l Службы поиска Пространства данных (17) Свойства и архитектура систем пространств данных l l l Службы поиска и запрашивания данных должны также поддерживаться в инкрементной форме, применимой в реальном времени к потоковым или изменяемым источникам данных Мониторинг может быть организован в виде процесса без состояния, в котором элементы данных рассматриваются по отдельности, или в виде процесса с состоянием, в котором анализируется несколько элементов данных Служба инкрементного мониторинга может обеспечить функции обнаружения сложных событий и генерации сигналов Корпоративные базы данных 11 апреля 2006 52

Пространства данных (18) Свойства и архитектура систем пространств данных l l Локальное хранение и Пространства данных (18) Свойства и архитектура систем пространств данных l l Локальное хранение и индексирование В DSSP должен иметься компонент хранения и индексирования, обеспечивающий следующие возможности: создание запрашиваемых ассоциаций между объектами данных от разных участников; совершенствование доступа к источникам с ограниченными собственными средствами доступа; обеспечение возможности выполнения некоторых запросов без доступа к реальному источнику данных; поддержку высокого уровня доступности и восстановления Корпоративные базы данных 11 апреля 2006 53

Пространства данных (19) Свойства и архитектура систем пространств данных l l l Средства индексирования Пространства данных (19) Свойства и архитектура систем пространств данных l l l Средства индексирования должны обладать высоким уровнем адаптивности к неоднородным средам В качестве входных данных должно приниматься любое значение, встречающееся в пространстве данных, и должны выдаваться координаты всех объектов данных, в которых имеется такое значение, и роли каждого его вхождения Индекс определяет информацию для всех участников, когда значения входят в несколько источников данных, и должен справляться с разнообразием ссылок на объекты реального мира Корпоративные базы данных 11 апреля 2006 54

Пространства данных (20) Свойства и архитектура систем пространств данных l Может потребоваться кэшировать некоторые Пространства данных (20) Свойства и архитектура систем пространств данных l Может потребоваться кэшировать некоторые фрагменты пространства данных (вертикальные или горизонтальные), чтобы строить на них дополнительные индексы для поддержки более эффективного доступа; повышать уровень доступности данных, хранимых в ненадежных участниках и уменьшать нагрузку на участников Корпоративные базы данных 11 апреля 2006 55

Пространства данных (21) Свойства и архитектура систем пространств данных l l Компонент раскрытия Обнаружении Пространства данных (21) Свойства и архитектура систем пространств данных l l Компонент раскрытия Обнаружении участников в пространстве данных, создании связей между ними и оказании помощи администраторам при совершенствовании и усилении этих связей Обнаружение участников может происходить в нескольких формах, например, в форме обхода справочной структуры, начиная от корня, или форме поиска координат всех баз данных в корпоративной сети Компонент должен выполнять начальную классификацию участников на основе их типов и содержимого Корпоративные базы данных 11 апреля 2006 56

Пространства данных (22) Свойства и архитектура систем пространств данных l l l После раскрытия Пространства данных (22) Свойства и архитектура систем пространств данных l l l После раскрытия участников система должна обеспечить среду для полуавтоматического создания связей между участниками и совершенствования и поддержки существующих связей Этот процесс включает нахождение пар участников, которые, вероятно, должны быть связаны один с другим, и предложение связей, которые потом проверяются и уточняются человеком Компонент раскрытия должен осуществлять мониторинг содержимого пространства данных, чтобы можно было со временем предложить новые связи Корпоративные базы данных 11 апреля 2006 57

Пространства данных (23) Свойства и архитектура систем пространств данных l l Компонент расширения источников Пространства данных (23) Свойства и архитектура систем пространств данных l l Компонент расширения источников У некоторых участников могут отсутствовать существенные функции управления данными У DSSP должны иметься средства наполнения такого участника дополнительными возможностями, такими как схема, каталог, поиск по ключевым словами и мониторинг обновлений Может оказаться необходимо обеспечивать эти расширения “по месту”, поскольку могут иметься существующие приложения или потоки данных, рассчитанные на имеющиеся форматы или справочные структуры Корпоративные базы данных 11 апреля 2006 58

Пространства данных (24) Свойства и архитектура систем пространств данных l l Хотя DSSP с Пространства данных (24) Свойства и архитектура систем пространств данных l l Хотя DSSP с полным набором служб должны содержать все эти компоненты, многие из них могли бы использоваться независимо для достижения некоторого компромисса между расходами и получаемыми преимуществами Важно, что DSSP допускает инкрементное инвестирование, а не представляет собой только монолитное решение Корпоративные базы данных 11 апреля 2006 59

Пространства данных (24) Новые исследовательские проблемы l l l l Моделирование данных и базовые Пространства данных (24) Новые исследовательские проблемы l l l l Моделирование данных и базовые возможности запросов Более широкое представление запрашивания Раскрытие пространства данных Повторное использование человеческого труда Хранение и индексирование пространств данных Гарантии корректности Теоретические основы Корпоративные базы данных 11 апреля 2006 60

Пространства данных (25) Пространства данных и Лоуэллский отчет l l l Пункт об интеграция Пространства данных (25) Пространства данных и Лоуэллский отчет l l l Пункт об интеграция текста, данных, кода и потоков развивается и обогащается на основе идеи иерархии моделей данных В данном случае говорится не об однородной интеграции в пределах одной базы данных, а об организации однородного доступа к разнородным источникам данных Но цель преследуется та же, и кажется заманчивой перенести идею иерархии моделей на локальную СУБД Корпоративные базы данных 11 апреля 2006 61

Пространства данных (26) Пространства данных и Лоуэллский отчет l l Пункт о слиянии информации Пространства данных (26) Пространства данных и Лоуэллский отчет l l Пункт о слиянии информации получает оригинальную и предельно ясную трактовку С использованием компонентов DSSP и зависящего от конкретной ситуации объема человеческого труда можно обеспечить интеграцию любого числа источников данных любой природы с требуемым уровнем качества Возможность внешнего индексирования и кэширования позволяет добиться компромисса между виртуальной интеграцией данных и построением физически отдельного хранилища данных Весь вопрос в том, сколько это будет стоить Корпоративные базы данных 11 апреля 2006 62

Пространства данных (27) Пространства данных и Лоуэллский отчет l l При работе с пространствами Пространства данных (27) Пространства данных и Лоуэллский отчет l l При работе с пространствами данных придется сталкиваться и неполнотой данных (вследствие, например, недоступности некоторых источников или устареванием данных в кэше), и с неточностью запросов (в связи, например, с возможностью сочетания поисковых и структурированных запросов) И снова авторы предлагают прагматичный подход, позволяющий пользователям итеративным образом совершенствовать результаты своих запросов путем сочетания различных стилей доступа к данным Корпоративные базы данных 11 апреля 2006 63

Пространства данных (28) Пространства данных и Лоуэллский отчет l l Пункт о самоадаптации трансформируется Пространства данных (28) Пространства данных и Лоуэллский отчет l l Пункт о самоадаптации трансформируется в «повторное использование человеческого труда» И снова это кажется очень здравой идеей, поскольку первичным источником знаний, которыми должна руководствоваться программная система, является человек Корпоративные базы данных 11 апреля 2006 64

Пространства данных (29) Пространства данных и Лоуэллский отчет l l Наконец, целый ряд идей Пространства данных (29) Пространства данных и Лоуэллский отчет l l Наконец, целый ряд идей можно соотнести с пунктом о пользовательских интерфейсах Здесь и комбинирование средств контекстного поиска и структурированных запросов, и итерационное совершенствование формы запроса под руководством системы, и т. д. Корпоративные базы данных 11 апреля 2006 65

Заключение (1) l l Большая часть публикаций, относящихся к области управления данными, носит чрезвычайно Заключение (1) l l Большая часть публикаций, относящихся к области управления данными, носит чрезвычайно конкретный характер, описывая новые или усовершенствованные методы и алгоритмы решения некоторых частных задач Эти задачи кажутся авторам публикаций настолько привычными и естественными, что обычно они даже и не пытаются объяснить читателям их происхождение и актуальность В Асиломарском отчете такого рода исследовательские работы относились к категории «delta-X» «Исследования "delta-X" отличаются тем, что сосредотачиваются на сиюминутной цели, "улучшении" некоторой уже широко известной идеи» Корпоративные базы данных 11 апреля 2006 66

Заключение (2) l l l Для реального развития области управления данными необходимы работы, выходящие Заключение (2) l l l Для реального развития области управления данными необходимы работы, выходящие за пределы этой категории, и их появление стимулируется отчетами регулярных собраний ведущих исследователей Одним из результатов собрания в Лагуна-Бич [1] стало появление Манифеста систем объектноориентированных баз данных и Манифеста систем баз данных третьего поколения Эти документы во многом определили развитие технологии баз данных в конце прошлого столетия Корпоративные базы данных 11 апреля 2006 67

Заключение (3) l l Рассмотренные публикации, последовавшие за официальным опубликованием Лоэллского отчета, кажутся мне Заключение (3) l l Рассмотренные публикации, последовавшие за официальным опубликованием Лоэллского отчета, кажутся мне продолжением этой традиции в новом столетии Отличаясь по духу и форме от классических манифестов, эти работы обеспечивают основу нового этапа развития технологии управления данными. Корпоративные базы данных 11 апреля 2006 68