Скачать презентацию Что изменилось за прошедший год SET SESSION Скачать презентацию Что изменилось за прошедший год SET SESSION

66c91deec6c68fa0ce4d132ff4b770c8.ppt

  • Количество слайдов: 33

Что изменилось за прошедший год • SET SESSION DEFAULT SECURITY • шифрация файлов БД Что изменилось за прошедший год • SET SESSION DEFAULT SECURITY • шифрация файлов БД – AES, DES, ГОСТ … • обобщённый тип GEOMETRY • уменьшено время восстановления резервного сервера, добавлена поддержка групп резервных серверов • автоматическое определение параметров старта ЛИНТЕР • 64 -х разрядные Linux, Free. BSD • распределённые запросы • фразовый поиск с учётом расстояния между словами

Фразовый поиск с учётом расстояния между словами <расстояние>: : ='|' ((['+' | '-'] <смещение>) Фразовый поиск с учётом расстояния между словами <расстояние>: : ='|' ((['+' | '-'] <смещение>) | (<ниж_граница> <верх_граница>)) '|' <смещение>: : =целое беззнаковое число в диапазоне 1. . 10 <ниж_граница>: : = целое число в диапазоне -10. . 10 <верх_граница>: : = целое число в диапазоне <ниж_граница>. . 10 Пример: Подсчитать количество документов, в которых рядом встречаются слова "РЕЛЭКС" и одно из слов "ЛИНТЕР", "НЕВОД", "СУБД". SELECT COUNT(ID_DOC) FROM "DOCUMENTS" WHERE TEXT_DOC CONTAINS '"РЕЛЭКС |1| (ЛИНТЕР НЕВОД СУБД)"';

И целого мира мало… И целого мира мало…

Что разъединяет!? OLAP-системы Сложность поиска Search Engine Интенсивность поиска Stream-системы Универсальные системы управления базами Что разъединяет!? OLAP-системы Сложность поиска Search Engine Интенсивность поиска Stream-системы Универсальные системы управления базами данных RT- системы Интенсивность модификаций

Сложность организации данных Сложность индексов И другие… Иерархические JOIN Сложность поиска Cтепень сжатия данных Сложность организации данных Сложность индексов И другие… Иерархические JOIN Сложность поиска Cтепень сжатия данных Bit-Sliced R-Tree, M-Tree… Bitmap B-Tree Hash B-Tree … Hash Интенсивность модификаций

Что мы предлагаем? OLAP-системы Сложность поиска Slice. Sys Search Engine Stream-системы ЛИНТЕР Интенсивность поиска Что мы предлагаем? OLAP-системы Сложность поиска Slice. Sys Search Engine Stream-системы ЛИНТЕР Интенсивность поиска Универсальные системы управления базами данных RT- системы Интенсивность модификаций

Репликация данных в Slice. Sys Прототип СУБД Slice. Sys СУБД ЛИНТЕР Slice. Sys БД Репликация данных в Slice. Sys Прототип СУБД Slice. Sys СУБД ЛИНТЕР Slice. Sys БД ЛИНТЕР БД Инкремент № 5 Инкремент № 4 Инкремент № 3 Инкремент № 2 Инкремент № 1 Порция новых данных

Сжатие данных в Slice. Sys Сжатие таблицы Локальное сжатие Глобальное сжатие Межстолбцевое сжатие Удаление Сжатие данных в Slice. Sys Сжатие таблицы Локальное сжатие Глобальное сжатие Межстолбцевое сжатие Удаление Локальные словари Дифференциальное сжатие Экономное Удаление шаблонов кодирование функциональных зависимостей Индексы Slice. Sys Удаление Hash констант Bitmap Удаление B-Tree Удаление констант шаблонов Bit-Sliced Дифференциальное Словарные сжатие методы JOIN

Сжатие данных в Slice. Sys Высокая степень сжатия данных ~6 -20 раз! Индексы сжимаются Сжатие данных в Slice. Sys Высокая степень сжатия данных ~6 -20 раз! Индексы сжимаются так же, как и данные

Пример обработки данных Месячный отчёт на основе Slice. Sys сервера Сжатие и перенос новых Пример обработки данных Месячный отчёт на основе Slice. Sys сервера Сжатие и перенос новых данных на Slice. Sys сервер 30+30 минут Месячный отчёт 8 часов

Использование Slice. Sys Мобильные пользователи возможность работать там, где требуется, приводит к экономии почти Использование Slice. Sys Мобильные пользователи возможность работать там, где требуется, приводит к экономии почти 80 минут рабочего времени в день на каждого сотрудника. В денежном выражении это исчисляется от $95 до $1420 в месяц в зависимости от величины компании… 100 Гб диск ноутбука ~ 1 Тб данных ! 1 Гб ОЗУ ~ 10 Гб кеша !

Slice. Sys – не совсем Read-Only система: • инкрементное добавление и обновление; • широкие Slice. Sys – не совсем Read-Only система: • инкрементное добавление и обновление; • широкие возможности администрирования индексов; • различные варианты структуры хранения данных – покортежное или поатрибутное;

Индексная анатомия обработки запроса Bit-Sliced SELECT SUM(. . . ), . . . B-tree Индексная анатомия обработки запроса Bit-Sliced SELECT SUM(. . . ), . . . B-tree FROM A, B. . . AND OR B. a 2 <= ? JOIN-index AND OR A. a 3 = B. b 3 Hash A. a 1 < ? A. a 2 = ? WHERE AND B-tree JOIN C. a 3 = B. b 3 GROUP BY A. a 4, B. b 4, . . . Bitmap Bit-Sliced

Примеры синтетических индексов B-Tree JOIN Hash JOIN JOIN Bitmap-цепочки JOIN … Bitmap … Bitmap Примеры синтетических индексов B-Tree JOIN Hash JOIN JOIN Bitmap-цепочки JOIN … Bitmap … Bitmap JOIN Join-отростки Bitmap-отростки … Bitmap … Join-цепочки

Декларативная индексация • CREATE INDEX IND 1 FOR QUICK (SELECT * FROM A WHERE Декларативная индексация • CREATE INDEX IND 1 FOR QUICK (SELECT * FROM A WHERE A. I < ? ); • CREATE INDEX IND 2 FOR QUICK (SELECT A. J FROM A WHERE A. I = ? ); • CREATE INDEX IND 3 FOR QUICK (SELECT * FROM A, B WHERE A. I = B. I); • CREATE INDEX IND 4 FOR QUICK (SELECT A. J, B. J, AGG(*) FROM A, B WHERE A. K = ? AND A. I = B. I GROUP BY A. J, B. J);

Ось формализованности данных Поиск отклонений от макро зависимостей Поиск микро-зависимостей (связей) Поиск макро-зависимостей Универсальный Ось формализованности данных Поиск отклонений от макро зависимостей Поиск микро-зависимостей (связей) Поиск макро-зависимостей Универсальный клиент Конкретные клиенты Узость приложений Разнообразие приложений Похожесть объектов Совпадение объектов Свобода данных Дисциплина данных Search Engine Строгие РСУБД (Documents & Images) Формализованность данных

Параллельные миры Макро-мир классификация, кластеризация, поиск связанных свойств и проч. Большие группы объектов Микро-мир Параллельные миры Макро-мир классификация, кластеризация, поиск связанных свойств и проч. Большие группы объектов Микро-мир идентификация, графы, поиск косвенных связей, поиск отклонений и т. п. Конкретные объекты и связи

Ось формализованности данных Поиск отклонений от макро зависимостей Поиск микро-зависимостей (связей) Поиск макро-зависимостей Универсальный Ось формализованности данных Поиск отклонений от макро зависимостей Поиск микро-зависимостей (связей) Поиск макро-зависимостей Универсальный клиент Конкретные клиенты Узость приложений Разнообразие приложений Похожесть объектов Совпадение объектов Свобода данных Дисциплина данных Search Engine (Documents & Images) ИАС НЕВОД Строгие РСУБД Формализованность данных

Модель данных НЕВОД Микро-зависимости Конкретные объекты и связи Улица 1 -го мая Идентификация Ул. Модель данных НЕВОД Микро-зависимости Конкретные объекты и связи Улица 1 -го мая Идентификация Ул. 1 -го мая Написал «дом» Синонимы «жилище»

Собранные в хранилище, очищенные, согласованные посредством процедур ETL данные образуют семантическую сеть. Увидеть «смысл» Собранные в хранилище, очищенные, согласованные посредством процедур ETL данные образуют семантическую сеть. Увидеть «смысл» в этих данных позволяют диаграммы семантической сети.

Проблема автоматизации обработки • Однако, до сих пор остаётся слабо автоматизированной рутинная операция выделения Проблема автоматизации обработки • Однако, до сих пор остаётся слабо автоматизированной рутинная операция выделения связей в неструктурированных данных • На основе неформализованных документов необходимо ввести фактические данные, а также установить смысловые связи между ними

Несмотря на специфику – механизмы общие • Каждая предметная область имеет свою специфику как Несмотря на специфику – механизмы общие • Каждая предметная область имеет свою специфику как внутреннего, так внешнего представления в виде неформализованного текста • Но независимо от предметной области, процесс извлечения информации всегда включает в себя одни и те же операции: • анализ текста (лексический, морфологический, синтаксический и семантический) • очистка, корректировка, согласование и т. п. • синтез данных в единую семантическую сеть

НЕВОД NDE - Nevod Data Extarctor Модули лексического, морфологического, синтаксического и семантического анализа Вспомогательный НЕВОД NDE - Nevod Data Extarctor Модули лексического, морфологического, синтаксического и семантического анализа Вспомогательный модуль Управляющий модуль Неформализованный текстовый документ Схема и набор правил преобразования информации Данные в формализованном виде Файл Прикладная задача База данных Сторонняя информационная система XML CSV …

Пример интерфейса НЕВОД NDE Пример интерфейса НЕВОД NDE

 • Сочетание НЕВОД NDE и уже имеющихся в НЕВОД средств анализа представляет собой • Сочетание НЕВОД NDE и уже имеющихся в НЕВОД средств анализа представляет собой мощное решение для обработки слабо формализованных данных, представленных в виде текстовых документов • Тем не менее, этого недостаточно для автоматизации обработки самих текстовых документов, прежде всего – полнотекстового поиска • Две цели: – извлечение, формализация и синтез фактов ( «осмысление» ) – поиск документов содержащих эти факты

Разработана система семантического поиска электронных документов Итерационная схема поиска Каждый шаг повторяет схему «запрос-выборка» Разработана система семантического поиска электронных документов Итерационная схема поиска Каждый шаг повторяет схему «запрос-выборка» классической поисковой системы. Но дополнительно могут быть даны рекомендации по дальнейшему поиску, каждая из которых представляет собой модификацию текста исходного запроса.

Что дальше? Дальнейшее развитие подразумевает включение в механизмы поиска «тезауруса» фактов. Т. е. поиск Что дальше? Дальнейшее развитие подразумевает включение в механизмы поиска «тезауруса» фактов. Т. е. поиск по смыслу содержимого.

 «Время разбрасывать камни, и время собирать камни» Наше время — время синтеза «Время разбрасывать камни, и время собирать камни» Наше время — время синтеза

Вопросы? Вопросы?

Спасибо за внимание Павел Пасечник pasec@relex. ru ЗАО НПП «РЕЛЭКС» http: //www. relex. ru Спасибо за внимание Павел Пасечник pasec@relex. ru ЗАО НПП «РЕЛЭКС» http: //www. relex. ru