КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В

Скачать презентацию КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В Скачать презентацию КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В

mag_sshi_15_1_kushvid_prezentazia.pptx

  • Размер: 597.8 Кб
  • Автор: Евгений Кушвид
  • Количество слайдов: 24

Описание презентации КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В по слайдам

КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ФАЙЛОВОЙ СИСТЕМЕ Кушвид Евгений СергеевичКЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ФАЙЛОВОЙ СИСТЕМЕ Кушвид Евгений Сергеевич ст. гр. СШИм-15 -1 Руководитель: к. т. н. , доцент Чалая Лариса Эрнестовна

Актуальность:  • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных вАктуальность: • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных в распределенной структуре • Отсутствие возможности оптимального смыслового определения архитектуры классов • Необходимость в высококачественном и быстром поиске по большому массиву документов 02 /

Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системеЦель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системе с высокой производительностью и качеством при малых ресурсных затратах приложения 03 /

Общая архитектура Предобработка Сбор и очистка данных Формирование входного вектора для кластеризатора Кластеризация ФормированиеОбщая архитектура Предобработка Сбор и очистка данных Формирование входного вектора для кластеризатора Кластеризация Формирование структуры кластеров Повторение для каждого кластера Поиск Кластеризация запроса Ранжирование результатов 04 /

Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21 гб 05 / 24 Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21 гб 05 /

Сбор и очистка данных: Очистка от спецсимволов Удаление стоп-слов Стемминг Данные Полученные очищенные словаСбор и очистка данных: Очистка от спецсимволов Удаление стоп-слов Стемминг Данные Полученные очищенные слова данные отравляются На формирование входного вектора 06 /

Формирование входного вектора для кластеризатора Полученный массив слов Частота их встречаемости Входной вектор дляФормирование входного вектора для кластеризатора Полученный массив слов Частота их встречаемости Входной вектор для анализа 07 /

Существующие подходы к кластеризации: Алгоритм k-средних Нейронная сеть Кохонена FOREL SOINN 08 / 24Существующие подходы к кластеризации: Алгоритм k-средних Нейронная сеть Кохонена FOREL SOINN 08 /

Существующие подходы к индексации Прямой индекс Инвертированный индекс 09 / 24 Существующие подходы к индексации Прямой индекс Инвертированный индекс 09 /

Обоснование выбранного решение:  • Устойчивость к шумам • Скорость • Точность • АдаптивностьОбоснование выбранного решение: • Устойчивость к шумам • Скорость • Точность • Адаптивность • Отсутствие необходимости в эвристиках. SOINN 10 /

Формирование структуры кластеров Кластеризация Индексация кластеров. Выделения подкластеров 11 / 24 Формирование структуры кластеров Кластеризация Индексация кластеров. Выделения подкластеров 11 /

Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение кИндексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение к один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH 12 /

Пример иерархической индексированной кластерной структуры файлов 0000 0001 0002 0003 0001 0002 0003 0002Пример иерархической индексированной кластерной структуры файлов 0000 0001 0002 0003 0001 0002 0003 0002 0001 0002 По окончанию иерархической кластеризации каждый файл отделяется в отдельный персональный кластер (исключение: файлы дубликаты/копии) Индекс файла со звездочкой: 000100030002 13 /

Пример вида метаинформации в документе 14 / 24 Пример вида метаинформации в документе 14 /

Пример сохраненной метаинформации в текстовом файле 15 / 24 Пример сохраненной метаинформации в текстовом файле 15 /

Поиск Введение поискового запроса Кластеризация и определение индекса иерархии кластеров Получение искомого файла 16Поиск Введение поискового запроса Кластеризация и определение индекса иерархии кластеров Получение искомого файла 16 /

Имплементация: 17 / 24 Имплементация: 17 /

Визуальный интерфейс 18/ 24 Визуальный интерфейс 18/

Поисковый запрос 19 / 24 Поисковый запрос 19 /

Расширение поискового запроса 20 / 24 Расширение поискового запроса 20 /

Экран настроек 21 / 24 Экран настроек 21 /

Анализ эффективности: Объем выборки Средняя загрузка оперативной памяти Максимальная загрузка оперативной памяти Среднее времяАнализ эффективности: Объем выборки Средняя загрузка оперативной памяти Максимальная загрузка оперативной памяти Среднее время кластеризации Среднее время иерархической кластеризации Среднее время поиска с ранжированием 400 мб 1, 5 гб 7 мс 18 мс 21 гб 19 мс 23 мс 22 /

Сравнительная характеристика алгоритмов поиска 23 / 24 Сравнительная характеристика алгоритмов поиска 23 /

Выводы Недостатки Достоинства. Холодный старт Распределенная хранение структуры Точный Быстрый Необходимость хранения структуры сетиВыводы Недостатки Достоинства. Холодный старт Распределенная хранение структуры Точный Быстрый Необходимость хранения структуры сети Необходимость иметь права администратора Привязка к Windows