КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В
mag_sshi_15_1_kushvid_prezentazia.pptx
- Размер: 597.8 Кб
- Автор: Евгений Кушвид
- Количество слайдов: 24
Описание презентации КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В по слайдам
КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ФАЙЛОВОЙ СИСТЕМЕ Кушвид Евгений Сергеевич ст. гр. СШИм-15 -1 Руководитель: к. т. н. , доцент Чалая Лариса Эрнестовна
Актуальность: • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных в распределенной структуре • Отсутствие возможности оптимального смыслового определения архитектуры классов • Необходимость в высококачественном и быстром поиске по большому массиву документов 02 /
Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системе с высокой производительностью и качеством при малых ресурсных затратах приложения 03 /
Общая архитектура Предобработка Сбор и очистка данных Формирование входного вектора для кластеризатора Кластеризация Формирование структуры кластеров Повторение для каждого кластера Поиск Кластеризация запроса Ранжирование результатов 04 /
Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21 гб 05 /
Сбор и очистка данных: Очистка от спецсимволов Удаление стоп-слов Стемминг Данные Полученные очищенные слова данные отравляются На формирование входного вектора 06 /
Формирование входного вектора для кластеризатора Полученный массив слов Частота их встречаемости Входной вектор для анализа 07 /
Существующие подходы к кластеризации: Алгоритм k-средних Нейронная сеть Кохонена FOREL SOINN 08 /
Существующие подходы к индексации Прямой индекс Инвертированный индекс 09 /
Обоснование выбранного решение: • Устойчивость к шумам • Скорость • Точность • Адаптивность • Отсутствие необходимости в эвристиках. SOINN 10 /
Формирование структуры кластеров Кластеризация Индексация кластеров. Выделения подкластеров 11 /
Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение к один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH 12 /
Пример иерархической индексированной кластерной структуры файлов 0000 0001 0002 0003 0001 0002 0003 0002 0001 0002 По окончанию иерархической кластеризации каждый файл отделяется в отдельный персональный кластер (исключение: файлы дубликаты/копии) Индекс файла со звездочкой: 000100030002 13 /
Пример вида метаинформации в документе 14 /
Пример сохраненной метаинформации в текстовом файле 15 /
Поиск Введение поискового запроса Кластеризация и определение индекса иерархии кластеров Получение искомого файла 16 /
Имплементация: 17 /
Визуальный интерфейс 18/
Поисковый запрос 19 /
Расширение поискового запроса 20 /
Экран настроек 21 /
Анализ эффективности: Объем выборки Средняя загрузка оперативной памяти Максимальная загрузка оперативной памяти Среднее время кластеризации Среднее время иерархической кластеризации Среднее время поиска с ранжированием 400 мб 1, 5 гб 7 мс 18 мс 21 гб 19 мс 23 мс 22 /
Сравнительная характеристика алгоритмов поиска 23 /
Выводы Недостатки Достоинства. Холодный старт Распределенная хранение структуры Точный Быстрый Необходимость хранения структуры сети Необходимость иметь права администратора Привязка к Windows