КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В

Актуальность: • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных в

Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системе

Общая архитектура Предобработка Сбор и очистка данных Формирование входного вектора для кластеризатора Кластеризация Формирование

Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21 гб 05 / 24

Сбор и очистка данных: Очистка от спецсимволов Удаление стоп-слов Стемминг Данные Полученные очищенные слова

Формирование входного вектора для кластеризатора Полученный массив слов Частота их встречаемости Входной вектор для

Существующие подходы к кластеризации: Алгоритм k-средних Нейронная сеть Кохонена FOREL SOINN 08 / 24

Существующие подходы к индексации Прямой индекс Инвертированный индекс 09 / 24

Обоснование выбранного решение: • Устойчивость к шумам • Скорость • Точность • Адаптивность

Формирование структуры кластеров Кластеризация Индексация кластеров. Выделения подкластеров 11 / 24

Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение к

Пример иерархической индексированной кластерной структуры файлов 0000 0001 0002 0003 0001 0002 0003 0002

Пример вида метаинформации в документе 14 / 24

Пример сохраненной метаинформации в текстовом файле 15 / 24

Поиск Введение поискового запроса Кластеризация и определение индекса иерархии кластеров Получение искомого файла 16

Анализ эффективности: Объем выборки Средняя загрузка оперативной памяти Максимальная загрузка оперативной памяти Среднее время

Сравнительная характеристика алгоритмов поиска 23 / 24

Выводы Недостатки Достоинства. Холодный старт Распределенная хранение структуры Точный Быстрый Необходимость хранения структуры сети

Скачать презентацию КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В

mag_sshi_15_1_kushvid_prezentazia.pptx

Размер: 597.8 Кб
Автор: Евгений Кушвид
Количество слайдов: 24

Описание презентации КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В по слайдам

КЛАСТЕРНАЯ ИНДЕКСАЦИЯ ФАЙЛОВ ДЛЯ ОПТИМИЗАЦИИ ПОИСКА ИНФОРМАЦИИ В РАСПРЕДЕЛЕННОЙ ФАЙЛОВОЙ СИСТЕМЕ Кушвид Евгений Сергеевич ст. гр. СШИм-15 -1 Руководитель: к. т. н. , доцент Чалая Лариса Эрнестовна

Актуальность: • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных в Актуальность: • Высокие темпы роста объема текстовой информации • Накопление неклассифицированных данных в распределенной структуре • Отсутствие возможности оптимального смыслового определения архитектуры классов • Необходимость в высококачественном и быстром поиске по большому массиву документов 02 /

Цель: Целью работы является разработка метода эффективного поиска текстовой информации в распределенной файловой системе с высокой производительностью и качеством при малых ресурсных затратах приложения 03 /

Общая архитектура Предобработка Сбор и очистка данных Формирование входного вектора для кластеризатора Кластеризация Формирование структуры кластеров Повторение для каждого кластера Поиск Кластеризация запроса Ранжирование результатов 04 /

Выборка: Иерархическая структурированная библиотека открытая для скачивания объемом 21 гб 05 /

Сбор и очистка данных: Очистка от спецсимволов Удаление стоп-слов Стемминг Данные Полученные очищенные слова данные отравляются На формирование входного вектора 06 /

Формирование входного вектора для кластеризатора Полученный массив слов Частота их встречаемости Входной вектор для анализа 07 /

Существующие подходы к кластеризации: Алгоритм k-средних Нейронная сеть Кохонена FOREL SOINN 08 /

Существующие подходы к индексации Прямой индекс Инвертированный индекс 09 /

Обоснование выбранного решение: • Устойчивость к шумам • Скорость • Точность • Адаптивность • Отсутствие необходимости в эвристиках. SOINN 10 /

Формирование структуры кластеров Кластеризация Индексация кластеров. Выделения подкластеров 11 /

Индексация Каждому кластеру присваивается уникальный индекс в порядке вложенности Пределом кластеризации является сведение к один кластер это один файл и таким образом можно определить вложенность кластеров как уникальный HASH 12 /

Пример иерархической индексированной кластерной структуры файлов 0000 0001 0002 0003 0001 0002 0003 0002 0001 0002 По окончанию иерархической кластеризации каждый файл отделяется в отдельный персональный кластер (исключение: файлы дубликаты/копии) Индекс файла со звездочкой: 000100030002 13 /

Пример вида метаинформации в документе 14 /

Пример сохраненной метаинформации в текстовом файле 15 /

Поиск Введение поискового запроса Кластеризация и определение индекса иерархии кластеров Получение искомого файла 16 /

Имплементация: 17 / 24 Имплементация: 17 /

Визуальный интерфейс 18/ 24 Визуальный интерфейс 18/

Поисковый запрос 19 / 24 Поисковый запрос 19 /

Расширение поискового запроса 20 /

Экран настроек 21 / 24 Экран настроек 21 /

Анализ эффективности: Объем выборки Средняя загрузка оперативной памяти Максимальная загрузка оперативной памяти Среднее время кластеризации Среднее время иерархической кластеризации Среднее время поиска с ранжированием 400 мб 1, 5 гб 7 мс 18 мс 21 гб 19 мс 23 мс 22 /

Сравнительная характеристика алгоритмов поиска 23 /

Выводы Недостатки Достоинства. Холодный старт Распределенная хранение структуры Точный Быстрый Необходимость хранения структуры сети Необходимость иметь права администратора Привязка к Windows