
5ebd2f4cb5728a0d6ef9f432a663549f.ppt
- Количество слайдов: 15
Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков { alexa, baglei, meshkov, } @ galaktika. ru
Особенности поиска информации • Пользователю сложно взаимодействовать с поисковой системой Пример реального запроса пользователя: “Сергей Иванов” и не (оборона или Путин или список или эстонский) не "Оренбурггазпром" и не “волгоградская епархия” и не "Минобороны" и не "газовик" не “наш конкурс” и не “наш приз” и не "матч" и не “правильный ответ” не "кардиология" и не “сердце" не “счетная палата” и не "Севастополь" и не "севастопольский" не "шк" и не "гонщик" и “гонка” и не “Русский банк” и не "интернешнл" и не "ВИ"// не “русские бабки” и не"РЖД” • Результаты, выдаваемые по запросу, избыточны
Средства понижения информационной избыточности • Совершенствование алгоритмов поиска • Автоматическое структурирование результатов поиска Кластеризация и классификация результатов поиска
Преимущества системы Галактика-Zoom с точки зрения организации работы алгоритма Использование технологии Информационного Портрета системы Галактика-Zoom позволяет: • Получить величины относительной значимости признаков для документа; • Упорядочить признаки документа по принципу их относительной значимости в выборке.
Инфо. Портрет в системе Галактика-Zoom Инфо. Портрет – множество значимых слов и словосочетаний, которое составляет пространство признаков. Координатами точки являются величины значимости каждого элемента Инфо. Портрета для данного документа: вклад признака в близость Инфо. Портретов. Величина значимости признака задается формулой: x • = M • x D • x f • , где: M • - основная составляющая вклада признака в близость Инфо. Портретов; D • - невязка близости Инфо. Портретов; f • - фильтрующий множитель.
Алгоритм построения подмножеств похожих документов: Шаг 1 Инициализация: построение ИП каждого документа из множества Dl с сохранением в двоичном формате. Формирование и сохранение вектора S 1. Документы, у которых отсутствуют ИП, добавляются в список U 0.
Алгоритм построения подмножеств похожих документов: Шаг 2 Множество Dl разбивается на два непересекающихся подмножества: Dl+ - документы, размер ИП которых не меньше наибольшего размера ИП в векторе и Dl- - документы с меньшими размерами.
Алгоритм построения подмножеств похожих документов: Шаг 3 • Если подмножество Dl+ не пустое, то формирование вектора Sw из документов множества Dl+ , центроидов из подмножеств C похожих документов и из списка U уникальных документов. Применение алгоритма ППД к документам из множества Dl+ как возможным новым центроидам. Если центроид из C приписывается к новому подмножеству, то для всех документов похожих на него пересчитывается мера близости относительно нового центроида.
Алгоритм построения подмножеств похожих документов: Шаг 4 • Если остались уникальные документы из подмножества Dl+ или подмножество Dl- – не пустое, то формирование вектора Sw из уникальных документов подмножеств Dl+ , Dl -, и центроидов подмножеств похожих документов. Применение алгоритма ППД к уникальным документам из подмножества Dl+ и центроидам с возможным пополнением их новыми документами из Dl-.
Алгоритм построения подмножеств похожих документов: Шаг 5 Если после выполнения шагов 3 и 4 остались уникальные документы из множества Dl, то формирование вектора из всех оставшихся уникальных документов. Применение алгоритма ППД к каждому уникальному документу из множества Dl.
Результат работы алгоритма • Набор подмножеств похожих документов Сl • Список уникальных документов Ul
Экспериментальная проверка: основные характеристики базы Параметр Количество Документов в базе 5000 63100 2008235 13621 172383 Слов в базе Словомест в базе Словосочетаний в базе Мест словосочетаний в базе
Экспериментальная проверка: характеристики результатов Параметр Количество подмножеств похожих документов 31 Количество документов в выборке 523 Количество документов, включенных в подмножества 426 (82%) Количество документов, общих для подмножеств 0 Минимальное число документов в подмножестве 3 Максимальное число документов в подмножестве 21 Минимальное число объектов в подмножестве 3 Максимальное число объектов в подмножестве 10
Результаты применения алгоритма • Обеспечена возможность разбиения множества документов на подмножества похожих • Получены приемлемые параметры точности и полноты разбиения
Спасибо за внимание