Отчет по научной практике на тему:

























Отчет о научной практике-1.ppt
- Количество слайдов: 25
Отчет по научной практике на тему: «Кластеризация естественно- языковых текстов на основе АФП» Студенты: Окунев П. Асатрян А. Васюкова С. Научный руководитель: Кузнецов С. О. Москва, 2011
Содержание: Краткий обзор 1. Работа с данными: o 1. 1. Задача поиска (настройка, доработка nutch, пример, результаты) o 1. 2. Извлечение данных (результаты) o 1. 3. Обработка полученных данных 2. Создание контекстов и построение формальных понятий o 2. 1. Создание контекстов и построение формальных понятий – результаты o 2. 2. Отбор релевантных понятий o 2. 3. Поиск оптимальной комбинации критериев o 2. 3. 1. Результаты экспериментов o 2. 4. Поиск оптимальной комбинации критериев o 2. 4. 1. Результаты экспериментов 3. Заключение 2
Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе которых были построены бинарные контексты. Была разработана программа, позволяющая строить бинарные контексты, решетки понятий и фильтровать понятия с помощью специализированных индексов. Также были проведены экспериментальные исследования по отбору наиболее релевантных понятий с целью окончательного выделения кластеров текстов. Результатом работы стала технология кластеризации естественно-языковых текстов основана на анализе и выделении релевантных понятий, которые будут образовать кластеры текстов. 3
1. 1. Задача поиска Реализация информационного поиска по экономическим факторам с использованием синонимов 4
1. 1. Задача поиска - настройка - использовались открытые библиотеки nutch и lucene - добавлен стемминг и стоп-слова для русского языка 5
1. 1. Задача поиска – доработка nutch - словарь синонимов составлялся вручную - добавлена возможность искать с использованием предопределенного словаря синонимов, с учетом близости синонимов 6
1. 1. Задача поиска – пример запись в словаре: margin call; продажа без покрытия: 0. 9; короткая позиция: 0. 7 запрос: Газпром margin call сгенерированные запросы: "Газпром продажа без покрытия": 0. 9, "Газпром короткая позиция": 0. 7 результаты поиска объединяются и ранжируются с учетом коэффициентов похожести 7
1. 1. Задача поиска – результаты - точность поиска осталась на том же уровне или немного снизилась - полнота значительно увеличилась 8
1. 2. Извлечение данных Исходные данные: doc файлы со ссылками на документы 9
1. 2. Извлечение данных - были выделены ссылки на документы из файлов - nutch прошел по ссылкам, скачал документы и выделил их текстовое содержание - тексты документов были сохранены в отдельных файлах для последующей обработки 10
1. 2. Извлечение данных - результаты - примерно 1900 - удалось пунктов в начальном выделить и документе скачать ~ 1500 причины: дублирование ссылок некоторые документы были недоступны 11
1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы, структуры файла и прочего «шума» Несодержательная информация из документов была удалена без использования программных средств. От каждого файла осталось около 40%. Некоторые файлы были удалены После обработки осталось ~ 1400 12
2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки текстовых файлов: - удаление стоп-слов С использованием статистической меры веса терма TF-IDF - выделение ключевых слов Количество ключевых слов задается пользователем с клавиатуры - на основе полученного контекста строится набор Контекст - бинарная формальных понятий таблица (объекты - файлы, признаки - ключевые слова 13
2. 1. Создание контекстов и построение формальных понятий - результаты - обработано - построено порядка 8000 формальных порядка 78 000 слов понятий Размер контекста (при выборе 20 ключевых слов)- 1437 x 17992. Размер решетки ФП- 7987 узлов Недостатки: - количество ФП экспоненциально зависит от размера контекста - многие ФП являются результатами «шума» в данных 14
2. 2. Отбор релевантных понятий Критерии отбора: индекс вероятность связность устойчивости отделимости ФП содержания показывает, определяет оценивает отношение вероятность МО мощности объема насколько объем насколько ФП возникновения ФП с ФП зависит от отделимо от понятия и реальной тем же содержанием в мощности объема признаков его остального случайном контексте понятия (признаки при специальных содержания: контекста: условиях. Не является вз. независимы): самостоятельным критерием 15
2. 3. Поиск оптимальной комбинации критериев сначала понятия были отфильтрованы по мощности объема и содержания Не менее 5 текстов с не менее 2 ключевыми словами - от 7987 осталось только 415 ФП 16
2. 3. Поиск оптимальной комбинации критериев Оставшиесяпонятия упорядочены по значению агрегированного индекса: index = stability + 0, 7*separation + 0, 5*coherence 17
2. 3. 1. Результаты экспериментов Решетка (по 30 секьюритизации’ , наиболее релевантным Выделены ‘ипотечных’, ‘кредитов’ – 11 понятиям): понятия: текстов ‘производительности’, ‘ труда’ – 23 текста ‘‘направлению’, ‘фцп’, ‘предусмотрено’, ‘наименование’, ‘федерального’ – 52 текста … 18
2. 3. 1. Результаты экспериментов Решетка (по 50 Выделены ‘акций’, ‘пакет’ – 8 текстов наиболее релевантным понятия: понятиям): ‘себестоимость’, ‘продукции’ – 7 текстов ‘автоматизации’, ‘управления’ – 8 текстов ‘инфляции’, ‘цен’ – 16 текстов ‘company’, ‘sold’ – 7 текстов … 19
2. 4. Поиск оптимальной комбинации критериев понятия были отфильтрованы по мощности объема и содержания Не менее 10 текстов с не менее 1 ключевым словом - от 7987 осталось только 283 ФП 20
2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным более общую структуру понятиям): контекста, но многие понятия оказываются однопризнаковыми. Требуется более качественное формирование множества признаков, чтобы признаки представляли собой информативные для исследователя слова 21
3. Заключение Предложенная технология позволяет в автоматическом режиме обрабатывать любое количество файлов с текстами и строить на их основе решетки ФП. И, с помощью линейной комбинации критериев отбора ФПвыделять наиболее релевантные понятия, которые впоследствии образуют кластеры текстов. 22
Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления предприятиями и отраслями экономики современной России В рамках данного проекта нами были составлены тезаурусы по тематикам «Аукционер» на русском языке и «Фьючерсы» на английском языке.
Создание тезаурусов Совет директоров Анализ таблиц, полученных с помощью программы Meud, дали следующие результаты: Аукционер Зарегистриро- Совет Коммандитное Совладелец Инсайдер Бенефициар ванный Розничный директоров общество акционерного акционер общества Акционерное Коммандитное Миноритарный общество
Спасибо за внимание!

