Отчет по научной практике на тему:

Скачать презентацию Отчет по научной практике на тему: Скачать презентацию Отчет по научной практике на тему:

Отчет о научной практике-1.ppt

  • Количество слайдов: 25

> Отчет по научной практике на тему:  «Кластеризация естественно- языковых текстов  Отчет по научной практике на тему: «Кластеризация естественно- языковых текстов на основе АФП» Студенты: Окунев П. Асатрян А. Васюкова С. Научный руководитель: Кузнецов С. О. Москва, 2011

>Содержание:  Краткий обзор 1. Работа с данными:  o  1. 1. Задача Содержание: Краткий обзор 1. Работа с данными: o 1. 1. Задача поиска (настройка, доработка nutch, пример, результаты) o 1. 2. Извлечение данных (результаты) o 1. 3. Обработка полученных данных 2. Создание контекстов и построение формальных понятий o 2. 1. Создание контекстов и построение формальных понятий – результаты o 2. 2. Отбор релевантных понятий o 2. 3. Поиск оптимальной комбинации критериев o 2. 3. 1. Результаты экспериментов o 2. 4. Поиск оптимальной комбинации критериев o 2. 4. 1. Результаты экспериментов 3. Заключение 2

>Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе которых были построены бинарные контексты. Была разработана программа, позволяющая строить бинарные контексты, решетки понятий и фильтровать понятия с помощью специализированных индексов. Также были проведены экспериментальные исследования по отбору наиболее релевантных понятий с целью окончательного выделения кластеров текстов. Результатом работы стала технология кластеризации естественно-языковых текстов основана на анализе и выделении релевантных понятий, которые будут образовать кластеры текстов. 3

>1. 1. Задача поиска  Реализация информационного поиска по  экономическим факторам с использованием 1. 1. Задача поиска Реализация информационного поиска по экономическим факторам с использованием синонимов 4

>1. 1. Задача поиска - настройка  - использовались открытые библиотеки  nutch и 1. 1. Задача поиска - настройка - использовались открытые библиотеки nutch и lucene - добавлен стемминг и стоп-слова для русского языка 5

>1. 1. Задача поиска – доработка nutch  - словарь синонимов составлялся вручную 1. 1. Задача поиска – доработка nutch - словарь синонимов составлялся вручную - добавлена возможность искать с использованием предопределенного словаря синонимов, с учетом близости синонимов 6

>1. 1. Задача поиска – пример  запись в словаре: margin call; продажа без 1. 1. Задача поиска – пример запись в словаре: margin call; продажа без покрытия: 0. 9; короткая позиция: 0. 7 запрос: Газпром margin call сгенерированные запросы: "Газпром продажа без покрытия": 0. 9, "Газпром короткая позиция": 0. 7 результаты поиска объединяются и ранжируются с учетом коэффициентов похожести 7

>1. 1. Задача поиска – результаты   - точность поиска осталась на том 1. 1. Задача поиска – результаты - точность поиска осталась на том же уровне или немного снизилась - полнота значительно увеличилась 8

>1. 2. Извлечение данных   Исходные данные: doc файлы со ссылками  1. 2. Извлечение данных Исходные данные: doc файлы со ссылками на документы 9

>1. 2. Извлечение данных  - были выделены ссылки на документы из  файлов 1. 2. Извлечение данных - были выделены ссылки на документы из файлов - nutch прошел по ссылкам, скачал документы и выделил их текстовое содержание - тексты документов были сохранены в отдельных файлах для последующей обработки 10

>1. 2. Извлечение данных - результаты  - примерно 1900   - удалось 1. 2. Извлечение данных - результаты - примерно 1900 - удалось пунктов в начальном выделить и документе скачать ~ 1500 причины: дублирование ссылок некоторые документы были недоступны 11

>1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы, 1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы, структуры файла и прочего «шума» Несодержательная информация из документов была удалена без использования программных средств. От каждого файла осталось около 40%. Некоторые файлы были удалены После обработки осталось ~ 1400 12

>2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки 2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки текстовых файлов: - удаление стоп-слов С использованием статистической меры веса терма TF-IDF - выделение ключевых слов Количество ключевых слов задается пользователем с клавиатуры - на основе полученного контекста строится набор Контекст - бинарная формальных понятий таблица (объекты - файлы, признаки - ключевые слова 13

>2. 1. Создание контекстов и построение формальных понятий - результаты  - обработано 2. 1. Создание контекстов и построение формальных понятий - результаты - обработано - построено порядка 8000 формальных порядка 78 000 слов понятий Размер контекста (при выборе 20 ключевых слов)- 1437 x 17992. Размер решетки ФП- 7987 узлов Недостатки: - количество ФП экспоненциально зависит от размера контекста - многие ФП являются результатами «шума» в данных 14

>2. 2. Отбор релевантных понятий      Критерии отбора:  индекс 2. 2. Отбор релевантных понятий Критерии отбора: индекс вероятность связность устойчивости отделимости ФП содержания показывает, определяет оценивает отношение вероятность МО мощности объема насколько объем насколько ФП возникновения ФП с ФП зависит от отделимо от понятия и реальной тем же содержанием в мощности объема признаков его остального случайном контексте понятия (признаки при специальных содержания: контекста: условиях. Не является вз. независимы): самостоятельным критерием 15

>2. 3. Поиск оптимальной комбинации критериев  сначала понятия были отфильтрованы по  2. 3. Поиск оптимальной комбинации критериев сначала понятия были отфильтрованы по мощности объема и содержания Не менее 5 текстов с не менее 2 ключевыми словами - от 7987 осталось только 415 ФП 16

>2. 3. Поиск оптимальной комбинации критериев   Оставшиесяпонятия упорядочены по   значению 2. 3. Поиск оптимальной комбинации критериев Оставшиесяпонятия упорядочены по значению агрегированного индекса: index = stability + 0, 7*separation + 0, 5*coherence 17

>2. 3. 1. Результаты экспериментов Решетка (по 30     секьюритизации’ , 2. 3. 1. Результаты экспериментов Решетка (по 30 секьюритизации’ , наиболее релевантным Выделены ‘ипотечных’, ‘кредитов’ – 11 понятиям): понятия: текстов ‘производительности’, ‘ труда’ – 23 текста ‘‘направлению’, ‘фцп’, ‘предусмотрено’, ‘наименование’, ‘федерального’ – 52 текста … 18

>2. 3. 1. Результаты экспериментов Решетка (по 50     Выделены 2. 3. 1. Результаты экспериментов Решетка (по 50 Выделены ‘акций’, ‘пакет’ – 8 текстов наиболее релевантным понятия: понятиям): ‘себестоимость’, ‘продукции’ – 7 текстов ‘автоматизации’, ‘управления’ – 8 текстов ‘инфляции’, ‘цен’ – 16 текстов ‘company’, ‘sold’ – 7 текстов … 19

>2. 4. Поиск оптимальной комбинации критериев  понятия были отфильтрованы по мощности  2. 4. Поиск оптимальной комбинации критериев понятия были отфильтрованы по мощности объема и содержания Не менее 10 текстов с не менее 1 ключевым словом - от 7987 осталось только 283 ФП 20

>2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным 2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным более общую структуру понятиям): контекста, но многие понятия оказываются однопризнаковыми. Требуется более качественное формирование множества признаков, чтобы признаки представляли собой информативные для исследователя слова 21

>3. Заключение Предложенная технология позволяет в  автоматическом режиме обрабатывать любое  количество файлов 3. Заключение Предложенная технология позволяет в автоматическом режиме обрабатывать любое количество файлов с текстами и строить на их основе решетки ФП. И, с помощью линейной комбинации критериев отбора ФПвыделять наиболее релевантные понятия, которые впоследствии образуют кластеры текстов. 22

>Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления предприятиями и отраслями экономики современной России В рамках данного проекта нами были составлены тезаурусы по тематикам «Аукционер» на русском языке и «Фьючерсы» на английском языке.

> Создание тезаурусов      Совет директоров   Анализ таблиц, Создание тезаурусов Совет директоров Анализ таблиц, полученных с помощью программы Meud, дали следующие результаты: Аукционер Зарегистриро- Совет Коммандитное Совладелец Инсайдер Бенефициар ванный Розничный директоров общество акционерного акционер общества Акционерное Коммандитное Миноритарный общество

>Спасибо за внимание! Спасибо за внимание!