Отчет по научной практике на тему:

Содержание: Краткий обзор 1. Работа с данными: o 1. 1. Задача

Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе

1. 1. Задача поиска Реализация информационного поиска по экономическим факторам с использованием

1. 1. Задача поиска - настройка - использовались открытые библиотеки nutch и

1. 1. Задача поиска – доработка nutch - словарь синонимов составлялся вручную

1. 1. Задача поиска – пример запись в словаре: margin call; продажа без

1. 1. Задача поиска – результаты - точность поиска осталась на том

1. 2. Извлечение данных Исходные данные: doc файлы со ссылками

1. 2. Извлечение данных - были выделены ссылки на документы из файлов

1. 2. Извлечение данных - результаты - примерно 1900 - удалось

1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы,

2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки

2. 1. Создание контекстов и построение формальных понятий - результаты - обработано

2. 2. Отбор релевантных понятий Критерии отбора: индекс

2. 3. Поиск оптимальной комбинации критериев сначала понятия были отфильтрованы по

2. 3. Поиск оптимальной комбинации критериев Оставшиесяпонятия упорядочены по значению

2. 3. 1. Результаты экспериментов Решетка (по 30 секьюритизации’ ,

2. 3. 1. Результаты экспериментов Решетка (по 50 Выделены

2. 4. Поиск оптимальной комбинации критериев понятия были отфильтрованы по мощности

2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным

3. Заключение Предложенная технология позволяет в автоматическом режиме обрабатывать любое количество файлов

Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления

Создание тезаурусов Совет директоров Анализ таблиц,

Скачать презентацию Отчет по научной практике на тему:

Отчет о научной практике-1.ppt

Количество слайдов: 25

> Отчет по научной практике на тему: «Кластеризация естественно- языковых текстов Отчет по научной практике на тему: «Кластеризация естественно- языковых текстов на основе АФП» Студенты: Окунев П. Асатрян А. Васюкова С. Научный руководитель: Кузнецов С. О. Москва, 2011

>Содержание: Краткий обзор 1. Работа с данными: o 1. 1. Задача Содержание: Краткий обзор 1. Работа с данными: o 1. 1. Задача поиска (настройка, доработка nutch, пример, результаты) o 1. 2. Извлечение данных (результаты) o 1. 3. Обработка полученных данных 2. Создание контекстов и построение формальных понятий o 2. 1. Создание контекстов и построение формальных понятий – результаты o 2. 2. Отбор релевантных понятий o 2. 3. Поиск оптимальной комбинации критериев o 2. 3. 1. Результаты экспериментов o 2. 4. Поиск оптимальной комбинации критериев o 2. 4. 1. Результаты экспериментов 3. Заключение 2

>Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе Краткий обзор: Были обработаны ссылки, указанные в документах Авикомп и выделены тексты, на основе которых были построены бинарные контексты. Была разработана программа, позволяющая строить бинарные контексты, решетки понятий и фильтровать понятия с помощью специализированных индексов. Также были проведены экспериментальные исследования по отбору наиболее релевантных понятий с целью окончательного выделения кластеров текстов. Результатом работы стала технология кластеризации естественно-языковых текстов основана на анализе и выделении релевантных понятий, которые будут образовать кластеры текстов. 3

>1. 1. Задача поиска Реализация информационного поиска по экономическим факторам с использованием 1. 1. Задача поиска Реализация информационного поиска по экономическим факторам с использованием синонимов 4

>1. 1. Задача поиска - настройка - использовались открытые библиотеки nutch и 1. 1. Задача поиска - настройка - использовались открытые библиотеки nutch и lucene - добавлен стемминг и стоп-слова для русского языка 5

>1. 1. Задача поиска – доработка nutch - словарь синонимов составлялся вручную 1. 1. Задача поиска – доработка nutch - словарь синонимов составлялся вручную - добавлена возможность искать с использованием предопределенного словаря синонимов, с учетом близости синонимов 6

>1. 1. Задача поиска – пример запись в словаре: margin call; продажа без 1. 1. Задача поиска – пример запись в словаре: margin call; продажа без покрытия: 0. 9; короткая позиция: 0. 7 запрос: Газпром margin call сгенерированные запросы: "Газпром продажа без покрытия": 0. 9, "Газпром короткая позиция": 0. 7 результаты поиска объединяются и ранжируются с учетом коэффициентов похожести 7

>1. 1. Задача поиска – результаты - точность поиска осталась на том 1. 1. Задача поиска – результаты - точность поиска осталась на том же уровне или немного снизилась - полнота значительно увеличилась 8

>1. 2. Извлечение данных Исходные данные: doc файлы со ссылками 1. 2. Извлечение данных Исходные данные: doc файлы со ссылками на документы 9

>1. 2. Извлечение данных - были выделены ссылки на документы из файлов 1. 2. Извлечение данных - были выделены ссылки на документы из файлов - nutch прошел по ссылкам, скачал документы и выделил их текстовое содержание - тексты документов были сохранены в отдельных файлах для последующей обработки 10

>1. 2. Извлечение данных - результаты - примерно 1900 - удалось 1. 2. Извлечение данных - результаты - примерно 1900 - удалось пунктов в начальном выделить и документе скачать ~ 1500 причины: дублирование ссылок некоторые документы были недоступны 11

>1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы, 1. 3. Окончательная обработка данных Полученные таким образом документы требовали дополнительной обработки от рекламы, структуры файла и прочего «шума» Несодержательная информация из документов была удалена без использования программных средств. От каждого файла осталось около 40%. Некоторые файлы были удалены После обработки осталось ~ 1400 12

>2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки 2. 1. Создание контекстов и построение формальных понятий была разработана программа Meud для обработки текстовых файлов: - удаление стоп-слов С использованием статистической меры веса терма TF-IDF - выделение ключевых слов Количество ключевых слов задается пользователем с клавиатуры - на основе полученного контекста строится набор Контекст - бинарная формальных понятий таблица (объекты - файлы, признаки - ключевые слова 13

>2. 1. Создание контекстов и построение формальных понятий - результаты - обработано 2. 1. Создание контекстов и построение формальных понятий - результаты - обработано - построено порядка 8000 формальных порядка 78 000 слов понятий Размер контекста (при выборе 20 ключевых слов)- 1437 x 17992. Размер решетки ФП- 7987 узлов Недостатки: - количество ФП экспоненциально зависит от размера контекста - многие ФП являются результатами «шума» в данных 14

>2. 2. Отбор релевантных понятий Критерии отбора: индекс 2. 2. Отбор релевантных понятий Критерии отбора: индекс вероятность связность устойчивости отделимости ФП содержания показывает, определяет оценивает отношение вероятность МО мощности объема насколько объем насколько ФП возникновения ФП с ФП зависит от отделимо от понятия и реальной тем же содержанием в мощности объема признаков его остального случайном контексте понятия (признаки при специальных содержания: контекста: условиях. Не является вз. независимы): самостоятельным критерием 15

>2. 3. Поиск оптимальной комбинации критериев сначала понятия были отфильтрованы по 2. 3. Поиск оптимальной комбинации критериев сначала понятия были отфильтрованы по мощности объема и содержания Не менее 5 текстов с не менее 2 ключевыми словами - от 7987 осталось только 415 ФП 16

>2. 3. Поиск оптимальной комбинации критериев Оставшиесяпонятия упорядочены по значению 2. 3. Поиск оптимальной комбинации критериев Оставшиесяпонятия упорядочены по значению агрегированного индекса: index = stability + 0, 7*separation + 0, 5*coherence 17

>2. 3. 1. Результаты экспериментов Решетка (по 30 секьюритизации’ , 2. 3. 1. Результаты экспериментов Решетка (по 30 секьюритизации’ , наиболее релевантным Выделены ‘ипотечных’, ‘кредитов’ – 11 понятиям): понятия: текстов ‘производительности’, ‘ труда’ – 23 текста ‘‘направлению’, ‘фцп’, ‘предусмотрено’, ‘наименование’, ‘федерального’ – 52 текста … 18

>2. 3. 1. Результаты экспериментов Решетка (по 50 Выделены 2. 3. 1. Результаты экспериментов Решетка (по 50 Выделены ‘акций’, ‘пакет’ – 8 текстов наиболее релевантным понятия: понятиям): ‘себестоимость’, ‘продукции’ – 7 текстов ‘автоматизации’, ‘управления’ – 8 текстов ‘инфляции’, ‘цен’ – 16 текстов ‘company’, ‘sold’ – 7 текстов … 19

>2. 4. Поиск оптимальной комбинации критериев понятия были отфильтрованы по мощности 2. 4. Поиск оптимальной комбинации критериев понятия были отфильтрованы по мощности объема и содержания Не менее 10 текстов с не менее 1 ключевым словом - от 7987 осталось только 283 ФП 20

>2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным 2. 4. 1. Результаты экспериментов Решетка (по 30 Такой подход позволяет увидеть наиболее релевантным более общую структуру понятиям): контекста, но многие понятия оказываются однопризнаковыми. Требуется более качественное формирование множества признаков, чтобы признаки представляли собой информативные для исследователя слова 21

>3. Заключение Предложенная технология позволяет в автоматическом режиме обрабатывать любое количество файлов 3. Заключение Предложенная технология позволяет в автоматическом режиме обрабатывать любое количество файлов с текстами и строить на их основе решетки ФП. И, с помощью линейной комбинации критериев отбора ФПвыделять наиболее релевантные понятия, которые впоследствии образуют кластеры текстов. 22

>Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления Создание тезаурусов Цель проекта: Создание высокотехнологичного производства инновационных программно- аппаратных комплексов для эффективного управления предприятиями и отраслями экономики современной России В рамках данного проекта нами были составлены тезаурусы по тематикам «Аукционер» на русском языке и «Фьючерсы» на английском языке.

> Создание тезаурусов Совет директоров Анализ таблиц, Создание тезаурусов Совет директоров Анализ таблиц, полученных с помощью программы Meud, дали следующие результаты: Аукционер Зарегистриро- Совет Коммандитное Совладелец Инсайдер Бенефициар ванный Розничный директоров общество акционерного акционер общества Акционерное Коммандитное Миноритарный общество

>Спасибо за внимание! Спасибо за внимание!