Использование корпусов Основные направления Лингвистическое исследование

Скачать презентацию Использование корпусов Основные направления Лингвистическое исследование Скачать презентацию Использование корпусов Основные направления Лингвистическое исследование

53ac93634b4fe7a5b36eb5b3ad9cb572.ppt

  • Количество слайдов: 63

Использование корпусов Использование корпусов

Основные направления • Лингвистическое исследование языка: –в статике (определенный момент, определенный срез): • частотность, Основные направления • Лингвистическое исследование языка: –в статике (определенный момент, определенный срез): • частотность, словарный запас, синтаксис, семантика и т. п. • изучение грамматического строя языка • выведение правил использования слов и выражений • уточнение словоупотреблений и т. п. –в динамике (на протяжении определенного времени): • отмирание и появление словоупотреблений • изменение частотности, синтаксических конструкций и т. п. • Создание академических словарей и грамматических справочников

Основные направления • Лингвистическая верификация текстов: –подлинность авторства – лингвистика ( «первый» вариант «Война Основные направления • Лингвистическая верификация текстов: –подлинность авторства – лингвистика ( «первый» вариант «Война и мир» , М. Горький - «вплоть к» ), криминалистика –соответствие эпохе – словоупотребления (по сравнению - в сравнении, между домов – между домами, кофе – кофий), письма декабриста Корниловича (мама - maman, матушка), дневник Пущина ( «одеть шарф» – 1812 г. , впервые – 1847 г. , П. В. Анненков) • Обучение языку: – подготовка преподавателей к занятиям (примеры) – методическое обеспечение процесса обучения (задания) • Перевод: – определение значений слов и идиоматических выражений – изучение полисемии слов и грамматических форм – накопление баз для систем машинного перевода

Эффективность использования корпусов при изучении языков • Вовлечение в исследовательскую работу: – инициализация творческих Эффективность использования корпусов при изучении языков • Вовлечение в исследовательскую работу: – инициализация творческих способностей – сопричастность к «созданию» языковых правил и закономерностей – привитие навыков самостоятельной работы – повышение интереса к обучению • Формирование лексико-грамматических навыков: – активизация речемыслительной деятельности – ускоренное формирование языковых навыков – ускоренное развитие речевых умений – улучшенное усвоение и запоминание материала

Поисковая система • Операции над конкордансным списком: – – – сортировка по ключевым словам, Поисковая система • Операции над конкордансным списком: – – – сортировка по ключевым словам, контексту интерактивное неограниченное расширение контекста фильтрация (удаление части построенных конкордансов) удаление повторений сохранение списков в файл печать списков • Частотное распределение: – частоты слов и других атрибутов в корпусе, контексте – неограниченное число уровней группировки • Другие особенности: – – выбор кодировок создание пользовательских подкорпусов произвольный набор тэгов возможность подключения других языков

Поисковая система • Неотъемлемой частью понятия «корпус текстов» является корпусный менеджер – специализированная поисковая Поисковая система • Неотъемлемой частью понятия «корпус текстов» является корпусный менеджер – специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. • Корпусный менеджер должен: • строить как KWIC (Key Word In Context), так и полные конкордансные списки; • искать контексты не только по отдельным словам, но и по словосочетаниям; • осуществлять поиск по шаблонам (сложные запросы); • сортировать полученные списки по нескольким критериям, выбираемым пользователем;

Поисковая система • давать возможность отображать найденные словоформы в широком контексте; • давать статистическую Поисковая система • давать возможность отображать найденные словоформы в широком контексте; • давать статистическую информацию по отдельным элементам корпуса; • отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса; • сохранять и распечатывать результаты; • работать как с корпусами (неограниченными по размеру), так и с подкорпусами; • поддерживать различные форматы текстовых данных (txt, doc, rtf, html, xml и др. ); • быть легким (интуитивно понятным) в использовании, как для опытного, так и для начинающего пользователя.

Поисковая система Корпусный менеджер (корпус-менеджер) – специализированная система, включающая программные средства для поиска данных Поисковая система Корпусный менеджер (корпус-менеджер) – специализированная система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме: Яndex. Server, Bonito, SARA, XAIRA (BNC), CQP, DDC Основные требования: –строить как KWIC, так и полные конкордансные списки –искать не только отдельные слова, но и словосочетания –осуществлять поиск по шаблонам (сложные запросы) –сортировать списки по нескольким критериям –отображать найденные словоформы в неограниченном контексте –давать статистическую информацию по отдельным элементам корпуса

Запросы. Создание • Ввод в специальное окно запросов с учетом правил языка запросов системы Запросы. Создание • Ввод в специальное окно запросов с учетом правил языка запросов системы – типы запросов: – Положительный фильтр (P-filter) – в конкордансном списке выдаются совпадающие с запросом строки – Отрицательный фильтр (N-filter) – совпадающие с запросом строки удаляются из конкордансного списка – Словосочетания (Collocations) – удовлетворяющие запросу позиции (конкретная словоформа на заданном интервале) в конкордансе выделяются цветом • Использование шаблона сложного запроса (готовый или созданный пользователем, в котором имеются переменные) – подставляют конкретные значения

Поисковая система –отображать леммы, морфологические характеристики словоформ, метаданные –сохранять и распечатывать результаты –работать как Поисковая система –отображать леммы, морфологические характеристики словоформ, метаданные –сохранять и распечатывать результаты –работать как с отдельными файлами, так и с корпусами –поддерживать различные форматы текстовых данных –быть легким (интуитивно понятным) в использовании Язык запросов обеспечивает: – поиск отдельных атрибутов (словоформа, лемма, тэг) – использование регулярных выражений * и ? – возможность применения логических операторов – средства задания структуры (границы предлож. и др. ) – быстрая обработка сложных запросов – использование шаблонов Конкордансные списки: – история запросов пользователя – просмотр морфологических характеристик словоформ – отображение леммы

Корпусный менеджер Bonito • Корпусный менеджер Bonito представляет собой программное обеспечение для работы с Корпусный менеджер Bonito • Корпусный менеджер Bonito представляет собой программное обеспечение для работы с корпусами текстов. • Язык запросов • поиск отдельных атрибутов (словоформа, лемма, тэг); • использование регулярных выражений; • логические операторы; • средства задания структуры (границы предложения и др. ); • быстрая обработка сложных запросов; • шаблоны.

Корпусный менеджер Bonito Конкордансные списки • история запросов пользователя; • просмотр морфологических характеристик словоформы; Корпусный менеджер Bonito Конкордансные списки • история запросов пользователя; • просмотр морфологических характеристик словоформы; • отображение леммы. Операции над конкордансом • сохранение списков в файл; • печать списков; • сортировка по ключевым словам, контексту; • интерактивное неограниченное расширение контекста; • фильтрация (удаление части построенных конкордансов); • удаление повторений.

Корпусный менеджер Bonito Окно запросов: конкорданс словоформы justice Корпусный менеджер Bonito Окно запросов: конкорданс словоформы justice

Корпусный менеджер Bonito Использование шаблона запроса Шаблон – это вид запроса, который упрощает ввод Корпусный менеджер Bonito Использование шаблона запроса Шаблон – это вид запроса, который упрощает ввод однотипных запросов. Это означает, что сложный запрос необходимо создать только один раз и сохранить как шаблон, а затем просто вводить значения для данного шаблона. Когда шаблон активизируется, он автоматически записывается в окно запроса. Шаблон всех словоформ правильного английского глагола (regular verb): [word="$1" | word="$1 s" | word="$1 ed" | word="$1 ing"] где: $1 – переменная Строка запроса для всех форм глагола "play”: !regular verb: play где: ! – признак использования шаблона regular verb – название шаблона : – разделитель play – значение переменной (параметр запроса)

Использование шаблона запроса Отличие от обычного запроса состоит лишь в следующем: первый знак строки Использование шаблона запроса Отличие от обычного запроса состоит лишь в следующем: первый знак строки – это восклицательный знак (!), далее идет имя шаблона, двоеточие (: ) и параметры, разделяемые пробелами. Пример. Поиск конкретной словоформы: В окно запроса вводится словоформа "run". • Выдается: announced that he would not for reelection . Georgia • medical benefits paid out would 1 billion or more in the • May , said today Jones will well ahead of his GOP opponents • reports that he had decided to and wanted Mr. Screvane , • investigation Street car tracks down the center of Pennsylvania Система ищет полное соответствие запрашиваемому слову и выдает результат.

Результаты поиска • Результаты поиска (выдача) в корпусных менеджерах обычно представлены в виде конкорданса. Результаты поиска • Результаты поиска (выдача) в корпусных менеджерах обычно представлены в виде конкорданса. • В корпусной лингвистике – это список всех употреблений заданного в результате поиска языкового выражения (обычно слова) в контексте, возможно, со ссылками на источник. Ниже приведен фрагмент конкорданса KWIC для слова «имение» из текста «Дубровский» А. С. Пушкина. • с в губерниях, где находилось его имение. Соседи рады были угождать мал • грубиян; я хочу взять у него имение, как ты про то думаешь? – Ваше • чтобы безо всякого права отнять имение. • Постой однако ж. Это имение принадлежало

Контекстное окружение Распространенный подход к показу контекстного окружения состоит также в переходе от формы Контекстное окружение Распространенный подход к показу контекстного окружения состоит также в переходе от формы конкорданса к широкому контексту. id=http: //piligrim. iatp. by/article. html title="Мирский замок" уже не существует &; quot; . Последовало еще несколько писем в газету по поводу разрушения замка, и лишь после этого разборка его на кирпич прекратилась. Только через десять лет были, наконец, накрыты четыре башни Мирского замка гонтовыми крышами. Последующие владельцы – радзивилловские отпрыски, породненные с немецкой фамилией Гогенлое-Шиллингфюрст, совершенно не интересовались ни поселком, ни замком, сдавая имение в аренду.

Корпусные менеджеры нелингвистических корпусов (поисковые системы Интернета) • Информационное наполнение сети Интернет (веб-пространство) может Корпусные менеджеры нелингвистических корпусов (поисковые системы Интернета) • Информационное наполнение сети Интернет (веб-пространство) может рассматриваться как огромный многоязычный корпус. • Главный материал лингвистического анализа – язык, зафиксированный в виде речевых произведений, – в Интернете представлен в огромном объеме и разнообразии и непосредственно доступен для машинной обработки. • Этот факт представляет для лингвистов большую ценность, так как перевод текстов в машинную форму и создание корпусов требует больших временных и материальных затрат.

Поисковые системы Интернета • Например, в 2011 г. на сайте http: //corpus. byu. edu Поисковые системы Интернета • Например, в 2011 г. на сайте http: //corpus. byu. edu (Brigham Young University ['brɪgham]) был размещен Google Books (American English) Corpus, объемом 155 млрд слов, основанный на данных Google Books и включающий тексты книг на американском варианте английского языка с 1810 по 2009 гг. • В то же время веб-пространство может рассматриваться и непосредственно как корпус. • ни один корпус не может сравниться по репрезентативности языкового материала с вебом, куда включаются материалы и других Интернетсервисов (например, электронной почты). • При использовании веб-пространства как корпуса роль корпусных менеджеров могут выполнять информационно поисковые системы (ИПС).

Поисковые системы Интернета В составе любой поисковой системы можно выделить три основные части: 1. Поисковые системы Интернета В составе любой поисковой системы можно выделить три основные части: 1. Робот – подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание файла индексной базы данных в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети. 2. Поисковая база данных – так называемый индекс – специальным образом организованная структура данных ( index database), включающая, прежде всего, файл, состоящий из лексических единиц, взятых из проиндексированных веб-документов, и содержащий разнообразную информацию об этих единицах (в частности, их позиции в документах), а также о самих документах и сайтах в целом.

Поисковые системы Интернета 3. Поисковая система – подсистема поиска, обеспечивающая обработку запроса (поискового предписания) Поисковые системы Интернета 3. Поисковая система – подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. • Поисковая система общается с пользователем через пользовательские интерфейсы – экранные формы программ-браузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска. • Фактически индексы поисковых систем – это, по сути, не что иное, как виртуальные конкордансы к текстам.

Поисковые системы Интернета • Более того, результаты поиска в информационных поисковых системах в виде Поисковые системы Интернета • Более того, результаты поиска в информационных поисковых системах в виде кратких описаний документов, как правило, содержат контексты, в которых искомые слова встретились в найденных доку-ментах. • Отличие лишь в том, что конкордансы обычно составляются к конкретному произведению или группе произведений, в то время как информационная поисковая система Интернета индексирует все доступное множество электронных документов.

Поисковые системы Интернета • Главная содержательная проблема при индексировании веб-сайтов заключается в том, какие Поисковые системы Интернета • Главная содержательная проблема при индексировании веб-сайтов заключается в том, какие термины попадают в индекс. Активно применяются списки запрещенных слов (stopwords), которые в индекс не попадают – это служебная лексика (предлоги, союзы и т. д. ) и незначащие слова. • Важно, какую информацию и в каком виде можно извлечь из выходных интерфейсов информационной поисковой системы (ИПС). Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры, как статистика слов из запроса, количество найденных документов, количество найденных сайтов, количество документов на странице с результатами поиска

Поисковые системы Интернета • Может содержать заглавие документа, URL – Universe Resource Locator (адрес Поисковые системы Интернета • Может содержать заглавие документа, URL – Universe Resource Locator (адрес в сети), аннотацию (фрагмент текста с выделенными словами из запроса), указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт • Для задач лингвистического исследования наибольший интерес представляют частотные характеристики и выдача контекста. Следует различать два типа частот, учитываемых и выдаваемых системами – пословную и подокументную.

Способы использования корпусов • Многие лингвисты используют корпус как «банк примеров» , т. е. Способы использования корпусов • Многие лингвисты используют корпус как «банк примеров» , т. е. пытаются найти эмпирическую поддержку для своих гипотез, принципов и правил, над которыми они работают. • Поисковый инструмент обычно дает возможность хорошей выборки в определенном корпусе. • Многие считавшиеся верными на протяжении длительного времени утверждения были опровергнуты корпусными данными. Было, например, опровергнуто утверждение о том, что частицы в немецких глаголах с отделяемыми приставками не могут встречаться в начале предложения.

Статистическая информация Эмпирическая поддержка представляет собой качественный метод использования корпуса, но корпусы также подкрепляют Статистическая информация Эмпирическая поддержка представляет собой качественный метод использования корпуса, но корпусы также подкрепляют ее информацией по частотности для слов, фраз и конструкций, которая может быть использована для разнообразных исследований. Они показывают сходства и различия между разными группами говорящих или между разными типами текстов, обеспечивают данные о частотности лексических единиц и конструкций для психолингвистических исследований и т. д.

Лексикографические исследования необходимы, в первую очередь, для составления словарей, а также для нужд дескриптивной Лексикографические исследования необходимы, в первую очередь, для составления словарей, а также для нужд дескриптивной и прикладной лингвистики • Например, основные типы запросов автора толкового академического словаря русского языка заключаются в необходимости найти следующее: • новое слово по времени его появления, • исходную форму слова; • цитаты к уже известным значениям; • цитаты к тем значениям, которые в словаре не проиллюстрированы цитатами.

Лексикографические исследования • дополнительные новые цитаты к тому или иному значению; • новые типы Лексикографические исследования • дополнительные новые цитаты к тому или иному значению; • новые типы лексической и синтаксической сочетаемости; • новые фразеологизмы; новые современные научные толкования специальных терминов. Выделяется шесть основных вопросов, на основе корпусного подхода: 1. Какие значения ассоциируются с конкретным словом? 2. Какова частотность слова относительно других близких к нему слов? 3. Какие нелингвистические модели имеет данное слово (по отношению к регистрам (жанрам), историческим периодам, диалектам и т. д. )? 4. Какие слова обычно встречаются вместе с данным словом и каково распределение этих сочетаемостных последовательностей в разных регистрах? 5. Как распределены смыслы и типы использования слова? 6. Как используются и по-разному распределяются слова,

Задание 2 • Используя НКРЯ (подкорпус “Устный”) определить онтологию слова «вообще» • Перевести его Задание 2 • Используя НКРЯ (подкорпус “Устный”) определить онтологию слова «вообще» • Перевести его на изучаемый язык • Провести конкордансный поиск во всех найденных ранее корпусах • Перевести найденные фрагменты на русский язык • Проанализировать полученные результаты • Составить отчет и представить преподавателю

Автоматическое извлечение фактов из текста (Information extraction, Fact extraction, Text mining) Автоматическое извлечение фактов из текста (Information extraction, Fact extraction, Text mining)

Автоматическое извлечение фактов из текста Извлечение информации -- (information extraction, fact extraction, text mining Автоматическое извлечение фактов из текста Извлечение информации -- (information extraction, fact extraction, text mining - интеллектуальный анализ текстов) задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов

Автоматическое извлечение фактов из текста Основные цели: – смысловой анализ больших объемов «хаотичной» текстовой Автоматическое извлечение фактов из текста Основные цели: – смысловой анализ больших объемов «хаотичной» текстовой информации с помощью методов обработки данных – выявление логических закономерностей в описанных в тексте событиях, необходимых для принятия решений в различных сферах человеческой деятельности

Автоматическое извлечение фактов из текста. Актуальные направления • Извлечение и структурирование фактографической информации • Автоматическое извлечение фактов из текста. Актуальные направления • Извлечение и структурирование фактографической информации • Мониторинг сообщений СМИ, которые могут представлять интерес (экономический, научный, технико-технологический, военный, коммерческий и т. п. ) • Аналитическая обработка фактов: – построение и динамический анализ семантической структуры – выделение ключевых тем и информационных объектов – определение общей и объектной тональности сообщений – исследование частотных характеристик текстов • Извлечение специфической метаинформации (например, построение реляционной БД с информацией о типах событий, объектах и субъектах по текстовой базе)

Автоматическое извлечение фактов из текста. Актуальные направления • Построение и ведение досье (персоны, организации) Автоматическое извлечение фактов из текста. Актуальные направления • Построение и ведение досье (персоны, организации) из открытых текстовых источников • Тематический анализ документов (кластеризация и рубрицирование) • Поиск информации по запросам на естественном языке с использованием тезаурусов • Направления результатов поиска в специальное хранилище документов • Аннотирование документов, построение дайджестов по объектам

Технология извлечения информации (ТИИ) Основные задачи: • выделение фрагментов текста, содержащих релевантную информацию и Технология извлечения информации (ТИИ) Основные задачи: • выделение фрагментов текста, содержащих релевантную информацию и преобразование их в реляционную форму • перевод базы текстовых фактов к представлению, которое можно использовать как интеллектуальный информационный ресурс - базу текстовых знаний

 • • Технология извлечения информации (ТИИ). Подзадачи Распознавание именованных элементов (сущностей) - имён • • Технология извлечения информации (ТИИ). Подзадачи Распознавание именованных элементов (сущностей) - имён людей, названий, событий, временных и денежных обозначений и пр. Разрешение анафоры (повтор) и кореференций - извлечение объектов и фактов из текста, поиск связей, относящихся к одному и тому же объекту Выделение терминологии – нахождение ключевых слов и словосочетаний (collocations) Автореферирование - выделение из текста смысловой, эмотивной (эмоциональной), оценочной и пр. информации: – генеративное – декларативное

Методы извлечения фактов из неструктурированного текста • Методы, основанные на правилах (шаблоны): – Достоинства: Методы извлечения фактов из неструктурированного текста • Методы, основанные на правилах (шаблоны): – Достоинства: • точность настройки на конкретную задачу • обозримость и ясность правил • отсутствие необходимости создавать большой размеченный корпус текстов для обучающего множества – Недостатки: • низкая скорость работы системы • большое количество правил • сложность перенастройки на другую задачу (приходится переписывать всю систему правил) • ориентация на языки с фиксированным порядком слов • Методы, использующие машинное обучение • Статистические методы

Технология извлечения информации (ТИИ) Операции: • автоматический просмотр больших объемов текстов на естественном языке, Технология извлечения информации (ТИИ) Операции: • автоматический просмотр больших объемов текстов на естественном языке, содержащих сравнительно небольшое количество искомой информации • преобразование в структурированный формат: – выявление целевых фактов, объектов, отношений – автоматическая обработка: • статистическая • визуализация • поиск закономерностей в данных и т. п. Результат - структуры данных, описывающие релевантные факты из набора документов

Технология извлечения информации (ТИИ). Этапы • Предобработка: – определение кодировки документа – извлечение текста Технология извлечения информации (ТИИ). Этапы • Предобработка: – определение кодировки документа – извлечение текста по определенным критериям – стилевая разметка – предварительная фильтрация • Лингвистический анализ: – разбор текста на отдельные слова – морфологический анализ – предварительный синтаксический анализ и определение границ предложений

Технология извлечения информации (ТИИ). Этапы • Извлечение фактов: – поиск в документе целевой лексики Технология извлечения информации (ТИИ). Этапы • Извлечение фактов: – поиск в документе целевой лексики и синтаксических конструкций, распознавания текстовых ситуаций – первичное структурирование информации • Унификация знаний и вывод: – унификация и отождествление элементов знаний - определение и объединение тождественных элементов, кластеризация сходных сюжетов – вывод производных знаний - вывод имплицитной фактографической информации, генерация текстовых описаний фрагментов фактографической базы • Подготовка результата: – приведение извлеченной информации к определенному формату – передача в БД, глобальный ресурс знаний, файл, другое приложение и т. п.

Программные средства извлечения информации • «Медиалогия» — система проведения глубоких исследований по открытым источникам Программные средства извлечения информации • «Медиалогия» — система проведения глубоких исследований по открытым источникам на базе технологии анализа массивов неструктурированной информации • Режим работы - онлайн • Назначение: – конкурентный анализ; – информационная разведка; – управление репутацией; – изучение отраслевого рынка; – оперативный мониторинг СМИ; – точный поиск информации по открытым источникам

Программные средства Медиалогия • Поиск сообщений - по заданным параметрам и контексту с применением Программные средства Медиалогия • Поиск сообщений - по заданным параметрам и контексту с применением технологий искусственного и человеческого интеллекта • Специализация - анализе информационного поля на основе интеллектуальной обработки данных в режиме реального времени • Представление результатов запросов к системе - в форме интуитивно понятной деловой графики • Дополнительный результат - индекс информационного благоприятствования (возможность оценить качественную составляющую информационной ситуации, сложившейся вокруг персоны, компании или бренда)

Программные средства «Галактика ZOOM» —технология динамического контент-анализа. Позволяет строить информационные портреты объектов по любой Программные средства «Галактика ZOOM» —технология динамического контент-анализа. Позволяет строить информационные портреты объектов по любой текстовой информации, в частности по сообщениям СМИ. • Состав портрета - статистически значимые слова и выражения, сопровождающих упоминание объекта • Поиск в информационных массивах: – с применением языка запросов – контекстный – тематический поиск – с учетом морфологии

Пример работы «Галактика ZOOM» Пример работы «Галактика ZOOM»

Программные средства ЕРАМ • ЕРАМ- (Emergency Priorities and Allocations Manual) Голос клиента - обеспечивает Программные средства ЕРАМ • ЕРАМ- (Emergency Priorities and Allocations Manual) Голос клиента - обеспечивает оперативную обратную связь с клиентами посредством анализа мнений в интернет-форумах и блогах по таким темам, как отношение к бренду, причины недовольства и т. п. • Основа - лингвистические алгоритмы и технологии Opinion Mining, позволяющие извлекать данные из различных неструктурированных источников и структурировать информацию в виде базы данных • Разработка - EPAM Systems для американской компании Clarabridge.

ЕРАМ-Голос клиента Возможности: • выявлять и классифицировать проблемы, связанные с товаром/услугой; • видеть измеряемые ЕРАМ-Голос клиента Возможности: • выявлять и классифицировать проблемы, связанные с товаром/услугой; • видеть измеряемые изменения мнений клиентов по каждой из проблем за любой промежуток времени; • иметь свободный доступ к агрегированным показателям и каждому отдельному мнению; • сопоставлять результаты анализа интернетресурсов, опросов и фокус-групп; • оценивать эффективность вложений в различные виды маркетинговых коммуникаций; • получить объективный инструмент для обоснования бюджета; • получать самую свежую информацию о товарах, услугах, ценах и действиях конкурентов

ЕРАМ-Голос клиента Источники информации: – внешние - блоги, форумы, интернет-сайты, СМИ и т. п. ЕРАМ-Голос клиента Источники информации: – внешние - блоги, форумы, интернет-сайты, СМИ и т. п. – внутренние - записи колл-центров, мессенджеры, переписка по электронной почте, CRM (Customer Relationship Management), и т. п. Применение: – сеть отелей Marriott – Johnson & Johnson – Novartis - Novae Artis —"новые достижения" – Visa – маркетинговое агентство Rapp Collins – крупные электронные магазины R-Toys (велосип. ), EBay и т. д.

Программные средства Business Objects Text Analysis • Business Objects Text Analysis - чтение и Программные средства Business Objects Text Analysis • Business Objects Text Analysis - чтение и понимание документов на 30 языках • Научная база – NLP ( Neuro-linguistic programming) -технология (анализ текста не на уровне слов и частоты их появления в тексте, а не уровне понимания построения предложений в естественных языках) • Форматы файлов - более 220 • Обрабатываемые объекты - 35 типов объектов и событий (люди, географические места, даты, компании, денежные суммы, email-адреса и т. п. )

Business Objects Text Analysis Возможности: • Анализ взаимосвязи между событиями и конкретные фразы - Business Objects Text Analysis Возможности: • Анализ взаимосвязи между событиями и конкретные фразы - сентимент-анализ (sentiment analysis) • Классификация документов по категориям, которые могут явно не присутствовать в исходном документе • Реферирование на базе извлечения наиболее релевантных предложений, характеризующих смысловое содержание документа • Интеграция с другими продуктами Business. Objects: Crystal Reports, Business. Objects Web Intelligence, Business. Objects Enterprise, Business. Objects Data Integrator и др.

Пример работы программы по распознаванию объектов в тексте Пример работы программы по распознаванию объектов в тексте

Программные средства Aero. Text – приложение для контент-анализа, обеспечивает извлечение информации и анализ взаимосвязей Программные средства Aero. Text – приложение для контент-анализа, обеспечивает извлечение информации и анализ взаимосвязей между извлеченными единицами информации на разных языках • Разработка – подразделение Integrated Systems and Solutions (Lockheed Martin Corporation) • Область применения – оборонное ведомство США - U. S. Intelligence Community (Department of Defense)

Aero. Text. Возможности • Инвариантность к типу документа, тематике и языку (dataindependent) • Интегрирация Aero. Text. Возможности • Инвариантность к типу документа, тематике и языку (dataindependent) • Интегрирация с другими инструментами управления знаниями (KMT-knowledge management tools) • Индивидуальная настройка под исследуемую среду Решаемые задачи: – построение базы данных – маршрутизация документов – подготовка реферата – построение полнотекстовых поисковых индексов – разрешение проблемы множественных значений одного и того же предмета – идентификация взаимоотношений между предметами – извлечение событий (кто, где, когда) – категоризация тем (предмет, его определение) – определение временного промежутка события – определение места, которое может быть привязано к карте

Программные средства STATISTICA Text Miner — для преобразования неструктурированных текстовых данных в информацию (в Программные средства STATISTICA Text Miner — для преобразования неструктурированных текстовых данных в информацию (в графическом виде), пригодную для принятия решений • Входные данные: – текстовые документы (TXT, PDF, PS, HTML, XML, RTF) – веб-страницы – файлы других типов • Тип архитектуры - открытая система • Интеграция с ПО из линейки STATISTICA: – STATISTICA Data Miner workspace, – Web. STATISTICA – STATISTICA и др.

Пример работы программы STATISTICA Text Miner Пример работы программы STATISTICA Text Miner

Программные средства Attensity — набор решений для извлечения и анализа фактов типа «кто, что, Программные средства Attensity — набор решений для извлечения и анализа фактов типа «кто, что, где, когда и почему делал» и последующего уточнения «кто, в каких местах и в каких событиях принимал участие и как они между собой связаны» • Анализируемые online-сетевые источники (>150 млн. ): – – – Twitter Firehose Facebook Блоги Сообщества Форумы и т. п. • Структура: – интеллектуальные модули (Pipeline, Education Services, Analyze, Respond) – масштабируемая серверная платформа – запатентованные средства извлечения информации – средства интеграции

Программные средства. Attensity • Особенности: – открытая архитектура – применение статистических и NLP-технологий – Программные средства. Attensity • Особенности: – открытая архитектура – применение статистических и NLP-технологий – богатый набор инструментов для анализа текстов – широкий набор технологий извлечения — от ключевых слов до событий – удобный интерфейс • Применяется - Charles Schwab, Cisco, e. Bay, Electronic Arts/Bioware, Jet. Blue Airways, Starwood Hotels & Resorts, Whirlpool и др.

Пример работы программы Пример работы программы

Программные средства ИСИДА-Т - Интеллектуальная Система Извлечения Данных и их Анализа (для Текстовых документов) Программные средства ИСИДА-Т - Интеллектуальная Система Извлечения Данных и их Анализа (для Текстовых документов) • Назначение - автоматическое обнаружение (в документах), извлечение и визуализация релевантной информации • Представление результатов: – таблицы – схемы – диаграммы

ИСИДА-Т. Области применения Информационная поддержка бизнеса и управление знаниями: • Структурирование информации для дальнейшей ИСИДА-Т. Области применения Информационная поддержка бизнеса и управление знаниями: • Структурирование информации для дальнейшей обработки вычислительными методами (анализ данных, когнитивная графика и др. ) • Усиление контрольной функции руководства компании: –анализ внутренней документации и/или переписки сотрудников –автоматизированная экспертиза состояния дел и т. п. • Предметно-ориентированные средства поиска информации в документах (специализированные поисковые системы)

ИСИДА-Т. Области применения Маркетинговые исследования • Мониторинг и анализ текстовой информации, связанной с деятельностью ИСИДА-Т. Области применения Маркетинговые исследования • Мониторинг и анализ текстовой информации, связанной с деятельностью компании • Сбор информации об успехе вышедших продуктов (анализировать можно разные источники — от корпоративной почты и записей с телефонных узлов организации до обсуждений продукта в блогах, тематических форумах и материалах СМИ) • Мониторинг деятельности партнеров и конкурентов • Уведомление о появлении новых продуктов и новых компаний на рынке • Контроль за репутацией и популярностью компании • Оценка эффективности маркетинговых программ

ИСИДА-Т. Области применения Финансовая аналитика • Отслеживание важной информации - смена менеджера или аудитора, ИСИДА-Т. Области применения Финансовая аналитика • Отслеживание важной информации - смена менеджера или аудитора, изменение кредитного рейтинга, слухи о слияниях, поглощениях и пр. Сбор информации о большом количестве компаний одновременно • Отслеживание связи между компаниями - работа на одном рынке, совместный капитал, миграция менеджеров и т. п. • получение оперативных уведомлений об изменении ситуации на рынке по определенным критериям Работа библиотек, издательств и СМИ • Автоматическое получение метаинформации о документах • Для электронных СМИ: –обогащение информационного контента дополнительной информацией об отдельных объектах/субъектах и т. п. –дополнение информационного контента альтернативными

ИСИДА-Т. Области применения Информационная поддержка органов государственной власти • Автоматическая регистрация и предварительная обработка ИСИДА-Т. Области применения Информационная поддержка органов государственной власти • Автоматическая регистрация и предварительная обработка обращений граждан • Анализ реакции населения на деятельность исполнительных органов (постановления, законодательные акты, личности — обратная связь) • Установление контактов с общественными организациями и населением, проявляющим гражданскую активность • Интенсификация собственных средств документооборота — специализированный точный поиск и структурирование информации для дальнейшей машинной обработки

Задание 3 Определить, какое выражение используется чаше с помощью Google и Yandex “she will Задание 3 Определить, какое выражение используется чаше с помощью Google и Yandex “she will have a baby” Jennifer Aniston Accidentally Confirms She Will Have a Baby или she will give birth to a baby Luke 1: 31 you will conceive and give birth to a son, and you are to call Him Jesus Также в British National Corpus BYU-BNC (Brigham Young University) (BNC) • Перевести найденные фрагменты на русский язык • Проанализировать полученные результаты • Составить отчет и представить преподавателю




  • Мы удаляем страницу по первому запросу с достаточным набором данных, указывающих на ваше авторство. Мы также можем оставить страницу, явно указав ваше авторство (страницы полезны всем пользователям рунета и не несут цели нарушения авторских прав). Если такой вариант возможен, пожалуйста, укажите об этом.