53ac93634b4fe7a5b36eb5b3ad9cb572.ppt
- Количество слайдов: 63
Использование корпусов
Основные направления • Лингвистическое исследование языка: –в статике (определенный момент, определенный срез): • частотность, словарный запас, синтаксис, семантика и т. п. • изучение грамматического строя языка • выведение правил использования слов и выражений • уточнение словоупотреблений и т. п. –в динамике (на протяжении определенного времени): • отмирание и появление словоупотреблений • изменение частотности, синтаксических конструкций и т. п. • Создание академических словарей и грамматических справочников
Основные направления • Лингвистическая верификация текстов: –подлинность авторства – лингвистика ( «первый» вариант «Война и мир» , М. Горький - «вплоть к» ), криминалистика –соответствие эпохе – словоупотребления (по сравнению - в сравнении, между домов – между домами, кофе – кофий), письма декабриста Корниловича (мама - maman, матушка), дневник Пущина ( «одеть шарф» – 1812 г. , впервые – 1847 г. , П. В. Анненков) • Обучение языку: – подготовка преподавателей к занятиям (примеры) – методическое обеспечение процесса обучения (задания) • Перевод: – определение значений слов и идиоматических выражений – изучение полисемии слов и грамматических форм – накопление баз для систем машинного перевода
Эффективность использования корпусов при изучении языков • Вовлечение в исследовательскую работу: – инициализация творческих способностей – сопричастность к «созданию» языковых правил и закономерностей – привитие навыков самостоятельной работы – повышение интереса к обучению • Формирование лексико-грамматических навыков: – активизация речемыслительной деятельности – ускоренное формирование языковых навыков – ускоренное развитие речевых умений – улучшенное усвоение и запоминание материала
Поисковая система • Операции над конкордансным списком: – – – сортировка по ключевым словам, контексту интерактивное неограниченное расширение контекста фильтрация (удаление части построенных конкордансов) удаление повторений сохранение списков в файл печать списков • Частотное распределение: – частоты слов и других атрибутов в корпусе, контексте – неограниченное число уровней группировки • Другие особенности: – – выбор кодировок создание пользовательских подкорпусов произвольный набор тэгов возможность подключения других языков
Поисковая система • Неотъемлемой частью понятия «корпус текстов» является корпусный менеджер – специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. • Корпусный менеджер должен: • строить как KWIC (Key Word In Context), так и полные конкордансные списки; • искать контексты не только по отдельным словам, но и по словосочетаниям; • осуществлять поиск по шаблонам (сложные запросы); • сортировать полученные списки по нескольким критериям, выбираемым пользователем;
Поисковая система • давать возможность отображать найденные словоформы в широком контексте; • давать статистическую информацию по отдельным элементам корпуса; • отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса; • сохранять и распечатывать результаты; • работать как с корпусами (неограниченными по размеру), так и с подкорпусами; • поддерживать различные форматы текстовых данных (txt, doc, rtf, html, xml и др. ); • быть легким (интуитивно понятным) в использовании, как для опытного, так и для начинающего пользователя.
Поисковая система Корпусный менеджер (корпус-менеджер) – специализированная система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме: Яndex. Server, Bonito, SARA, XAIRA (BNC), CQP, DDC Основные требования: –строить как KWIC, так и полные конкордансные списки –искать не только отдельные слова, но и словосочетания –осуществлять поиск по шаблонам (сложные запросы) –сортировать списки по нескольким критериям –отображать найденные словоформы в неограниченном контексте –давать статистическую информацию по отдельным элементам корпуса
Запросы. Создание • Ввод в специальное окно запросов с учетом правил языка запросов системы – типы запросов: – Положительный фильтр (P-filter) – в конкордансном списке выдаются совпадающие с запросом строки – Отрицательный фильтр (N-filter) – совпадающие с запросом строки удаляются из конкордансного списка – Словосочетания (Collocations) – удовлетворяющие запросу позиции (конкретная словоформа на заданном интервале) в конкордансе выделяются цветом • Использование шаблона сложного запроса (готовый или созданный пользователем, в котором имеются переменные) – подставляют конкретные значения
Поисковая система –отображать леммы, морфологические характеристики словоформ, метаданные –сохранять и распечатывать результаты –работать как с отдельными файлами, так и с корпусами –поддерживать различные форматы текстовых данных –быть легким (интуитивно понятным) в использовании Язык запросов обеспечивает: – поиск отдельных атрибутов (словоформа, лемма, тэг) – использование регулярных выражений * и ? – возможность применения логических операторов – средства задания структуры (границы предлож. и др. ) – быстрая обработка сложных запросов – использование шаблонов Конкордансные списки: – история запросов пользователя – просмотр морфологических характеристик словоформ – отображение леммы
Корпусный менеджер Bonito • Корпусный менеджер Bonito представляет собой программное обеспечение для работы с корпусами текстов. • Язык запросов • поиск отдельных атрибутов (словоформа, лемма, тэг); • использование регулярных выражений; • логические операторы; • средства задания структуры (границы предложения и др. ); • быстрая обработка сложных запросов; • шаблоны.
Корпусный менеджер Bonito Конкордансные списки • история запросов пользователя; • просмотр морфологических характеристик словоформы; • отображение леммы. Операции над конкордансом • сохранение списков в файл; • печать списков; • сортировка по ключевым словам, контексту; • интерактивное неограниченное расширение контекста; • фильтрация (удаление части построенных конкордансов); • удаление повторений.
Корпусный менеджер Bonito Окно запросов: конкорданс словоформы justice
Корпусный менеджер Bonito Использование шаблона запроса Шаблон – это вид запроса, который упрощает ввод однотипных запросов. Это означает, что сложный запрос необходимо создать только один раз и сохранить как шаблон, а затем просто вводить значения для данного шаблона. Когда шаблон активизируется, он автоматически записывается в окно запроса. Шаблон всех словоформ правильного английского глагола (regular verb): [word="$1" | word="$1 s" | word="$1 ed" | word="$1 ing"] где: $1 – переменная Строка запроса для всех форм глагола "play”: !regular verb: play где: ! – признак использования шаблона regular verb – название шаблона : – разделитель play – значение переменной (параметр запроса)
Использование шаблона запроса Отличие от обычного запроса состоит лишь в следующем: первый знак строки – это восклицательный знак (!), далее идет имя шаблона, двоеточие (: ) и параметры, разделяемые пробелами. Пример. Поиск конкретной словоформы: В окно запроса вводится словоформа "run". • Выдается: announced that he would not
Результаты поиска • Результаты поиска (выдача) в корпусных менеджерах обычно представлены в виде конкорданса. • В корпусной лингвистике – это список всех употреблений заданного в результате поиска языкового выражения (обычно слова) в контексте, возможно, со ссылками на источник. Ниже приведен фрагмент конкорданса KWIC для слова «имение» из текста «Дубровский» А. С. Пушкина. • с в губерниях, где находилось его имение. Соседи рады были угождать мал • грубиян; я хочу взять у него имение, как ты про то думаешь? – Ваше • чтобы безо всякого права отнять имение. • Постой однако ж. Это имение принадлежало
Контекстное окружение Распространенный подход к показу контекстного окружения состоит также в переходе от формы конкорданса к широкому контексту. id=http: //piligrim. iatp. by/article. html title="Мирский замок" уже не существует &; quot; . Последовало еще несколько писем в газету по поводу разрушения замка, и лишь после этого разборка его на кирпич прекратилась. Только через десять лет были, наконец, накрыты четыре башни Мирского замка гонтовыми крышами. Последующие владельцы – радзивилловские отпрыски, породненные с немецкой фамилией Гогенлое-Шиллингфюрст, совершенно не интересовались ни поселком, ни замком, сдавая имение в аренду.
Корпусные менеджеры нелингвистических корпусов (поисковые системы Интернета) • Информационное наполнение сети Интернет (веб-пространство) может рассматриваться как огромный многоязычный корпус. • Главный материал лингвистического анализа – язык, зафиксированный в виде речевых произведений, – в Интернете представлен в огромном объеме и разнообразии и непосредственно доступен для машинной обработки. • Этот факт представляет для лингвистов большую ценность, так как перевод текстов в машинную форму и создание корпусов требует больших временных и материальных затрат.
Поисковые системы Интернета • Например, в 2011 г. на сайте http: //corpus. byu. edu (Brigham Young University ['brɪgham]) был размещен Google Books (American English) Corpus, объемом 155 млрд слов, основанный на данных Google Books и включающий тексты книг на американском варианте английского языка с 1810 по 2009 гг. • В то же время веб-пространство может рассматриваться и непосредственно как корпус. • ни один корпус не может сравниться по репрезентативности языкового материала с вебом, куда включаются материалы и других Интернетсервисов (например, электронной почты). • При использовании веб-пространства как корпуса роль корпусных менеджеров могут выполнять информационно поисковые системы (ИПС).
Поисковые системы Интернета В составе любой поисковой системы можно выделить три основные части: 1. Робот – подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание файла индексной базы данных в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети. 2. Поисковая база данных – так называемый индекс – специальным образом организованная структура данных ( index database), включающая, прежде всего, файл, состоящий из лексических единиц, взятых из проиндексированных веб-документов, и содержащий разнообразную информацию об этих единицах (в частности, их позиции в документах), а также о самих документах и сайтах в целом.
Поисковые системы Интернета 3. Поисковая система – подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. • Поисковая система общается с пользователем через пользовательские интерфейсы – экранные формы программ-браузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска. • Фактически индексы поисковых систем – это, по сути, не что иное, как виртуальные конкордансы к текстам.
Поисковые системы Интернета • Более того, результаты поиска в информационных поисковых системах в виде кратких описаний документов, как правило, содержат контексты, в которых искомые слова встретились в найденных доку-ментах. • Отличие лишь в том, что конкордансы обычно составляются к конкретному произведению или группе произведений, в то время как информационная поисковая система Интернета индексирует все доступное множество электронных документов.
Поисковые системы Интернета • Главная содержательная проблема при индексировании веб-сайтов заключается в том, какие термины попадают в индекс. Активно применяются списки запрещенных слов (stopwords), которые в индекс не попадают – это служебная лексика (предлоги, союзы и т. д. ) и незначащие слова. • Важно, какую информацию и в каком виде можно извлечь из выходных интерфейсов информационной поисковой системы (ИПС). Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры, как статистика слов из запроса, количество найденных документов, количество найденных сайтов, количество документов на странице с результатами поиска
Поисковые системы Интернета • Может содержать заглавие документа, URL – Universe Resource Locator (адрес в сети), аннотацию (фрагмент текста с выделенными словами из запроса), указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт • Для задач лингвистического исследования наибольший интерес представляют частотные характеристики и выдача контекста. Следует различать два типа частот, учитываемых и выдаваемых системами – пословную и подокументную.
Способы использования корпусов • Многие лингвисты используют корпус как «банк примеров» , т. е. пытаются найти эмпирическую поддержку для своих гипотез, принципов и правил, над которыми они работают. • Поисковый инструмент обычно дает возможность хорошей выборки в определенном корпусе. • Многие считавшиеся верными на протяжении длительного времени утверждения были опровергнуты корпусными данными. Было, например, опровергнуто утверждение о том, что частицы в немецких глаголах с отделяемыми приставками не могут встречаться в начале предложения.
Статистическая информация Эмпирическая поддержка представляет собой качественный метод использования корпуса, но корпусы также подкрепляют ее информацией по частотности для слов, фраз и конструкций, которая может быть использована для разнообразных исследований. Они показывают сходства и различия между разными группами говорящих или между разными типами текстов, обеспечивают данные о частотности лексических единиц и конструкций для психолингвистических исследований и т. д.
Лексикографические исследования необходимы, в первую очередь, для составления словарей, а также для нужд дескриптивной и прикладной лингвистики • Например, основные типы запросов автора толкового академического словаря русского языка заключаются в необходимости найти следующее: • новое слово по времени его появления, • исходную форму слова; • цитаты к уже известным значениям; • цитаты к тем значениям, которые в словаре не проиллюстрированы цитатами.
Лексикографические исследования • дополнительные новые цитаты к тому или иному значению; • новые типы лексической и синтаксической сочетаемости; • новые фразеологизмы; новые современные научные толкования специальных терминов. Выделяется шесть основных вопросов, на основе корпусного подхода: 1. Какие значения ассоциируются с конкретным словом? 2. Какова частотность слова относительно других близких к нему слов? 3. Какие нелингвистические модели имеет данное слово (по отношению к регистрам (жанрам), историческим периодам, диалектам и т. д. )? 4. Какие слова обычно встречаются вместе с данным словом и каково распределение этих сочетаемостных последовательностей в разных регистрах? 5. Как распределены смыслы и типы использования слова? 6. Как используются и по-разному распределяются слова,
Задание 2 • Используя НКРЯ (подкорпус “Устный”) определить онтологию слова «вообще» • Перевести его на изучаемый язык • Провести конкордансный поиск во всех найденных ранее корпусах • Перевести найденные фрагменты на русский язык • Проанализировать полученные результаты • Составить отчет и представить преподавателю
Автоматическое извлечение фактов из текста (Information extraction, Fact extraction, Text mining)
Автоматическое извлечение фактов из текста Извлечение информации -- (information extraction, fact extraction, text mining - интеллектуальный анализ текстов) задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов
Автоматическое извлечение фактов из текста Основные цели: – смысловой анализ больших объемов «хаотичной» текстовой информации с помощью методов обработки данных – выявление логических закономерностей в описанных в тексте событиях, необходимых для принятия решений в различных сферах человеческой деятельности
Автоматическое извлечение фактов из текста. Актуальные направления • Извлечение и структурирование фактографической информации • Мониторинг сообщений СМИ, которые могут представлять интерес (экономический, научный, технико-технологический, военный, коммерческий и т. п. ) • Аналитическая обработка фактов: – построение и динамический анализ семантической структуры – выделение ключевых тем и информационных объектов – определение общей и объектной тональности сообщений – исследование частотных характеристик текстов • Извлечение специфической метаинформации (например, построение реляционной БД с информацией о типах событий, объектах и субъектах по текстовой базе)
Автоматическое извлечение фактов из текста. Актуальные направления • Построение и ведение досье (персоны, организации) из открытых текстовых источников • Тематический анализ документов (кластеризация и рубрицирование) • Поиск информации по запросам на естественном языке с использованием тезаурусов • Направления результатов поиска в специальное хранилище документов • Аннотирование документов, построение дайджестов по объектам
Технология извлечения информации (ТИИ) Основные задачи: • выделение фрагментов текста, содержащих релевантную информацию и преобразование их в реляционную форму • перевод базы текстовых фактов к представлению, которое можно использовать как интеллектуальный информационный ресурс - базу текстовых знаний
• • Технология извлечения информации (ТИИ). Подзадачи Распознавание именованных элементов (сущностей) - имён людей, названий, событий, временных и денежных обозначений и пр. Разрешение анафоры (повтор) и кореференций - извлечение объектов и фактов из текста, поиск связей, относящихся к одному и тому же объекту Выделение терминологии – нахождение ключевых слов и словосочетаний (collocations) Автореферирование - выделение из текста смысловой, эмотивной (эмоциональной), оценочной и пр. информации: – генеративное – декларативное
Методы извлечения фактов из неструктурированного текста • Методы, основанные на правилах (шаблоны): – Достоинства: • точность настройки на конкретную задачу • обозримость и ясность правил • отсутствие необходимости создавать большой размеченный корпус текстов для обучающего множества – Недостатки: • низкая скорость работы системы • большое количество правил • сложность перенастройки на другую задачу (приходится переписывать всю систему правил) • ориентация на языки с фиксированным порядком слов • Методы, использующие машинное обучение • Статистические методы
Технология извлечения информации (ТИИ) Операции: • автоматический просмотр больших объемов текстов на естественном языке, содержащих сравнительно небольшое количество искомой информации • преобразование в структурированный формат: – выявление целевых фактов, объектов, отношений – автоматическая обработка: • статистическая • визуализация • поиск закономерностей в данных и т. п. Результат - структуры данных, описывающие релевантные факты из набора документов
Технология извлечения информации (ТИИ). Этапы • Предобработка: – определение кодировки документа – извлечение текста по определенным критериям – стилевая разметка – предварительная фильтрация • Лингвистический анализ: – разбор текста на отдельные слова – морфологический анализ – предварительный синтаксический анализ и определение границ предложений
Технология извлечения информации (ТИИ). Этапы • Извлечение фактов: – поиск в документе целевой лексики и синтаксических конструкций, распознавания текстовых ситуаций – первичное структурирование информации • Унификация знаний и вывод: – унификация и отождествление элементов знаний - определение и объединение тождественных элементов, кластеризация сходных сюжетов – вывод производных знаний - вывод имплицитной фактографической информации, генерация текстовых описаний фрагментов фактографической базы • Подготовка результата: – приведение извлеченной информации к определенному формату – передача в БД, глобальный ресурс знаний, файл, другое приложение и т. п.
Программные средства извлечения информации • «Медиалогия» — система проведения глубоких исследований по открытым источникам на базе технологии анализа массивов неструктурированной информации • Режим работы - онлайн • Назначение: – конкурентный анализ; – информационная разведка; – управление репутацией; – изучение отраслевого рынка; – оперативный мониторинг СМИ; – точный поиск информации по открытым источникам
Программные средства Медиалогия • Поиск сообщений - по заданным параметрам и контексту с применением технологий искусственного и человеческого интеллекта • Специализация - анализе информационного поля на основе интеллектуальной обработки данных в режиме реального времени • Представление результатов запросов к системе - в форме интуитивно понятной деловой графики • Дополнительный результат - индекс информационного благоприятствования (возможность оценить качественную составляющую информационной ситуации, сложившейся вокруг персоны, компании или бренда)
Программные средства «Галактика ZOOM» —технология динамического контент-анализа. Позволяет строить информационные портреты объектов по любой текстовой информации, в частности по сообщениям СМИ. • Состав портрета - статистически значимые слова и выражения, сопровождающих упоминание объекта • Поиск в информационных массивах: – с применением языка запросов – контекстный – тематический поиск – с учетом морфологии
Пример работы «Галактика ZOOM»
Программные средства ЕРАМ • ЕРАМ- (Emergency Priorities and Allocations Manual) Голос клиента - обеспечивает оперативную обратную связь с клиентами посредством анализа мнений в интернет-форумах и блогах по таким темам, как отношение к бренду, причины недовольства и т. п. • Основа - лингвистические алгоритмы и технологии Opinion Mining, позволяющие извлекать данные из различных неструктурированных источников и структурировать информацию в виде базы данных • Разработка - EPAM Systems для американской компании Clarabridge.
ЕРАМ-Голос клиента Возможности: • выявлять и классифицировать проблемы, связанные с товаром/услугой; • видеть измеряемые изменения мнений клиентов по каждой из проблем за любой промежуток времени; • иметь свободный доступ к агрегированным показателям и каждому отдельному мнению; • сопоставлять результаты анализа интернетресурсов, опросов и фокус-групп; • оценивать эффективность вложений в различные виды маркетинговых коммуникаций; • получить объективный инструмент для обоснования бюджета; • получать самую свежую информацию о товарах, услугах, ценах и действиях конкурентов
ЕРАМ-Голос клиента Источники информации: – внешние - блоги, форумы, интернет-сайты, СМИ и т. п. – внутренние - записи колл-центров, мессенджеры, переписка по электронной почте, CRM (Customer Relationship Management), и т. п. Применение: – сеть отелей Marriott – Johnson & Johnson – Novartis - Novae Artis —"новые достижения" – Visa – маркетинговое агентство Rapp Collins – крупные электронные магазины R-Toys (велосип. ), EBay и т. д.
Программные средства Business Objects Text Analysis • Business Objects Text Analysis - чтение и понимание документов на 30 языках • Научная база – NLP ( Neuro-linguistic programming) -технология (анализ текста не на уровне слов и частоты их появления в тексте, а не уровне понимания построения предложений в естественных языках) • Форматы файлов - более 220 • Обрабатываемые объекты - 35 типов объектов и событий (люди, географические места, даты, компании, денежные суммы, email-адреса и т. п. )
Business Objects Text Analysis Возможности: • Анализ взаимосвязи между событиями и конкретные фразы - сентимент-анализ (sentiment analysis) • Классификация документов по категориям, которые могут явно не присутствовать в исходном документе • Реферирование на базе извлечения наиболее релевантных предложений, характеризующих смысловое содержание документа • Интеграция с другими продуктами Business. Objects: Crystal Reports, Business. Objects Web Intelligence, Business. Objects Enterprise, Business. Objects Data Integrator и др.
Пример работы программы по распознаванию объектов в тексте
Программные средства Aero. Text – приложение для контент-анализа, обеспечивает извлечение информации и анализ взаимосвязей между извлеченными единицами информации на разных языках • Разработка – подразделение Integrated Systems and Solutions (Lockheed Martin Corporation) • Область применения – оборонное ведомство США - U. S. Intelligence Community (Department of Defense)
Aero. Text. Возможности • Инвариантность к типу документа, тематике и языку (dataindependent) • Интегрирация с другими инструментами управления знаниями (KMT-knowledge management tools) • Индивидуальная настройка под исследуемую среду Решаемые задачи: – построение базы данных – маршрутизация документов – подготовка реферата – построение полнотекстовых поисковых индексов – разрешение проблемы множественных значений одного и того же предмета – идентификация взаимоотношений между предметами – извлечение событий (кто, где, когда) – категоризация тем (предмет, его определение) – определение временного промежутка события – определение места, которое может быть привязано к карте
Программные средства STATISTICA Text Miner — для преобразования неструктурированных текстовых данных в информацию (в графическом виде), пригодную для принятия решений • Входные данные: – текстовые документы (TXT, PDF, PS, HTML, XML, RTF) – веб-страницы – файлы других типов • Тип архитектуры - открытая система • Интеграция с ПО из линейки STATISTICA: – STATISTICA Data Miner workspace, – Web. STATISTICA – STATISTICA и др.
Пример работы программы STATISTICA Text Miner
Программные средства Attensity — набор решений для извлечения и анализа фактов типа «кто, что, где, когда и почему делал» и последующего уточнения «кто, в каких местах и в каких событиях принимал участие и как они между собой связаны» • Анализируемые online-сетевые источники (>150 млн. ): – – – Twitter Firehose Facebook Блоги Сообщества Форумы и т. п. • Структура: – интеллектуальные модули (Pipeline, Education Services, Analyze, Respond) – масштабируемая серверная платформа – запатентованные средства извлечения информации – средства интеграции
Программные средства. Attensity • Особенности: – открытая архитектура – применение статистических и NLP-технологий – богатый набор инструментов для анализа текстов – широкий набор технологий извлечения — от ключевых слов до событий – удобный интерфейс • Применяется - Charles Schwab, Cisco, e. Bay, Electronic Arts/Bioware, Jet. Blue Airways, Starwood Hotels & Resorts, Whirlpool и др.
Пример работы программы
Программные средства ИСИДА-Т - Интеллектуальная Система Извлечения Данных и их Анализа (для Текстовых документов) • Назначение - автоматическое обнаружение (в документах), извлечение и визуализация релевантной информации • Представление результатов: – таблицы – схемы – диаграммы
ИСИДА-Т. Области применения Информационная поддержка бизнеса и управление знаниями: • Структурирование информации для дальнейшей обработки вычислительными методами (анализ данных, когнитивная графика и др. ) • Усиление контрольной функции руководства компании: –анализ внутренней документации и/или переписки сотрудников –автоматизированная экспертиза состояния дел и т. п. • Предметно-ориентированные средства поиска информации в документах (специализированные поисковые системы)
ИСИДА-Т. Области применения Маркетинговые исследования • Мониторинг и анализ текстовой информации, связанной с деятельностью компании • Сбор информации об успехе вышедших продуктов (анализировать можно разные источники — от корпоративной почты и записей с телефонных узлов организации до обсуждений продукта в блогах, тематических форумах и материалах СМИ) • Мониторинг деятельности партнеров и конкурентов • Уведомление о появлении новых продуктов и новых компаний на рынке • Контроль за репутацией и популярностью компании • Оценка эффективности маркетинговых программ
ИСИДА-Т. Области применения Финансовая аналитика • Отслеживание важной информации - смена менеджера или аудитора, изменение кредитного рейтинга, слухи о слияниях, поглощениях и пр. Сбор информации о большом количестве компаний одновременно • Отслеживание связи между компаниями - работа на одном рынке, совместный капитал, миграция менеджеров и т. п. • получение оперативных уведомлений об изменении ситуации на рынке по определенным критериям Работа библиотек, издательств и СМИ • Автоматическое получение метаинформации о документах • Для электронных СМИ: –обогащение информационного контента дополнительной информацией об отдельных объектах/субъектах и т. п. –дополнение информационного контента альтернативными
ИСИДА-Т. Области применения Информационная поддержка органов государственной власти • Автоматическая регистрация и предварительная обработка обращений граждан • Анализ реакции населения на деятельность исполнительных органов (постановления, законодательные акты, личности — обратная связь) • Установление контактов с общественными организациями и населением, проявляющим гражданскую активность • Интенсификация собственных средств документооборота — специализированный точный поиск и структурирование информации для дальнейшей машинной обработки
Задание 3 Определить, какое выражение используется чаше с помощью Google и Yandex “she will have a baby” Jennifer Aniston Accidentally Confirms She Will Have a Baby или she will give birth to a baby Luke 1: 31 you will conceive and give birth to a son, and you are to call Him Jesus Также в British National Corpus BYU-BNC (Brigham Young University) (BNC) • Перевести найденные фрагменты на русский язык • Проанализировать полученные результаты • Составить отчет и представить преподавателю