Скачать презентацию Информационные технологии в лингвистике Автоматическое аннотирование и реферирование Скачать презентацию Информационные технологии в лингвистике Автоматическое аннотирование и реферирование

ИТЛ2_03_АР.ppt

  • Количество слайдов: 23

Информационные технологии в лингвистике Автоматическое аннотирование и реферирование текста Информационные технологии в лингвистике Автоматическое аннотирование и реферирование текста

Information overload - проблема, возникающая при обработке потока информации. Аннотирование (реферирование) – компрессия информации Information overload - проблема, возникающая при обработке потока информации. Аннотирование (реферирование) – компрессия информации текста с сохранением основного содержания. Аннотация, резюме, реферат – семантический образ текста. Рефераты и аннотации представляют собой вторичные документы. Первичные, или исходные, документы — это книги, статьи, патенты и т. п.

Требования к системе аннотирования · формируемая аннотация должна содержать сигнальную информацию о тексте, необходимую Требования к системе аннотирования · формируемая аннотация должна содержать сигнальную информацию о тексте, необходимую для понимания текста в целом; · коэффициент компрессии (степень сжатия текста) должен быть параметром системы, т. е. задаваться пользователем; · система должна быть открытой и перенастраиваемой для обработки текстов различными алгоритмами аннотирования; · система должна быть универсальной и обеспечивать возможность перенастройки для обработки текстов на разных языках.

Аннотация - краткое изложение содержания документа, дающее общее представление о его теме. Аннотация выполняет Аннотация - краткое изложение содержания документа, дающее общее представление о его теме. Аннотация выполняет сигнальную функцию, сообщая о том, что опубликована статья или книга на определенную тему.

Реферат - связный текст, который кратко выражает не только центральную тему или предмет какого-либо Реферат - связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки. - обычно составляется к научно-техническим документам: научным книгам, статьям, патентам на изобретение и т. п. - акцентирует внимание читателя на новых сведениях и определяет целесообразность его обращения к исходному документу. - помогает человеку ориентироваться в информационных потоках, оперативно отбирать для себя наиболее ценную и полезную информацию.

Подходы к реферированию 1. Создание реферата за счет формирования нового текста (как правило, текста Подходы к реферированию 1. Создание реферата за счет формирования нового текста (как правило, текста жесткой структуры, создаваемого на языке объектнопризнакового типа). 2. Создание реферата на основе компрессии информации текста за счет выбора самых информативно нагруженных (важных) предложений текста.

Виды реферата Связный текст, порождаемый на основе логикосмыслового анализа. Реферат-клише, составляемый из заранее заданных Виды реферата Связный текст, порождаемый на основе логикосмыслового анализа. Реферат-клише, составляемый из заранее заданных фреймов с пустыми местами, заполняемыми в результате анализа текста. Квазиреферат, составляемый из наиболее информативных предложений текста.

Создание квазиреферата 1. Компрессия информации текста основана на выборе самых важных предложений из текста. Создание квазиреферата 1. Компрессия информации текста основана на выборе самых важных предложений из текста. 2. Степень компрессии задается пользователем. 3. Используются формальные и лексикостатистические методы.

Формальная компрессия текста 1. удаление из текста предложений, в которых есть формальные признаки «вторичности» Формальная компрессия текста 1. удаление из текста предложений, в которых есть формальные признаки «вторичности» : (а) предложения с прямой или косвенной речью; признаки: кавычки, he said, it said that…; (б) вопросительные или восклицательные предложения; признаки: вопросительный или восклицательный знаки; (в) несамостоятельные предложения с коннекторами или реляторами; признаки: соединительные конструкции типа в соответствии с этим, как указано выше … 2. Сохранение в тексте семантически нагруженных предложений, выбираемых по формальным признакам позиции в тексте (первый информационный фрагмент).

Формальная компрессия текста 3. Ранжирование предложений текста по информативной важности: • Получение частотного словаря Формальная компрессия текста 3. Ранжирование предложений текста по информативной важности: • Получение частотного словаря по тексту. • Сравнение со словарем антипризнаков (включающего слова и словосочетания, не имеющие отношения к конкретной тематике; ) и формирование образа документа.

Индекс релевантности i-го предложения определяется по комбинации значений параметров: L – число слов из Индекс релевантности i-го предложения определяется по комбинации значений параметров: L – число слов из образа документа в i-м предложении. N – длина i-го предложения в словоформах. R – коэффициент релевантности i-го предложения R = L/N P – позиция предложения в структуре текста (близость к начальному или заключительному фрагменту).

Алгоритм построения квазиреферата 1. Получение частотного словаря и формирование образа документа. 2. Сжатие текста Алгоритм построения квазиреферата 1. Получение частотного словаря и формирование образа документа. 2. Сжатие текста на основе формальных параметров. 3. Оценка соответствия степени сжатия заданному значению. 4. Вычисление индекса релевантности для каждого слова. 5. Вычисление индекса релевантности для каждого предложения. 6. Ранжирование предложений по убыванию значений индекса релевантности. 7. Определение количества предложений в соответствии с коэффициентом сжатия. 8. Формирование реферата с расположением предложений в соответствии с позицией в исходном тексте.

Словарь опорных словоформ текста Основным критерием для создания словаря является коэффициент важности слова: K=F. Словарь опорных словоформ текста Основным критерием для создания словаря является коэффициент важности слова: K=F. m /(N. n) где F - частота употребления лексемы в тексте, m - число абзацев, где встретилась лексема, N – общее число словоупотреблений в тексте, n – общее число абзацев текста.

Главные опорные слова (ГОС) - являются особенно важными для текста. -встречаются с наибольшей частотой Главные опорные слова (ГОС) - являются особенно важными для текста. -встречаются с наибольшей частотой в большом числе абзацев. Критерий: 9/(N. n) ≤ Kгос <1

Второстепенные опорные слова (ВОС) Критерий: (1+n/4)2/(N. n) ≤ Kвос < 9/(N. n) N – Второстепенные опорные слова (ВОС) Критерий: (1+n/4)2/(N. n) ≤ Kвос < 9/(N. n) N – общее число словоупотреблений в тексте, n – общее число абзацев текста. Пример: текст содержит 5 абзацев и 285 словоупотреблений, Kгос – в пределах от 0, 0063 до 1, Kвос – в пределах от 0, 0039 до 0, 0063.

Этапы реферирования 1) подготовительный — референт определяет тематическую направленность текста и пытается понять и Этапы реферирования 1) подготовительный — референт определяет тематическую направленность текста и пытается понять и осмыслить документ в целом; 2) аналитический — референт делит текст на некоторые фрагменты (абзацы, аспекты и т. п. ). Каждый фрагмент внимательно изучается, в нем выделяют основные смысловые единицы (предложения, словосочетания, слова). Данный этап заканчивается составлением плана будущих реферата или аннотации; 3) этап непосредственного построения реферата или аннотации — выделенные ранее смысловые единицы (их комбинации или преобразования) располагаются в единый вторичный текст в соответствии с планом реферата или аннотации.

Применение автореферирования 1. Сниппеты 2. Извлечение фактов Применение автореферирования 1. Сниппеты 2. Извлечение фактов

Сниппет от англ. – отрывок, фрагмент. - небольшой отрывок текста служащий описанием к ссылке, Сниппет от англ. – отрывок, фрагмент. - небольшой отрывок текста служащий описанием к ссылке, в поисковой выдаче. По логике поисковых систем, эти краткие описания должны передавать суть страницы которую нашел для пользователя и предлагает ее посетить. Но алгоритмы поисковых систем не совершенны, машина не может правильно проанализировать весь текст и передать пользователю краткое описание.

Сниппеты в поисковых системах Сниппет для Google: типичный и расширенный. Для создания типичного сниппета Сниппеты в поисковых системах Сниппет для Google: типичный и расширенный. Для создания типичного сниппета Google автоматически пытается извлечь наиболее релевантный запросу пользователя фрагмент содержания страницы. Информация, которая используется в расширенных сниппетах, полностью контролируется веб-мастером при помощи семантической разметки содержания сайта. Источники: - первая строка сниппета - из title исходного кода страницы, - содержание тега description - если заголовок отсутствует, то выбирается подходящий отрывок из текста или ссылка.

Сниппеты в поисковых системах Сниппеты в поисковых системах

Извлечение фактов 1. 2. 3. 4. 5. Токенизация Морфологический анализ Синтаксический разбор Семантический разбор Извлечение фактов 1. 2. 3. 4. 5. Токенизация Морфологический анализ Синтаксический разбор Семантический разбор Извлечение фактов - Поиск опорного элемента: В тексте ищется некоторое слово (например, «Президент» ), на основе которого исходя из дерева связей строится факт; - Поиск по шаблону: Поиск данных по регулярному выражению (например, вычленение даты); - Поиск по онтологии: Поиск данных на основе предикативных правил, описанных на специальном языке.

Сказка как наиболее устойчивая форма культурной трансляции требует тщательного изучения еще и потому, что Сказка как наиболее устойчивая форма культурной трансляции требует тщательного изучения еще и потому, что представляет собой пласт национальных символов, которые требуют несколько уровней прочтения и чье декодирование неоднозначно. Толкование сказки без учета этой ее особенности невозможно, а толкование в иносреде, причем даже тогда, когда речь идет о славянском окружении, создает значительные сложности в восприятии сказки. И в данном случае проблемой будут даже не лингвокультурологические лакуны, которые в настоящее время активно изучаются и для преодоления которых созданы методики и собраны рекомендации, а сама суть сказки, ее посыл, потому что сказки, как подлинные народные произведения, вобрали в себя представления, связанные с национальным мировоззрением. И сложности, когда идет речь о восприятии сказок, связаны именно с мировоззренческой составляющей сказки. С другой стороны, и об этом необходимо помнить, жанр сказки обладает собственной спецификой, которая делает упомянутую проблему менее острой. Дело в том, что сказка для интерактов коммуникации, с одной стороны, хороша тем, что ее структура проста. А если структура проста и универсальна, то и текст становится знакомым и, следовательно, узнаваемым. Символы, закодированные в структуре сказки, легко воспринимаются (и принимаются), так как они накладываются на готовые (общие, универсальные) структуры сформированные в детстве, и по своей сути являются общими для подавляющего количества людей различных наций.

сказка F= 10 m=3 N=176 слов n=3 абзаца K=Fm/Nn=3*10/(176*3)=0, 056818182 структура 4 толкование 2 сказка F= 10 m=3 N=176 слов n=3 абзаца K=Fm/Nn=3*10/(176*3)=0, 056818182 структура 4 толкование 2 универсальна 2 символ 2 проблема 2 национальный 2 восприятии 2