Автореферирование automatic text summarization abstract summary annotation

Скачать презентацию Автореферирование automatic text summarization abstract summary annotation Скачать презентацию Автореферирование automatic text summarization abstract summary annotation

83c0919e5dcbb9858963ff3f8d5e72f1.ppt

  • Количество слайдов: 61

Автореферирование (automatic text summarization abstract, summary, annotation ) Автореферирование (automatic text summarization abstract, summary, annotation )

Определение Автоматическое реферирование (ATS-Automatic Text Summarization) – автоматическое составление кратких изложений материалов, аннотаций или Определение Автоматическое реферирование (ATS-Automatic Text Summarization) – автоматическое составление кратких изложений материалов, аннотаций или дайджестов, т. е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных отчетов

Основные понятия Виды рефератов: • По жанру: –повествовательные –информационные –критические • По семантике: –продуктивные Основные понятия Виды рефератов: • По жанру: –повествовательные –информационные –критические • По семантике: –продуктивные – творческое или критическое осмысление реферируемого источника: • реферат-доклад – анализ и объективная оценка информации первоисточника • реферат-обзор – сопоставление различных точек зрения по данному вопросу на основе нескольких источников – репродуктивные – только содержание первичного текста: • реферат-конспект – фактическая информация в обобщённом виде, включая иллюстрации, сведения о методах, результатах исследования и возможностях их применения • реферат-резюме – только основные положения данной темы

Основные понятия • Типовые требования: –сжатие – объем от 5 до 30% объема исходного Основные понятия • Типовые требования: –сжатие – объем от 5 до 30% объема исходного документа –выражение всех основных мыслей оригинала –возможность использования нескольких источников • Этапы построение реферата человеком: –анализ источника –выделение наиболее важных и информативных фрагментов –формирование выводов

Задачи современного реферирования • Создание рефератов на основе нескольких документов • Создание одноязычных рефератов Задачи современного реферирования • Создание рефератов на основе нескольких документов • Создание одноязычных рефератов из источников на разных языках • Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (табл. , диаграммы, графики и т. п. ) • Извлечение семантики из мультимедийной информации

Автоматическое реферирование Основные направления: • Квазиреферирование - выделении (выборка) наиболее информативных фраз и формировании Автоматическое реферирование Основные направления: • Квазиреферирование - выделении (выборка) наиболее информативных фраз и формировании из них квазирефератов • Краткое изложение содержания первичных документов - выделение из текстов наиболее важной информации и порождение новых текстов, содержательно обобщающие первичные документы

Квазиреферирование Основные методы: • Статистические - оценка информативности элементов текста по частоте появления • Квазиреферирование Основные методы: • Статистические - оценка информативности элементов текста по частоте появления • Позиционные - оценка информативности элемента текста в зависимости от его позиции в документе • Индикаторные - оценка элементов текста по наличию в них специальных слов и словосочетаний маркеров важности, характеризующих их содержательную значимость • Комбинированные

Квазиреферирование Типовой алгоритм: – выделение текстовых блоков в документе – расчет весовых коэффициентов текстовых Квазиреферирование Типовой алгоритм: – выделение текстовых блоков в документе – расчет весовых коэффициентов текстовых блоков в соответствие с правилами – выявление определенного, задаваемого, как правило, коэффициентом сжатия, количества текстовых блоков с наивысшими весовыми коэффициентами – объединение блоков для построения квазиреферата

Квазиреферирование Определение веса текстового элемента: Weight = Location + Key. Phrase + Stat. Term, Квазиреферирование Определение веса текстового элемента: Weight = Location + Key. Phrase + Stat. Term, где: – Location - определяется расположением блока в тексте (в начале, в середине, в конце, в выводах) – Key. Phrase – наличие конструкций-маркеров, резюмирующие содержание ( «в заключение» , «в данной статье» , «в результате анализа» , «на основе вышесказанного» и т. п. ) – Stat. Term - нормированная по длине блока сумма весов входящих в него слов и словосочетаний

Квазиреферирование Достоинство метода - простота реализации Недостатки: – не учитывает взаимоотношения между блоками – Квазиреферирование Достоинство метода - простота реализации Недостатки: – не учитывает взаимоотношения между блоками – пропуск семантически важных предложений – включение слов или фраз, непонятных без предшествующего фрагмента текста – часто формируются неудобочитаемые или бессвязные рефераты – требует дополнительной обработки

Краткое изложение содержания первичных документов • Назначение - создание структурного описания, представляющего содержание текста Краткое изложение содержания первичных документов • Назначение - создание структурного описания, представляющего содержание текста в виде совокупности концептуально связанных смысловых единиц • Основные этапы (контент-анализ): – сведение исходной текстовой информации к заданному числу фрагментов - единиц значения (категории, последовательности и темы) – поиск регулярных связей между единицами значения – формирование выводов и обобщений

Краткое изложение содержания Основные подходы: • Синтаксический разбор предложений - используются деревья разбора текста, Краткое изложение содержания Основные подходы: • Синтаксический разбор предложений - используются деревья разбора текста, их перегруппировка и сокращение ветвей на основании соответствующих критериев • «Понимание» естественного языка - основываются на системах искусственного интеллекта: –формируются семантические структуры в виде концептуальных подграфов в базе знаний (психологические ассоциации, контраст, сходство) –избыточная информация устраняется отсечением подграфов –информация подвергается агрегированию методом слияния оставшихся графов или их обобщения –выделяются определяющие шаблоны в текстовой базе знаний –формируется концептуальная структура текста - аннотация

Программные средства • МЛ Аннотатор - составляет связный реферат, используя вероятностные модели, машинную морфологию Программные средства • МЛ Аннотатор - составляет связный реферат, используя вероятностные модели, машинную морфологию и др. интеллектуальные алгоритмы • Разработчик – Медиа. Лингва, Москва • Режимы работы: –выделение ключевых слов – выборка наиболее информативных слов –реферирование – отбор предложений, в наибольшей степени характеризующих содержание документа • Особенности: –относительный размер реферата ( «коэффициент сжатия» ) задаётся пользователем –автоматическое выделение в тексте: • значимые и шумовые слова • самостоятельные и зависимые предложения –учитывает семантический вес предложений –удаляет незначащие фрагменты

Программные средства Text. Analyst – смысловой анализатор, т. е. инструмент анализа содержания текстов, смыслового Программные средства Text. Analyst – смысловой анализатор, т. е. инструмент анализа содержания текстов, смыслового поиска информации и формирования электронных архивов • Разработчик - НПИЦ «Микро. Системы» , Москва • Особенности: – анализ содержания текста с автоматическим формированием семантической сети с гиперссылками (смысловой портрет текста в терминах основных понятий и их смысловых связей) – анализ содержания текста с автоматическим формированием тематического древа с гиперссылками (семантическая структура текста в виде иерархии тем и подтем) – автоматическое реферирование – формирование смыслового портрета в терминах наиболее информативных фраз

Text. Analyst. Особенности –смысловой поиск с учетом скрытых смысловых связей слов запроса со словами Text. Analyst. Особенности –смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста –кластеризация информации - анализ распределения материала текстов по тематическим классам –автоматическая индексация текста с преобразованием в гипертекст –ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования –автоматическое/автоматизированное формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации

Программные средства • Inxight Summarizer SDK (software development kit) – инструментальные средства (динамические библиотеки) Программные средства • Inxight Summarizer SDK (software development kit) – инструментальные средства (динамические библиотеки) для разработчиков систем автоматизированной обработки текстовой информации • Разработка - Ксерокс (исслед. центр, Пало-Альто, США) • Особенности: – возможность «обучения» поиску ключевых фраз с учетом структуры документов – параллельное использование нескольких алгоритмов реферирования – непосредственная связь между алгоритмами реферирования и алгоритмом оценки качества реферата – высокоэффективный алгоритм оценки качества реферата

Программные средства Intelligent Text Miner - набор утилит глубинного анализа текстов, входит в Программные средства Intelligent Text Miner - набор утилит глубинного анализа текстов, входит в "Information Integrator for Content" для СУБД DB 2 в качестве Information Mining • Разработка – ф. IBM (International Business Machine, USA) • Состав: –Language Identification Tool - автоматическое определение языка документа –Categorisation Tool - автоматическая классификация текста –Clusterisation Tool – разбиения множества документов на группы по близости стиля, формы, частотных характеристик ключевых слов и т. п. –Feature Extraction Tool - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного словаря –Annotation Tool - выявление «смысла» текстов и составление рефератов - аннотаций • Стоимость - от 18 до 75 тыс. $

Программные средства • Extractor — модуль, выделяющий из представленного ему на вход текста наиболее Программные средства • Extractor — модуль, выделяющий из представленного ему на вход текста наиболее информативные именные группы и список ключевых слов • Разработка — Институт Информационных Технологий Национального исследовательского Совета Канады • Количество формируемых информативных групп — 7 (вне зависимости от длины текста) • Применение — в ПО фирм Think. Tank Technologies и Tetranet, в поисковой системе журнала «Искусственный интеллект» и др.

Программные средства • Broadcast News Navigator (BNN) – средство поиска, просмотра и реферирования телевизионных Программные средства • Broadcast News Navigator (BNN) – средство поиска, просмотра и реферирования телевизионных новостей • Назначение - извлечение семантики из мультимедийной информации • Особенности: –методы работы с аудио для вычленения законченных фрагментов (паузы, смена говорящего, снятие телефонной трубки и т. п. ) –преобразование «речь» –> «текст» –технологии обработки видео для определения существенных фрагментов (ключевые элементы, логотипы, интересные события, происшествия, яркие проявления характеров и т. п. ) –стратегия представления смешанной среды, объединяющая ключевые кадры видеофрагментов с текстом и с информацией об организациях, местоположении и участвующих в событиях лицах

Пример работы программы: мультимедийный реферат информационного наполнения видеофрагмента, полученный на основе запроса Пример работы программы: мультимедийный реферат информационного наполнения видеофрагмента, полученный на основе запроса

Автоматический синтез речи (AS(V)S - Automatic Speech (Voice) Synthesis) Автоматическое распознавание (ASR – Automatic Автоматический синтез речи (AS(V)S - Automatic Speech (Voice) Synthesis) Автоматическое распознавание (ASR – Automatic Speech Recognition)

Обработка речевой информации Составляющие: • Речевая наука - комплекс знаний о речевом сигнале, процессах Обработка речевой информации Составляющие: • Речевая наука - комплекс знаний о речевом сигнале, процессах речеобразования и речевосприятия, модели речевого сигнала и методы их обработки • Речевые технологии - аппаратно-программные реализации обработки речевых сигналов для решения практических (прикладных) задач • Практические системы - системы реального применения

Речевые системы • Военные или специального применения – стоимость не имеет значения, функциональные свойства Речевые системы • Военные или специального применения – стоимость не имеет значения, функциональные свойства ограничены и жестко определены • Коммерческие – стоимость должна быть оправдана прибылью от их применения или другими выгодами • Демонстрационные – для исследований или для представления уровня достижений фирмы

Синтез речи • Синтез речи: –в широком смысле - восстановление формы речевого сигнала по Синтез речи • Синтез речи: –в широком смысле - восстановление формы речевого сигнала по его параметрам –в узком смысле - формирование речевого сигнала на основе печатного текста • Методы синтеза речи : –фонемный - комбинирование фонем (минимальная единица звукового строя языка, служащая для различения смысла слов) и аллофон (вариант фонемы, зависящий от окружающих его звуков) –сигнальный - синтез звонких согласных с помощью периодических и шумовых сигналов, фильтрация • Задачи: –обеспечением натуральности (естественности) голоса на уровне тембра, плавности звучания и интонации –корректная расстановка ударений –расшифровка сокращений, чисел, аббревиатур, спец. знаков и т. п.

Примеры использования синтеза речи • Компьютерные программы для чтения текстовых файлов, текстов в буфере Примеры использования синтеза речи • Компьютерные программы для чтения текстовых файлов, текстов в буфере (Clipboard) или окнах приложений (text-to-speech) • Автомобильные навигаторы • Голосовые системы предупреждения в автомобилях, самолетах, ж/д транспорте • Системы оповещения о чрезвычайных ситуациях • Военные системы • Служба 100 МГТС - текущее время • Метро - объявление остановок • Сервисные службы мобильных операторов, банков, фирм • «Говорящие» детские игрушки (синтезаторы речи или цифровые магнитофоны)

Синтез речи. Процедуры • Определение (выбор) языка текста • Нормализация текста - разделение текста Синтез речи. Процедуры • Определение (выбор) языка текста • Нормализация текста - разделение текста на слова и другие символы (знаки препинания, символы табуляции, начала абзаца и т. п. ) • Лингвистический анализ - каждой словоформе создается соответствующая фонемная транскрипция • Формирование просодических характеристик: – расстановка пауз – присвоение ритмических и акцентных характеристик (длительность, энергия) – присвоение тональных характеристик (частота основного тона – высота голоса) • Фонемные преобразования • Формирование управляющей информации синтезатору • Получение звукового сигнала

MS SAPI и речевые базы данных • Microsoft Speech Application Programming Interface (SAPI) — MS SAPI и речевые базы данных • Microsoft Speech Application Programming Interface (SAPI) — библиотека программ для Windows, позволяющая распознавать и синтезировать голос в различных приложениях пользователя • Речевые (акустические) базы данных — цифровое хранилище образцов акустических единиц речи • Принцип формирования — деление речи на дискретные акустические единицы – аллофоны (вариант фонемы, зависящий от окружающих его звуков), дифоны (сегмент речи между серединами фонем), трифоны, слоги, полуслоги и т. п. • Применение: – системы распознавания речи – системы синтеза речи голосовых порталов – голосовое управлении в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера)

Программные средства • NVDA (Non Visual Desktop Access) – вывод информации с помощью речи Программные средства • NVDA (Non Visual Desktop Access) – вывод информации с помощью речи или на брайлевский дисплей для работы на ПК незрячих или людей с ослабленным зрением Особенности NVDA • Распространяется по лицензии GPL (freeware, open source) • Переведена более, чем на 20 языков • Многоязычный синтезатор espeak, поддерживающий более 30 языков (русский на базовом уровне) • Совместимость с MS SAPI - Speech Application Programming Interface - программный интерфейс речевых приложений • Поддержка десятков различных брайлевских дисплеев • Индикация процесса выполнения тоновым сигналом (чем ближе полоса индикатора к 100%, тем выше тон) • Индикация координат мыши с помощью аудио сигналов • Портабельная - может работать со съемных носителей

Программные средства • ГОЛОС - синтезатор речи для чтения текста на русском и украинском Программные средства • ГОЛОС - синтезатор речи для чтения текста на русском и украинском языке (можно создавать свой голос, настраивать по тембру, частоте и скорости) • Speaker (бесплатная) - для воспроизведения голосом текстов любых электронных документов. Качество речи определяется голосовым движком. • Для работы необходимы: – установленный в системе MS SAPI 4. 0 – любой голосовой движок под MS SAPI 4. 0 (например, Russian Nicolai, Russian Olga, Russian Katerina)

Программные средства Sakrament Talker – озвучивание любых электронных документов (ф. «Сакрамент» , Минск) • Программные средства Sakrament Talker – озвучивание любых электронных документов (ф. «Сакрамент» , Минск) • Особенности: –система синтеза речи Sakrament TTS Engine 3. 0 и 2 русскоязычных голоса (мужской и женский) –поддержка форматов RTF и TXT –автоматическое распознавание кодировки текста –усовершенствованная система поиска –вывод - через аудиосистему, сохранение в MP 3 –качественные синтезированные голоса –широкие возможности настройки голоса - интонация, ритмика, скорость и высота тона и т. п. –поддержка SAPI Speech Tags и дополнительных тэгов семантической разметки –можно задавать: ударение, тип фрагмента (дата, время, адрес, URL, e-mail, телефон, аббревиатура и т. д. ), параметры воспроизведения (громкость, скорость, интонация) и др.

Программные средства • Govorilka - небольшая программа для чтения текстов голосом. Предназначена для работы Программные средства • Govorilka - небольшая программа для чтения текстов голосом. Предназначена для работы совместно с речевыми синтезаторами, поддерживающими управление через MS SAPI • Возможности: –загрузка текстового файла ограниченного размером памяти –чтение текста из буфера –изменение кодировки загруженного текста –слежение за местом чтения в тексте –запоминание текста и положение курсора при выходе –настройка параметров голоса –изменение интерфейса программы –запись воспроизводимого текста в звуковой файл (*. wav, mp 3) –воспроизведение звукового файла (*. wav) –работа со словарем пользователя, можно самостоятельно установить произношение отдельных слов для улучшения произношение программы

Программные средства Балаболка - чтение вслух текстовых файлов Особенности: • Работает с различными версиями Программные средства Балаболка - чтение вслух текстовых файлов Особенности: • Работает с различными версиями MS SAPI и любыми установленными речевыми синтезаторами • Текстовые форматы: AZW, AZW 3, CHM, Dj. Vu, DOC, EPUB, FB 2, HTML, LIT, MOBI, ODT, PDF, PRC, RTF • Обработка текстовых файлов: – проверка орфографии – разбивка больших файлов на несколько меньшего размера – нахождение омографов – удаление знаков переноса (уменьшает запинки при чтении) • Изменение скорости и тембра речи • Бесплатная, портируемая (адаптация программы, с тем чтобы она работала в другой среде, отличающейся от той среды, под которую она была изначально написана)

Программные средства - Балаболка • Воспроизведение (помимо файлов): – содержимое буфера обмена – набираемый Программные средства - Балаболка • Воспроизведение (помимо файлов): – содержимое буфера обмена – набираемый на клавиатуре текст • Управление чтением: – из системной области уведомлений (tray) – при помощи клавиатурных комбинаций • Сохраненение: – звук - аудиофайл формата WAV, MP 3, MP 4, OGG или WMA – текст - файл формата LRC или в тег ID 3 (внутри MP 3). При воспроизведении текст отображается синхронно со звуком

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию Основные части систем распознавания Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию Основные части систем распознавания речи: • Акустическая - преобразование из временного процесса в форму, в которой в более явном виде присутствует информация о содержании речевого сообщения • Лингвистическая - интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю. Включает в себя модели: –фонетическую –фонологическую –морфологическую –лексическую –синтаксическую –семантическую

Классификация систем распознавания речи: • По назначению: – для диктовки – командные системы – Классификация систем распознавания речи: • По назначению: – для диктовки – командные системы – для идентификации (криминалистика, безопасность) • По размеру словаря: – ограниченный набор слов – неограниченный словарь • По настройке на диктора: – дикторозависимые – дикторонезависимые • По типу речи: – слитная – раздельная

Классификация систем распознавания речи: • По используемому алгоритму: –нейронные сети –скрытые Марковские модели –динамическое Классификация систем распознавания речи: • По используемому алгоритму: –нейронные сети –скрытые Марковские модели –динамическое программирование • По принципу выделения структурных единиц: –распознавание по шаблону (корреляция) –выделение лексических элементов • По типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны)

Основные этапы распознавания речи • Речь -> Обработка акустического сигнала: – аналоговая – усиление, Основные этапы распознавания речи • Речь -> Обработка акустического сигнала: – аналоговая – усиление, шумоподавление, нормирование – оцифровка – преобразование для следующего этапа (ЦФ) • Фонетический анализ – выделение и классификация фонем (тип, высота тона, длительность, амплитуда) • Фонологический анализ – лингвистически важные различия в фонетическом представлении произнесения (уровни и расположение ударения, интонационный контур, структуры слога, последовательности фонем, лежащих в основе произнесения и т. п. ) • Морфологический анализ - приводит слова к леммам • Лексический доступ к словарю • Синтаксический анализ • Семантический анализ • Значение

Программы распознавания речи • Средства речевого управления (командные): –сервисные службы, Call-центры (Charles Schwab & Программы распознавания речи • Средства речевого управления (командные): –сервисные службы, Call-центры (Charles Schwab & Co (США) - предоставлении брокерских услуг участникам фондового рынка, ежедневно автоматически обрабатывает >50 000 звонков, оценки за ЕГЭ и т. п. ) –управление компьютером (позиционирование курсора, запуск приложений, выбор команд из меню, правка, открытие/закрытие документов, выход из программ, выключение ПК и т. п. ) –управление транспортными средствами и оборудованием • Средства ввода информации (диктовки) - ввод массивов текстовой информации (скорость голосового набора – до 1000 печатных знаков в минуту) • Средства идентификации по образцу речи

Программы распознавания речи Горыныч - для диктовки и голосового управления компьютером (русский модуль для Программы распознавания речи Горыныч - для диктовки и голосового управления компьютером (русский модуль для совместной работы с американской программой Dragon Dictates) Разработчик – Voice. Lock, Россия Особенности: • Бесплатная, дикторонезависимая • Режим обучения для повышения уровня распознавания • Надежность распознавания - 50 -70% • Наращиваемый словарь • Скорость ввода при диктовке – до 1000 знаков в минуту • Адаптирован к наиболее распространенному произношению слов ( «сичас» - «сейчас» , «што» - «что» и т. п. ) • Отсутствие форматирования и проверки правописания

Горыныч • Глобальные команды: – – – – «открыть» - вызов программ «новый_документ» - Горыныч • Глобальные команды: – – – – «открыть» - вызов программ «новый_документ» - запуск Word «блокнот» - запуск Notepad «буду_диктовать» - переход в режим диктовки «режим_команд» - возвращение в режим команд «проснись» - активация микрофона «отдыхай» - в режим ожидания • Команды режима диктовки: – «точка» , «запятая» , «кавычки» , «закрыть_кавычки» , «многоточие» , «тире» , «дефис» , «двоеточие» - знаки препинания – «абзац» - переход на новую строку (абзац) – «восклик» - ! – «знак_вопроса» - ?

Программы распознавания речи Диктограф - для управления функциями ПК с помощью голосовых команд и Программы распознавания речи Диктограф - для управления функциями ПК с помощью голосовых команд и диктовки текста в любой текстовый редактор Разработчик - Voice Member Technology, Россия Особенности: • • Высокое качество распознавания Расширенный словарь Возможность наращивания словаря Режим обучения в процессе диктовки Совместимость с новыми версиями ОС Простой и удобный интерфейс Быстрая и легкая настройка микрофона

Программы распознавания речи Комплекс автоматического документирования русской устной речи (КАДРУР)– для автоматической обработки голосовых Программы распознавания речи Комплекс автоматического документирования русской устной речи (КАДРУР)– для автоматической обработки голосовых сообщений и преобразования русской речи в электронный текстовый документ в реальном масштабе времени • Разработчик - «Центр Речевых Технологий» , СПб Особенности: • Автоматическое распознавание слитной речи на основе: –усовершенствованных фонетических систем –лингвистических моделей языка –автоматической транскрипции –методов машинного понимания речи –цифровой обработки речевого сигнала • Надежность распознавания - 85 -90 % • Словарный запас (количество слов) - >100000

КАДРУР - Комплекс автоматического документирования русской устной речи Области практического применения: – Автоматическое документирование КАДРУР - Комплекс автоматического документирования русской устной речи Области практического применения: – Автоматическое документирование и перевод на другие языки устных выступлений на конгрессах, совещаниях, брифигах и т. п. – Системы автоматического мониторинга и анализа информации, передаваемой по каналам спутникового и эфирного теле/радиовещания – Автоматизированные голосовые службы по обработке телефонных обращений граждан в органы власти – Автоматизированные голосовые службы по обслуживанию населения: заказ билетов, такси, пищи, номера в гостинице и т. п. – Автоматическая обработка голосовых сообщений граждан в службы экстренной помощи

Зарубежные программы распознавания речи • IBM: – Voice Type Dictation – Voice Pilot – Зарубежные программы распознавания речи • IBM: – Voice Type Dictation – Voice Pilot – Via. Voice • Dragon Systems: – Dragon Dictate – Dragon Naturally Speaking • Creative Technology - Voice Assist • Verbex - Listen for Windows

Зарубежные программы распознавания речи • VIAVOICE - система распознавания речи включает режим диктовки и Зарубежные программы распознавания речи • VIAVOICE - система распознавания речи включает режим диктовки и режим подачи голосовых команд • Разработчик: IBM • Особенности: – использует специаизированный текстовый процессор с голосовым вводом Speak. Pad или MS Word – позволяет диктовать, редактировать, корректировать и форматировать текст – экспорт в другие текстовые редакторы – в словарь можно добавлять новые слова, адреса, акронимы и персональную информацию – можно голосом инициировать базовые команды управления Internet Explorer • Цена: $44, 99

Зарубежные программы распознавания речи Dragon Naturally. Speaking Essentials — система распознавания речевого ввода • Зарубежные программы распознавания речи Dragon Naturally. Speaking Essentials — система распознавания речевого ввода • Разработчик: Scansoft, USA Особенности: –скорость ввода – не менее 160 слов в минуту –полностью интегрирована в MS Internet Explorer и AOL –позволяет диктовать текст в большинство Windowsприложений –автоматически добавляет термины и имена контактных персон из документов и электронной почты пользователя –позволяет ускорить рутинные задачи по вводу данных, запускать приложения голосом, посылать e-mail, заполнять формы и осуществлять навигацию в Web –>160 наград за точность распознавания и простоту • Цена: $59, 99

Автоматическое порождение текста Автоматическое порождение текста

Автоматическое порождение текста Порождение текстов - процесс автоматической генерации элементов текста на естественном языке Автоматическое порождение текста Порождение текстов - процесс автоматической генерации элементов текста на естественном языке для решения специфических коммуникативных задач Цель - компьютерное моделирование человеческой способности к порождению высказываний Основные направления: • Компьютерное моделирование структуры сюжета • Автоматическое порождение текста на естественном языке: – псевдотекст (отработка статистики, исследования) – осмысленный текст

Компьютерное моделирование структуры сюжета (КМСС) КМСС - направление исследований в рамках структурного литературоведения (формальная Компьютерное моделирование структуры сюжета (КМСС) КМСС - направление исследований в рамках структурного литературоведения (формальная школа), семиотики и культурологии Базовые принципы представления сюжета: • Морфологический: –аппарат описаний функций персонажей (В. Я. Пропп, ЛГУ) –основа алгоритма - последовательность функций (31 шт. ) персонажей сказки (функции Проппа) и их бинарность (недостача - ликвидация недостачи, запрещение нарушение запрета, борьба - победа и т. д. ). –сюжет - множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала (русские волшебные сказки) –варианты сюжетов - сцепление различных ситуаций в правилах порождения типовых сценариев встреч персонажей – реализация - программа TALE

Базовые принципы представления сюжета • Синтаксический (с середины1970 -х): – основа – развитие аппарата Базовые принципы представления сюжета • Синтаксический (с середины1970 -х): – основа – развитие аппарата порождающей грамматики Н. Хомского (сюжетные грамматики или грамматики повествования - story grammars) – базовые элементы - экспозиция (setting), событие, эпизод, мораль – нормальный сюжет – соответствует условиям минимальности (статус последовательности из элементов сюжета и ограничений) – Недостатки: • социокультурный характер ограничений • ограниченный набор правил модификации повествовательной (нарративной) структуры

Базовые принципы представления сюжета • Когнитивный (В. Ленерт, начало 1980 -х): –формализм эмоциональных сюжетных Базовые принципы представления сюжета • Когнитивный (В. Ленерт, начало 1980 -х): –формализм эмоциональных сюжетных единиц (Affective Plot Units) для системы ИИ - до 60 сюжетных единиц построения модели сюжета –в центре внимания формализма Ленерт - не внешние компоненты сюжета (экспозиция, событие, эпизод, мораль), а его содержательные характеристики –сюжетная единица - бинарное отношение, связывающее события, оцениваемые персонажами положительно или отрицательно, и когнитивноэмоциональные состояния персонажей в различных комбинациях - событие и состояние, событие и т. п. –каждая сюжетная единица получает название - УСПЕХ, НЕУДАЧА, УПОРСТВО, ПРОБЛЕМА и т. п. –сюжет - последовательная смена когнитивноэмоциональных состояний персонажей

Системы порождения псевдотекста Основные способы: • Псевдослучайный выбор букв или слов –с равными вероятностями Системы порождения псевдотекста Основные способы: • Псевдослучайный выбор букв или слов –с равными вероятностями всех букв: • «цчцёэпетйащадмп жжцъооойчш мккхойбфззбфмядже тёелшсфвры джйдгщпёмйщ ярыыуфщехф вщта оёюхвбв ншмьёжьгк манмсшюпхыж яяпдёчссвёнш ьшзоеюьмвцй взюторйьэкз омбгежфмъхь гявмъыихё юькаыбаян сшоасуъ жяыътъигзё во» –с различными вероятностями всех букв (статистика): • «ырдаеноа бпевтбн нчиг нларв ибее лытоо м йиясаьнд вудьчч и онаонво морвмиуенунисмлепнп чы аа поырюпитлсиичо жиныгте г аачт чтврвнтдиу вьин иисатнхл нрсдмол лмноищатвпяоцоаав бф амдб иенждр жо леетй» –с равными вероятностями всех слов из словаря: • пример - текст 20 слов из словаря Linux (объём 32000 слов): «Разберет раскололся раскрывшейся измеряя вкусами значительным отдернулась подано новом паслась двумя видевший доносил служила пивную сны вынул величавым невелики проснувшихся»

Системы порождения псевдотекста • Анализ вероятностей (пары букв): – «стразределастванный ребно пребяза подру получить Системы порождения псевдотекста • Анализ вероятностей (пары букв): – «стразределастванный ребно пребяза подру получить дому непространия вату прого тщается чтольно вы усли ем, вышей Лицениванензие уведом, обязаннак одить илисполжными порсисходны вознает. удите этие, может» • Использование SIMP-таблиц Simplified Integrated Modular Prose – упрощённая интегрированная модульная проза –работа основана на генерации случайного четырёхзначного числа и выборке из четырёх SIMP-таблиц (ABCD) соответствующих частей предложения –позволяет генерировать общеупотребительные псевдонаучные фразы –пример - «Однако траектория в конфигурационном пространстве открывает весьма интересные перспективы функционирования в режиме дискретного времени»

Системы порождения «осмысленного» текста Основные технологии: • Шаблонные - содержание будущего текста представлено в Системы порождения «осмысленного» текста Основные технологии: • Шаблонные - содержание будущего текста представлено в виде фрагментов текста для компоновки • Лингвистически мотивированные: – связаны с изучением жанровых и коммуникативных характеристик текстов, риторических приемов организации содержания текста, языковых средств выражения связности текста (лингвистика текста), формализацией грамматики и лексических описаний – содержание будущего текста представлено в виде данных нетекстовой природы (БД, баз знаний, семантических и формальных языков) – для создания текста системе необходимы знания структуры содержания и знания об устройстве генерируемого текста – для выражения содержания языковыми средствами необходимы сложные лингвистические процедуры

Системы порождения «осмысленного» текста Методы порождения текстов: • Цепи Маркова –используются программа-генератор и большой Системы порождения «осмысленного» текста Методы порождения текстов: • Цепи Маркова –используются программа-генератор и большой объем текста –берется случайное начальное слово и помещается в текст-результат –слово ищется в исходном тексте, и в текстрезультат переносится следующее за ним слово –продолжение процедуры • Фокус внимания: –основа - алгоритм программы-робота для ведения диалога ( «Элиза» ) –робот выявляет основную мысль из фразы человека – генерирует ответ на основе слова, фокусирующего внимание –пример - Человек: «На улице идет дождь» . Элиза: «Почему Вы решили, что на улице идет дождь? »

Системы порождения «осмысленного» текста Использование словарей: – подготавливают тематические словари с подробным перечислением характеристик Системы порождения «осмысленного» текста Использование словарей: – подготавливают тематические словари с подробным перечислением характеристик слов – формируют систему синтаксических правил – генерируют фразы на основе словарей и правил – добавляют прилагательные, наречия и т. п. – пример: • анализ: «Мама мыла раму» - сущ. , ж. р. , ед. ч. , им. пад. , одуш. + гл. , прош. вр. + сущ. , вин. пад. • заполнение схемы случайными словарными словами: – «Кошка ловила мышку» – «Мышка варила кошку» • добавляем наречия и прилагательные: – «Храбрая кошка долго ловила серую мышку» – «Красная мышка быстро варила зеленую кошку» • для исключения казусов требуется очень подробное описание каждого слова, (включая тематику), допустимых пар слов

Бесплатные программы автоматической генерации текстов: • ANCHOR – генератор текстов, простой интерфейс, 300 Кб Бесплатные программы автоматической генерации текстов: • ANCHOR – генератор текстов, простой интерфейс, 300 Кб • Delirium - генератор смешных текстов на основе существующих: – использует алгоритм марковских цепей – позволяет создавать длинные «осмысленные» фразы – Примеры: • «У них на лицах было то выражение, которое так необходимо колесам, чтобы они катились» • «Здравствуйте, это Илья. Я сплю и не очень» • Generating the Web – мощный генератор: – использует методы переборов и перестановок – перестановки: простые, с одинаковыми и разными разделителями, с использованием различных переменных • Seo. Generator - удобные и быстрые инструменты генерации текстов, анкоров, названий. Ориентирован на SEO (Search Engine Optimization)

Платные программы генерации текстов: • Синонимайзер — база русских синонимов (638 000 слов и Платные программы генерации текстов: • Синонимайзер — база русских синонимов (638 000 слов и словосочетаний), украинские и другие синонимы на латинице Отбор избранных синонимов в отдельную базу, есть выбор случайных синонимов. . Стоимость — $25. Есть демо-версия • Sy. Monym — программа для уникализации текстов, база 68272 просклоненных словоформ. Стоимость — $15. Есть демо-версия. • Monkey. Write - генератор текстов с мощным функционалом: – мощная наращиваемая база синонимов – заменяет синонимами слова и выражения – перестраивает и перефразирует предложения – автоматически меняет местами абзацы или их группы – автоматизированно расставляет ссылки по анкор-листу (анкором называется текст в виде одного или нескольких слов, который является видимой частью гиперссылки, ведущей на указанный в ней адрес в сети или раздел на странице) – пакетное изменение статей – сравнение статей на схожесть методом шинглов (шингл – это фрагмент текста длиной в несколько слов, с которым работает программа проверки уникальности. )

Задание 4 1. Для заданного текста (Пайка) получить реферат и оценить качество реферата • Задание 4 1. Для заданного текста (Пайка) получить реферат и оценить качество реферата • http: //autosummarizer. com/index. php • http: //textsummarization. net/text-summarizer 2. Заданный текст проверить на плагиат: • http: //advego. ru/plagiatus/ • http: //www. etxt. ru/antiplagiat/ • http: //www. content-watch. ru/text/ • https: //text. ru/antiplagiat • http: //pcpro 100. info/antiplagiat-besplatno-proverit-tekstna-unikalnost/ • http: //pr-cy. ru/unique/

Задание 4 3. Выполнить подстановку синонимов • tp: //www. raskruty. ru/tools/synonymizer/ • http: //usyn. Задание 4 3. Выполнить подстановку синонимов • tp: //www. raskruty. ru/tools/synonymizer/ • http: //usyn. ru/online. php • http: //www. raskruty. ru/tools/synonymizer/ • http: //synonyma. ru/tools/synonymize/ 4. После подстановки синонимов снова проверить на плагиат и оценить качество полученного текста

Зкаюлечние По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены Зкаюлечние По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом.




  • Мы удаляем страницу по первому запросу с достаточным набором данных, указывающих на ваше авторство. Мы также можем оставить страницу, явно указав ваше авторство (страницы полезны всем пользователям рунета и не несут цели нарушения авторских прав). Если такой вариант возможен, пожалуйста, укажите об этом.