
83c0919e5dcbb9858963ff3f8d5e72f1.ppt
- Количество слайдов: 61
Автореферирование (automatic text summarization abstract, summary, annotation )
Определение Автоматическое реферирование (ATS-Automatic Text Summarization) – автоматическое составление кратких изложений материалов, аннотаций или дайджестов, т. е. извлечение наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных отчетов
Основные понятия Виды рефератов: • По жанру: –повествовательные –информационные –критические • По семантике: –продуктивные – творческое или критическое осмысление реферируемого источника: • реферат-доклад – анализ и объективная оценка информации первоисточника • реферат-обзор – сопоставление различных точек зрения по данному вопросу на основе нескольких источников – репродуктивные – только содержание первичного текста: • реферат-конспект – фактическая информация в обобщённом виде, включая иллюстрации, сведения о методах, результатах исследования и возможностях их применения • реферат-резюме – только основные положения данной темы
Основные понятия • Типовые требования: –сжатие – объем от 5 до 30% объема исходного документа –выражение всех основных мыслей оригинала –возможность использования нескольких источников • Этапы построение реферата человеком: –анализ источника –выделение наиболее важных и информативных фрагментов –формирование выводов
Задачи современного реферирования • Создание рефератов на основе нескольких документов • Создание одноязычных рефератов из источников на разных языках • Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (табл. , диаграммы, графики и т. п. ) • Извлечение семантики из мультимедийной информации
Автоматическое реферирование Основные направления: • Квазиреферирование - выделении (выборка) наиболее информативных фраз и формировании из них квазирефератов • Краткое изложение содержания первичных документов - выделение из текстов наиболее важной информации и порождение новых текстов, содержательно обобщающие первичные документы
Квазиреферирование Основные методы: • Статистические - оценка информативности элементов текста по частоте появления • Позиционные - оценка информативности элемента текста в зависимости от его позиции в документе • Индикаторные - оценка элементов текста по наличию в них специальных слов и словосочетаний маркеров важности, характеризующих их содержательную значимость • Комбинированные
Квазиреферирование Типовой алгоритм: – выделение текстовых блоков в документе – расчет весовых коэффициентов текстовых блоков в соответствие с правилами – выявление определенного, задаваемого, как правило, коэффициентом сжатия, количества текстовых блоков с наивысшими весовыми коэффициентами – объединение блоков для построения квазиреферата
Квазиреферирование Определение веса текстового элемента: Weight = Location + Key. Phrase + Stat. Term, где: – Location - определяется расположением блока в тексте (в начале, в середине, в конце, в выводах) – Key. Phrase – наличие конструкций-маркеров, резюмирующие содержание ( «в заключение» , «в данной статье» , «в результате анализа» , «на основе вышесказанного» и т. п. ) – Stat. Term - нормированная по длине блока сумма весов входящих в него слов и словосочетаний
Квазиреферирование Достоинство метода - простота реализации Недостатки: – не учитывает взаимоотношения между блоками – пропуск семантически важных предложений – включение слов или фраз, непонятных без предшествующего фрагмента текста – часто формируются неудобочитаемые или бессвязные рефераты – требует дополнительной обработки
Краткое изложение содержания первичных документов • Назначение - создание структурного описания, представляющего содержание текста в виде совокупности концептуально связанных смысловых единиц • Основные этапы (контент-анализ): – сведение исходной текстовой информации к заданному числу фрагментов - единиц значения (категории, последовательности и темы) – поиск регулярных связей между единицами значения – формирование выводов и обобщений
Краткое изложение содержания Основные подходы: • Синтаксический разбор предложений - используются деревья разбора текста, их перегруппировка и сокращение ветвей на основании соответствующих критериев • «Понимание» естественного языка - основываются на системах искусственного интеллекта: –формируются семантические структуры в виде концептуальных подграфов в базе знаний (психологические ассоциации, контраст, сходство) –избыточная информация устраняется отсечением подграфов –информация подвергается агрегированию методом слияния оставшихся графов или их обобщения –выделяются определяющие шаблоны в текстовой базе знаний –формируется концептуальная структура текста - аннотация
Программные средства • МЛ Аннотатор - составляет связный реферат, используя вероятностные модели, машинную морфологию и др. интеллектуальные алгоритмы • Разработчик – Медиа. Лингва, Москва • Режимы работы: –выделение ключевых слов – выборка наиболее информативных слов –реферирование – отбор предложений, в наибольшей степени характеризующих содержание документа • Особенности: –относительный размер реферата ( «коэффициент сжатия» ) задаётся пользователем –автоматическое выделение в тексте: • значимые и шумовые слова • самостоятельные и зависимые предложения –учитывает семантический вес предложений –удаляет незначащие фрагменты
Программные средства Text. Analyst – смысловой анализатор, т. е. инструмент анализа содержания текстов, смыслового поиска информации и формирования электронных архивов • Разработчик - НПИЦ «Микро. Системы» , Москва • Особенности: – анализ содержания текста с автоматическим формированием семантической сети с гиперссылками (смысловой портрет текста в терминах основных понятий и их смысловых связей) – анализ содержания текста с автоматическим формированием тематического древа с гиперссылками (семантическая структура текста в виде иерархии тем и подтем) – автоматическое реферирование – формирование смыслового портрета в терминах наиболее информативных фраз
Text. Analyst. Особенности –смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста –кластеризация информации - анализ распределения материала текстов по тематическим классам –автоматическая индексация текста с преобразованием в гипертекст –ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования –автоматическое/автоматизированное формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации
Программные средства • Inxight Summarizer SDK (software development kit) – инструментальные средства (динамические библиотеки) для разработчиков систем автоматизированной обработки текстовой информации • Разработка - Ксерокс (исслед. центр, Пало-Альто, США) • Особенности: – возможность «обучения» поиску ключевых фраз с учетом структуры документов – параллельное использование нескольких алгоритмов реферирования – непосредственная связь между алгоритмами реферирования и алгоритмом оценки качества реферата – высокоэффективный алгоритм оценки качества реферата
Программные средства Intelligent Text Miner - набор утилит глубинного анализа текстов, входит в "Information Integrator for Content" для СУБД DB 2 в качестве Information Mining • Разработка – ф. IBM (International Business Machine, USA) • Состав: –Language Identification Tool - автоматическое определение языка документа –Categorisation Tool - автоматическая классификация текста –Clusterisation Tool – разбиения множества документов на группы по близости стиля, формы, частотных характеристик ключевых слов и т. п. –Feature Extraction Tool - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного словаря –Annotation Tool - выявление «смысла» текстов и составление рефератов - аннотаций • Стоимость - от 18 до 75 тыс. $
Программные средства • Extractor — модуль, выделяющий из представленного ему на вход текста наиболее информативные именные группы и список ключевых слов • Разработка — Институт Информационных Технологий Национального исследовательского Совета Канады • Количество формируемых информативных групп — 7 (вне зависимости от длины текста) • Применение — в ПО фирм Think. Tank Technologies и Tetranet, в поисковой системе журнала «Искусственный интеллект» и др.
Программные средства • Broadcast News Navigator (BNN) – средство поиска, просмотра и реферирования телевизионных новостей • Назначение - извлечение семантики из мультимедийной информации • Особенности: –методы работы с аудио для вычленения законченных фрагментов (паузы, смена говорящего, снятие телефонной трубки и т. п. ) –преобразование «речь» –> «текст» –технологии обработки видео для определения существенных фрагментов (ключевые элементы, логотипы, интересные события, происшествия, яркие проявления характеров и т. п. ) –стратегия представления смешанной среды, объединяющая ключевые кадры видеофрагментов с текстом и с информацией об организациях, местоположении и участвующих в событиях лицах
Пример работы программы: мультимедийный реферат информационного наполнения видеофрагмента, полученный на основе запроса
Автоматический синтез речи (AS(V)S - Automatic Speech (Voice) Synthesis) Автоматическое распознавание (ASR – Automatic Speech Recognition)
Обработка речевой информации Составляющие: • Речевая наука - комплекс знаний о речевом сигнале, процессах речеобразования и речевосприятия, модели речевого сигнала и методы их обработки • Речевые технологии - аппаратно-программные реализации обработки речевых сигналов для решения практических (прикладных) задач • Практические системы - системы реального применения
Речевые системы • Военные или специального применения – стоимость не имеет значения, функциональные свойства ограничены и жестко определены • Коммерческие – стоимость должна быть оправдана прибылью от их применения или другими выгодами • Демонстрационные – для исследований или для представления уровня достижений фирмы
Синтез речи • Синтез речи: –в широком смысле - восстановление формы речевого сигнала по его параметрам –в узком смысле - формирование речевого сигнала на основе печатного текста • Методы синтеза речи : –фонемный - комбинирование фонем (минимальная единица звукового строя языка, служащая для различения смысла слов) и аллофон (вариант фонемы, зависящий от окружающих его звуков) –сигнальный - синтез звонких согласных с помощью периодических и шумовых сигналов, фильтрация • Задачи: –обеспечением натуральности (естественности) голоса на уровне тембра, плавности звучания и интонации –корректная расстановка ударений –расшифровка сокращений, чисел, аббревиатур, спец. знаков и т. п.
Примеры использования синтеза речи • Компьютерные программы для чтения текстовых файлов, текстов в буфере (Clipboard) или окнах приложений (text-to-speech) • Автомобильные навигаторы • Голосовые системы предупреждения в автомобилях, самолетах, ж/д транспорте • Системы оповещения о чрезвычайных ситуациях • Военные системы • Служба 100 МГТС - текущее время • Метро - объявление остановок • Сервисные службы мобильных операторов, банков, фирм • «Говорящие» детские игрушки (синтезаторы речи или цифровые магнитофоны)
Синтез речи. Процедуры • Определение (выбор) языка текста • Нормализация текста - разделение текста на слова и другие символы (знаки препинания, символы табуляции, начала абзаца и т. п. ) • Лингвистический анализ - каждой словоформе создается соответствующая фонемная транскрипция • Формирование просодических характеристик: – расстановка пауз – присвоение ритмических и акцентных характеристик (длительность, энергия) – присвоение тональных характеристик (частота основного тона – высота голоса) • Фонемные преобразования • Формирование управляющей информации синтезатору • Получение звукового сигнала
MS SAPI и речевые базы данных • Microsoft Speech Application Programming Interface (SAPI) — библиотека программ для Windows, позволяющая распознавать и синтезировать голос в различных приложениях пользователя • Речевые (акустические) базы данных — цифровое хранилище образцов акустических единиц речи • Принцип формирования — деление речи на дискретные акустические единицы – аллофоны (вариант фонемы, зависящий от окружающих его звуков), дифоны (сегмент речи между серединами фонем), трифоны, слоги, полуслоги и т. п. • Применение: – системы распознавания речи – системы синтеза речи голосовых порталов – голосовое управлении в телефонии (справочные службы, телефонный доступ к электронной почте, голосовой набор номера)
Программные средства • NVDA (Non Visual Desktop Access) – вывод информации с помощью речи или на брайлевский дисплей для работы на ПК незрячих или людей с ослабленным зрением Особенности NVDA • Распространяется по лицензии GPL (freeware, open source) • Переведена более, чем на 20 языков • Многоязычный синтезатор espeak, поддерживающий более 30 языков (русский на базовом уровне) • Совместимость с MS SAPI - Speech Application Programming Interface - программный интерфейс речевых приложений • Поддержка десятков различных брайлевских дисплеев • Индикация процесса выполнения тоновым сигналом (чем ближе полоса индикатора к 100%, тем выше тон) • Индикация координат мыши с помощью аудио сигналов • Портабельная - может работать со съемных носителей
Программные средства • ГОЛОС - синтезатор речи для чтения текста на русском и украинском языке (можно создавать свой голос, настраивать по тембру, частоте и скорости) • Speaker (бесплатная) - для воспроизведения голосом текстов любых электронных документов. Качество речи определяется голосовым движком. • Для работы необходимы: – установленный в системе MS SAPI 4. 0 – любой голосовой движок под MS SAPI 4. 0 (например, Russian Nicolai, Russian Olga, Russian Katerina)
Программные средства Sakrament Talker – озвучивание любых электронных документов (ф. «Сакрамент» , Минск) • Особенности: –система синтеза речи Sakrament TTS Engine 3. 0 и 2 русскоязычных голоса (мужской и женский) –поддержка форматов RTF и TXT –автоматическое распознавание кодировки текста –усовершенствованная система поиска –вывод - через аудиосистему, сохранение в MP 3 –качественные синтезированные голоса –широкие возможности настройки голоса - интонация, ритмика, скорость и высота тона и т. п. –поддержка SAPI Speech Tags и дополнительных тэгов семантической разметки –можно задавать: ударение, тип фрагмента (дата, время, адрес, URL, e-mail, телефон, аббревиатура и т. д. ), параметры воспроизведения (громкость, скорость, интонация) и др.
Программные средства • Govorilka - небольшая программа для чтения текстов голосом. Предназначена для работы совместно с речевыми синтезаторами, поддерживающими управление через MS SAPI • Возможности: –загрузка текстового файла ограниченного размером памяти –чтение текста из буфера –изменение кодировки загруженного текста –слежение за местом чтения в тексте –запоминание текста и положение курсора при выходе –настройка параметров голоса –изменение интерфейса программы –запись воспроизводимого текста в звуковой файл (*. wav, mp 3) –воспроизведение звукового файла (*. wav) –работа со словарем пользователя, можно самостоятельно установить произношение отдельных слов для улучшения произношение программы
Программные средства Балаболка - чтение вслух текстовых файлов Особенности: • Работает с различными версиями MS SAPI и любыми установленными речевыми синтезаторами • Текстовые форматы: AZW, AZW 3, CHM, Dj. Vu, DOC, EPUB, FB 2, HTML, LIT, MOBI, ODT, PDF, PRC, RTF • Обработка текстовых файлов: – проверка орфографии – разбивка больших файлов на несколько меньшего размера – нахождение омографов – удаление знаков переноса (уменьшает запинки при чтении) • Изменение скорости и тембра речи • Бесплатная, портируемая (адаптация программы, с тем чтобы она работала в другой среде, отличающейся от той среды, под которую она была изначально написана)
Программные средства - Балаболка • Воспроизведение (помимо файлов): – содержимое буфера обмена – набираемый на клавиатуре текст • Управление чтением: – из системной области уведомлений (tray) – при помощи клавиатурных комбинаций • Сохраненение: – звук - аудиофайл формата WAV, MP 3, MP 4, OGG или WMA – текст - файл формата LRC или в тег ID 3 (внутри MP 3). При воспроизведении текст отображается синхронно со звуком
Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию Основные части систем распознавания речи: • Акустическая - преобразование из временного процесса в форму, в которой в более явном виде присутствует информация о содержании речевого сообщения • Лингвистическая - интерпретирует информацию, получаемую от акустической модели, и отвечает за представление результата распознавания потребителю. Включает в себя модели: –фонетическую –фонологическую –морфологическую –лексическую –синтаксическую –семантическую
Классификация систем распознавания речи: • По назначению: – для диктовки – командные системы – для идентификации (криминалистика, безопасность) • По размеру словаря: – ограниченный набор слов – неограниченный словарь • По настройке на диктора: – дикторозависимые – дикторонезависимые • По типу речи: – слитная – раздельная
Классификация систем распознавания речи: • По используемому алгоритму: –нейронные сети –скрытые Марковские модели –динамическое программирование • По принципу выделения структурных единиц: –распознавание по шаблону (корреляция) –выделение лексических элементов • По типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны)
Основные этапы распознавания речи • Речь -> Обработка акустического сигнала: – аналоговая – усиление, шумоподавление, нормирование – оцифровка – преобразование для следующего этапа (ЦФ) • Фонетический анализ – выделение и классификация фонем (тип, высота тона, длительность, амплитуда) • Фонологический анализ – лингвистически важные различия в фонетическом представлении произнесения (уровни и расположение ударения, интонационный контур, структуры слога, последовательности фонем, лежащих в основе произнесения и т. п. ) • Морфологический анализ - приводит слова к леммам • Лексический доступ к словарю • Синтаксический анализ • Семантический анализ • Значение
Программы распознавания речи • Средства речевого управления (командные): –сервисные службы, Call-центры (Charles Schwab & Co (США) - предоставлении брокерских услуг участникам фондового рынка, ежедневно автоматически обрабатывает >50 000 звонков, оценки за ЕГЭ и т. п. ) –управление компьютером (позиционирование курсора, запуск приложений, выбор команд из меню, правка, открытие/закрытие документов, выход из программ, выключение ПК и т. п. ) –управление транспортными средствами и оборудованием • Средства ввода информации (диктовки) - ввод массивов текстовой информации (скорость голосового набора – до 1000 печатных знаков в минуту) • Средства идентификации по образцу речи
Программы распознавания речи Горыныч - для диктовки и голосового управления компьютером (русский модуль для совместной работы с американской программой Dragon Dictates) Разработчик – Voice. Lock, Россия Особенности: • Бесплатная, дикторонезависимая • Режим обучения для повышения уровня распознавания • Надежность распознавания - 50 -70% • Наращиваемый словарь • Скорость ввода при диктовке – до 1000 знаков в минуту • Адаптирован к наиболее распространенному произношению слов ( «сичас» - «сейчас» , «што» - «что» и т. п. ) • Отсутствие форматирования и проверки правописания
Горыныч • Глобальные команды: – – – – «открыть» - вызов программ «новый_документ» - запуск Word «блокнот» - запуск Notepad «буду_диктовать» - переход в режим диктовки «режим_команд» - возвращение в режим команд «проснись» - активация микрофона «отдыхай» - в режим ожидания • Команды режима диктовки: – «точка» , «запятая» , «кавычки» , «закрыть_кавычки» , «многоточие» , «тире» , «дефис» , «двоеточие» - знаки препинания – «абзац» - переход на новую строку (абзац) – «восклик» - ! – «знак_вопроса» - ?
Программы распознавания речи Диктограф - для управления функциями ПК с помощью голосовых команд и диктовки текста в любой текстовый редактор Разработчик - Voice Member Technology, Россия Особенности: • • Высокое качество распознавания Расширенный словарь Возможность наращивания словаря Режим обучения в процессе диктовки Совместимость с новыми версиями ОС Простой и удобный интерфейс Быстрая и легкая настройка микрофона
Программы распознавания речи Комплекс автоматического документирования русской устной речи (КАДРУР)– для автоматической обработки голосовых сообщений и преобразования русской речи в электронный текстовый документ в реальном масштабе времени • Разработчик - «Центр Речевых Технологий» , СПб Особенности: • Автоматическое распознавание слитной речи на основе: –усовершенствованных фонетических систем –лингвистических моделей языка –автоматической транскрипции –методов машинного понимания речи –цифровой обработки речевого сигнала • Надежность распознавания - 85 -90 % • Словарный запас (количество слов) - >100000
КАДРУР - Комплекс автоматического документирования русской устной речи Области практического применения: – Автоматическое документирование и перевод на другие языки устных выступлений на конгрессах, совещаниях, брифигах и т. п. – Системы автоматического мониторинга и анализа информации, передаваемой по каналам спутникового и эфирного теле/радиовещания – Автоматизированные голосовые службы по обработке телефонных обращений граждан в органы власти – Автоматизированные голосовые службы по обслуживанию населения: заказ билетов, такси, пищи, номера в гостинице и т. п. – Автоматическая обработка голосовых сообщений граждан в службы экстренной помощи
Зарубежные программы распознавания речи • IBM: – Voice Type Dictation – Voice Pilot – Via. Voice • Dragon Systems: – Dragon Dictate – Dragon Naturally Speaking • Creative Technology - Voice Assist • Verbex - Listen for Windows
Зарубежные программы распознавания речи • VIAVOICE - система распознавания речи включает режим диктовки и режим подачи голосовых команд • Разработчик: IBM • Особенности: – использует специаизированный текстовый процессор с голосовым вводом Speak. Pad или MS Word – позволяет диктовать, редактировать, корректировать и форматировать текст – экспорт в другие текстовые редакторы – в словарь можно добавлять новые слова, адреса, акронимы и персональную информацию – можно голосом инициировать базовые команды управления Internet Explorer • Цена: $44, 99
Зарубежные программы распознавания речи Dragon Naturally. Speaking Essentials — система распознавания речевого ввода • Разработчик: Scansoft, USA Особенности: –скорость ввода – не менее 160 слов в минуту –полностью интегрирована в MS Internet Explorer и AOL –позволяет диктовать текст в большинство Windowsприложений –автоматически добавляет термины и имена контактных персон из документов и электронной почты пользователя –позволяет ускорить рутинные задачи по вводу данных, запускать приложения голосом, посылать e-mail, заполнять формы и осуществлять навигацию в Web –>160 наград за точность распознавания и простоту • Цена: $59, 99
Автоматическое порождение текста
Автоматическое порождение текста Порождение текстов - процесс автоматической генерации элементов текста на естественном языке для решения специфических коммуникативных задач Цель - компьютерное моделирование человеческой способности к порождению высказываний Основные направления: • Компьютерное моделирование структуры сюжета • Автоматическое порождение текста на естественном языке: – псевдотекст (отработка статистики, исследования) – осмысленный текст
Компьютерное моделирование структуры сюжета (КМСС) КМСС - направление исследований в рамках структурного литературоведения (формальная школа), семиотики и культурологии Базовые принципы представления сюжета: • Морфологический: –аппарат описаний функций персонажей (В. Я. Пропп, ЛГУ) –основа алгоритма - последовательность функций (31 шт. ) персонажей сказки (функции Проппа) и их бинарность (недостача - ликвидация недостачи, запрещение нарушение запрета, борьба - победа и т. д. ). –сюжет - множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала (русские волшебные сказки) –варианты сюжетов - сцепление различных ситуаций в правилах порождения типовых сценариев встреч персонажей – реализация - программа TALE
Базовые принципы представления сюжета • Синтаксический (с середины1970 -х): – основа – развитие аппарата порождающей грамматики Н. Хомского (сюжетные грамматики или грамматики повествования - story grammars) – базовые элементы - экспозиция (setting), событие, эпизод, мораль – нормальный сюжет – соответствует условиям минимальности (статус последовательности из элементов сюжета и ограничений) – Недостатки: • социокультурный характер ограничений • ограниченный набор правил модификации повествовательной (нарративной) структуры
Базовые принципы представления сюжета • Когнитивный (В. Ленерт, начало 1980 -х): –формализм эмоциональных сюжетных единиц (Affective Plot Units) для системы ИИ - до 60 сюжетных единиц построения модели сюжета –в центре внимания формализма Ленерт - не внешние компоненты сюжета (экспозиция, событие, эпизод, мораль), а его содержательные характеристики –сюжетная единица - бинарное отношение, связывающее события, оцениваемые персонажами положительно или отрицательно, и когнитивноэмоциональные состояния персонажей в различных комбинациях - событие и состояние, событие и т. п. –каждая сюжетная единица получает название - УСПЕХ, НЕУДАЧА, УПОРСТВО, ПРОБЛЕМА и т. п. –сюжет - последовательная смена когнитивноэмоциональных состояний персонажей
Системы порождения псевдотекста Основные способы: • Псевдослучайный выбор букв или слов –с равными вероятностями всех букв: • «цчцёэпетйащадмп жжцъооойчш мккхойбфззбфмядже тёелшсфвры джйдгщпёмйщ ярыыуфщехф вщта оёюхвбв ншмьёжьгк манмсшюпхыж яяпдёчссвёнш ьшзоеюьмвцй взюторйьэкз омбгежфмъхь гявмъыихё юькаыбаян сшоасуъ жяыътъигзё во» –с различными вероятностями всех букв (статистика): • «ырдаеноа бпевтбн нчиг нларв ибее лытоо м йиясаьнд вудьчч и онаонво морвмиуенунисмлепнп чы аа поырюпитлсиичо жиныгте г аачт чтврвнтдиу вьин иисатнхл нрсдмол лмноищатвпяоцоаав бф амдб иенждр жо леетй» –с равными вероятностями всех слов из словаря: • пример - текст 20 слов из словаря Linux (объём 32000 слов): «Разберет раскололся раскрывшейся измеряя вкусами значительным отдернулась подано новом паслась двумя видевший доносил служила пивную сны вынул величавым невелики проснувшихся»
Системы порождения псевдотекста • Анализ вероятностей (пары букв): – «стразределастванный ребно пребяза подру получить дому непространия вату прого тщается чтольно вы усли ем, вышей Лицениванензие уведом, обязаннак одить илисполжными порсисходны вознает. удите этие, может» • Использование SIMP-таблиц Simplified Integrated Modular Prose – упрощённая интегрированная модульная проза –работа основана на генерации случайного четырёхзначного числа и выборке из четырёх SIMP-таблиц (ABCD) соответствующих частей предложения –позволяет генерировать общеупотребительные псевдонаучные фразы –пример - «Однако траектория в конфигурационном пространстве открывает весьма интересные перспективы функционирования в режиме дискретного времени»
Системы порождения «осмысленного» текста Основные технологии: • Шаблонные - содержание будущего текста представлено в виде фрагментов текста для компоновки • Лингвистически мотивированные: – связаны с изучением жанровых и коммуникативных характеристик текстов, риторических приемов организации содержания текста, языковых средств выражения связности текста (лингвистика текста), формализацией грамматики и лексических описаний – содержание будущего текста представлено в виде данных нетекстовой природы (БД, баз знаний, семантических и формальных языков) – для создания текста системе необходимы знания структуры содержания и знания об устройстве генерируемого текста – для выражения содержания языковыми средствами необходимы сложные лингвистические процедуры
Системы порождения «осмысленного» текста Методы порождения текстов: • Цепи Маркова –используются программа-генератор и большой объем текста –берется случайное начальное слово и помещается в текст-результат –слово ищется в исходном тексте, и в текстрезультат переносится следующее за ним слово –продолжение процедуры • Фокус внимания: –основа - алгоритм программы-робота для ведения диалога ( «Элиза» ) –робот выявляет основную мысль из фразы человека – генерирует ответ на основе слова, фокусирующего внимание –пример - Человек: «На улице идет дождь» . Элиза: «Почему Вы решили, что на улице идет дождь? »
Системы порождения «осмысленного» текста Использование словарей: – подготавливают тематические словари с подробным перечислением характеристик слов – формируют систему синтаксических правил – генерируют фразы на основе словарей и правил – добавляют прилагательные, наречия и т. п. – пример: • анализ: «Мама мыла раму» - сущ. , ж. р. , ед. ч. , им. пад. , одуш. + гл. , прош. вр. + сущ. , вин. пад. • заполнение схемы случайными словарными словами: – «Кошка ловила мышку» – «Мышка варила кошку» • добавляем наречия и прилагательные: – «Храбрая кошка долго ловила серую мышку» – «Красная мышка быстро варила зеленую кошку» • для исключения казусов требуется очень подробное описание каждого слова, (включая тематику), допустимых пар слов
Бесплатные программы автоматической генерации текстов: • ANCHOR – генератор текстов, простой интерфейс, 300 Кб • Delirium - генератор смешных текстов на основе существующих: – использует алгоритм марковских цепей – позволяет создавать длинные «осмысленные» фразы – Примеры: • «У них на лицах было то выражение, которое так необходимо колесам, чтобы они катились» • «Здравствуйте, это Илья. Я сплю и не очень» • Generating the Web – мощный генератор: – использует методы переборов и перестановок – перестановки: простые, с одинаковыми и разными разделителями, с использованием различных переменных • Seo. Generator - удобные и быстрые инструменты генерации текстов, анкоров, названий. Ориентирован на SEO (Search Engine Optimization)
Платные программы генерации текстов: • Синонимайзер — база русских синонимов (638 000 слов и словосочетаний), украинские и другие синонимы на латинице Отбор избранных синонимов в отдельную базу, есть выбор случайных синонимов. . Стоимость — $25. Есть демо-версия • Sy. Monym — программа для уникализации текстов, база 68272 просклоненных словоформ. Стоимость — $15. Есть демо-версия. • Monkey. Write - генератор текстов с мощным функционалом: – мощная наращиваемая база синонимов – заменяет синонимами слова и выражения – перестраивает и перефразирует предложения – автоматически меняет местами абзацы или их группы – автоматизированно расставляет ссылки по анкор-листу (анкором называется текст в виде одного или нескольких слов, который является видимой частью гиперссылки, ведущей на указанный в ней адрес в сети или раздел на странице) – пакетное изменение статей – сравнение статей на схожесть методом шинглов (шингл – это фрагмент текста длиной в несколько слов, с которым работает программа проверки уникальности. )
Задание 4 1. Для заданного текста (Пайка) получить реферат и оценить качество реферата • http: //autosummarizer. com/index. php • http: //textsummarization. net/text-summarizer 2. Заданный текст проверить на плагиат: • http: //advego. ru/plagiatus/ • http: //www. etxt. ru/antiplagiat/ • http: //www. content-watch. ru/text/ • https: //text. ru/antiplagiat • http: //pcpro 100. info/antiplagiat-besplatno-proverit-tekstna-unikalnost/ • http: //pr-cy. ru/unique/
Задание 4 3. Выполнить подстановку синонимов • tp: //www. raskruty. ru/tools/synonymizer/ • http: //usyn. ru/online. php • http: //www. raskruty. ru/tools/synonymizer/ • http: //synonyma. ru/tools/synonymize/ 4. После подстановки синонимов снова проверить на плагиат и оценить качество полученного текста
Зкаюлечние По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы не чиатем кдаужю бкуву по отдльенотси, а все солво цликеом.
83c0919e5dcbb9858963ff3f8d5e72f1.ppt