Тема_3_ИТУД_ГУЭ_2012_студ.ppt
- Количество слайдов: 39
Тема 3. Программные средства подготовки текстовых документов. 1
План лекции: 1. Системы обработки текстовых документов, их классификация и функциональные возможности. 2. Системы распознавания текстов (OCRсистемы). Общая характеристика и функциональные возможности. 3. Текстовый процессор MS Word. Функциональные возможности. Технология работы в MS Word и Open Writer. 2
1. Системы обработки текстовых документов, их классификация и функциональные возможности. 3
Текстовый процессор – это прикладная система, предназначенная для создания и редактирования профессионально оформленных документов 1. Редакторы компьютерных программ служат для создания и редактирования текстов программ, написанных на алгоритмических языках (EDLIN, EDIPROF) 2. Встроенные редакторы не существуют в виде самостоятельных программ, а входят в качестве одной из функций в состав сервисных программ (редактор, вызываемый по нажатии F 4 в Windows Commander)
3. Редакторы документов общего вида ориентированы на работу с документами, содержащими не только текст, но и другие виды информации – табличную, формульную, графическую и др. (Word. Star) 4. Редакторы научных документов используются для подготовки документов, содержащих множество различных формул (Chiwriter) 5. Издательские системы предназначены для подготовки к типографскому изданию печатной продукции высокого класса (Page Maker, Ventura Publicher)
6. Корректоры текстов служат для обнаружения и исправления грамматических ошибок (ОРФО, ПРОПИСИ) 7. Перекодировщики текстов служат для совместимости текстовых документов при переносе с одного компьютера на другой, из среды одного текстового процессора в среду другого (CONV)
2. Системы распознавания текстов (OCRсистемы). Общая характеристика и функциональные возможности. 7
Системы оптического распознавания символов (Optical Character Recognition – OCR) предназначены для автоматического ввода печатных документов в компьютер. Процесс ввода документа в компьютер можно подразделить на этапы: 1. Сканирование - получение графического изображения, картинки, которую невозможно отредактировать ни в одном текстовом редакторе. 2. Распознавание - обработка изображения OCR-системой. 3. Верификация – это единственный этап, когда пропускная способность системы ограничена производительностью работы человека. 8
Алгоритмы распознавания Базовые: ¡ multifont (шрифтовые) ¡ omnifont (шрифтонезависимые) алгоритмы. Российские разработчики создали ряд решений, способных эффективно распознавать тексты самого низкого качества: ¡ самообучающиеся алгоритмы, ¡ структурные алгоритмы, ¡ метод когнитивного анализа и др. 9
¡ ¡ Multifont - растровое изображение накладывается на шаблон, наиболее подходящий шаблон - у которого наименьшее количество точек отличается от исследуемого изображения. Omnifont - идентификация символа по правилам его написания - эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа. 10
Адаптивное распознавание - метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont) - на основе достаточно хорошо пропечатанных символов создается специальный шрифт, который позволяет распознавать плохо пропечатанные символы. 11
Структурные алгоритмы распознавания хранится информация не о поточечном написании символа, а о наличии в нем структурных элементов (колец, дуг, отрезков и точек). Изображение символа приводится к контуру, на котором анализируются наличия пересечений линий, вычисляются углы, размеры дуг и т. д. 12
В настоящее время большинство систем базируется на технологии "целостного целенаправленного адаптивного распознавания". 1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними. 2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. 3. Адаптивность – способность OCRсистемы к самообучению. 13
Следует различать рынок оптического распознавания текста OCR (Optical Character Recognition) и рынок распознавания форм (Data Capturing). Пакет для оптического распознавания символов Fine. Reader от ABBYY Software Hause: ¡ интуитивно-понятный интерфейс; ¡ мощные возможности оптического распознавания символов; ¡ средства для предварительной обработки изображений (поворот страницы), ¡ очистка изображения от мусора, что в значительной степени повышает качество распознавания. ¡ инструменты для разметки. 14
Fine. Reader – омнифонтовая система оптического распознавания текстов, позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы Fine. Reader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания". 15
Cunei. Form (Cognitive Technologies) ¡ ¡ ¡ ¡ экспорт распознанного текста с сохранением исходного форматирования объектов; удобный и наглядный интерфейс; прямой экспорт результатов распознавания в MS Word, систему для автоматизации делопроизводства Евфрат; передача текста и изображения через буфер обмена в любые приложения; печать текста и изображения; сохранение в форматах RTF, TXT, HTML, DBF; поддержка работы с OLE-объектами 16
С помощью ABBYY Form. Reader можно обрабатывать любые типы форм ¡ ¡ ¡ распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты (checkmarks), и штрих-коды; выделяет цветом все неуверенно распознанные символы и подает их на верификацию; автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат, и т. д. ; может обрабатывать различные типы форм, и даже те, которые изначально не были предназначены для машинной обработки, благодаря различным методам удаления изображения самой формы; экспорт в различные форматы (dbf, xls, другие БД, графические форматы). 17
¡ 3. Текстовый процессор MS Word. Функциональные возможности. Технология работы в MS Word и Open Writer. 18
Функциональные возможности текстовых процессоров: ¡ ¡ ¡ Создание, сохранение и редактирование документа Работа с фрагментами Управление шрифтами, абзацами Поддержка режима WYSIWYG (What You See Is What You Get) Подготовка документа к печати (нумерация страниц, задание колонтитулов и др. ) Проверка правописания и подбор синонимов 30
Функциональные возможности текстовых процессоров: Наличие встроенного языка программирования ¡ Создание, редактирование или вставка объектов различных типов (таблиц, формул, рисунков, диаграмм и т. п. ) ¡ Подготовка документов для публикации в Internet ¡ Управление переносом слов ¡ 31
Функциональные возможности MS Word Работа с документами ¡ ¡ ¡ ¡ Создание, сохранение и редактирование документа Создание документа на основе шаблона (встроенного или созданного пользователем) Одновременная работа с несколькими документами Отслеживание версий документов Сохранение, в т. ч. в различных форматах (doc, rtf, txt, web-страница, формат word для mac, wordperfect) Предварительный просмотр Печать Отправка документа по e-mail 32
Редактирование документа ¡ ¡ ¡ Проверка орфографии Работа с фрагментами Поиск и замена символов и фрагментов Управление перемещением по документу Подбор синонимов и антонимов Автоматическое выполнение операций ¡ ¡ ¡ ¡ Проверка правописания Расстановка переносов Автозамена Автотекст Форматирование текста Автоматическое создание реферата Автоматическое создание оглавления 33
Форматирование ¡ ¡ ¡ Форматирование символов, абзацев Создание списков Разбиение на колонки Обрамление и заливка Использование стилей Вставка ¡ ¡ ¡ Даты и времени Формул и алгебраических символов Объектов (рисунков, клипов и пр. ) Фигурного текста Сносок, перекрестных ссылок Нумерации рисунков 34
Оформление ¡ ¡ ¡ Вставка номеров страниц Оформление колонтитулов Создание разделов, оглавления, предметного указателя Дополнительные возможности ¡Работа с таблицами, включая вычисления ¡Создание диаграмм и графиков ¡Наличие встроенного языка программирования ¡Создание серийных документов, почтовых конвертов ¡Ведение статистики документа ¡Отслеживание версий документа 35
Технологии работы с документом в текстовом процессоре Word 1. Технология подготовки текстового документа 2. Технология создания и редактирования таблицы 3. Возможности деловой графики 4. Создание составного документа: вставка рисунка, файла и других объектов 36
1. Технология создания документа: 1. 1. Выполнить команду Файл-Создать-Выбрать шаблон 37
Структура документа. Основным понятием текстового процессора является понятие документа, создаваемого и корректируемого этим процессором. Структурными элементами документа являются: Символ определяется в первую очередь видом шрифта, размером и начертанием. Абзац — это фрагмент текста, процесс ввода которого заканчивается нажатием на клавишу Enter. Страница характеризуется размером бумажного листа и параметрами размещения текста: полями, отступами от колонтитулов, ориентации текста. Раздел — это область документа, которая характеризуется определенным форматом печатной страницы; способом нумерации страниц; видом сносок в 39 тексте и т. д.
Режимы просмотра документа Для изменения режима просмотра документа используют меню Вид (Обычный, Веб-документ, Разметка страницы, Чтение и Структура). Можно также использовать кнопки, расположенные слева от горизонтальной полосы прокрутки. 40
Разметка страницы. В этом режиме положение текста, таблиц, рисунков и других элементов отображается так, как они будут размещаться на печатной странице. Удобно использовать для изменения колонтитулов и полей, а также работы с колонками текста и графическими объектами. 41
Режим Обычный удобен для ввода, редактирования и оформления только текста. 42
Режим Веб-документ обеспечивает представление документа в том виде, который он будет иметь при просмотре с помощью Web-обозревателя. 43
Режим чтения предоставляет одностраничный и многостраничный режимы для чтения и позволяет редактировать документ. 44
В режиме структуры можно свернуть документ, оставив только основные заголовки, или развернуть его, отобразив все заголовки и основной текст, можно перемещать и копировать текст перетаскиванием заголовков. 45
О шаблонах и мастерах Шаблоны и мастера используются для ускорения создания и оформления документов. Шаблон - файл или файлы, содержащие структуру и инструменты для создания таких элементов файлов, как стиль и макет страницы. Мастер - программа, задающая вопросы, а затем использующая полученные ответы для создания таких объектов, как форма или веб-страница. В Microsoft Word 2003 для создания документа на основе шаблона следует воспользоваться областью задач Создание документа. Если эта область не отображена в окне Microsoft Word, то можно выполнить команду Файл/Создать, после чего она появится. 46
Использование мастеров Microsoft Word При создании документа с использованием мастеров на экран, как правило, выходит серия специальных окон, в которых следует выбирать параметры создаваемого документа, вводить текст в соответствующие поля и т. д. Если что-то не было указано или требуется исправить введенное ранее, с помощью кнопки Назад всегда можно вернуться в предыдущие окна. Можно пропускать окна, ничего в них не указывая. В любом окне можно остановиться и нажать кнопку Готово. Для удобства перехода между окнами можно пользоваться заголовками в левой части окон. 47
48


