1 Тема 3. Программные средства подготовки текстовых документов.
8368-tema_3_itud_gue_2012_stud_(1).ppt
- Количество слайдов: 48
1 Тема 3. Программные средства подготовки текстовых документов. 1
2 План лекции: 1. Системы обработки текстовых документов, их классификация и функциональные возможности. 2. Системы распознавания текстов (OCR-системы). Общая характеристика и функциональные возможности. 3. Текстовый процессор MS Word. Функциональные возможности. Технология работы в MS Word и Open Writer. 2
1. Системы обработки текстовых документов, их классификация и функциональные возможности. 3
Текстовый процессор – это прикладная система, предназначенная для создания и редактирования профессионально оформленных документов Редакторы компьютерных программ служат для создания и редактирования текстов программ, написанных на алгоритмических языках (EDLIN, EDIPROF) 2. Встроенные редакторы не существуют в виде самостоятельных программ, а входят в качестве одной из функций в состав сервисных программ (редактор, вызываемый по нажатии F4 в Windows Commander)
4. Редакторы научных документов используются для подготовки документов, содержащих множество различных формул (Chiwriter) 3. Редакторы документов общего вида ориентированы на работу с документами, содержащими не только текст, но и другие виды информации – табличную, формульную, графическую и др. (WordStar) 5. Издательские системы предназначены для подготовки к типографскому изданию печатной продукции высокого класса (Page Maker, Ventura Publicher)
6. Корректоры текстов служат для обнаружения и исправления грамматических ошибок (ОРФО, ПРОПИСИ) 7. Перекодировщики текстов служат для совместимости текстовых документов при переносе с одного компьютера на другой, из среды одного текстового процессора в среду другого (CONV)
7 2. Системы распознавания текстов (OCR-системы). Общая характеристика и функциональные возможности.
8 Системы оптического распознавания символов (Optical Character Recognition – OCR) предназначены для автоматического ввода печатных документов в компьютер. Процесс ввода документа в компьютер можно подразделить на этапы: 1. Сканирование - получение графического изображения, картинки, которую невозможно отредактировать ни в одном текстовом редакторе. 2. Распознавание - обработка изображения OCR-системой. 3. Верификация – это единственный этап, когда пропускная способность системы ограничена производительностью работы человека.
9 Алгоритмы распознавания Базовые: multifont (шрифтовые) omnifont (шрифтонезависимые) алгоритмы. Российские разработчики создали ряд решений, способных эффективно распознавать тексты самого низкого качества: самообучающиеся алгоритмы, структурные алгоритмы, метод когнитивного анализа и др.
10 Multifont - растровое изображение накладывается на шаблон, наиболее подходящий шаблон - у которого наименьшее количество точек отличается от исследуемого изображения. Omnifont - идентификация символа по правилам его написания - эталон, с которым производится сравнение, содержит в себе эвристическую информацию о правилах написания символа.
11 Адаптивное распознавание - метод, основанный на комбинации двух видов алгоритмов распознавания печатных символов: шрифтового (multifont) и шрифтонезависимого (omnifont) - на основе достаточно хорошо пропечатанных символов создается специальный шрифт, который позволяет распознавать плохо пропечатанные символы.
12 Структурные алгоритмы распознавания - хранится информация не о поточечном написании символа, а о наличии в нем структурных элементов (колец, дуг, отрезков и точек). Изображение символа приводится к контуру, на котором анализируются наличия пересечений линий, вычисляются углы, размеры дуг и т.д.
13 В настоящее время большинство систем базируется на технологии "целостного целенаправленного адаптивного распознавания". 1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними. 2. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез. 3. Адаптивность – способность OCR-системы к самообучению.
14 Следует различать рынок оптического распознавания текста OCR (Optical Character Recognition) и рынок распознавания форм (Data Capturing). Пакет для оптического распознавания символов FineReader от ABBYY Software Hause: интуитивно-понятный интерфейс; мощные возможности оптического распознавания символов; средства для предварительной обработки изображений (поворот страницы), очистка изображения от мусора, что в значительной степени повышает качество распознавания. инструменты для разметки.
15 FineReader – омнифонтовая система оптического распознавания текстов, позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".
16 CuneiForm (Cognitive Technologies) экспорт распознанного текста с сохранением исходного форматирования объектов; удобный и наглядный интерфейс; прямой экспорт результатов распознавания в MS Word, систему для автоматизации делопроизводства Евфрат; передача текста и изображения через буфер обмена в любые приложения; печать текста и изображения; сохранение в форматах RTF, TXT, HTML, DBF; поддержка работы с OLE-объектами
17 С помощью ABBYY FormReader можно обрабатывать любые типы форм распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты (checkmarks), и штрих-коды; выделяет цветом все неуверенно распознанные символы и подает их на верификацию; автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат, и т.д.; может обрабатывать различные типы форм, и даже те, которые изначально не были предназначены для машинной обработки, благодаря различным методам удаления изображения самой формы; экспорт в различные форматы (dbf, xls, другие БД, графические форматы).
3. Текстовый процессор MS Word. Функциональные возможности. Технология работы в MS Word и Open Writer. 18
30 Функциональные возможности текстовых процессоров: Создание, сохранение и редактирование документа Работа с фрагментами Управление шрифтами, абзацами Поддержка режима WYSIWYG (What You See Is What You Get) Подготовка документа к печати (нумерация страниц, задание колонтитулов и др.) Проверка правописания и подбор синонимов
31 Наличие встроенного языка программирования Создание, редактирование или вставка объектов различных типов (таблиц, формул, рисунков, диаграмм и т.п.) Подготовка документов для публикации в Internet Управление переносом слов Функциональные возможности текстовых процессоров:
32 Функциональные возможности MS Word Работа с документами Создание, сохранение и редактирование документа Создание документа на основе шаблона (встроенного или созданного пользователем) Одновременная работа с несколькими документами Отслеживание версий документов Сохранение, в т.ч. в различных форматах (doc, rtf, txt, web-страница, формат word для mac, wordperfect) Предварительный просмотр Печать Отправка документа по e-mail
33 Редактирование документа Проверка орфографии Работа с фрагментами Поиск и замена символов и фрагментов Управление перемещением по документу Подбор синонимов и антонимов Автоматическое выполнение операций Проверка правописания Расстановка переносов Автозамена Автотекст Форматирование текста Автоматическое создание реферата Автоматическое создание оглавления
34 Форматирование Форматирование символов, абзацев Создание списков Разбиение на колонки Обрамление и заливка Использование стилей Вставка Даты и времени Формул и алгебраических символов Объектов (рисунков, клипов и пр.) Фигурного текста Сносок, перекрестных ссылок Нумерации рисунков
35 Оформление Вставка номеров страниц Оформление колонтитулов Создание разделов, оглавления, предметного указателя Дополнительные возможности Работа с таблицами, включая вычисления Создание диаграмм и графиков Наличие встроенного языка программирования Создание серийных документов, почтовых конвертов Ведение статистики документа Отслеживание версий документа
36 Технологии работы с документом в текстовом процессоре Word 1. Технология подготовки текстового документа 2. Технология создания и редактирования таблицы 3. Возможности деловой графики 4. Создание составного документа: вставка рисунка, файла и других объектов
37 1.Технология создания документа: 1.1. Выполнить команду Файл-Создать-Выбрать шаблон
38 Основными фазами жизни неструктурированной информации в офисе являются ввод информации в систему, хранение, навигация, поиск и фильтрация документов, коллективного работа с документами, вывод информации из системы.
39 39 Структура документа. Основным понятием текстового процессора является понятие документа, создаваемого и корректируемого этим процессором. Структурными элементами документа являются: Символ определяется в первую очередь видом шрифта, размером и начертанием. Абзац — это фрагмент текста, процесс ввода которого заканчивается нажатием на клавишу Enter. Страница характеризуется размером бумажного листа и параметрами размещения текста: полями, отступами от колонтитулов, ориентации текста. Раздел — это область документа, которая характеризуется определенным форматом печатной страницы; способом нумерации страниц; видом сносок в тексте и т. д.
40 40 Режимы просмотра документа Для изменения режима просмотра документа используют меню Вид (Обычный, Веб-документ, Разметка страницы, Чтение и Структура). Можно также использовать кнопки, расположенные слева от горизонтальной полосы прокрутки.
41 41 Разметка страницы. В этом режиме положение текста, таблиц, рисунков и других элементов отображается так, как они будут размещаться на печатной странице. Удобно использовать для изменения колонтитулов и полей, а также работы с колонками текста и графическими объектами.
42 42 Режим Обычный удобен для ввода, редактирования и оформления только текста.
43 43 Режим Веб-документ обеспечивает представление документа в том виде, который он будет иметь при просмотре с помощью Web-обозревателя.
44 44 Режим чтения предоставляет одностраничный и многостраничный режимы для чтения и позволяет редактировать документ.
45 45 В режиме структуры можно свернуть документ, оставив только основные заголовки, или развернуть его, отобразив все заголовки и основной текст, можно перемещать и копировать текст перетаскиванием заголовков.
46 О шаблонах и мастерах Шаблоны и мастера используются для ускорения создания и оформления документов. Шаблон - файл или файлы, содержащие структуру и инструменты для создания таких элементов файлов, как стиль и макет страницы. Мастер - программа, задающая вопросы, а затем использующая полученные ответы для создания таких объектов, как форма или веб-страница. В Microsoft Word 2003 для создания документа на основе шаблона следует воспользоваться областью задач Создание документа. Если эта область не отображена в окне Microsoft Word, то можно выполнить команду Файл/Создать, после чего она появится.
47 Использование мастеров Microsoft Word При создании документа с использованием мастеров на экран, как правило, выходит серия специальных окон, в которых следует выбирать параметры создаваемого документа, вводить текст в соответствующие поля и т. д. Если что-то не было указано или требуется исправить введенное ранее, с помощью кнопки Назад всегда можно вернуться в предыдущие окна. Можно пропускать окна, ничего в них не указывая. В любом окне можно остановиться и нажать кнопку Готово. Для удобства перехода между окнами можно пользоваться заголовками в левой части окон.
48