С-ма_FineReader_11.pptx
- Количество слайдов: 82
Полиграфика и НИС СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER
Рассматриваемые вопросы 1. Технологии перевода бумажных документов в электронные. 2. Технологические возможности системы оптического распознавания символов Fine. Reader. 3. Главное окно и панели инструментов программы Fine. Reader. 4. Этапы процесса ввода документа в компьютер.
СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 1. ТЕХНОЛОГИИ ПЕРЕВОДА БУМАЖНЫХ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЕ.
Документы с точки зрения перевода в электронный вид Формализованные Неформализованные Специальные
w Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные, например, бланки, накладные, анкеты, картотеки и т. д.
w Неформализованные документы — это документы произвольной формы: договоры, письма и т. д.
w К специализированным относятся такие документы как, например, карты и отпечатки пальцев.
Перевод каждого из перечисленных видов документов имеет свою специфику w Если вводятся фотографии, то достаточно электронного изображения. w Если документ содержит текст, его необходимо распознать. w Если это форматированный текст, то нужно не только распознать текст, но и восстановить формат документа.
Перевод каждого из перечисленных видов документов имеет свою специфику w Если это анкета, то чаще всего сам документ не нужен, а важна только содержащаяся в нем информация. Например, при обработке листов для голосования достаточно информации о том, за кого отдан голос.
Технологии распознавания ICR (Intelligent Character Recognition) — технология распознавания рукопечатных символов OMR (Optical Mark Recognition) — технология распознавания различных меток и знаков Технология OCR (Optical Character Recognition — оптическое распознавание знаков) — технология распознавания машинописных авторских оригиналов Технология Data Capture — комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним
Этапы оптического распознавания знаков идентификация текстовых и иллюстрационных блоков распознавание знака при помощи анализа его формы и сравнения с характерными признаками эталона идентификация слова с помощью массивов словарей корректура нераспознанных слов или знаков путем отображения их на экране с подтверждением или исправлением оператором форматирование данных в одном из форматов для вывода, а также запись данных для сохранения
СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 1. Ввод информации при помощи оптических методов (OCR). 2. Технологические возможности системы оптического распознавания символов Fine. Reader. 3. Главное окно и панели инструментов программы Fine. Reader. 4. Этапы процесса ввода документа в компьютер.
Классификация программ для перевода документов в электронный вид Программы для перевода документов в электронный вид Для неформализованных документов Персонального ввода Промышленного ввода Для формализованных документов Персонального ввода Промышленного ввода
СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 2. ТЕХНОЛОГИЧЕСКИЕ ВОЗМОЖНОСТИ СИСТЕМЫ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER
Возможности 1) совместима с большим количеством настольных сканеров 2) распознает отсканированную страницу, включая многоколонный текст и текст со сложным оформлением
Возможности 3) позволяет сканировать и записывать изображение как графическое, а потом распознать текст 4) имеет набор возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись и присвоение имен последовательно
Возможности 4) может читать изображения, отсканированные другими программами 5) может обрабатывать документы, отпечатанные типографским способом, на принтерах, печатной машинке
Возможности 6) сохраняет первоначальное форматирование 7) имеет внутренний редактор и словарный контроль
Возможности 8) благодаря технологии адаптивного распознавания документов ADRT® (Adaptive Document Recognition Technology) ABBYY Fine. Reader позволяет анализировать и обрабатывать документ целиком, а не постранично. В результате восстанавливается исходная структура документа, включая форматирование, гиперссылки, адреса электронной почты, а также колонтитулы, подписи к картинкам и диаграммам, номера страниц и сноски.
Возможности 9) ABBYY Fine. Reader распознает документы, написанные на одном или нескольких из 189 языков, включая арабский, вьетнамский, корейский, китайский, японский, тайский и иврит. В программу встроена функция автоматического определения языка документа;
10) имеет внутренний редактор и словарный контроль, в сомнительных случаях в окне встроенного редактора показывается распознанный текст с выделением слов, отсутствующих в словаре, в расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста для редактирования.
СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 3. ГЛАВНОЕ ОКНО И ПАНЕЛИ ИНСТРУМЕНТОВ ПРОГРАММЫ FINEREADER
Окно начала работы в Fne. Reader
Возможности окна ЗАДАЧИ w Выбор язык распознавания текста. w Изменение цветового режима изображения, например, выбор черно-белого изображения. w Выбор команды сканирования изображения; w Открытие ранее созданного изображения с помощью команды ОТКРЫТЬ PDF/ИЗОБРАЖЕНИЕ, а затем в появившемся окне ОТКРЫТЬ ИЗОБРАЖЕНИЕ (рис. 14. 3) выбор нужного изображения. w Создание документа.
Окно для открытия изображения
Главное окно программы Fine Reader после получения изображения
• В окне СТРАНИЦЫ отображаются страницы, входящие в документ Fine. Reader. • Возможны два режима отображения страниц: пиктограммы или таблица со столбцами сведений о страницах документа. • Режим можно менять из контекстного меню данного окна, из меню ВИД, из диалога ОПЦИИ (меню СЕРВИС–ОПЦИИ…).
w В окне ИЗОБРАЖЕНИЕ показывается изображение текущей страницы. Это окно позволяет редактировать области на изображении, изображения страниц, свойства текста. w В окне ТЕКСТ отображается распознанный текст. В нем можно проверять орфографию, форматировать и редактировать текст, полученный в результате распознавания.
w В окне КРУПНЫЙ ПЛАН отображается увеличенное изображение редактируемой строки или обрабатываемого участка изображения. w Если в окне ИЗОБРАЖЕНИЕ вы видите общий вид страницы, то в окне КРУПНЫЙ ПЛАН удобно просмотреть изображение более детально, скорректировать тип и положение областей или сравнить неуверенно распознанный символ с его увеличенным изображением.
w Масштаб изображения в окне КРУПНЫЙ ПЛАН регулируется при помощи панели , расположенной в нижней части этого окна.
ГЛАВНАЯ ПАНЕЛЬ w ГЛАВНАЯ ПАНЕЛЬ содержит фиксированный набор кнопок, позволяющих выполнить все основные действия: открыть документ, отсканировать страницу, открыть изображение, распознать страницы, сохранить результаты и др.
Панель быстрого доступа w Чтобы ее отобразить, используется меню ВИД–ПАНЕЛИ ИНСТРУМЕНТОВ– ПАНЕЛЬ БЫСТРОГО ДОСТУПА.
w Каждое окно имеет свою панель инструментов для удобства работы. w Панели инструментов окон СТРАНИЦЫ, ИЗОБРАЖЕНИЕ, ТЕКСТ находятся в верхней части этих окон. w Панель инструментов окна СТРАНИЦЫ содержит фиксированный набор кнопок. w Панели инструментов окон ИЗОБРАЖЕНИЕ и ТЕКСТ можно настроить по своему усмотрению.
Панель предупреждений w Панель предупреждений — панель, на которой отображаются предупреждения и сообщения об ошибках, возникающие в процессе работы программы.
Диалоговое окно ОПЦИИ w На вкладке ДОКУМЕНТ можно настраивать языки документа, тип печати, цветовой режим, свойства документа. w Также на этой вкладке указан путь к открытому документу Fine. Reader.
w w w На вкладке СКАНИРОВАТЬ/ОТКРЫТЬ определяются общие опции автоматической обработки документа, а также опции предобработки изображений при сканировании и открытии документов, такие как: производить или нет автоматический анализ страниц документа (автоматически определять области и их типы); выполнять ли автоматическое конвертирование изображений страниц; выполнять ли автоматическую предобработку изображений; следует ли автоматически определять ориентацию страниц; разбивать ли сдвоенные страницы. .
На вкладке РАСПОЗНАТЬ содержатся настройки распознавания: w следует применять быстрое или детальное распознавание; w следует ли обучить или использовать при распознавании пользовательский эталон; w пользовательские эталоны и языки; w какие шрифты использовать при сохранении распознанного текста; w следует ли распознавать штрихкоды.
Вкладка ВИД содержит w настройки для вида страниц в окне СТРАНИЦЫ (ПИКТОГРАММЫ или ТАБЛИЦА); w опции для окна ТЕКСТ — выделять ли цветом (и каким) неуверенно распознанные символы и слова, отображать ли непечатаемые символы (например, перевод строки), какой шрифт использовать для отображения простого текста (plain text); w параметры задания цвета и толщины рамок, используемых для выделения различных типов областей в окне ИЗОБРАЖЕНИЕ.
На вкладке ДОПОЛНИТЕЛЬНЫЕ можно выбрать: w w w w настройки верификации неуверенно распознанных символов; корректировать ли пробелы до и после знаков пунктуации; просмотр и редактирование пользовательских словарей; язык интерфейса программы; открывать ли при запуске приложения последний использованный документ Fine. Reader; показывать ли панель предупреждений; участвовать ли в программе по улучшению качества Abbyy Fine. Reader; следует ли восстановить настройки по умолчанию.
СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER 4. ЭТАПЫ ПРОЦЕССА ВВОДА ДОКУМЕНТА В КОМПЬЮТЕР
Этапы ввода текста 1. Сканирование или открытие цифрового файла 2. Анализ макета 3. Распознавание 4. Проверка результатов 5. Сохранение распознанного текста
Сканирование w Сканирование — процесс ввода в компьютер изображений текстов и различной графической информации с помощью специального устройства — сканера. w При этом происходит перевод визуальной информации в цифровую.
Типы сканеров w Планшетные w Барабанные
Планшетный сканер w В планшетных сканерах сканируемое изображение освещается белым светом. w Отраженный свет через уменьшающую линзу попадает на электронный элемент, называемый прибором с зарядовой связью (ПЗС), который «реагирует» на уровень освещенности уровнем напряжения. w Значения напряжения легко преобразуются в цифровую форму и представляются в виде пиксельного изображения.
Планшетный сканер
Барабанные сканеры w В барабанных сканерах сразу несколько оригиналов (непрозрачных) закрепляются на барабане, вращающемся с большой скоростью. w Считывающий элемент располагается очень близко к оригиналу. w Такая конструкция обеспечивает наивысшее качество сканирования.
Барабанный сканер
Основные характеристики сканеров 1) разрешение 2) глубина распознавания цвета 3) время сканирования 4) максимальный размер сканируемого документа
Варианты взаимодействия программы со сканерами через TWAIN-драйвер 1) через интерфейс Fine. Reader; 2) через интерфейс TWAINдрайвера сканера.
Анализ макета страницы w В результате анализа макета страницы определяются различные области страницы для указания системе типа участка изображения и порядок его распознавания.
Типы блоков 1) ЗОНА РАСПОЗНАВАНИЯ — блок используется для распознавания и автоматического анализа части изображения 2) ТЕКСТ 3) ТАБЛИЦА 4) КАРТИНКА 5) ШТРИХ-КОД используется для перевода штрих-кода в последовательность букв и цифр
Ручное выделение блоков применяется: w для распознавания части страницы; w если автоматическое выделение блоков не устраивает; w для разделения операций сканирования и распознавания.
Распознавание w Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы.
w Все страницы документа можно распознать с помощью меню ДОКУМЕНТ –РАСПОЗНАТЬ. w Отдельные области можно распознать после выбора этой области и нажатия кнопки РАСПОЗНАТЬ в окне ИЗОБРАЖЕНИЕ.
w По умолчанию режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ отключен. w Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ окне ОПЦИИ.
Проверка и редактирование текста находит слова, в которых есть неуверенно распознанные символы находит орфографические ошибки добавляет неизвестные системе Fine. Reader слова в словарь для того, чтобы они распознавались уверенно
Проверка и редактирование распознанного текста w Результат распознавания отображается в окне ТЕКСТ. w В данном окне неуверенно распознанные символы выделяются цветом. w Редактировать полученный документ можно непосредственно в окне ТЕКСТ и с помощью встроенного диалога ПРОВЕРКА (меню СЕРВИС– ПРОВЕРКА…), который позволяет просматривать неуверенно распознанные слова, находить орфографические ошибки, добавлять в словарь новые слова, изменять язык словаря.
Для проверки неуверенно распознанного слова в окне ТЕКСТ: 1) выполняется щелчок мышью на слове в окне ТЕКСТ; 2) в окне ИЗОБРАЖЕНИЕ отобразится местоположение данного слова на странице, а в окне КРУПНЫЙ ПЛАН можно увидеть увеличенное изображение слова; 3) если необходимо, редактируется слово в окне ТЕКСТ.
Проверка с помощью окна ПРОВЕРКА w В диалоговом окне ПРОВЕРКА три области. w В верхней области показано изображение слова с возможной ошибкой. w Средняя область показывает само слово с возможной ошибкой, в строке над этим окном выводится название типа ошибки. w В нижней области, ВАРИАНТЫ, предлагаются варианты замены данного слова (если таковые имеются). Для вариантов используется словарь, указанный в поле ЯЗЫК СЛОВАРЯ.
Окно ПРОВЕРКА
Используя диалог проверки, возможно: w пропустить выделенное слово, не изменяя его. Для этого используется кнопка ПРОПУСТИТЬ. При этом со слова снимается выделение цветом; w заменить выделенное слово одним из предложенных вариантов. Для этого используется кнопка ЗАМЕНИТЬ; w добавить выделенное слово в словарь. Для этого применяется кнопка ДОБАВИТЬ. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.
w ABBYY Fine. Reader позволяет изменять форматирование символов полученного документа в окне ТЕКСТ с помощью кнопок, расположенных на главной панели инструментов и на панели СВОЙСТВА ТЕКСТА (контекстное меню окна ТЕКСТ–СВОЙСТВА).
Чтобы применить стиль символов к выделенному фрагменту текста: 1) выделяется текстовый фрагмент в окне ТЕКСТ; 2) в его контекстном меню применяется опция СВОЙСТВА; 3) на открывшейся панели СВОЙСТВА ТЕКСТА в списке СТИЛЬ выбирается нужный стиль.
Чтобы изменить, создать или объединить стили: 1) в меню СЕРВИС выбирается опция РЕДАКТОР СТИЛЕЙ… 2) в открывшемся окне РЕДАКТОР СТИЛЕЙ применяется нужный стиль и изменяются его параметры (название стиля, гарнитура, кегль шрифта, стиль начертания шрифта, межбуквенный интервал, масштаб);
Диалоговое окно РЕДАКТОР СТИЛЕЙ
3) чтобы создать новый стиль, нажимается кнопка НОВЫЙ; 4) чтобы объединить стили, выделяются несколько стилей и нажимается кнопка ОБЪЕДИНИТЬ…. В открывшемся диалоге выбирается стиль, в который нужно объединить выбранные стили; 5) после внесения изменений, нажимается кнопка СОХРАНИТЬ.
Сохранение w Результаты распознавания можно сохранить в файл, передать в другое приложение, скопировать в буфер обмена или отправить по электронной почте. w Вы также можете отправить результаты распознавания на адрес на сервере Kindle. com, с которого после конвертирования вы сможете скачать документ на свое устройство Kindle. w Сохранить можно все страницы документа ABBYY Fine. Reader или только выбранные.
Для сохранения распознанного текста: 1) на главной панели инструментов в выпадающем списке выбирается режим сохранения оформления документа: w режим ТОЧНАЯ КОПИЯ позволяет получить документ, оформление которого будет полностью соответствовать оригиналу. Рекомендуется использовать для документов сложного оформления, например, рекламных брошюр. Однако данный режим не предполагает внесения значительных правок в текст и оформление;
Для сохранения распознанного текста: w режим РЕДАКТИРУЕМАЯ КОПИЯ позволяет получить документ, оформление которого может незначительно отличаться от оригинала. Документ, полученный с помощью данного режима, легко редактируется;
Для сохранения распознанного текста: w при выборе режима ФОРМАТИРОВАННЫЙ ТЕКСТ в полученном документе сохранятся начертание и размер шрифта, разбиение на абзацы, но не сохранится расположение объектов на странице и межстрочные интервалы. w Таким образом, будет получен сплошной текст с выравниванием по левому краю. w Для текста, в котором порядок чтения справа налево, выравнивание будет по правому краю. w Любой текст с вертикальной ориентацией в данном режиме будет отображаться горизонтально;
Для сохранения распознанного текста: w в режиме ПРОСТОЙ ТЕКСТ форматирование текста не сохранится; 2) на вкладке СОХРАНИТЬ окна ОПЦИИ устанавливаются настройки сохранения для выбранного формата; 3) нажимается стрелка справа от кнопки СОХРАНИТЬ на главной панели инструментов и выбирается нужная опция, или можно воспользоваться командами меню ФАЙЛ.
меню ФАЙЛ w ФАЙЛ–СОХРАНИТЬ ДОКУМЕНТ FINEREADER. . . позволяет сохранить документ ABBYY Fine. Reader. w При этом в документе сохраняются и распознанный текст, и изображения страниц;
меню ФАЙЛ w ФАЙЛ–СОХРАНИТЬ ДОКУМЕНТ КАК сохраняет распознанный текст в файл выбранного формата; w ФАЙЛ–ПЕРЕДАТЬ ДОКУМЕНТ В передает распознанный текст в выбранное приложение без сохранения на диск;
меню ФАЙЛ w ФАЙЛ–СОХРАНИТЬ В MICROSOFT SHAREPOINT позволяет сохранить распознанный текст в сети: на сайте, на портале, в электронной библиотеке;
меню ФАЙЛ w ФАЙЛ–ОТПРАВИТЬ ПО ЭЛЕКТРОННОЙ ПОЧТЕ позволяет отправить изображение или распознанный документ по электронной почте. w Открывает диалог ОТПРАВКИ СТРАНИЦ ТЕКСТА/ИЗОБРАЖЕНИЙ СТРАНИЦ, в котором необходимо задать параметры прикрепленного файла. w Полученный файл будет прикреплен к новому электронному письму;
меню ФАЙЛ w ФАЙЛ–ПЕЧАТЬ позволяет напечатать распознанные страницы или их изображения.
Список поддерживаемых приложений: 1) Microsoft Word 2000 (9. 0), 2002 (10. 0), 2003 (11. 0), 2007 (12. 0) и 2010 (14. 0); 2) Microsoft Excel 2000 (9. 0), 2002 (10. 0), 2003 (11. 0), 2007 (12. 0) и 2010 (14. 0); 3) Microsoft Power. Point 2003 (11. 0) (с пакетом обеспечения совместимости Microsoft Office для форматов файлов Word, Excel и Power. Point 2007), 2007 (12. 0) и 2010 (14. 0);
Список поддерживаемых приложений: 4) Corel Word. Perfect 10. 0 (2002), 11. 0 (2003), 12. 0, 13. 0 и 14. 0; 5) Lotus Word Pro 97 и Millennium Edition; 6) Open. Office. org 3. 0, 3. 1; 7) Adobe Acrobat/Reader (5. 0 и выше).
Спасибо за внимание!


