
Оптическое распознавание текста (OCR).pptx
- Количество слайдов: 13
Департамент образования города Москвы ГОУ СПО Колледж предпринимательства № 15 Оптическое распознавание текста (OCR) Выполнила: Студентка 422 группы Специальность: 100105 «Гостиничный сервис» Кафисова Евгения Москва 2011 год
Содержание 1. Введение – – 2. 3. 4. 5. Назначение Функции История Программы Этапы распознавания Сканер
Введение Оптическое распознавание символов (англ. optical character recognition, OCR) — это механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов, использующихся для представления в текстовом редакторе.
Распознавание широко используется для: • конвертации книг и документов в электронный вид • автоматизации систем учета в бизнесе • публикации текста на веб-странице Плюсы OCR • Перевод в текстовый вид очень сложных текстовых документов, включая таблицы, формы, диаграммы, рисунки • Проверка орфографии • Сохранение файла в любом текстовом формате, а также в форматах электронных таблиц и баз данных
Функции 1. Редактирование текста 2. Осуществление поиска слова или фразы 3. Печать материала без потери качества 4. Анализирование информации 5. Применение к тексту электронного перевода 6. Преобразование в речь
История 1. В 1929 году Густав Таушек получил патент на метод оптического распознавания текста в Германии. 2. В 1935 году Таушек также получил патент США на свой метод. Машина Таушека представляла собой механическое устройство, которое использовало шаблоны и фотодетектор.
Примерно в 1965 году «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста. Для печати на документах барабанным принтером «Ар-Си-Эй» был использован специальный шрифт OCR-A. Машина для чтения документов работала непосредственно с компьютером RCA 301 (один из первых массивных компьютеров). Скорость работы машины была 1500 документов в минуту: она проверяла каждый документ, исключая те, которые она не смогла обработать правильно.
В 1974 году Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс» , и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст. В 1978 году компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов. Два года спустя Курцвейл продал свою компанию корпорации «Ксерокс» , которая были заинтересована в дальнейшей коммерциализации систем распознавания текста. «Курцвейл Компьютер Продактс» стала дочерней компанией «Ксерокс» , известной как «Скансофт» .
Программы распознавания • Expervision typereader & RTK - получала высокие оценки в начале 1990 -х • ABBYY finereader – преобразует полученное с помощью сканера графическое изображение (картинку) в текст • Persian reader - специализируется на персидском языке • Kirtas technologies arabic OCR - может распознавать арабские и английские символы на одной странице • Zonal OCR – помогает автоматизировать извлечение данных из компьютерных изображений • Brainware - извлечение данных из документов и их обработка — например, счета, извещения, накладные и платёжки • HOCR - распознавание текстов на иврите • Smartscore - для распознавания нотной записи
Этапы преобразования документа в электронный вид • Сканирование и предварительная обработка изображения • Анализ структуры документа • Распознавание • Проверка результатов • Реконструкция документа (воссоздание его исходного вида) • Экспорт
Сканер • Сканер — устройство для считывания графической и текстовой информации в компьютер. • Первоначально они создавались именно для ввода графических образов, рисунков, фотоснимков, чертежей, схем, графиков, диаграмм. Однако, помимо ввода графики, в настоящее время они все шире используются в довольно сложных интеллектуальных системах OCD или Optical Character Recognition, то есть оптического распознания символов. Эти «умные» системы позволяют вводить в компьютер и читать текст. • На сегодня сканеры выпускаются в четырех исполнениях: ручной, листопротяжный, планшетный и барабанный. При этом у каждого имеются как свои преимущества, так и недостатки.
• • Ручные обрабатывают полосы документа небольшой ширины (около 10 см) и не представляют интереса для широкой публики, так как в основном пользуются популярностью у владельцев мобильных ПК. Низкие оптические разрешения и медлительность - вот его черты. Листопротяжные сканеры протягивают страницы документа через специальную щель с помощью протяжных роликов, которые часто перекашивают страницу и делают невозможным нормальное дальнейшее распознавание текста. Сфера их применения ограничена. Барабанные сканеры значительно превышают характеристики любого своего "брата". Сфера их применения исключительно полиграфия. Самые широко распространенные и наиболее доступные по соотношению цены и качества планшетные сканеры. Они наиболее универсальны. Этот вид сканеров достаточно дешевый и функциональный. Лучший и оптимальный вариант как для домашнего, так и для офисного пользования.
Пример использования онлайн ORC
Оптическое распознавание текста (OCR).pptx