Системы оптического распознавания текста
Помимо непосредственного ввода текста документа с клавиатуры для ввода исходного документа могут использоваться сканеры. Однако отсканированное изображение представляет собой графический образ, с которым система не может работать. Для того чтобы перевести полученный образ в текстовую информацию, используютсясистемы оптического распознавания (OCR).
Наличие таких систем открывает широчайшие возможности по вводу информации в компьютер. Сейчас OCR используется как инструмент, с помощью которого можно ввести в компьютер большинство документов, включая факсы. Качество распознавания - достаточно высокое, скорость распознавания - вполне приемлемая, особенно на компьютерах с Pentium-процессором. Фирмы бьются уже над решением специфических задач:
распознавание визитных карточек, различных финансовых документов. На повестке дня уже стоит вопрос о распознавании рукописных документов.
На российском рынке OCR представлены двумя продуктами: CuneiForm и FineReader. Эти продукты имеют ряд оригинальных решений и свой круг пользователей. Выбор между ними определяется прежде всего традицией.
Мы рассмотрим систему оптического распознавания CuneiForm 96. Однако это не означает, что пальма первенства безоговорочно принадлежит этому продукту.
Возможности, которые предоставляет пользователю система распознавания текстов CuneiForm:
- вводит в компьютер печатные документы со сканера или факс/модема. Программа распознает отсканированную страницу, отделяет текст от графики и преобразует графический образ в текстовый файл для требуемого приложения, в роли которого могут выступать текстовый редактор, система управления базами данных или электронная таблица;
- распознает буквы алфавитов русского и европейских языков, исключая стилизованные шрифты типа готических букв (всего 5 европейских языков, включая русский и смешанный русско-английский);
- узнает все широко используемые шрифты без обучения. Даже при наличии смешанных шрифтов в пределах страницы или отдельного абзаца не нужно указывать явно, какой следует шрифт распознавать;
- поддерживает порядка 100 моделей сканеров;
- обрабатывает документы, отпечатанные типографским способом, на матричных, струйных и лазерных принтерах, а также на печатной машинке;
- сохраняет первоначальное форматирование и воспринимает полужирный и курсивный, слипшийся, подчеркнутый и многоколоночный текст;
- читает изображения, отсканированные другими программными продуктами, и факсы. CuneiForm автоматически отделяет текст от графики и воспринимает страницы со сложным оформлением;
- осуществляет словарный контроль, тем самым улучшая качество распознавания. Сталкиваясь с подозрительным сочетанием, программа обращает на него внимание с помощью цветовой подсветки. При этом на экране отображается окно с увеличенным участком отсканированного изображения, предоставляя возможность исправления символов в соответствии с исходным документом. Для внесения исправлений используется встроенный редактор CuneiForm;
- «склеивает страницы», что позволяет успешно работать с ручными сканерами;
- осуществляет прямой вызов из MS Word.
В версии OCR CuneiForm 96 впервые применены алгоритмы адаптивного распознавания или самообучающие алгоритмы. Система способна самостоятельно обучаться распознавать плохо пропечатанные символы с помощью шрифта, созданного на -основе символов, которые пропечатаны достаточно хорошо
OCR CuneiForm 96 способна, наряду с текстом и иллюстрациями (черно-белыми, «серыми» и цветными), вводить и таблицы, которые в документопотоке организации имеют долю до 50%. Полная копия таблицы экспортируется в MS Excel, MS Word и другие приложения.
CuneiForm предоставляет средства по записи файлов. Существует возможность сканировать серию страниц, и программа автоматически будет осуществлять запись, присваивая изображениям последовательные имена (Раде1, Раде2 и т.д.). Таким образом, можно сканировать пачку документов, избегая перепутанных страниц.
CuneiForm работает под MS Windows 3.1 и выше.
Для иллюстрации возможностей, предоставляемых CuneiForm, обратимся к следующему примеру: в офис ежедневно поступает около 100 документов. При использовании сетевого сканера Hewlett-Packard 4Si (скорость сканирования порядка 15 листов в минуту) ввод документов можно осуществить за 10-15 минут, а автоматический процесс распознавания логично отложить на ночное время. В результате секретарю останется лишь просмотреть утром результаты на экране.