Сегодня ABBYY FineReader – наиболее функциональная программа для сканирования и распознавания различных типов документов. Она позволяет быстро и удобно отсканировать документ, а потом распознать его, или же сразу распознать текст, картинки, таблицы, фотографии, представленные в сканированном или сфотографированном виде. Проверка на ошибки выполняется в ручном и автоматическом режиме. Результат распознавания сохраняется в документах различного формата (.doc, .txt, .pdf, .jpg и т. п.).
Среди упрощенных аналогов ABBYY FineReader можно выделить бесплатный софт для распознавания текста: SimpleOCR, CuneiForm, утилиты WinScan2PD, RiDoc.
Программы для распознавания текстовых документов.
SimpleOCR - бесплатное приложение с точностью распознавания текста до 99 % (шрифты сохраняются). Но для русскоязычных документов программа не применяется, поскольку распознает только английский, французский и датский языки. И, соответственно, она имеет англоязычный интерфейс. Редактор меню идентичный меню WordPad. В приложении можно качественно извлекать картинки, удалять пятна на документах. В словаре SimpleOCR насчитывается более 120 000 слов.
CuneiForm - приложение, которое распознает различные документы, изображения, таблицы, сохраняя их первичную структуру и форматирование. Программа распознает 20 языков, воспринимает черно-белые и цветные документы, работает с книжными, газетными шрифтами, шрифтами с печатной машинки. Документы обрабатываются в одиночном и пакетном режиме. Распознанный текст можно дополнительно проверить на наличие ошибок. Проверенный документ сохраняется в одном из наиболее распространенных форматов.
Утилиты для создания электронных версий документов.
RiDoc - утилита, которая позволяет при помощи сканера или цифрового фотоаппарата создавать электронные копии документов. Для распознавания текста в RiDoc внедрили OCR Tesseract - бесплатный продукт от Google. Сейчас это приложение поддерживает множество языков для распознавания, включая русский. В процессе программа воспринимает только один выбранный язык, поэтому если в тексте будут английские и русские слова, распознавание уже не будет качественным. Распознанный документ может сохраняться в текстовом или графическом формате.
Утилита WinScan2PD - очень простая программа для сканирования текста. Ее не надо устанавливать, рабочий файл занимает пару десятков килобайт. После запуска появляется меню WinScan2PDF, в котором все действия выполняются при помощи трех кнопок: «Выбрать источник», «Сканировать в PDF» и «Отмена». Настроек практически нет. Необходимо только выбрать язык инсталляции. Поэтому сканирование документа выполняется в один клик. Отсканированные файлы сохраняются в формате PDF.