Онлайн распознавание текста

С завидной регулярностью возникают задачи оптического распознавания текста с изображений или PDF-файлов (где опять-таки, применялись изображения). Чаще всего для этих целей я использую старенькую, но проверенную версию Abbyy FineReader, но иногда её не оказывается под рукой. На помощь приходят сервисы онлайн-распознавания, которые, к их чести, справляются довольно-таки неплохо.

Сам принцип такого преобразования представляет собой сложные манипуляции по поиску текстоподобных фрагментов изображения и их преобразования в “наиболее похожий” по начертанию символ с учётом используемого языка.

Наиболее положительные результаты будут со стандартными шрифтами и листом без геометрических искажений (перспектива, загибы, различная глубина). То есть результат работы сканера. Если же использовать фотоснимки, сделанные на мобильный телефон, то всё намного печальнее. Без особых навыков снять прямо очень тяжело. Но нет преград для героев, представим, что снимки у нас уже готовы! Чем их преобразовать в текст, чтобы не набирать вручную?

Сегодня расскажу про сервис free ocr online, с которым работал последнее время, вдруг кому-нибудь будет это полезно.

На главной странице сайта видим вот такое окно:

Нажимаем на поле “Выберите файл….” или просто перетаскиваем файл на эту страницу. Выбираем язык распознавания и не забываем подтвердить, что мы не есть роботы (какая-то повальная дискриминация :).

Кстати, сервис распознаёт документы до 50 страниц, дальше ограничение, но его можно обойти, если распечатать этот файл на виртуальном PDF-принтере кусками по 50 страниц. Кстати странно, по сайту побегал взад-вперёд, про это ограничение нигде не нашёл.

Виртуальный PDF-принтер – на входе получает документ, на выходе – файл PDF.

По результатам распознавания текст можно выделять, копировать, перенести в другой файл. Здесь минимум настроек. В профессиональных программах типа FineReader их конечно побольше, можно более гибко распознавать элементы страниц, но и продукт коммерческий и требуется установка.

А так, в полевых условиях, такой вариант вполне жизнеспособен! Будем держать на вооружении.

P.S. Считаю нужным упомянуть, что сервис хоть и закрывается https, но прогонять через онлайн-распознавалки различные финансовые или приватные документы я бы не стал. На всякий случай.


Like this post? Please share to your friends:
Litl-Admin.ru

Comments:

Leave a Reply