Как преобразовать документ в электронный вид

Содержание

Речь сегодня пойдёт про работу с программой по распознаванию текстов. Тут зачастую встречаются разные онлайн сервисы, советы как это сделать автоматически и без особых трудов. Но мне по душе тот вариант, когда используется самостоятельное приложение (особенно, если документы для распознавания не желательно отправлять куда-то в сеть в неизвестном направлении).

Так что вооружаемся более-менее привычной для этой цели FineReader и начинаем работу.

Работа с FineReader по распознаванию текстов

Для удобства, работу я распишу на несколько этапов

Сканирование

На панели инструментов нажимаем соответствующую кнопку и видим более-менее стандартный мастер работы со сканером с некоторым количеством настроек. Последовательно жмём кнопку “Сканировать” и подкидываем ~~в печь~~ в сканер новые страницы.

После того, как сканирование будет окончено, можно выполнить цветокоррекцию, исправление трапеций (особенно это заметно, если использовать фотокамеру – тяжеловато выдержать нужный угол).

Разметка областей распознавания

Последовательно выбираем каждую страницу (большая стрелка) и выбираем инструменты разметки через панель

Конечно FineReader пытается автоматически разметить страницу, но, зачастую, делает это настолько коряво, что я рекомендую стереть все области и обозначить свои.

Страницы с монолитной простынёй текста – размечаем по кнопке “Текст” – самая верхняя.

Если в тексте встречаются изображения – размечаем их второй кнопкой “изображение”, в случае, конечно, если они нам нужны в выходном документе. Если картинка не нужна – ну и не выделяем её.

Соответственно, если есть таблица – выделяем таблицей. Всё очень просто.

Распознавание

После того, как все нужные страницы были размечены – жмём кнопку “Распознать”. Вон она, под стрелкой.

В правой части окна отобразится уже редактируемая версия текста. Если есть неуверенно распознанные символы – они будут подсвечены голубыми областями. Текст можно скорректировать прямо там, в правой части окна.

Сохранение

FineReader позволяет сохранить текст в огромном количестве различных форматов, наиболее популярный – Microsoft Office Word:

На выходе будем иметь вот кое-что похожее:

Корректность формата страницы тут достигается детальными настройками либо самого FineReader-а, либо (что я предпочитаю делать) копированием текста из этого “временного” документа в новый файл с уже нормальной, привычной разметкой страницы.