Содержание
Речь сегодня пойдёт про работу с программой по распознаванию текстов. Тут зачастую встречаются разные онлайн сервисы, советы как это сделать автоматически и без особых трудов. Но мне по душе тот вариант, когда используется самостоятельное приложение (особенно, если документы для распознавания не желательно отправлять куда-то в сеть в неизвестном направлении).
Так что вооружаемся более-менее привычной для этой цели FineReader и начинаем работу.
Работа с FineReader по распознаванию текстов
Для удобства, работу я распишу на несколько этапов
Сканирование
На панели инструментов нажимаем соответствующую кнопку и видим более-менее стандартный мастер работы со сканером с некоторым количеством настроек. Последовательно жмём кнопку “Сканировать” и подкидываем в печь в сканер новые страницы.
После того, как сканирование будет окончено, можно выполнить цветокоррекцию, исправление трапеций (особенно это заметно, если использовать фотокамеру – тяжеловато выдержать нужный угол).
Разметка областей распознавания
Последовательно выбираем каждую страницу (большая стрелка) и выбираем инструменты разметки через панель
Конечно FineReader пытается автоматически разметить страницу, но, зачастую, делает это настолько коряво, что я рекомендую стереть все области и обозначить свои.
Страницы с монолитной простынёй текста – размечаем по кнопке “Текст” – самая верхняя.
Если в тексте встречаются изображения – размечаем их второй кнопкой “изображение”, в случае, конечно, если они нам нужны в выходном документе. Если картинка не нужна – ну и не выделяем её.
Соответственно, если есть таблица – выделяем таблицей. Всё очень просто.
Распознавание
После того, как все нужные страницы были размечены – жмём кнопку “Распознать”. Вон она, под стрелкой.
В правой части окна отобразится уже редактируемая версия текста. Если есть неуверенно распознанные символы – они будут подсвечены голубыми областями. Текст можно скорректировать прямо там, в правой части окна.
Сохранение
FineReader позволяет сохранить текст в огромном количестве различных форматов, наиболее популярный – Microsoft Office Word:
На выходе будем иметь вот кое-что похожее:
Корректность формата страницы тут достигается детальными настройками либо самого FineReader-а, либо (что я предпочитаю делать) копированием текста из этого “временного” документа в новый файл с уже нормальной, привычной разметкой страницы.
Всё просто!
Кстати, можно работать не только со сканером, а аналогичным образом преобразовывать в текстовый вариант многостраничные документы типа PDF!
Comments: