Распознавание текста с изображения

В интернете куча приложения, которые можно использовать для распознавания текста с изображения. В данной статье речь пойдет про Tesseract.

Данное приложение можно установить, как на Linux, так и на Windows. Далее будет показан пример работы с данным приложение под Windows.

Скачиваем установочный файл http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe

Запускаем его. Когда будет предложено выбрать устанавливаемые компоненты оставляем по умолчанию. Ну вот и все теперь можно пользоваться данным приложением. Работать с ним нужно через консоль, запускаем её.

cd /d «C:\Program Files (x86)\Tesseract-OCR»

tesseract.exe «c:\… путь к изображению.png» «e:\text» -l eng -psm 3

где «e:\text» — путь к файлу, где будет «распарсенный» текст,

-l eng — язык распознования (можно указать и rus, но для этого надо загрузить данные)

-psm 3 — параметр по умолчанию

Всю справочную информацию можно получить выполнив команду tesseract.exe —help

Чтобы дополнительно подключить другие языки распознаванию нужно с https://github.com/tesseract-ocr/langdata скачать требуемый файл *.traineddata и перенести его в папку C:\Program Files (x86)\Tesseract-OCR\tessdata

Есть изображение с указанным текстом tesseract «путь к изображению.png» «e:\text» -l eng -psm 3 и в папке e:\ будет файл text.txt в котором будет текст Hello my friend

Добавить комментарий Отменить ответ