В интернете куча приложения, которые можно использовать для распознавания текста с изображения. В данной статье речь пойдет про Tesseract.
Данное приложение можно установить, как на Linux, так и на Windows. Далее будет показан пример работы с данным приложение под Windows.
Скачиваем установочный файл http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
Запускаем его. Когда будет предложено выбрать устанавливаемые компоненты оставляем по умолчанию. Ну вот и все теперь можно пользоваться данным приложением. Работать с ним нужно через консоль, запускаем её.
cd /d «C:\Program Files (x86)\Tesseract-OCR»
tesseract.exe «c:\… путь к изображению.png» «e:\text» -l eng -psm 3
где «e:\text» — путь к файлу, где будет «распарсенный» текст,
-l eng — язык распознования (можно указать и rus, но для этого надо загрузить данные)
-psm 3 — параметр по умолчанию
Всю справочную информацию можно получить выполнив команду tesseract.exe —help
Чтобы дополнительно подключить другие языки распознаванию нужно с https://github.com/tesseract-ocr/langdata скачать требуемый файл *.traineddata и перенести его в папку C:\Program Files (x86)\Tesseract-OCR\tessdata
Есть изображение с указанным текстом tesseract «путь к изображению.png» «e:\text» -l eng -psm 3 и в папке e:\ будет файл text.txt в котором будет текст Hello my friend