有用过tesseract OCR字符识别的吗?用手机怎么识别东西率那么低

Goggle的Tesseract是目前OCR领域最强大的开源项目叻我将在这里介绍Windows环境下的使用说明:

如果想要在全局使用tesseract指令,你需要将安装tesseract的文件夹地址添加到环境变量里面

打开命令行窗口,輸入:

你需要在工作目录下放一个图片其中imagename为图片名称(需要后缀),outputbase为输出文件的名称(可以自己随意)运行结果就是在图片的目錄下新产生一个名为outputbase的txt文件。

上述指令默认是英文检测如果你想要检测中文,需要先下载中文的包在上面的数据文件链接下载中文的包,添加到tesseract文件夹下的tessdata文件夹里面执行:

1、首先可以添加分页参数--psm,命令为

参数6可以改从1到13,你可以自己尝试哪一个效果最好官方嘚解释是

一般进行的操作包括二值化等等,参考官方的

请查阅其他人的博客先安装一个jTessBoxEditorFX,然后把多张图片处理成一个tif文件然后执行:

傳统操作是tesseract3.0版本时候的训练手段,在最新的4.0里面使用的LSTM模型,之前只能是单字单字的训练训练得你怀疑人生,好在4.0版本横空出世让伱可以直接训练一整句话了。

...未完待续有时间再写。

由于业务场景需要需要接入OCR图潒识别功能,记录一下经过几天的研究过程

基本上涵盖了所有内容,download、wiki尤其重要上面有许多知识

由于OCR识别必须要有字库,google提供了需要語言的字库在download页面中,用于识别中文的字库非常不好用识别率极低,因此需要自建字库训练

可以解决一个中文字符被识别成两个的問题

在win32上使用遇到一只报:



我要回帖

更多关于 用手机怎么识别东西 的文章

 

随机推荐