温馨提示:虚拟产品一经售出概鈈退款
一个资源只可评论一次评论内容不能少于5个字
中文的话虽然有训练数据也可鉯识别,但是效果不是很好
这时还没法直接用还要下载一些东西
我下载的是5.0 64位的版本
这个函数默认是识别英文和数字的
如果想要识别中攵,需要额外下载训练数据
然后pyhon 里识别中文时,还要设置 lang 属性指定语言包(也就是我们之前下载的)
安装完后,还要配置环境变量
路径是 JDK 的安装目录
用记事本打开box文件,查看內容
如果不空那就不用管了
如果是空的,则需要我们手动修改一下
【你要识别的字】 【字的x坐标】【字的y坐標】【宽度】【高度】
ps:上面的数字你可以随便输到时我们可以用 jTessBoxEditor 再进行修正的
单击 粤 那一行可以在右边的 X Y W H 那修改数据 齿轮图标是确认修改
框好后 Save 则可以保存box文件
然后就可以得到自己训练的traineddata文件了
把他放到 tessdata 文件夹内就可鉯通过 lang 属性 使用了
这 tesseract 识别真的不敢恭维。。真的不好使
下面我推荐一个OCR的工具
这个识别中文就特好使网站里已经附带了使用教程