我有个tesseract 的MAT语言sql数据库文件的后缀有哪些,如何改成traineddata文件

温馨提示:虚拟产品一经售出概鈈退款

一个资源只可评论一次评论内容不能少于5个字

感谢分享,似乎中文都不太好用

中文的话虽然有训练数据也可鉯识别,但是效果不是很好

这时还没法直接用还要下载一些东西

我下载的是5.0 64位的版本

这个函数默认是识别英文和数字的

如果想要识别中攵,需要额外下载训练数据

然后pyhon 里识别中文时,还要设置 lang 属性指定语言包(也就是我们之前下载的)

最后再介绍一下自己训练数据的方法

安装完后,还要配置环境变量

路径是 JDK 的安装目录

2.管理员权限cmd命令行进入上面tif的目录用下面的指令生成box文件

用记事本打开box文件,查看內容

如果不空那就不用管了

如果是空的,则需要我们手动修改一下

3.box文件内容按下面的格式修改

【你要识别的字】 【字的x坐标】【字的y坐標】【宽度】【高度】

ps:上面的数字你可以随便输到时我们可以用 jTessBoxEditor 再进行修正的

单击 粤 那一行可以在右边的 X Y W H 那修改数据 齿轮图标是确认修改

框好后 Save 则可以保存box文件


  
9、生成聚集字符特征文件
10、生成字符正常化特征文件

然后就可以得到自己训练的traineddata文件了

把他放到 tessdata 文件夹内就可鉯通过 lang 属性 使用了

这 tesseract 识别真的不敢恭维。。真的不好使

下面我推荐一个OCR的工具

这个识别中文就特好使网站里已经附带了使用教程

我要回帖

更多关于 sql数据库文件的后缀有哪些 的文章

 

随机推荐