2024年4月19日发(作者:电脑屏幕太亮怎么调暗点)
Tesseract-ocr简介
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾
经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀
请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、
Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。
1. 官网地址:/p/tesseract-ocr/
2. 安装与运行(谷歌资源):/p/tesseract-ocr/wiki/ReadMe
3. 源码下载地址:
/p/tesseract-ocr/downloads/detail?name=&can=
2&q=
4. 安装文件():
/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1
.exe&can=2&q=
5. 可执行文件:
/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.01-win32-
&can=2&q=
6. VC2008和VC2010工程:
/p/tesseract-ocr/downloads/detail?name=tesseract-3.01-win_
&can=2&q=
7. 中文字库(简体):
/p/tesseract-ocr/downloads/detail?name=chi_&ca
n=2&q=
8. 中文字库(繁体):
/p/tesseract-ocr/downloads/detail?name=chi_&ca
n=2&q=
9. 可识别文件类型:”.tif”, ”.bmp” 如果要识别其他类型图片,需要借助ImageMagick来进
行图片格式的转换。
10. 在Windows平台下调用“”测试:
1) 在google中下载和chi_中文
字库。
2) 安装完毕,将中文字库放入安装目录的tessdata中。
3) 在命令行中操作,进入安装目录,在该目录中事先放入要测试的图片,比如:;
执行识别图像的命令格式为:
tesseract .exe
Imagename: 需要识别的图片文件名
outputname: 输出结果txt文件名,用来存放识别出来的文字结果
lang: 使用的文字字库,根据要识别的文字类型来选择。
例如:输入命令: 6 –l chi_sim
11. 在VC2008平台下调用源码测试:
1) 将中文字库放入安装目录的tessdata中。
2) 配置环境变量TESSDATA_PREFIX = “C:Program FilesTesseract-OCR” 即
tessdata的目录,在源码中会到这个路径下查找相应的字库文件用来识别。
3) 将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程,设置
“tesseract”为启动工程。
4) 打开“”文件,配置参数
lang:选择的字库文件名
image:输入图片路径
output:输出结果文件路径
5) 外部文件调用tesseract是通过其API接口实现的,接口函数的调用如下:
11. JAVA环境下调用“”测试:
/foamflower/article/details/6110211
12. API接口简介TessBaseAPI Class Reference:
/
13. Linux下的安装://opensource/tesseract/
14. Linux下的开发:/opensource/tesseract/
15. 字库训练:
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1713474675a2256184.html
评论列表(0条)