Tesseract简介

Tesseract简介


2024年4月19日发(作者:电脑屏幕太亮怎么调暗点)

Tesseract-ocr简介

Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾

经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀

请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、

Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。

1. 官网地址:/p/tesseract-ocr/

2. 安装与运行(谷歌资源):/p/tesseract-ocr/wiki/ReadMe

3. 源码下载地址:

/p/tesseract-ocr/downloads/detail?name=&can=

2&q=

4. 安装文件():

/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1

.exe&can=2&q=

5. 可执行文件:

/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.01-win32-

&can=2&q=

6. VC2008和VC2010工程:

/p/tesseract-ocr/downloads/detail?name=tesseract-3.01-win_

&can=2&q=

7. 中文字库(简体):

/p/tesseract-ocr/downloads/detail?name=chi_&ca

n=2&q=

8. 中文字库(繁体):

/p/tesseract-ocr/downloads/detail?name=chi_&ca

n=2&q=

9. 可识别文件类型:”.tif”, ”.bmp” 如果要识别其他类型图片,需要借助ImageMagick来进

行图片格式的转换。

10. 在Windows平台下调用“”测试:

1) 在google中下载和chi_中文

字库。

2) 安装完毕,将中文字库放入安装目录的tessdata中。

3) 在命令行中操作,进入安装目录,在该目录中事先放入要测试的图片,比如:;

执行识别图像的命令格式为:

tesseract .exe [-l lang]

Imagename: 需要识别的图片文件名

outputname: 输出结果txt文件名,用来存放识别出来的文字结果

lang: 使用的文字字库,根据要识别的文字类型来选择。

例如:输入命令: 6 –l chi_sim

11. 在VC2008平台下调用源码测试:

1) 将中文字库放入安装目录的tessdata中。

2) 配置环境变量TESSDATA_PREFIX = “C:Program FilesTesseract-OCR” 即

tessdata的目录,在源码中会到这个路径下查找相应的字库文件用来识别。

3) 将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程,设置

“tesseract”为启动工程。

4) 打开“”文件,配置参数

lang:选择的字库文件名

image:输入图片路径

output:输出结果文件路径

5) 外部文件调用tesseract是通过其API接口实现的,接口函数的调用如下:

11. JAVA环境下调用“”测试:

/foamflower/article/details/6110211

12. API接口简介TessBaseAPI Class Reference:

/

13. Linux下的安装://opensource/tesseract/

14. Linux下的开发:/opensource/tesseract/

15. 字库训练:


发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1713474675a2256184.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信