已解决430363个问题，去搜搜看，总会有你想问的

图像处理，以提高tesseract OCR的准确性

首页猿问图像处理，以提高tesseract...

图像处理，以提高tesseract OCR的准确性

源码

梵蒂冈之花 2019-09-18 14:35:37

我一直在使用tesseract将文档转换为文本。文档的质量范围非常广泛，我正在寻找有关哪种图像处理可能会改善结果的提示。我注意到高度像素化的文本 - 例如由传真机生成的文本 - 对于tesseract来说特别难以处理 - 可能是角色的所有锯齿状边缘都会混淆形状识别算法。什么样的图像处理技术可以提高准确度？我一直在使用高斯模糊来平滑像素化图像并看到一些小的改进，但我希望有一种更具体的技术可以产生更好的结果。假设一个过滤器被调整为黑白图像，这将平滑不规则的边缘，然后是一个过滤器，它会增加对比度，使角色更加清晰。对于图像处理新手的任何一般提示？

查看完整描述

3 回答

慕的地10843

TA贡献1785条经验获得超8个赞

我绝不是OCR专家。但本周我需要将文本转换为jpg。

我开始使用彩色RGB 445x747像素jpg。我立即尝试了tesseract，程序几乎没有转换。然后我进入GIMP并做了以下事情。图像>模式>灰度图像>比例图像> 1191x2000像素滤镜>增强>非锐化蒙版，其值为半径= 6.8，量= 2.69，阈值= 0然后我以100％质量保存为新的jpg。

然后，Tesseract能够将所有文本提取到.txt文件中

Gimp是你的朋友。

反对回复 2019-09-18

3 回答
0 关注
1209 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

图像处理，以提高tesseract OCR的准确性

图像处理，以提高tesseract OCR的准确性

3 回答

添加回答