为了账号安全,请及时绑定邮箱和手机立即绑定

Apache火花中的高效字符串匹配

Apache火花中的高效字符串匹配

智慧大石 2019-07-09 15:14:27
Apache火花中的高效字符串匹配使用OCR工具,我从截图中提取文本(每个截图大约有1-5个句子)。但是,在手动验证提取的文本时,我注意到不时发生几个错误。考虑到“你好,?!我真的很喜欢火花❤️!”,我注意到了这一点:(1)像“i”、“!”和“l”这样的字母被“x”取代。2)表情符号未被正确提取或替换为其他字符,或被遗漏。(3)空白空间不时被移除。因此,我可能会以这样的字符串结束:“你好,7l!真像火花!”由于我试图将这些字符串与数据集(包括正确的文本)进行匹配(在这种情况下,“你好,?!我非常喜欢火花❤️!”),我正在寻找一种有效的方法来匹配火花中的字符串。有人能提出一个有效的星火算法,让我比较提取的文本(~100.000)与我的数据集(大约1亿)?
查看完整描述

2 回答

?
catspeake

TA贡献1111条经验 获得超0个赞

似乎numHashTables=5需要为python版本显式设置

查看完整回答
反对 回复 2019-07-09
  • 2 回答
  • 0 关注
  • 397 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信