Apache火花中的高效字符串匹配使用OCR工具,我从截图中提取文本(每个截图大约有1-5个句子)。但是,在手动验证提取的文本时,我注意到不时发生几个错误。考虑到“你好,?!我真的很喜欢火花❤️!”,我注意到了这一点:(1)像“i”、“!”和“l”这样的字母被“x”取代。2)表情符号未被正确提取或替换为其他字符,或被遗漏。(3)空白空间不时被移除。因此,我可能会以这样的字符串结束:“你好,7l!真像火花!”由于我试图将这些字符串与数据集(包括正确的文本)进行匹配(在这种情况下,“你好,?!我非常喜欢火花❤️!”),我正在寻找一种有效的方法来匹配火花中的字符串。有人能提出一个有效的星火算法,让我比较提取的文本(~100.000)与我的数据集(大约1亿)?
添加回答
举报
0/150
提交
取消