Apache火花中的高效字符串匹配

Apache火花中的高效字符串匹配使用OCR工具，我从截图中提取文本(每个截图大约有1-5个句子)。但是，在手动验证提取的文本时，我注意到不时发生几个错误。考虑到“你好，?！我真的很喜欢火花❤️！”，我注意到了这一点：(1)像“i”、“！”和“l”这样的字母被“x”取代。2)表情符号未被正确提取或替换为其他字符，或被遗漏。(3)空白空间不时被移除。因此，我可能会以这样的字符串结束：“你好，7l！真像火花！”由于我试图将这些字符串与数据集(包括正确的文本)进行匹配(在这种情况下，“你好，?！我非常喜欢火花❤️！”)，我正在寻找一种有效的方法来匹配火花中的字符串。有人能提出一个有效的星火算法，让我比较提取的文本(~100.000)与我的数据集(大约1亿)？

查看完整描述