3 回答
TA贡献1856条经验 获得超5个赞
这个很简单啊,做字符串匹配。关键你那个替换逻辑有点乱。
【匹配整个单词】
一般你在编辑器中做文本替换,要替换所有 【匹配整个单词】 区分大小写 等选项。
你的那个 屏蔽的单词集合,明显分了两类,但却没有区分。
lua my hello go 等式 精确的单词。比如 go 替换 不可能 替换 bingo 中的 go
主题 你好 等是却要替换 一个完整单词(因为匹配一般是靠空格符号匹配的)的一部分。
比如: 替换 "主题" 会把 "主题曲" 中的部分"主题" 替换
【解决方法】先做 包含中文单词匹配,用空格当然有些bug 还是需要解决的,比如常见的 中文符号,要从匹配中 去除,我给你做个简单 demo。
你自己处理下 标点符号。
TA贡献1789条经验 获得超10个赞
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 | --- -- function maskMsg takes string, table, string returns string -- -- @text 预处理的文本 -- @set 预搜索的子串集合 -- -- @repl 替换的文本 -- 不指定则替换成 与字符串长度相等的 "*" -- -- @return 处理后的文本
local function maskMsg ( text, set, repl ) if #text <= 0 then return text end local function maskor ( str ) return repl or string.rep( "*", #str ) end for k, str in pairs(set) do text = string.gsub( text, str, maskor(str) ) end return text end
-- 对给定文本中出现的 给定集合中的子串进行替换 text = "lua is my style! hello boy ,let`s go,我们的主题曲! Bingo!" wordLib = {"lua","my","hello","go","主题","你好"} local function main () local msg = maskMsg ( text, wordLib, "**") print(msg)
end main() --- 输出结果 -- ** is ** style! ** boy ,let`s **,我们的**曲! Bin**! |
【注:】
【1】上面这个demo 是效率很低很低的方法。
【2】附件:简单屏蔽指定集合中的单词(含中文)- flameleo.lua
1 2 | --- 输出结果 -- ** is ** style! ** boy ,let`s **,我们的**曲! Bingo! |
是一个分别处理模式串和非模式串的方法,需要改进中文分词算法
- 3 回答
- 0 关注
- 944 浏览
添加回答
举报