我正在尝试按字符串中是否有单词来过滤数据框,我尝试了以下方法:text="Abacus and androgeny and for"tokenized = tknzr.tokenize(text.lower())pattern= "|".join(tokenized)lexicon = lexicon[lexicon["English (en)"].str.match(pattern, na = False)]这实际上不起作用,因为以“for”开头的单词(如伪造)会匹配。为了清楚起见,我只需要与文本中的某个单词完全匹配的行。
1 回答
牧羊人nacy
TA贡献1862条经验 获得超7个赞
如果我正确理解你,你只是使用匹配来确定列中的单词是否是文本中的单词之一?如果是这样 - 我会尝试:
lexicon = lexicon[lexicon["English (en)"].isin(tokenized)]
这样,匹配项将出现在确切的单词上,因为它会将其与单词列表进行比较。
添加回答
举报
0/150
提交
取消