为了账号安全,请及时绑定邮箱和手机立即绑定

按模式精确过滤熊猫

按模式精确过滤熊猫

SMILET 2022-08-16 16:37:17
我正在尝试按字符串中是否有单词来过滤数据框,我尝试了以下方法:text="Abacus and androgeny and for"tokenized = tknzr.tokenize(text.lower())pattern= "|".join(tokenized)lexicon = lexicon[lexicon["English (en)"].str.match(pattern, na = False)]这实际上不起作用,因为以“for”开头的单词(如伪造)会匹配。为了清楚起见,我只需要与文本中的某个单词完全匹配的行。
查看完整描述

1 回答

?
牧羊人nacy

TA贡献1862条经验 获得超7个赞

如果我正确理解你,你只是使用匹配来确定列中的单词是否是文本中的单词之一?如果是这样 - 我会尝试:

lexicon = lexicon[lexicon["English (en)"].isin(tokenized)]

这样,匹配项将出现在确切的单词上,因为它会将其与单词列表进行比较。


查看完整回答
反对 回复 2022-08-16
  • 1 回答
  • 0 关注
  • 88 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信