为了账号安全,请及时绑定邮箱和手机立即绑定

如何在 python 中删除数据框中单词的精确匹配?

如何在 python 中删除数据框中单词的精确匹配?

开心每一天1111 2023-03-30 16:20:27
假设以下数据框有一列名为 <game>:df:   game0  juegos blue1  juego red2  juegos yellow我想从以下停用词列表中删除这些词:stopWords = ['juego','juegos']并且期望的结果是:df:   game0  blue1  red2  yellow我试过了:df['game'] = df['game'].str.replace("|".join(stopWords ), " ")该函数有效,但它从条目“juegos”中删除了“juego”,只留下一个“s”:df:   game0  s blue1   red2  s yellow有没有办法只在完全匹配的情况下删除单词?
查看完整描述

2 回答

?
www说

TA贡献1775条经验 获得超8个赞

你可以用 pandas DataFrame.replace() 来做


In [1]: import pandas as pd 

   ...: df = pd.DataFrame({'game': ['juegos blue', 'juego red', 'juegos yellow']}) 

   ...: stop_words = [r'juego\b', r'juegos\b'] 

   ...: df.replace(to_replace={'game': '|'.join(stop_words)}, value='', regex=True, inplace=True) 

   ...: df                                                                                                                                                    

Out[1]: 

      game

0     blue

1      red

2   yellow


In [2]: df = pd.DataFrame({'game': ['juegos blue', 'juego red', 'juegos yellow']}) 

   ...: stop_words = [r'juego\b'] 

   ...: df.replace(to_replace={'game': '|'.join(stop_words)}, value='', regex=True, inplace=True) 

   ...: df                                                                                                                                                    

Out[2]: 

            game

0    juegos blue

1            red

2  juegos yellow

假设 stop 'words' 以单词 boundary 结尾\b。


查看完整回答
反对 回复 2023-03-30
?
明月笑刀无情

TA贡献1828条经验 获得超4个赞

Python 字符串替换不起作用,但正则表达式模块可以。您将需要向字符串添加一些标记以使正则表达式查找完整的单词。例如,您可能知道它是一个完整的单词,因为它后面跟有句号.、逗号,或任何类型的空格\s,或结尾行$。\b是单词边界的正则表达式模式。


import re

s1 = df['game'].str

for sw in stopWords:

    s1 = re.sub(r'{0}\b'.format(sw), '', s1)

df['game'].str = s1


保留旧代码以备不时之需。此方法还会直接删除匹配词后的空格、逗号或句点,这不是您要求的,但可能会有用。


import re

s1 = df['game'].str

for sw in stopWords:

    s1 = re.sub(r'{0}([.,\s]|$)'.format(sw), '', s1)

df['game'].str = s1


查看完整回答
反对 回复 2023-03-30
  • 2 回答
  • 0 关注
  • 92 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信