熊猫快速移除标点符号这是一个自我回复的帖子。下面,我概述了NLP领域的一个常见问题,并提出了一些解决该问题的性能方法。经常需要移除标点符号在文本清理和预处理过程中。标点符号定义为string.punctuation:>>> import string
string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'这是一个很常见的问题,在令人作呕之前就已经被问到了。最地道的解决办法是用熊猫str.replace..但是,对于涉及罗得对于文本,可能需要考虑一种更具表现力的解决方案。什么是好的、有表现力的替代方案?str.replace在处理成千上万的记录时?
3 回答
尚方宝剑之说
TA贡献1788条经验 获得超4个赞
str.translate()
:
def pd_translate(df): return df.assign(text=df['text'].str.translate(transtab))
添加回答
举报
0/150
提交
取消