讲师回答 / 伏草惟存
# 正则对字符串清洗def textParse(str_doc): # 正则过滤掉特殊符号、标点、英文、数字等。 r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+' # 去除空格 r2 = '\s+' # 去除换行符 str_doc=re.sub(r1, ' ', str_doc) # 多个空格成1个 str_doc=re.sub(r2, '...
2019-07-22