为了账号安全,请及时绑定邮箱和手机立即绑定

在标点符号上拆分字符串(标签除外)

在标点符号上拆分字符串(标签除外)

繁星点点滴滴 2021-04-08 14:11:00
如何在除#字符之外的任何标点符号和空格处拆分字符串?tweet="I went on #Russia to see the world cup. We lost!"我想这样分割下面的字符串:["I", "went", "to", "#Russia", "to, "see", "the", "world", "cup", "We","lost"]我的尝试:p = re.compile(r"\w+|[^\w\s]", re.UNICODE)由于它创建的是“ Russia”而不是“ #Russia”,因此不起作用
查看完整描述

3 回答

?
守候你守候我

TA贡献1802条经验 获得超10个赞

具有re.findall功能:


tweet="I went on #Russia to see the world cup. We lost!"

words = re.findall(r'[\w#]+', tweet)

print(words)

输出:


['I', 'went', 'on', '#Russia', 'to', 'see', 'the', 'world', 'cup', 'We', 'lost']


查看完整回答
反对 回复 2021-04-27
?
牧羊人nacy

TA贡献1862条经验 获得超7个赞

使用 re.sub


前任:


import re

tweet="I went on #Russia to see the world cup. We lost!"

res = list(map(lambda x: re.sub("[^\w#]", "", x), tweet.split()))

print(res)

输出:


['I', 'went', 'on', '#Russia', 'to', 'see', 'the', 'world', 'cup', 'We', 'lost']


查看完整回答
反对 回复 2021-04-27
  • 3 回答
  • 0 关注
  • 185 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信