为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用 Python 从 twitter 推文中删除图片 URL

如何使用 Python 从 twitter 推文中删除图片 URL

慕的地6264312 2022-07-12 09:43:07
我有一个来自 twitterscraper 的数据框,我正在尝试从文本中删除图片 URL输入:大家好,祝你有美好的一天。pic.twitter.com/Z1yG39NO输出:大家好,祝你有美好的一天。df['text'] = df['text'].apply(lambda x: re.split('https:\/\/.*[\r\n]*', str(x))[0])我使用此代码,但它只能删除 https:谢谢 :-)
查看完整描述

2 回答

?
慕哥6287543

TA贡献1831条经验 获得超10个赞

import re

def cleaning_PicURL (text):

    text = re.sub(r'pic.twitter.com/[\w]*',"", text)

    return text


df['text'] = df['text'].apply(lambda x: cleaning_PicURL(x))

使用上面的代码,它将从文本中删除图片 URL,这里的split函数会将文本拆分为匹配的正则表达式模式并给我们一个列表。在推文中,您可能不确定图片 URL 的位置,因此使用sub函数而不是split函数更相关,因为sub函数会直接删除带有空字符串的匹配文本,它对您来说很容易。正则表达式模式pic.twitter.com/[\w]*将有助于匹配文本中的所有 twitter 图片 URL。希望这可以消除您的疑问。


例子:


re.sub(r'pic.twitter.com/[\w]*',"", "test pic.twitter.com/va4nFjFQ5B")

'test '


查看完整回答
反对 回复 2022-07-12
?
精慕HU

TA贡献1845条经验 获得超8个赞

做这个 :

df['text'] = df['text'].str.replace(r'pic.twitter.com(.*?)\s(.*)', '')


(.*?)\s(.*) 把这个放在每个帖子特定的 URL 的其余部分


查看完整回答
反对 回复 2022-07-12
  • 2 回答
  • 0 关注
  • 93 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信