为了账号安全,请及时绑定邮箱和手机立即绑定

从文本文件中提取URL-Python

从文本文件中提取URL-Python

慕的地8271018 2021-03-30 12:10:45
我正在尝试从包含网站源代码的文本文件中提取URL。我想获取href内的网站链接,并写了一些我从stackoverflow借来的代码,但无法正常工作。with open(sourcecode.txt) as f:    urls = f.readlines()urls = ([s.strip('\n') for s in urls ]) print(url)
查看完整描述

2 回答

?
小唯快跑啊

TA贡献1863条经验 获得超2个赞

使用正则表达式,您可以从文本文件中提取所有网址,而无需逐行循环:


import re

with open('/home/username/Downloads/Stack_Overflow.html') as f:

    urls = f.read()

    links = re.findall('"((http)s?://.*?)"', urls)

for url in links:

    print(url[0])


查看完整回答
反对 回复 2021-04-13
?
MMTTMM

TA贡献1869条经验 获得超4个赞

您可以为此使用正则表达式。


import re


with open('sourcecode.txt') as f:

    text = f.read()


href_regex = r'href=[\'"]?([^\'" >]+)'

urls = re.findall(href_regex, text)


print(urls)

您可能会收到类似的错误'sourcecode' is not defined;这是因为您传递给的参数open()必须是字符串(请参见上文)


查看完整回答
反对 回复 2021-04-13
  • 2 回答
  • 0 关注
  • 1245 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号