某些HTTP响应可以具有链接标头,例如<http://www.i_am_a_url.com>;rel="meta data"。有谁知道任何干净的方法来获取URL?如果可能,我宁愿不使用正则表达式,因为正则表达式会使代码难以读懂。
1 回答
紫衣仙女
TA贡献1839条经验 获得超15个赞
使用lxml
impoprt lxml.html
root = lxml.html.fromstring(response_content_string)
for a in root.cssselect('a[href]'):
print(a)
或者
impoprt lxml.html
root = lxml.html.fromstring(response_content_string)
for el, attr, url, _ in root.iterlinks():
print(url)
添加回答
举报
0/150
提交
取消