为了账号安全,请及时绑定邮箱和手机立即绑定

在 Python 3 中使用 BeautifulSoup 抓取 URL

在 Python 3 中使用 BeautifulSoup 抓取 URL

白衣染霜花 2021-09-25 13:17:42
我试过这段代码,但带有 URL 的列表仍然是空的。没有错误按摩,什么都没有。from bs4 import BeautifulSoupfrom urllib.request import Request, urlopenimport rereq = Request('https://www.metacritic.com/browse/movies/genre/date?page=0', headers={'User-Agent': 'Mozilla/5.0'})html_page = urlopen(req).read()soup = BeautifulSoup(html_page, features="xml")links = []for link in soup.findAll('a', attrs={'href': re.compile("^https://www.metacritic.com/movie/")}):    links.append(link.get('href'))print(links)我想刮以“开头的所有网址https://www.metacritic.com/movie/ ”这是在给定的URL“发现https://www.metacritic.com/browse/movies/genre/date?页=0 “。我究竟做错了什么?
查看完整描述

2 回答

?
慕容3067478

TA贡献1773条经验 获得超3个赞

你的代码是健全的。

该列表保持为空,因为该页面上没有与该模式匹配的任何 URL。试试吧re.compile("^/movie/")


查看完整回答
反对 回复 2021-09-25
  • 2 回答
  • 0 关注
  • 167 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信