为了账号安全,请及时绑定邮箱和手机立即绑定

使用 BeautifulSoup 进行网页抓取时出现属性错误

使用 BeautifulSoup 进行网页抓取时出现属性错误

qq_遁去的一_1 2024-01-16 10:38:18
我正在尝试使用 BeautifulSoup 和 Python 从“etherscan.io”中抓取数据。这是网站: https: //etherscan.io/txspage_soups = []for page in range(1, 51):  url = 'https://etherscan.io/txs?p=' + str(page)  print(url)  req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})  webpage = urlopen(req).read()  page_soup = soup(webpage, "html.parser").find('tbody').find_all('a')  page_soups += page_soup我使用循环来抓取多个网页,但只能获取前 30 页的数据。第31条有错误我检查该网页,发现它仍然具有与其他网页相同的标签和元素。请帮我。
查看完整描述

1 回答

?
慕哥9229398

TA贡献1877条经验 获得超6个赞

这是因为 Cloudflare,我在循环中添加了以下内容:

if page%30 == 0:
    time.sleep(20)

显然,每 30 个页面等待 20 秒就足以不被标记为机器人。


查看完整回答
反对 回复 2024-01-16
  • 1 回答
  • 0 关注
  • 98 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信