我正在尝试使用 BeautifulSoup 和 Python 从“etherscan.io”中抓取数据。这是网站: https: //etherscan.io/txspage_soups = []for page in range(1, 51): url = 'https://etherscan.io/txs?p=' + str(page) print(url) req = Request(url, headers={'User-Agent': 'Mozilla/5.0'}) webpage = urlopen(req).read() page_soup = soup(webpage, "html.parser").find('tbody').find_all('a') page_soups += page_soup我使用循环来抓取多个网页,但只能获取前 30 页的数据。第31条有错误我检查该网页,发现它仍然具有与其他网页相同的标签和元素。请帮我。
1 回答
慕哥9229398
TA贡献1877条经验 获得超6个赞
这是因为 Cloudflare,我在循环中添加了以下内容:
if page%30 == 0: time.sleep(20)
显然,每 30 个页面等待 20 秒就足以不被标记为机器人。
添加回答
举报
0/150
提交
取消