我正在学习使用 Beautiful Soup 从网站上抓取一些信息。该网站有多个我想要抓取的搜索结果页面。这很简单,因为每个页面的 URL 都会发生变化:website.com/page1website.com/page2..但我事先不知道会有多少页。因此,website.com/page13如果没有或website.com/page13仅显示最后一个结果页面(可能是website.com/page9.当我到达最终结果页面时,有没有办法停止抓取?
1 回答
杨__羊羊
TA贡献1943条经验 获得超7个赞
通常搜索页面的结果带有某种索引。如果您正在查看的页面已显示索引,当您看到相同的索引两次时,您可以停止。
此外,您可能会在页面底部遇到结果分页,您可以从您所在的页面判断您是否位于该列表中分页的末尾。
此外,搜索页面通常在每个页面上显示一定数量的结果,因此在这些情况下,如果结果突然少于最后一页,您可以假设您所在的页面是最后一页。
在重复页面的情况下区分的另一种方法是保留当前页面的第一个结果并将其与下一页的第一个结果进行比较,如果它们相同,则完成。
如果您可以在尝试此操作的页面上提供更多详细信息,或者有关问题范围的更多详细信息,我可能会提供其他输入。
添加回答
举报
0/150
提交
取消