为了账号安全,请及时绑定邮箱和手机立即绑定

有个疑惑不知道怎么优化

每爬一个网站会把网站a链接全部记录下来 然后随机用其中一个链接再爬 然后把这个网页中的a链接全部保存 然后又随机选一个链接接着爬 那么问题来了 跟第一个页面关系最密切的那些链接大部分可能在这个1000个循环中都未被爬 最后爬的却是不相关的东西了 怎么优化即能爬关系密切又能不重复网址

正在回答

1 回答

  1. 那你唯一需要修改的就是“然后又随机选一个链接接着爬”,这边的规则应该是你自己想的算法吧

  2. 建议你写一个方法,把和当前url的关键词按照某种规律,把当前页面的所有url“过滤”成自己需要的有“相关性”URL,就在UrlManger里面的get_new_url下,比如self.new_urls.getMyRulUrl(self.new_urls
    )


0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

有个疑惑不知道怎么优化

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信