有个疑惑不知道怎么优化
每爬一个网站会把网站a链接全部记录下来 然后随机用其中一个链接再爬 然后把这个网页中的a链接全部保存 然后又随机选一个链接接着爬 那么问题来了 跟第一个页面关系最密切的那些链接大部分可能在这个1000个循环中都未被爬 最后爬的却是不相关的东西了 怎么优化即能爬关系密切又能不重复网址
每爬一个网站会把网站a链接全部记录下来 然后随机用其中一个链接再爬 然后把这个网页中的a链接全部保存 然后又随机选一个链接接着爬 那么问题来了 跟第一个页面关系最密切的那些链接大部分可能在这个1000个循环中都未被爬 最后爬的却是不相关的东西了 怎么优化即能爬关系密切又能不重复网址
2016-09-07
举报