课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

有个疑惑不知道怎么优化

每爬一个网站会把网站a链接全部记录下来然后随机用其中一个链接再爬然后把这个网页中的a链接全部保存然后又随机选一个链接接着爬那么问题来了跟第一个页面关系最密切的那些链接大部分可能在这个1000个循环中都未被爬最后爬的却是不相关的东西了怎么优化即能爬关系密切又能不重复网址

DangCode

2016-09-07

源自：Python开发简单爬虫 7-6

关注问题我要回答

517

操作

收起

1 回答

否则悲伤从何而来
2016-09-08

那你唯一需要修改的就是“然后又随机选一个链接接着爬”，这边的规则应该是你自己想的算法吧
建议你写一个方法，把和当前url的关键词按照某种规律，把当前页面的所有url“过滤”成自己需要的有“相关性”URL，就在UrlManger里面的get_new_url下，比如self.new_urls.getMyRulUrl(self.new_urls
)