为了账号安全,请及时绑定邮箱和手机立即绑定

python爬虫 设置了去重但是还是爬几条后就无限爬同一个URL,下面是去重的代码

python爬虫 设置了去重但是还是爬几条后就无限爬同一个URL,下面是去重的代码

慕桂英5878391 2017-07-30 15:03:56
class UrlManager(object):    def __init__(self):        self.new_urls = set()        self.old_urls = set()    def add_new_url(self, url):        if url is None:           return        if url not in self.new_urls and url not in self.old_urls:            self.new_urls.add(url)    def add_new_urls(self, urls):        if urls is None or len(urls) == 0:            return        for url in urls:            self.new_urls.add(url)    def has_new_url(self):        return len(self.new_urls) != 0    def get_new_url(self):        new_url = self.new_urls.pop()        self.old_urls.add(new_url)        return new_url
查看完整描述

目前暂无任何回答

  • 0 回答
  • 1 关注
  • 1530 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信