这项目的搜索方式是深度优先搜索??
感觉如果抓“Python”关键词相关,应该在根页面广度优先搜索啊,现在爬下来的结果都是一些奇奇怪怪的词条。。。
感觉如果抓“Python”关键词相关,应该在根页面广度优先搜索啊,现在爬下来的结果都是一些奇奇怪怪的词条。。。
2016-05-05
思考了一下,抛砖引玉,谁眼尖帮我看一下是不是广搜?谢谢
class UrlManager(object): def __init__(self): self.new_urls = [] # 改成了list,方便pop首元素 self.old_urls = [] def add_new_url(self, url): if url is None: return if url not in self.new_urls and url not in self.old_urls: self.new_urls.append(url) # 更改了 def add_new_urls(self, urls): if urls is None or len(urls) == 0: return for url in urls: self.add_new_url(url) def has_new_url(self): return len(self.new_urls) != 0 def get_new_url(self): new_url = self.new_urls.pop(0) # 弹出首元素,访问 self.old_urls.append(new_url) # 更改了 return new_url
举报