page_url是从哪里出现的?
如题。好像是突然出现的,main里面没有,也不是传入的参数
如题。好像是突然出现的,main里面没有,也不是传入的参数
2016-07-28
spider_main中的 root_url 通过urls.get_new_url()获取的可爬取的URL
def craw(self,root_url): count=1 self.urls.add_new_url(root_url) while self.urls.has_new_url(): try: new_url=self.urls.get_new_url() print 'craw %d:%s' %(count,new_url) html_cont=self.downloader.download(new_url) new_urls,new_data=self.parser.parser(new_url,html_cont) self.urls.add_new_urls(new_urls) self.outputer.collect_data(new_data) if count==1000: break count=count+1 except: print 'craw feild' self.outputer.output_html() if __name__=="__main__": root_url="http://baike.baidu.com/view/21087.htm" obj_spider=SpiderMain() obj_spider.craw(root_url)
举报