downloader失败
try:
new_url=self.urls.get_new_url()
print("craw%d : %s"%(count,new_url))
html_cont=self.downloader.download(new_url)#调试的时候在这出错了,且没抓到任何
#另外在urllib测试时,就打不开百度的页面,https倒是可以,但这样爬取得最终结果也是一样的
new_urls,new_data=self.parser.parse(new_url,html_cont)
self.urls.add_new_urls(new_urls)
self.outputer.collect_data(new_data)
if count==1000:
break
count=count+1
except:
print("craw failed")
输出
craw1 : http://baike.baidu.com/view/21087.htm
craw failed