为了账号安全,请及时绑定邮箱和手机立即绑定

Python百度爬虫,运行只打开了一个网页,报错无法运行。实在不知道哪里错了

Python百度爬虫,运行只打开了一个网页,报错无法运行。实在不知道哪里错了

天子骄子 2017-03-05 15:30:15
# coding:utf-8 import url_manager, html_downloader, html_parser, html_outputer   class SpiderMain(object):     def __init__(self):         self.urls = url_manager.UrlManager()         self.downloader = html_downloader.HtmlDownloader()         self.parser = html_parser.HtmlParser()         self.outputer = html_outputer.HtmlOutputer()       def craw(self, root_url):         count = 1         self.urls.add_new_url(root_url)         while self.urls.has_new_url():             try:                 new_url = self.urls.get_new_url()                 print('craw %d : %s' % (count, new_url))                 html_cont = self.downloader.download(new_url)                 new_urls, new_data = self.parser.parse(new_url, html_cont)                 self.urls.add_new_urls(new_urls)                 self.outputer.collect_data(new_data)                   if count == 10:                     break                   count = count + 1             except:                 print('craw failed')           self.outputer.output_html()     if __name__=='__main__':     root_url = 'http://baike.baidu.com/view/21087.htm'     obj_spider = SpiderMain()     obj_spider.craw(root_url)
查看完整描述

1 回答

?
perilwhistle

TA贡献1条经验 获得超0个赞

你这个开始就没有爬取到数据的话,应该是html_parser里面的代码出现了问题,建议在html_parser中debug

查看完整回答
反对 回复 2017-03-05
  • 1 回答
  • 0 关注
  • 1802 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信