课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

没报错，只输出了第一条记录，然后就craw failed，跳出循环了，怎么回事？

# coding:utf-8

#from baike_spider

import url_manager,html_downloader,html_parser,html_outputer

print html_parser.__name__

class SpiderMain(object):

def __init__(self):

self.urls=url_manager.UrlManager()

self.downloader=html_downloader.HtmlDownloader()

self.parser=html_parser.HtmlParser()

self.outputer=html_outputer.HtmlOutputer()

def craw(self,root_url):

count=1

self.urls.add_new_url(root_url)

while self.urls.has_new_url():

try:

#print self.urls.has_new_url()

new_url=self.urls.get_new_url()

print 'craw %d: %s'%(count,new_url)

html_cont=self.downloader.download(new_url)

print type(html_cont)

new_urls,new_data=self.parser.parse(new_url,html_cont)

print new_urls,new_data

print "test"

self.urls.add_new_urls(new_urls)

self.outputer.collect_data(new_data)

if count==1000:

break

count=count+1

print "test"

except:

print 'craw failed'

self.outputer.output_html()

if __name__=="__main__":

root_url="http://baike.baidu.com/view/21087.htm"

obj_spider=SpiderMain()

obj_spider.craw(root_url)

谦谦向上

2016-07-24

源自：Python开发简单爬虫 7-7

关注问题我要回答

1862

操作

收起

9 回答

NormanG
2018-06-22

一个函数一个函数的对照，问题出在downloader里面没有import urllib2这个模块。

0 回复有任何疑惑可以回复我~

Annunaki
2017-08-07

craw 1 : https://baike.baidu.com/item/Python

craw failed

同求大神解决啊！其他基本上都看了，也改了urllib.parse.urljoin,

0 回复有任何疑惑可以回复我~

幕布斯9012443
2017-02-06

没有报错但是就只有一条数据其他的库都引用啦！

0 回复有任何疑惑可以回复我~

60度向上倾斜
2016-09-26

我也是这个问题啊，但是，，为什么老提示我 urljoin 报错啊，我有引入啊

0 回复有任何疑惑可以回复我~

慕函数0019356
2016-07-31

哎咿呀呀

0 回复有任何疑惑可以回复我~

qq_巫婆的面包_0
2016-07-31

我也是这种问题

0 回复有任何疑惑可以回复我~

#1

qq_我也想要橡皮果实_04188688

你这个是用的Pycharm吗？老师用ctrl+1的时候你用的什么啊

2016-10-21 回复有任何疑惑可以回复我~

qq_巫婆的面包_0
2016-07-31

我遇到了同样的问题

但我的解析器引用了这两个import

0 回复有任何疑惑可以回复我~

#1

qq_贪嗔痴傻_0

请问你的问题解决了吗？我也遇到了相同的问题

2016-08-20 回复有任何疑惑可以回复我~

#2

suddenly唐回复 qq_贪嗔痴傻_0

你现在解决了么，我也是这个问题

2018-03-07 回复有任何疑惑可以回复我~

慕后端2583565
2016-07-31

我也出现同样的问题，可是我的解析器有import啊，就只爬了一条就退出来了

0 回复有任何疑惑可以回复我~

谦谦向上提问者
2016-07-24

最后还是自己发现解析器那部分没有import re 和import urlparse，现在终于运行起来了！高兴啊！

0 回复有任何疑惑可以回复我~

举报

0/150

提交

取消

Python开发简单爬虫

参与学习 227558 人
解答问题 1288 个

本教程带您解开python爬虫这门神奇技术的面纱

没报错，只输出了第一条记录，然后就craw failed，跳出循环了，怎么回事？

我要回答关注问题

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号