为了账号安全,请及时绑定邮箱和手机立即绑定

spider_main.py中的from baike_spider import url_manager问题

baike_spider是在工程下面创建的package,里面是空的,那from baike_spider import url_manager,html_downloader,html_parser,html_outputer这句代码,又怎么从baike_spider模块中引入(import)  url_manager呢?
我按照视频里面的代码打出来,运行后纸爬取了讲个网址就结束了。我怀疑是不是因为(package)baike_spider为空引起的,求大神指导

正在回答

2 回答

第一:baike_spider是你创建的包,你所说的url_manager肯定是放在包中的代码,是可以import进去了。

第二:只爬取一个网址就结束应该是html_parser中的代码有问题,比如课程中的匹配策略与现在的百度Python词条不匹配,需要改成href = re.compile(r"/item/.*")   再或者find_all  不要丢了下划线,我就没注意到下划线,所以只输出了1条记录就craw faild了。

0 回复 有任何疑惑可以回复我~
#1

兰陵萧萧笙 提问者

晚上试试,我还以为是我代码哪里打错了,多谢啦
2017-05-18 回复 有任何疑惑可以回复我~
#2

Ramon_Lee 回复 兰陵萧萧笙 提问者

我的天,难道我自己动手做的第一个爬虫就运行不起来啊,意思就是现在应该用http://baike.baidu.com/view/21087.htm,解析器里就应该是href = re.compile(r"/item/.*"),才可以? 不过我怎么运行都是 craw 1 : None craw failed 崩溃了。。。
2017-05-25 回复 有任何疑惑可以回复我~
#3

Ramon_Lee 回复 兰陵萧萧笙 提问者

while self.urls.has_new_url(): try: new_url = self.urls.get_new_url() print 'craw %d : %s' % (count, new_url) html_cont = self.downloader.download(new_url) new_urls, new_data = self.parser.parse(new_url, html_cont) 中的new_url = self.urls.get_new_url(),方法没有写全。。。。不认真
2017-05-25 回复 有任何疑惑可以回复我~
#4

兰陵萧萧笙 提问者 回复 Ramon_Lee

给我个邮箱,我把我的代码发给你看看,你检查一下
2017-05-25 回复 有任何疑惑可以回复我~
#5

兰陵萧萧笙 提问者 回复 Ramon_Lee

加不了,有提示问题
2017-05-25 回复 有任何疑惑可以回复我~
#6

兰陵萧萧笙 提问者 回复 Ramon_Lee

917690192
2017-05-25 回复 有任何疑惑可以回复我~
查看10条回复

那为什么我用的pycharm 里baike_spider中没有url_manager,html_downloader,html_parser,html_outputer

url_manager,html_downloader,html_parser,html_outputer都是错误Imort Error

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

spider_main.py中的from baike_spider import url_manager问题

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信