课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

爬了一个，第二个failed就停止了

爬了一个，第二个failed就停止了

张小飞0

2016-06-01

源自：Python开发简单爬虫

关注问题我要回答

889

操作

收起

5 回答

慕九州4077438
2021-12-15

我用着不是太好治疗癫痫病的方法

0 回复有任何疑惑可以回复我~

betterzlf
2016-06-18

用这个方法爬出了10条数据

0 回复有任何疑惑可以回复我~

xinxin_121
2016-06-16

我的用这个方法不行

0 回复有任何疑惑可以回复我~

weibo_慕斯卡1409433
2016-06-05

赞一个，我也遇到此问题，正准备求助

0 回复有任何疑惑可以回复我~

huangjunli
2016-06-03

你点击第二的url会发现他是锁定词条的页面，去看html代码的话可以看出来“锁定”这个href的模式也是/view/123.htm，所以按照视频里的代码第一条抓出来的就是锁定，这个会出现错误。

比较笨的方法，我在parser里面加入了个判断：

for link in links:
    new_url = link['href']
    new_full_url = urlparse.urljoin(page_url, new_url)
    # print new_full_url
    if new_full_url == 'http://baike.baidu.com/view/10812319.htm':
        continue
    new_urls.add(new_full_url)
return new_urls

这样就可以了

0 回复有任何疑惑可以回复我~

#1

为什么锁定词条的页面不能抓取？锁定词条也有标题，概要，和url 应该是可以抓取的啊！能解释下吗？

2016-06-26 回复有任何疑惑可以回复我~

举报

0/150

提交

取消

Python开发简单爬虫

参与学习 227557 人
解答问题 1288 个

本教程带您解开python爬虫这门神奇技术的面纱

爬了一个，第二个failed就停止了

我要回答关注问题

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号