为了账号安全,请及时绑定邮箱和手机立即绑定

爬了一个,第二个failed就停止了

爬了一个,第二个failed就停止了

正在回答

5 回答

我用着不是太好治疗癫痫病的方法

0 回复 有任何疑惑可以回复我~

用这个方法爬出了10条数据


0 回复 有任何疑惑可以回复我~

我的用这个方法不行

0 回复 有任何疑惑可以回复我~

赞一个,我也遇到此问题,正准备求助

0 回复 有任何疑惑可以回复我~

你点击第二的url会发现他是锁定词条的页面,去看html代码的话可以看出来“锁定”这个href的模式也是/view/123.htm,所以按照视频里的代码第一条抓出来的就是锁定,这个会出现错误。

http://img1.sycdn.imooc.com//57513e810001277d05510228.jpg

比较笨的方法,我在parser里面加入了个判断:

for link in links:
    new_url = link['href']
    new_full_url = urlparse.urljoin(page_url, new_url)
    # print new_full_url
    if new_full_url == 'http://baike.baidu.com/view/10812319.htm':
        continue
    new_urls.add(new_full_url)
return new_urls

这样就可以了

0 回复 有任何疑惑可以回复我~
#1

charsandrew

为什么锁定词条的页面不能抓取?锁定词条也有标题,概要,和url 应该是可以抓取的啊!能解释下吗?
2016-06-26 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

爬了一个,第二个failed就停止了

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信