为了账号安全,请及时绑定邮箱和手机立即绑定

只爬出来了两条,但未报错而且也没有爬取失败

为什么只输出两条,第一条为刚开始输入的,第二条为百度百科词条,然后就没有了

正在回答

3 回答

我遇到的问题是  第二条链接中开始含有中文  例如这样

http://baike.baidu.com/item/史记·2016?fr=navbar

 就跑不动了

0 回复 有任何疑惑可以回复我~

我的也是,只爬了两条,发现是在爬取第二个url时,调用

def add_new_url(self,url):
    if url is None:
            return
    if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)
    函数时,url并没有加入到new_urls中,导致new_urls为空,终止了爬取
    但我并不知道为什么.....


0 回复 有任何疑惑可以回复我~

1. 先检查是否将结果写入到了data字典中,再看看是否代码中正则匹配有误

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

只爬出来了两条,但未报错而且也没有爬取失败

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信