为了账号安全,请及时绑定邮箱和手机立即绑定

爬了两条就停下来了,还出来个中文

https://img1.sycdn.imooc.com//5ad2267800013c9209670142.jpg

换了几个页面都是这个结果,想问下史记是哪里来的???

还有就是这样就中断了可能有什么原因啊?

上面的编码问题怎么解决?

正在回答

3 回答

嗯。。。。因为python的那个百度百科的页面的html代码升级了一哈,原本的抓取URl的代码不能用了,你把parser里面的_get_new_urls这个函数的re.compile语句后面的正则表达式改一下,改成这样re.compile(r"/item/")就ok了

0 回复 有任何疑惑可以回复我~

craw 1:https://baike.baidu.com/item/Python/407313

craw failed

还没有爬呢,就死了!!!求教

0 回复 有任何疑惑可以回复我~

url编码的问题

0 回复 有任何疑惑可以回复我~
#1

糖水_ 提问者

方便解释一下吗……要怎么改才可以
2018-04-16 回复 有任何疑惑可以回复我~
#2

团子wwwxxx 回复 糖水_ 提问者

请问你解决了吗?
2018-04-23 回复 有任何疑惑可以回复我~
#3

糖水_ 提问者 回复 团子wwwxxx

没有…换了别的网站也只能爬两个……
2018-04-24 回复 有任何疑惑可以回复我~
#4

团子wwwxxx 回复 糖水_ 提问者

哭唧唧,那我继续找方法
2018-04-25 回复 有任何疑惑可以回复我~
#5

团子wwwxxx 回复 糖水_ 提问者

你好,我的问题已经解决了,原因是在html_parser里def get_new_urls(self, page_url, soup)中,我把return放到循环中了,现在改正了就爬取正常了,你可以查看下是不是同样的错误。
2018-04-26 回复 有任何疑惑可以回复我~
#6

Masc 回复 团子wwwxxx

看到你的回复 修复了我的代码 哈哈
2018-05-06 回复 有任何疑惑可以回复我~
查看3条回复

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

爬了两条就停下来了,还出来个中文

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信