为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
爬的页面在爬到"百度"之后就跑偏了,哈哈哈
关于只输出了一条记录,第二条就抓取失败接下来就没有输出的问题,我个人的解决方案是这样,我去掉了老师在代码加上的try和except,然后输出结果就会打印出相应的错误,我发现错误是在parser方法,它返回了两个None值,接着我就去查看为什么会返回None值,结果发现parser的参数html_cont的值是None,parser方法一开始有个判断语句,通过调试会发现代码执行判断语句后就会返回,可由此判断。而html_cont是从download方法来获取的,那么问题就出在download方法,接着发现response.getcode()漏了括号。可以上网百度调试的方法,找bug效率会高很多。

最赞回答 / Oldbig_Lin
https://github.com/oldbig-carry/python_baidu_spider  亲测成功  2017/8/13 欢迎fork

最新回答 / 白兰地加冰苏打水
现在python宣布停止对py2的更新,而且一些公司也陆陆续续在升级到p3建议用p3吧

最新回答 / 这个微博纯属人工智能
网页中有的不是/view/这种类型的,网页会随时更改,所以要换
老师敲代码的思路很好,不用管具体细节,只管敲要的内容。。。。
老师讲的非常好,思路也很清晰,就是最后代码头大。。。
Python3.5 解决了网页输出乱码问题:


https://github.com/doubiiot/py_mooc
Python3.5 解决了网页输出乱码问题:

https://github.com/doubiiot/py_mooc
厉害 厉害 徐学到了知识

最赞回答 / qq_Sunshine_60
links = soup.find_all('a',herf = re.compile(r"/view/\d+\.htm"))上面那句有问题,现在去看百科上的链接,已经不是/view/这种格式了。
架构讲的很清晰,按照架构流程图,使用 3.6.1版本的python语法,将 urllib2 替换成 requests模块,输出结果到txt文件,完成代码编写。源码地址:https://git.oschina.net/h_j_xiao/crawler_demo.git

最赞回答 / kevin子博
没有安装 HTML解析器<...code...><...code...>参考: BeautifulSoup4-安装解析器
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消