为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
最后因为编码问题,苦恼甚久……不过还是解决了。

最赞回答 / myAbo
http://www.imooc.com/opus/resource?opus_id=1932 希望能帮到你
老师 有时候 好激动呀1!!
能不能分享一下源码
讲的清晰明白,很期待高阶的课程,非常期待,不知何时推出

最新回答 / 哈士奇萌萌
你看看是不是在输出的html里面,没有加入'<meta charset="UTF-8">'?

已采纳回答 / 蚂蚁帅帅
1、不要把代码放在中文路径下;2、文件开头引入包了吗,import cookielib,这一句。

已采纳回答 / 凡所在的世界
这只是简单的讲了讲,有兴趣的下来还有很多要学。
python 3和2很大区别就是python本身改为默认用unicode编码。字符串不再区分&quot;abc&quot;和u&quot;abc&quot;, 字符串&quot;abc&quot;默认就是unicode,不再代表本地编码、由于有这种内部编码,像c#和java类似,再没有必要在语言环境内做类似设置编码,比如“sys.setdefaultencoding”;也因此也python 3的代码和包管理上打破了和2.x的兼容。2.x的扩展包要适应这种情况改写。另一个问题是语言环境内只有unicode怎么输出gbk之类的本地编码。如楼下说的。
使用Python3以上的:
return responce.read().decode(&#039;UTF-8&#039;)
注意加上decode()
谢谢老师~
python3 都发布3.5了 老师还用2
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消