为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
2017年3月18日,基于python3,根据老师+评论完成:https://github.com/liang1024/FirstSpider (仅供参考)
终于成功了,感谢老师

最赞回答 / 时间的力量
我爬了一下  好像最多只能爬下549条数据。  对于正则表达式,可以参看图片<...图片...><...图片...><...图片...><...图片...>
https://github.com/mayJJ/urllib_spider
python3.5.2 的此课程代码。3.5版本下还是走了很多坑的,分享一点学习经验给大家。都有认认真真的注释,后续会继续更新requests库,和一些反爬虫的知识。
报错:UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
解决方法:
soup = BeautifulSoup(html_doc,&quot;html.parser&quot;)这一句中删除【from_encoding=&quot;utf-8&quot;】
原因:python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉,去掉【from_encoding=&quot;utf-8&quot;】这一个好了
各位大神们,怎么审查元素啊,我点击右键为什么没有 审查元素 这个选项。感谢各位大神
……楼上搞得好复杂……
直接在命令行里输入pip install beautifulsoup4 就会下载了(没有pip的先easy_install pip)
测试时进入python交互式环境再输入import bs4,没有报错就表示安装正确
用python3的童靴需要注意:

不知道你发现没,第三种方法print(cj)是无法打印cookies的。
这是因为,带cookie的打印出来必须用opener.open(req).read().decode(&#039;utf-8&#039;)来发送的请求才会带上cookie,如果用urllib.request.urlopen()是不带cookie的。

所以,办法是在原代码基础上加入r = opener.open(req),然后print(r.read().decode(&#039;utf-8&#039;))
python3中需要注意:
带cookie的打印出来必须用opener.open(req).read().decode(&#039;utf-8&#039;)来发送的请求才会带上cookie,如果用urllib.request.urlopen()是不带cookie的。
可以不错啊,厉害了,py2.7编过,第一次出错了,outputer构造里写datas,引用的时候写成了dates,IDE不报错调了半天,习惯了强类型的第一次遇到这样的错误好纠结,不过也学到调试程序的技巧,总的来说收获很大,谢谢老师!
一周时间,从零到听懂,到写出一个完整的爬虫。听不懂就尝试啊,直到成功为止,反正我觉得老师讲的挺好的

最新回答 / 慕设计7953951
https://github.com/devops/spider_baike.git
小伙伴们一定要注意缩进!!!
我的第二种方法报错 如下&#039;module&#039; object has no attribute &#039;Request&#039; 第三种类似 用的python2.7 百度没有找到解决的方法 求路过的高人指点 1 2 谢谢
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消