为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
各位大神们,怎么审查元素啊,我点击右键为什么没有 审查元素 这个选项。感谢各位大神
……楼上搞得好复杂……
直接在命令行里输入pip install beautifulsoup4 就会下载了(没有pip的先easy_install pip)
测试时进入python交互式环境再输入import bs4,没有报错就表示安装正确
用python3的童靴需要注意:

不知道你发现没,第三种方法print(cj)是无法打印cookies的。
这是因为,带cookie的打印出来必须用opener.open(req).read().decode('utf-8')来发送的请求才会带上cookie,如果用urllib.request.urlopen()是不带cookie的。

所以,办法是在原代码基础上加入r = opener.open(req),然后print(r.read().decode('utf-8'))
python3中需要注意:
带cookie的打印出来必须用opener.open(req).read().decode('utf-8')来发送的请求才会带上cookie,如果用urllib.request.urlopen()是不带cookie的。
可以不错啊,厉害了,py2.7编过,第一次出错了,outputer构造里写datas,引用的时候写成了dates,IDE不报错调了半天,习惯了强类型的第一次遇到这样的错误好纠结,不过也学到调试程序的技巧,总的来说收获很大,谢谢老师!
一周时间,从零到听懂,到写出一个完整的爬虫。听不懂就尝试啊,直到成功为止,反正我觉得老师讲的挺好的
小伙伴们一定要注意缩进!!!
我的第二种方法报错 如下'module' object has no attribute 'Request' 第三种类似 用的python2.7 百度没有找到解决的方法 求路过的高人指点 1 2 谢谢
非常不错!简洁,清晰,没有废话!
自己学习 安装 度娘有答案的 多搜索 有些不懂很正常 基础的不懂 你得多看看基础知识 我也是小白 但我真心觉得老师讲得真棒 免费有的看就不错了 别瞎bb 免费教你还抱怨
大家的路还长着呢,戳中萌点,23333
跟着老师做的,只不过用的python3,改了改部分和2语法不同的代码,为什么输出是这样的:
ython[1]聽 锛堣嫳鍥藉彂闊筹細/藞pa瑟胃蓹n/ 缇庡浗鍙戦煶锛�/藞pa瑟胃蓱藧n/锛�, 鏄竴绉嶉潰鍚戝璞$殑瑙i噴鍨嬭绠楁満绋嬪簭璁捐璇█锛岀敱鑽峰叞浜篏uido van Rossum浜�1989骞村彂鏄庯紝绗竴涓叕寮€鍙戣鐗堝彂琛屼簬1991骞淬€侾ython鏄函绮圭殑鑷敱杞欢锛� 婧愪唬鐮佸拰瑙i噴鍣–Python閬靛惊 GPL(GNU General Public License)鍗忚[2]聽 銆侾ython璇硶绠€娲佹竻鏅帮紝鐗硅壊涔嬩竴鏄己鍒剁敤绌虹櫧
有一定的Python基础,但不是很懂爬虫
所以想跟着老师学,感谢慕课网有这个平台
from urllib.request import Request,urlopen
url = 'http://www.baidu.com'
request = Requst(url, data = None)
#不知道add_data这个方法为什么没有
request.add_header('User-Agent', 'Mozilla/5.0')
response = urlopen(request)
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消