为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
pycharm 需要alt+enter
按照教程简单写了个爬豆瓣电影 top 250 的,需要的可以参考下。README 命令行直接执行就可以了。
https://github.com/magic3584/crawl_demo
老师逻辑清晰,图示直观,讲的真好
大赞 没有废话!!
我知道你们在想什么。。。因为我也是这样想的。。。
简谈今天debug是如何解决的,我的环境是python2.7。
首先,百度百科改了目录结构,百科的文件很多都是"/item/XXX.htm"的路径,所以正则匹配的时候修改为:
links = soup.find_all('a', href=re.compile(r'/item')),或自行修改匹配规则.
其次,HtmlParser解析内容时,当页面内容为空时,会报错,需增加一个异常处理,并对data['summary']赋值,否则输出文件时会因为data字典没有这个键而报错。简单代码如下:
这不是义务教育,爱学学,不学请出门左转。
02:55 要把鼠标放在错误的行上(红色下划线所在行),再按 Ctrl + 1
这个需要很多方面的知识,等我学完python的另一门走进request库再回来\( ̄︶ ̄*\))
这个培训的思路太清楚了,赞
你看完再说好吗?介绍3种,是让你有个总体了解,后边会具体介绍,真2

比武鱼: 对于初学者来说太快了,很难理解。为什么要一次过介绍三种方法呢?为什么不能讲一个方法就演示一遍呢?感觉就是照着PPT读一样,那我不如直接看PPT算了,还需要老师干什么。
不用下载,直接在Scripts目录下输入pip install beautifulsoup4即可安装(电脑要联网,且Scripts目录下有pip.exe文件)
1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载,最新版本是4.6.0。
2.下载完后解压,放到python下。
3.cmd,切换到C:/Python27/beautifulsoup4-4.6.0/目录下(根据自己解压后的目录和下载的版本号修改)
cd C:/Python27/beautifulsoup4-4.6.0
4.运行命令
setup.py build
setup.py install
源自 http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消