为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
too broad exception clauses

This inspection highlights too broad exception clauses such as no exception class specified, or specified as 'Exception'.
谢谢老师,条理清晰,很受用
我也是输出一条之后 就crawl失败了。
后来修改了spider._main下的craw函数的try...except。
修改如下:
except Exception as f:
print "crawl failed !", f
然后我出来的是
Do you need to install the parser library?
然后我去parser.py下找错误
soup = BeautifulSoup(html_cont , "html.parser", from_encoding='utf-8')
是html.parser 不是html_parser
#利用正则表达式
import re #引入正则表达式模块

link3 = soup.find_all('a',href=re.compile(r'ill'))
for v in link3:
print(v.string)
自顶向下,非常清晰啊,赞赞赞
哈哈 我终于改成了既没有重复url又能最先爬相关网页的了 代码https://github.com/coldfreeboy/spider拿去
这个程序可能有的人跑不起来 因为1000个数据可能撑爆内存 所以还是优化一下吧
这简直是史上最清晰逻辑啊!!!!!
爬虫好好玩~~~~有点开心
逻辑太清晰了 大赞!老师辛苦!
遇到只输出一行,第二行是crew failed问题的解决方法如下:
将html_parser.py模块中的_get_new_data()方法中的这一句代码:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title".find("h1"))
改为:
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title")
即去掉.find("h1")

2016/9/4
讲的真不错,我有一本关于python网络爬虫的书籍,但是入不了门,看这个就基本上了解了流程了
不错,修改后抓wiki百科可以运行。
谢谢老师!讲的很好,很系统。之前在网上看了半天的博客真是一知半解……
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消