为了账号安全,请及时绑定邮箱和手机立即绑定

Python开发简单爬虫

蚂蚁帅帅 全栈工程师
难度初级
时长 1小时14分
学习人数
综合评分9.67
646人评价 查看评价
9.9 内容实用
9.6 简洁易懂
9.5 逻辑清晰
爬了1000个,没问题,我学习模仿的代码 https://git.oschina.net/xiedongji/spider_demo.git
老师思路清晰,声音铿锵有力没有废话,听了一节就想继续听下去
2017:Python百科url:http://baike.baidu.com/item/Python
读取新连接的正则表达式:links = soup.find_all('a',href=re.compile(r"/item/"))
爬的页面在爬到"百度"之后就跑偏了,哈哈哈
关于只输出了一条记录,第二条就抓取失败接下来就没有输出的问题,我个人的解决方案是这样,我去掉了老师在代码加上的try和except,然后输出结果就会打印出相应的错误,我发现错误是在parser方法,它返回了两个None值,接着我就去查看为什么会返回None值,结果发现parser的参数html_cont的值是None,parser方法一开始有个判断语句,通过调试会发现代码执行判断语句后就会返回,可由此判断。而html_cont是从download方法来获取的,那么问题就出在download方法,接着发现response.getcode()漏了括号。可以上网百度调试的方法,找bug效率会高很多。
老师敲代码的思路很好,不用管具体细节,只管敲要的内容。。。。
老师讲的非常好,思路也很清晰,就是最后代码头大。。。
Python3.5 解决了网页输出乱码问题:


https://github.com/doubiiot/py_mooc
Python3.5 解决了网页输出乱码问题:

https://github.com/doubiiot/py_mooc
厉害 厉害 徐学到了知识
架构讲的很清晰,按照架构流程图,使用 3.6.1版本的python语法,将 urllib2 替换成 requests模块,输出结果到txt文件,完成代码编写。源码地址:https://git.oschina.net/h_j_xiao/crawler_demo.git
import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.getcode())
urllib简介
首先需要说明的是,本系列教程,全部采用Python3.5作为开发环境,因为我不想做一些影响Python3发展的事情,如非必要,请使用Python3。
urllib是Python提供的一个用来访问网络的库,在Python3中有了较大的改动,首先最明显的就是整合了urllib2和urllib,使用起来更加的明了简单。

作者: 秋名山车神
链接:http://www.imooc.com/article/16026
来源:慕课网
本文原创发布于慕课网 ,转载请注明出处,谢谢合作!
from bs4 import beautifulsoup
课程须知
本课程是Python语言开发的高级课程 1、Python编程语法; 2、HTML语言基础知识; 3、正则表达式基础知识;
老师告诉你能学到什么?
1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块:URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码,修改本代码,你就能抓取任何互联网网页!

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!

本次提问将花费2个积分

你的积分不足,无法发表

为什么扣积分?

本次提问将花费2个积分

继续发表请点击 "确定"

为什么扣积分?

举报

0/150
提交
取消