首页手记我的第一个爬虫——爬取百度百科...

我的第一个爬虫——爬取百度百科1000个页面的数据

标签：

Python

爬虫最简单的架构就三个方面：

1.URL管理器：主要负责url的管理，可以添加新的url到爬取集合中，将url从待爬取移到已爬取集合等等功能，url管理器的实现方式主要分为3种，python内存中用集合set()来管理，关系数据库mysql,缓存数据库redis；

2.网页下载器：将url对应的网页下载到本地，主要的网页下载器有：urllib是python官方提供的模块，requests是一个强大的三方库；

现在就用urllib来下载网页试试：

下载1：

下载2：主要增加了一个请求头，有些情况下在请求的时候是需要指明请求头的一些信息的；

下载3：主要增加了对cookie的应用；

3.网页解析器：从网页中提取有价值的数据的工具，网页解析器也有很多，比如：用正则表达式，html.parser,beautifulsoup,lxml等等，其中最强大就是beautifulsoup这个第三方解析器，它可以指定解析方式，现在常用的解析方式就是dom树解析，其实就是根据节点去解析；

beautifulsoup的用法举例：

1.创建beautifulsoup对象，soup=beautifulsoup("文档字符串"，"html解析器"，"html文档的编码")

2.findall("节点","属性","文本")，并且支持正则表达式

3.获取信息：node.name:节点标签名称，node["href"]节点的href属性，node.get_text()节点的链接文字；

美女_百度百科

正式开始：在开始之前，我们确定目标，爬取百度百科美女词条的标题和简介

入口页：https://baike.baidu.com/item/美女
词条页面url格式：/item/青苔赋
数据格式——标题：<title> 美女_百度百科</title>
数据格式——简介：<meta name="keywords" context="美女美女汉语词汇美女女人分类美女审美标准美女中国美女出产代表地">
编码:UTF-8
美女_百度百科美女_百度百科美女_百度百科美女_百度百科

下面贴出主module的代码：代码也比较简单，没啥多讲的，只要按照思路一步一步走，就没啥问题，还是简单说一下逻辑：首先拿到目标url,这里需要注意一点就是url考进pycharm会自动被urlencode处理，因为很多字符在url里面是不能存在的，必须先经过编码过程，然后我们需要下载器，解析器，url管理器以及数据处理器这几个模块，我们在类初始化就去实例出这几个对象，然后我们把url添加进url管理器，然后在不断的轮询，通过urllib模块下载，通过BeautifulSoup解析，把新得到的urls添加进url管理器，把解析出来的数据添加进数据处理器，最后在把数据输出成html样式，输出的时候需要注意一点，因为我们的url是经过urlencode编码过的，所以要输出原样的url就必须解码出来，这里使用的是urllib的parse模块的unquote方法，解析出url，然后再把url,title，以及description以表格的形式写入html，最后得到html文件；

我们看看结果：

代码放在了github上面，地址:https://github.com/softwareXiaotao/spider_baidubaike

作者：hello_我的哥
链接：https://www.jianshu.com/p/0ff9a14076b6

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

潇潇雨雨

手记
篇

粉丝

25

获赞与收藏

130

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25666 869

Python 算法入门教程

15个小节 27374 1070

Python 进阶应用教程

38个小节 65599 1029

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

我的第一个爬虫——爬取百度百科1000个页面的数据

阅读免费教程