首页手记使用Scrapy框架编写爬虫

使用Scrapy框架编写爬虫

标签：

Python

编写爬虫

在 tutorial/spiders/ 下创建一个 py 文件 dmoz_spider.py，它是这样定义的：

import scrapyfrom tutorial.items import DmozItemclass DmozSpider(scrapy.Spider):    name = 'dmoz'    allowed_domains = ['dmoz.org']    start_urls = [        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"    ]    def parse(self, response):        sel = Selector(response)        sites = sel.xpath('//ul[@class="directory-url"]/li')        for sel in sites:            item = DmozItem() # 实例化一个 DmozItem 类            item['title'] = sel.xpath('a/text()').extract()            item['link'] = sel.xpath('a/@href').extract()            item['desc'] = sel.xpath('text()').extract()            yield item

爬虫类必须继承自 scrapy.Spider 类，且定义一些属性:

name: 用于区别 Spider。该名字必须是唯一的，不可以为不同的 Spider 设定相同的名字。

start_urls: 包含了 Spider 在启动时进行爬取的 url 列表。因此，第一个被获取到的页面将是其中之一，后续的URL则从初始的URL获取到的数据中提取。

parse() 是 spider 的一个方法。被调用时，每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成 item )以及生成需要进一步处理的 URL 的 Request 对象。scrapy 为 Spider 的 start_urls 属性中的每个URL创建了 scrapy.Request 对象，并将 parse 方法作为回调函数(callback)赋值给了 Request。Request 对象经过调度，执行生成 scrapy.http.Response 对象并送回给 spider parse() 方法, 一般返回 Item 实例。

爬取

进入该工程目录，本例中就是 tutorial/, 在命令行执行

scrapy crawl dmoz

保存

可以使用如下命令

scrapy crawl dmoz -o items.json

该命令是说将结果保存在 items.json 文件中。

常用的命令行工具

# 创建项目scrapy startproject myproject# 帮助信息scrapy <command> -h # 帮助信息scrapy -h # 使用下载器下载指定的url，并将获取到的内容送到标准输出scrapy fetch <url># 在浏览器中打开给定的URL，并以Scrapy spider获取到的形式展现scrapy view <url># 以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shellscrapy shell [url]#在未创建项目的情况下，运行一个编写在Python文件中的spiderscrapy runspider <spider_file.py># 获取Scrapy的设定scrapy settings [options]-------------------------以上不需要项目，以下需要在项目中----------------------------------------# 使用 template 模版来信创建一个 spider， name 值为<name>, allowed_domains 值为 <domain> scrapy genspider [-t template] <name> <domain> 
# 查看可用的模版，默认有 basic、crawl、csvfeed 和 xmlfeed 4个scrapy genspider -l# 查看 TEMPLATE 信息scrapy genspider -d TEMPLATE 
# 使用<spider>进行爬取数据scrapy crawl <spider># 列出当前项目中所有可用的 spiderscrapy list# 运行contract检查。scrapy check [-l] <spider># 获取给定的URL并使用相应的spider分析处理，可以解析成自己写的 itemscrapy parse <url> [options]

还有很多实际问题需要我们在实际抓取过程中根据问题实际分析，实际解决，很大程度上来说，爬虫抓取是一项很麻烦而且很困难的工作，因此现在很多软件被研发出来，旨在解决爬虫程序的各种问题，亿牛云代理IP（www.16yun.cn）家的爬虫代理加强版除了帮助大家解决爬虫抓取问题，还简化操作，争取以简单的操作满足爬虫的抓取需求，并且为爬虫提供丰富的ip信息，满足爬虫对ip的使用需求。爬虫程序会面临很多问题，因此在实际操作过程中，需要提前做好各种检查和准备，以应对不时之需。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

专业爬虫

Python工程师

手记
篇

粉丝

9

获赞与收藏

17

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27559 931

Python 算法入门教程

15个小节 30310 1173

Python 进阶应用教程

38个小节 73083 1146

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

使用Scrapy框架编写爬虫

编写爬虫

爬取

保存

常用的命令行工具

阅读免费教程