首页手记 Scrapy爬虫框架项目实战：从入门到上手

Scrapy爬虫框架项目实战：从入门到上手

标签：

爬虫

概述

本文档涵盖了Scrapy爬虫框架从基础到高级功能的全面讲解，包括安装配置、基础使用、实战项目设计及优化技巧等内容。文章详细介绍了如何创建和运行Scrapy项目，并提供了处理反爬机制和常见问题的解决方案。

Scrapy框架简介

Scrapy简介

Scrapy是一个强大的Web爬虫框架，用Python编写，旨在处理大规模数据抓取任务。它具有高度可扩展、易于使用和灵活的特点，支持多种数据抓取方式，如HTML解析、XPath、CSS选择器等。Scrapy适用于各种场景，从简单的网站数据抓取到复杂的爬虫任务，包括但不限于新闻网站、电子商务网站、社交媒体平台等。

Scrapy架构与工作原理

Scrapy的架构可以分为以下几个核心组件：

引擎 (Engine)：Scrapy爬虫的调度中心，负责协调各个组件之间的协作。
调度器 (Scheduler)：负责管理待抓取的URL，确保按照一定的顺序进行抓取。
下载器 (Downloader)：负责向网站发送HTTP请求，并接收响应。
中间件 (Middleware)：提供自定义功能的扩展点，可以处理请求和响应。
蜘蛛 (Spiders)：负责解析响应并提取数据。
Item Pipeline：负责处理从蜘蛛中提取的数据。
蜘蛛中间件 (Spider Middleware)：针对蜘蛛的扩展点。
下载器中间件 (Downloader Middleware)：针对下载器的扩展点。

工作流程

引擎提交初始请求给调度器。
调度器将请求放入队列。
引擎从队列中获取请求并发送给下载器。
下载器发送请求，并接收响应。
下载器将响应传输给引擎。
引擎将响应传递给蜘蛛。
蜘蛛解析响应并提取数据。
蜘蛛将提取的数据传递给Item Pipeline。
Item Pipeline对数据进行处理和存储。
蜘蛛返回新的请求。
重复上述流程。

Scrapy安装与配置

安装Scrapy需要使用Python的包管理工具pip。以下是安装Scrapy的步骤：

pip install scrapy

安装完成后，可以通过创建一个Scrapy项目来测试安装是否成功。

创建Scrapy项目

使用命令行创建一个新的Scrapy项目：

scrapy startproject myproject

这将创建一个新的目录myproject，其中包含了Scrapy项目的初始结构：

myproject/
├── myproject/
│   ├── __init__.py
│   ├── settings.py
│   ├── items.py
│   └── middlewares.py
└── scrapy.cfg

Scrapy配置

Scrapy的配置主要通过settings.py文件进行，可以设置各种参数，如下载间隔、并发数等。

# settings.py
BOT_NAME = 'myproject'
SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'

Scrapy基础使用

创建Scrapy项目

使用命令行创建一个新的Scrapy项目：

scrapy startproject myproject

这将创建一个新的目录myproject，其中包含了Scrapy项目的初始结构：

myproject/
├── myproject/
│   ├── __init__.py
│   ├── settings.py
│   ├── items.py
│   └── middlewares.py
└── scrapy.cfg

编写Spider爬虫

在myproject/spiders目录下创建一个新的Spider文件，例如example_spider.py：

# example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        # 解析响应
        pass

解析数据与提取内容

在parse方法中，可以使用Scrapy提供的解析工具来提取数据。例如，使用XPath和CSS选择器。

# example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        # 使用XPath提取数据
        for item in response.xpath('//div[@class="item"]'):
            title = item.xpath('.//h2/text()').extract_first()
            link = item.xpath('.//a/@href').extract_first()
            yield {
                'title': title,
                'link': link
            }

Scrapy高级功能

使用Item和Item Pipeline

Item是Scrapy用于存储抓取数据的数据结构。在items.py文件中定义Item类：

# items.py
import scrapy

class ExampleItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

Item Pipeline用于处理从Spider提取的数据。在settings.py文件中启用Item Pipeline：

# settings.py
ITEM_PIPELINES = {
    'myproject.pipelines.ExamplePipeline': 300,
}

创建一个Pipeline类来处理Item：

# pipelines.py
import scrapy

class ExamplePipeline(object):
    def process_item(self, item, spider):
        # 处理Item的逻辑
        return item

使用中间件（Middleware）

中间件分为下载器中间件和蜘蛛中间件。下载器中间件处理请求和响应，蜘蛛中间件处理蜘蛛的请求和响应。

下载器中间件

在settings.py文件中启用下载器中间件：

# settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomDownloaderMiddleware': 543,
}

创建一个下载器中间件类：

# middlewares.py
class MyCustomDownloaderMiddleware(object):
    def process_request(self, request, spider):
        # 处理请求
        pass

    def process_response(self, request, response, spider):
        # 处理响应
        return response

蜘蛛中间件

在settings.py文件中启用蜘蛛中间件：

# settings.py
SPIDER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomSpiderMiddleware': 543,
}

创建一个蜘蛛中间件类：

# middlewares.py
class MyCustomSpiderMiddleware(object):
    def process_spider_input(self, response, spider):
        # 处理输入
        pass

    def process_spider_output(self, response, result, spider):
        # 处理输出
        return result

使用请求与回调函数

在Scrapy中，可以使用start_requests方法来发送初始请求，并使用回调函数处理响应。

# example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']

    def start_requests(self):
        urls = ['http://example.com/page1', 'http://example.com/page2']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # 解析响应
        pass

Scrapy实战项目

选择实战项目

选择一个合适的实战项目非常重要，一个好的实战项目应该具有以下特点：

数据量适中，便于测试和调试。
数据结构清晰，易于解析。
网站结构稳定，不容易变化。

例如，选择一个新闻网站，如news.example.com，来抓取新闻标题和链接。

设计爬虫流程

设计爬虫流程包括以下步骤：

需求分析：明确抓取目标和数据格式。
网站分析：分析网站结构，确定抓取入口。
解析规则：定义解析规则，选择合适的解析工具（如XPath、CSS选择器）。
数据存储：确定数据存储方式（如数据库、文件等）。
异常处理：考虑可能出现的异常情况，如网站结构变化、网络问题等。

示例：抓取新闻网站

假设需要抓取news.example.com上的新闻标题和链接。可以通过以下步骤来实现：

定义Spider：
- 确定抓取入口URL。
- 解析响应，提取新闻标题和链接。

# news_spider.py
import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.example.com']
    start_urls = ['http://news.example.com/']

    def parse(self, response):
        for item in response.xpath('//div[@class="news-item"]'):
            title = item.xpath('.//h2/text()').extract_first()
            link = item.xpath('.//a/@href').extract_first()
            yield {
                'title': title,
                'link': link
            }

定义Item：
- 创建Item类来存储抓取的数据。

# items.py
import scrapy

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()

启用Item Pipeline：
- 在settings.py中启用Item Pipeline。
- 创建一个Pipeline类来处理抓取的数据。

# settings.py
ITEM_PIPELINES = {
    'myproject.pipelines.NewsPipeline': 300,
}

# pipelines.py
class NewsPipeline(object):
    def process_item(self, item, spider):
        # 处理Item的逻辑
        return item

运行爬虫：
- 使用scrapy crawl news命令运行爬虫。

scrapy crawl news

编写与测试爬虫

编写爬虫代码

在myproject/spiders目录下创建一个新的Spider文件，例如news_spider.py：

# news_spider.py
import scrapy

class NewsSpider(scrapy.Spider):
    name = 'news'
    allowed_domains = ['news.example.com']
    start_urls = ['http://news.example.com/']

    def parse(self, response):
        for item in response.xpath('//div[@class="news-item"]'):
            title = item.xpath('.//h2/text()').extract_first()
            link = item.xpath('.//a/@href').extract_first()
            yield {
                'title': title,
                'link': link
            }

测试爬虫代码

在命令行中使用scrapy shell命令来测试解析规则：

scrapy shell http://news.example.com/

在启动的shell中，可以测试解析规则：

response.xpath('//div[@class="news-item"]')

确认解析规则是否正确，然后运行爬虫：

scrapy crawl news

Scrapy优化与扩展

性能优化技巧

并发控制：通过设置CONCURRENT_REQUESTS参数来控制并发请求数量。
下载延迟：设置DOWNLOAD_DELAY参数来控制下载延迟时间。
请求优先级：通过设置priority参数来控制请求的优先级。
缓存中间件：使用缓存中间件来缓存已下载的页面，减少重复下载。

示例：设置并发请求数

在settings.py文件中设置并发请求数：

# settings.py
CONCURRENT_REQUESTS = 16

使用Scrapy-Redis进行分布式爬取

Scrapy-Redis是Scrapy的扩展，可以实现分布式爬取。通过使用Redis作为请求队列，多个Scrapy进程可以共享相同的一组请求。

安装Scrapy-Redis

pip install scrapy-redis

配置Scrapy-Redis

在settings.py文件中启用Scrapy-Redis：

# settings.py
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://localhost:6379'

编写分布式爬虫

在myproject/spiders目录下创建一个新的Spider文件，例如distributed_spider.py：

# distributed_spider.py
import scrapy

class DistributedSpider(scrapy.Spider):
    name = 'distributed'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        # 解析响应
        pass

运行分布式爬虫

在多个Scrapy进程中运行爬虫：

scrapy crawl distributed

处理反爬机制

网站为了防止被爬虫抓取，可能会采取一些反爬机制，如IP封禁、验证码、验证码等。处理这些机制的方法有：

使用代理IP：通过设置HTTP_PROXY参数来使用代理IP。
设置User-Agent：随机设置User-Agent以模拟浏览器。
处理验证码：使用OCR技术或第三方服务来识别验证码。

示例：使用代理IP

在settings.py文件中设置代理IP：

# settings.py
HTTP_PROXY = 'http://127.0.0.1:8888'
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.ProxyMiddleware': 740,
}

创建一个代理中间件类：

# middlewares.py
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = settings.get('HTTP_PROXY')

Scrapy常见问题与解决方案

常见错误及解决方法

常见的Scrapy错误包括：

403 Forbidden：网站禁止访问，可能需要设置User-Agent或使用代理IP。
404 Not Found：网站不存在，可能是URL错误或网站结构变化。
503 Service Unavailable：网站服务器不可用，可能是临时性问题或网站维护。

示例：处理403错误

在settings.py文件中设置User-Agent：

# settings.py
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

示例：处理503错误

在settings.py文件中设置下载延迟：

# settings.py
DOWNLOAD_DELAY = 1

Scrapy调试与日志记录

Scrapy提供了日志记录功能，可以通过LOG_LEVEL参数来设置日志级别。

示例：设置日志级别

在settings.py文件中设置日志级别：

# settings.py
LOG_LEVEL = 'INFO'

使用scrapy crawl命令运行爬虫时，可以通过--loglevel参数来设置日志级别：

scrapy crawl news --loglevel=DEBUG

Scrapy资源与社区支持

Scrapy社区提供了丰富的资源和支持，包括官方文档、FAQ、论坛和邮件列表等。遇到问题时，可以通过以下途径寻求帮助：

官方文档：https://docs.scrapy.org/
Scrapy QQ群：加入Scrapy QQ群，与其他用户交流经验。
Stack Overflow：在Stack Overflow上提问，获取其他开发者帮助。
GitHub Issue：在Scrapy的GitHub仓库中提交Issue，获取官方支持。

示例：提交GitHub Issue

在Scrapy的GitHub仓库中提交Issue：

访问Scrapy的GitHub仓库：https://github.com/scrapy/scrapy
点击"Issues"标签页。
点击"New Issue"按钮。
描述问题并提交Issue。

示例：加入Scrapy QQ群

搜索Scrapy QQ群号，通过群号加入QQ群，与其他用户交流经验。

总之，Scrapy是一个功能强大且灵活的Web爬虫框架，适用于各种抓取任务。通过学习和实践，可以更好地掌握Scrapy的使用和优化方法。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

HUWWW

手记
篇

粉丝

37

获赞与收藏

133

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 51802 1124

Scrapy 入门教程

27个小节 10528 253

后端通用面试教程

41个小节 30936 346

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空