首页手记 Scrapy入门教程：轻松开始你的网络爬虫之旅

Scrapy入门教程：轻松开始你的网络爬虫之旅

标签：

爬虫

概述

Scrapy是一个高度模块化的Python爬虫框架，用于高效地从网站上抓取和提取结构化数据。它基于Twisted异步网络库开发，具备强大的数据提取能力、高效的执行性能和高度可扩展性。Scrapy广泛应用于数据抓取、网站监控、搜索引擎抓取和数据分析等多种场景，并且拥有活跃的社区支持。

Scrapy简介

Scrapy是一个高度模块化的Python爬虫框架，用于抓取网站并从网页中提取结构化的数据。Scrapy是基于Twisted异步网络库开发的，因此具有很高的效率和可扩展性。

Scrapy是什么

Scrapy是一个开源的网络爬虫框架，设计用于从网站上抓取数据。它可以帮助你实现从网页中提取结构化的数据，如文本、图片、视频等。Scrapy框架提供了一系列的功能，使得编写爬虫变得容易且高效。

Scrapy的特点和优势

Scrapy具有以下特点和优势：

强大的数据提取能力：Scrapy提供了强大的数据提取工具，如XPath和CSS选择器，使得从HTML中解析和提取所需数据变得简单。
高效的执行性能：Scrapy基于Twisted异步网络库开发，能够高效地处理大量并发的网络请求。
高度可扩展性：Scrapy框架设计中考虑到了可扩展性，可以通过中间件和管道等模块来扩展功能。
合理的设计模式：Scrapy遵循了清晰的设计模式，使得代码易于维护和理解。
社区活跃：Scrapy拥有活跃的社区支持，这使得你在遇到问题时能够轻松找到解决方案。

Scrapy的应用场景

Scrapy广泛应用于各种场景中，常见的应用包括：

数据抓取：从网站上抓取数据并保存为结构化的形式。
网站监控：持续监控网站的内容变化，如价格变动、新文章发布等。
搜索引擎抓取：为抓取大量的网页数据构建搜索引擎。
数据分析：从网站上抓取数据进行分析，如监测竞争对手的产品价格等。

Scrapy环境搭建

安装Python环境

Scrapy基于Python编写，因此需要先安装Python环境。推荐使用Python 3.6或更高版本。

访问Python官方网站下载Python安装包；
选择适合您操作系统的安装包，按照安装向导进行安装；
安装完成后，可以在命令行中运行python --version验证Python是否安装成功。

示例代码：

# 检查Python版本
python --version

安装Scrapy框架

安装Python环境之后，接下来安装Scrapy框架。

打开命令行工具；
使用pip工具安装Scrapy：

pip install scrapy

示例代码：

# 安装Scrapy
pip install scrapy

验证安装是否成功

安装完成后，可以通过运行Scrapy的命令来验证是否安装成功。

打开命令行工具；
输入scrapy --version命令：

# 检验Scrapy安装
scrapy --version

输出的信息中包含版本号，说明安装成功。

示例代码：

# 验证Scrapy安装
scrapy --version

输出结果类似于：

scrapy 2.4.1

Scrapy的基本结构

Scrapy项目结构介绍

Scrapy项目的目录结构通常如下：

myproject/
    scrapy.cfg   # Scrapy项目的配置文件
    myproject/
        __init__.py
        items.py   # 定义Item的数据结构
        middlewares.py  # 中间件的定义
        pipelines.py    # 管道的定义
        settings.py     # Scrapy设置
        spiders/
            __init__.py
            myspider.py   # 爬虫的定义

scrapy.cfg：Scrapy项目的配置文件。
myproject/items.py：定义爬取的Item结构。
myproject/spiders/：包含爬虫的目录。
myproject/settings.py：包含Scrapy设置。

Spiders（爬虫）详解

Spiders是Scrapy项目中最核心的部分，它用于定义爬虫的逻辑。每个爬虫定义了一个或多个方法，用于处理请求和响应。

定义一个基本的爬虫

创建一个Scrapy项目，并定义一个基本的爬虫。首先，使用Scrapy的命令行工具创建一个新的Scrapy项目：

scrapy startproject myproject

接下来，定义一个爬虫。在myproject/spiders目录下，创建一个名为myspider.py的文件。在文件中定义一个爬虫类，继承自scrapy.Spider，并指定name、start_urls和parse。

示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        # 解析响应
        title = response.xpath('//title/text()').get()
        self.log(f'Got title: {title}')

name：爬虫的名称。
start_urls：爬虫将要抓取的URL列表。
parse：定义了如何处理响应的方法。

Items（项目）的定义

Item的定义用于指定爬虫从网页上抓取的数据结构。定义一个Item类，继承自scrapy.Item，并使用scrapy.Field()来定义字段。

示例代码：

import scrapy

class MyItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    description = scrapy.Field()

定义了title、url和description三个字段。这些字段将用于存储爬取的数据。

Scrapy爬虫实战

创建第一个Scrapy项目

打开命令行工具；
使用scrapy startproject命令创建一个新的Scrapy项目：

scrapy startproject exampleproject

输出结果类似于：

New Scrapy project exampleproject, using template directory 'c:\python38\lib\site-packages\scrapy\commands\startproject\templates', created by Scrapy 2.4.1.

创建的项目目录结构如下：

exampleproject/
    scrapy.cfg
    exampleproject/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

编写爬虫代码

在项目中定义一个爬虫。在exampleproject/spiders目录下，创建一个名为examplespider.py的文件。在文件中定义一个爬虫类，如下所示：

示例代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'examplespider'
    start_urls = [
        'http://www.example.com',
        'http://www.example.org',
        'http://www.example.net',
    ]

    def parse(self, response):
        self.log(f'Got response from {response.url}')
        title = response.xpath('//title/text()').get()
        self.log(f'Title: {title}')

该爬虫类定义了：

name：爬虫的名称。
start_urls：爬虫将要抓取的URL列表。
parse：定义了如何处理响应的方法。

数据处理和存储

Scrapy提供了多种方式来处理和存储数据。以下是几种常见的数据处理和存储方式：

使用管道处理数据

定义一个管道类，继承自scrapy.ItemPipeline，并定义数据处理方法。在settings.py文件中开启管道。

示例代码：

import scrapy

class ExamplePipeline(object):
    def process_item(self, item, spider):
        item['title'] = item['title'].strip()
        return item

存储数据到数据库

定义一个管道类，将数据存储到数据库中。例如，可以使用SQLite数据库。

示例代码：

import sqlite3
from scrapy.exceptions import DropItem

class SQLitePipeline(object):
    def open_spider(self, spider):
        self.connection = sqlite3.connect('example.db')
        self.cursor = self.connection.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS scraped (title TEXT, url TEXT, description TEXT)')
        self.connection.commit()

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO scraped VALUES (?, ?, ?)', (item['title'], item['url'], item['description']))
        self.connection.commit()
        return item

在settings.py文件中开启管道：

FEED_EXPORTERS = {
    'sqlite': 'exampleproject.pipelines.SQLitePipeline',
}

中间件和管道的使用

Scrapy提供了中间件和管道两种扩展机制。

中间件

中间件可以用于处理请求和响应，如添加自定义的请求头、修改响应内容等。定义一个中间件类，继承自scrapy.spidermiddlewares.SpiderMiddleware，并在settings.py文件中启用中间件。

示例代码：

from scrapy import signals

class ExampleMiddleware(object):
    @classmethod
    def from_crawler(cls, crawler):
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # 添加自定义请求头
        request.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
        return request

    def process_response(self, request, response, spider):
        # 修改响应内容
        response.text = response.text.replace('example', 'example modified')
        return response

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

在settings.py文件中启用中间件：

SPIDER_MIDDLEWARES = {
    'exampleproject.middlewares.ExampleMiddleware': 543,
}

管道

管道可以用于处理和存储爬取的数据。定义一个管道类，继承自scrapy.item.ItemPipeline，并在settings.py文件中启用管道。

示例代码：

class ExamplePipeline(object):
    def process_item(self, item, spider):
        item['title'] = item['title'].strip()
        return item

在settings.py文件中启用管道：

ITEM_PIPELINES = {
    'exampleproject.pipelines.ExamplePipeline': 300,
}

请求和响应的处理

Scrapy允许你自定义请求的发送和响应的处理方式。

自定义请求的发送

定义一个Spider类，使用scrapy.Request方法发送自定义的请求。

示例代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'})

处理响应

定义一个Spider类，使用parse方法处理响应。

示例代码：

def parse(self, response):
    self.log(f'Got response from {response.url}')
    title = response.xpath('//title/text()').get()
    self.log(f'Title: {title}')

异步请求和延迟处理

Scrapy支持异步请求和延迟处理，以提高性能。

异步请求

在Spider类中使用scrapy.Request方法发送异步请求。

示例代码：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'})

延迟处理

定义一个Spider类，使用DOWNLOAD_DELAY设置延迟时间。

示例代码：

DOWNLOAD_DELAY = 2  # 2秒延迟

这将使Scrapy在每次请求之间等待2秒。

Scrapy常见问题及解决方案

常见错误及解决方法

Scrapy在使用过程中可能会遇到一些常见的错误，以下是一些常见错误及解决方法：

403 Forbidden：网站可能检测到你的请求频率过高，导致被封禁。可以通过设置User-Agent或使用代理来解决。
XPath选择器错误：如果XPath表达式不正确，会导致无法解析到数据。可以使用浏览器的开发者工具检查DOM结构。
内存溢出：如果处理的数据量过大，可能会导致内存溢出。可以使用管道中的item处理方法限制数据大小。

解决403 Forbidden

在settings.py文件中设置代理：

示例代码：

HTTP_PROXY = 'http://123.123.123.123:8080'

在Spider类中设置User-Agent：

示例代码：

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'})

性能优化技巧

Scrapy提供了多种性能优化技巧：

使用Twisted异步网络库：Scrapy基于Twisted异步网络库开发，能够高效地处理大量并发的网络请求。
限制下载延迟：通过设置DOWNLOAD_DELAY限制每次请求之间的延迟时间。
使用中间件和管道：通过中间件和管道来扩展功能，如自定义请求头、数据处理等。

示例代码：

DOWNLOAD_DELAY = 2  # 2秒延迟

遵守Robots协议

网站通常使用Robots协议来规定哪些页面可以被爬虫抓取。Scrapy默认遵守Robots协议，可以通过设置ROBOTSTXT_OBEY来控制是否遵守。

示例代码：

ROBOTSTXT_OBEY = True

避免被网站封禁的策略

网站可能会检测到频繁的请求，导致被封禁。以下是一些避免被网站封禁的策略：

使用代理：通过设置代理来隐藏真实的IP地址。
设置User-Agent：通过设置User-Agent模拟不同的浏览器。
限制请求频率：通过设置DOWNLOAD_DELAY限制每次请求之间的延迟时间。

示例代码：

HTTP_PROXY = 'http://123.123.123.123:8080'
DOWNLOAD_DELAY = 2

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

呼如林

手记
篇

粉丝

103

获赞与收藏

363

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 52339 1141

Scrapy 入门教程

27个小节 10573 256

后端通用面试教程

41个小节 31306 347

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Scrapy入门教程：轻松开始你的网络爬虫之旅

定义一个基本的爬虫

使用管道处理数据

存储数据到数据库

中间件

管道

自定义请求的发送

处理响应

异步请求

延迟处理

解决403 Forbidden

阅读免费教程