首页手记 Scrapy爬虫框架学习：入门级教程与实践指南

Scrapy爬虫框架学习：入门级教程与实践指南

标签：

Python 爬虫

概述

Scrapy爬虫框架学习涵盖了从环境搭建到实战应用的全过程，包括Python环境配置、Scrapy安装与验证、项目创建和基本结构解析。文章还详细介绍了Scrapy的核心组件如Requests与Responses、Selector选择器、中间件与管道的使用。此外，本文还将探讨爬虫性能优化、调试技巧以及结合Scrapy-Redis进行分布式爬虫实践的方法。

Scrapy简介与环境搭建

Scrapy的基本概念

Scrapy是一个用于抓取网站数据、提取结构化信息的Python库。它应用广泛，常用于构建数据采集器，支持快速、高效的数据抓取、处理和存储。Scrapy的优势在于其异步模型、强大的XPath和CSS选择器支持，以及灵活的扩展性。用户可以轻松地使用Scrapy构建复杂的爬虫，实现数据抓取任务。

Python环境配置

Python安装：下载Python的最新版本，安装时确保勾选“Add Python to PATH”选项，这样可以在命令行中直接使用Python。Python的官方网站提供了安装包，适用于Windows、macOS和Linux系统。
环境配置：确保Python已成功安装。可以通过命令行输入python --version或python3 --version来验证Python版本。
环境管理工具：推荐使用virtualenv或conda来管理开发环境。这些工具可以创建独立的Python环境，避免不同项目之间的依赖冲突。

Scrapy安装与验证

安装Scrapy的方法很简单，通过pip工具完成。在命令行中执行以下命令来安装Scrapy：

pip install scrapy

安装完成后，可以通过以下命令来验证Scrapy是否安装成功：

scrapy --version

如果成功安装，命令行会显示Scrapy的版本信息。如果未安装成功，检查安装过程中是否有错误提示，并重新尝试安装。

Scrapy项目创建与基本结构

创建Scrapy项目

创建Scrapy项目需要使用scrapy startproject命令。打开命令行，输入以下命令来创建一个新的Scrapy项目：

scrapy startproject myfirstproject

命令执行后，会在当前目录中创建一个名为myfirstproject的目录，并自动生成项目的基本结构。

项目目录结构解析

Scrapy项目生成后的目录结构如下：

myfirstproject/
    scrapy.cfg                    # Scrapy配置文件
    myfirstproject/
        __init__.py               # 空文件，用于标记该目录为Python包
        items.py                  # 定义爬取数据结构的文件
        middlewares.py            # 定义中间件的文件
        pipelines.py              # 定义管道的文件
        settings.py               # Scrapy设置文件
        spiders/
            __init__.py           # 空文件，用于标记该目录为Python包
            example_spider.py     # 示例爬虫文件

scrapy.cfg：Scrapy项目的配置文件。
myfirstproject目录：包含项目的主文件。
- items.py：用于定义爬取的数据结构。
- middlewares.py：定义中间件逻辑。
- pipelines.py：定义数据处理管道。
- settings.py：配置Scrapy的设置。
- spiders/：存储爬虫代码的目录。
- example_spider.py：示例爬虫文件。

编写首个Scrapy spiders

在spiders目录下，修改或创建一个新的爬虫文件。例如，创建一个爬虫来爬取网站的数据。以下是一个简单的示例：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

该爬虫定义了几个关键属性：

name：爬虫的名称。
allowed_domains：允许爬取的域名列表。
start_urls：爬取的初始URL。

parse方法用于处理响应数据，提取数据并生成新的请求。此例中，parse方法提取了页面的<title>标签内容。

Scrapy核心组件详解

Requests与Responses

在Scrapy中，Request对象用于定义HTTP请求，Response对象用于接收和处理服务器返回的HTTP响应。Scrapy内部自动处理这些对象，使得开发者专注于编写爬取逻辑。

示例代码

在爬虫文件中，可以使用Request对象来定义一个请求：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def start_requests(self):
        return [scrapy.Request(url=self.start_urls[0], callback=self.parse)]

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

这里，start_requests方法定义了初始请求，并指定了回调函数parse来处理响应。

Selector选择器的使用

Scrapy内置了强大的XPath和CSS选择器支持，用于从HTML中提取数据。选择器是Scrapy的核心之一，用于解析响应内容，提取有用的结构化数据。

示例代码

以下示例展示了如何使用XPath选择器提取页面中的所有链接：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        for link in response.xpath('//a/@href').getall():
            yield {'link': link}

这个例子中的parse方法使用XPath选择器提取了页面中的所有链接。

中间件与管道的介绍

Scrapy使用中间件和管道来扩展和处理数据流。中间件可以影响请求和响应，而管道则负责处理提取的数据。

示例代码

在settings.py中启用中间件：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomDownloaderMiddleware': 543,
}

在middlewares.py中定义自定义中间件：

class MyCustomDownloaderMiddleware:
    def process_request(self, request, spider):
        # 这里可以增加请求头等操作
        return None

在pipelines.py中定义数据处理管道：

class MyPipeline:
    def process_item(self, item, spider):
        # 这里可以进行数据清洗、存储等操作
        return item

Scrapy爬虫实战

爬取静态网站数据

爬取静态网站数据是Scrapy爬虫的常见应用之一。静态网站的内容不依赖于JavaScript渲染，因此可以直接使用Scrapy进行抓取。

示例代码

示例：爬取豆瓣电影Top250

import scrapy

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        for movie in response.xpath('//div[@class="item"]'):
            title = movie.xpath('.//div[@class="title"]/a/text()').get()
            rating = movie.xpath('.//div[@class="rating"]/span[2]/text()').get()
            yield {'title': title, 'rating': rating}

        next_page = response.xpath('//span[@class="next"]/a/@href').get()
        if next_page:
            yield response.follow(next_page, self.parse)

爬取的数据可以存储到不同类型的数据库中，例如SQLite、MySQL、MongoDB等。这里展示如何将数据存储到SQLite数据库：

import sqlite3

class MyPipeline:
    def open_spider(self, spider):
        self.conn = sqlite3.connect('mydatabase.db')
        self.cursor = self.conn.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS items (title TEXT, rating TEXT)')
        self.conn.commit()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO items (title, rating) VALUES (?, ?)', (item['title'], item['rating']))
        self.conn.commit()
        return item

    def close_spider(self, spider):
        self.conn.close()

爬取动态网站数据（使用Selenium）

动态网站通常使用JavaScript动态加载内容，Scrapy本身不支持JavaScript。可以结合Selenium来抓取这些网站的内容。

示例代码

示例：使用Selenium爬取动态加载的网页

import scrapy
from scrapy_playwright.scrapy_playwright import ScrapyPlaywrightRequest

class DynamicSpider(scrapy.Spider):
    name = 'dynamic'
    allowed_domains = ['example.com']

    def start_requests(self):
        yield ScrapyPlaywrightRequest(url='http://example.com', callback=self.parse, wait_until="networkidle")

    def parse(self, response):
        # 使用Selenium获取动态加载的内容
        script = """
            return document.querySelector('div[data-loaded="true"]').innerText
        """
        content = response.xpath('//div[@data-loaded="true"]').get()
        yield {'content': content}

数据存储与处理

Scrapy支持多种数据存储方式，如文件、数据库等。利用管道可以方便地存储和处理提取的数据。

示例代码

在pipelines.py中定义数据库存储：

import mysql.connector

class MyPipeline:
    def open_spider(self, spider):
        self.conn = mysql.connector.connect(
            host='localhost',
            user='root',
            password='password',
            database='mydatabase'
        )
        self.cursor = self.conn.cursor()
        self.cursor.execute('CREATE TABLE IF NOT EXISTS items (title TEXT, rating TEXT)')
        self.conn.commit()

    def process_item(self, item, spider):
        self.cursor.execute('INSERT INTO items (title, rating) VALUES (%s, %s)', (item['title'], item['rating']))
        self.conn.commit()
        return item

    def close_spider(self, spider):
        self.conn.close()

在pipelines.py中定义MongoDB存储：

from pymongo import MongoClient

class MyPipeline:
    def open_spider(self, spider):
        self.client = MongoClient('mongodb://localhost:27017/')
        self.db = self.client['mydatabase']
        self.collection = self.db['items']

    def process_item(self, item, spider):
        self.collection.insert_one(item)
        return item

    def close_spider(self, spider):
        self.client.close()

Scrapy进阶技巧

使用XPath与CSS选择器

XPath和CSS选择器是Scrapy中用于解析HTML的强大工具。XPath选择器通过路径表达式来选择元素，而CSS选择器则类似于CSS样式选择器。

示例代码

XPath示例：

import scrapy

class XPathSpider(scrapy.Spider):
    name = 'xpathspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.xpath('//title/text()').get()
        yield {'title': title}

CSS选择器示例：

import scrapy

class CSSpider(scrapy.Spider):
    name = 'csspider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        yield {'title': title}

处理Cookies与Sessions

有时需要保持会话状态，例如登录网站后抓取数据。Scrapy可以通过设置Cookies来实现这一点。

示例代码

在settings.py中设置Cookies：

COOKIES_ENABLED = True
COOKIES_DEBUG = True

在middlewares.py中设置请求Cookies：

class MyCustomDownloaderMiddleware:
    def process_request(self, request, spider):
        request.cookies['cookie_name'] = 'cookie_value'
        return None

处理JavaScript延迟加载的内容

对于JavaScript延迟加载的内容，可以使用Selenium或其他浏览器自动化工具来模拟浏览器的行为，抓取这些内容。

示例代码

结合Selenium示例：

import scrapy
from scrapy_playwright.scrapy_playwright import ScrapyPlaywrightRequest

class JSContentSpider(scrapy.Spider):
    name = 'jscontent'
    allowed_domains = ['example.com']

    def start_requests(self):
        yield ScrapyPlaywrightRequest(url='http://example.com', callback=self.parse, wait_until="networkidle")

    def parse(self, response):
        content = response.xpath('//div[@id="dynamic-content"]').get()
        yield {'content': content}

Scrapy项目优化与调试

爬虫性能优化

性能优化包括请求并行化、减少HTTP请求次数等。通过合理的配置，可以提高爬取效率。

示例代码

在settings.py中配置并发请求：

CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 0.25

爬虫调试技巧

调试Scrapy爬虫可以通过日志、断点等方式进行。使用pdb模块可以方便地在爬虫代码中插入调试点。

示例代码

使用pdb进行调试：

import scrapy
import pdb

class DebugSpider(scrapy.Spider):
    name = 'debug'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def parse(self, response):
        pdb.set_trace()  # 设置调试点
        title = response.xpath('//title/text()').get()
        yield {'title': title}

结合Scrapy-Redis进行分布式爬虫实践

Scrapy-Redis扩展了Scrapy，使其支持分布式爬虫。分布式爬虫可以利用多台机器同时抓取数据，提高抓取效率。

示例代码

在settings.py中配置Scrapy-Redis：

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
SCHEDULER_IDLE_BEFORE_CLOSE = 10
REDIS_URL = 'redis://user:password@hostname:port/db'

在爬虫文件中使用：

import scrapy
from scrapy_redis.spiders import RedisSpider

class RedisSpider(RedisSpider):
    name = 'redis_spider'
    redis_key = 'my_spider:start_urls'

    def parse(self, response):
        # 处理响应
        pass

通过以上步骤，可以构建强大的分布式爬虫系统，充分利用资源进行高效的数据抓取。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

蝴蝶刀刀

手记
篇

粉丝

37

获赞与收藏

183

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25740 873

Python 算法入门教程

15个小节 27463 1074

Python 进阶应用教程

38个小节 65875 1035

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Scrapy爬虫框架学习：入门级教程与实践指南

Scrapy的基本概念

Python环境配置

Scrapy安装与验证

创建Scrapy项目

项目目录结构解析

编写首个Scrapy spiders

Requests与Responses

示例代码

Selector选择器的使用

示例代码

中间件与管道的介绍

示例代码

爬取静态网站数据

示例代码

爬取动态网站数据（使用Selenium）

示例代码

数据存储与处理

示例代码

使用XPath与CSS选择器

示例代码

处理Cookies与Sessions

示例代码

处理JavaScript延迟加载的内容

示例代码

爬虫性能优化

示例代码

爬虫调试技巧

示例代码

结合Scrapy-Redis进行分布式爬虫实践

示例代码

阅读免费教程