首页手记循环神经网络基础教程：入门级指南

循环神经网络基础教程：入门级指南

标签：

机器学习深度学习人工智能

概述与目标

循环神经网络（Recurrent Neural Networks，简称RNN）是一种深度学习模型，专门设计用于处理序列数据，如时间序列、文本和语音。与传统的前馈神经网络不同，RNN能够利用先前的输入来影响当前的输出，从而学习和表示序列中的长期依赖关系。本文将深入介绍循环神经网络的基本结构、如何处理序列数据、训练与优化方法，并通过实践案例来进行说明。

递归单元与基本结构

在RNN中，最常用的递归单元包括长短期记忆（LSTM）和门控循环单元（GRU）。这些单元通过门控机制控制信息的流动，能够有效处理长期依赖问题。

LSTM单元

LSTM通过遗忘门（Forget Gate）、输入门（Input Gate）、候选值门（Candidate Gate）和输出门（Output Gate）来控制信息的存储和输出。以下是LSTM单元的简化结构：

class LSTMUnit(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(LSTMUnit, self).__init__()
        self.Wf = nn.Linear(input_size + hidden_size, hidden_size)
        self.Wi = nn.Linear(input_size + hidden_size, hidden_size)
        self.Wc = nn.Linear(input_size + hidden_size, hidden_size)
        self.Wo = nn.Linear(input_size + hidden_size, hidden_size)

        self.bf = nn.Parameter(torch.zeros(hidden_size))
        self.bi = nn.Parameter(torch.zeros(hidden_size))
        self.bc = nn.Parameter(torch.zeros(hidden_size))
        self.bo = nn.Parameter(torch.zeros(hidden_size))

    def forward(self, x, prev_h, prev_c):
        combined = torch.cat((x, prev_h), dim=1)
        forget = torch.sigmoid(self.Wf(combined) + self.bf)
        input_ = torch.sigmoid(self.Wi(combined) + self.bi)
        candidate = torch.tanh(self.Wc(combined) + self.bc)
        output = torch.sigmoid(self.Wo(combined) + self.bo)

        next_c = forget * prev_c + input_ * candidate
        next_h = output * torch.tanh(next_c)
        return next_h, next_c

model = LSTMUnit(input_size=100, hidden_size=128)

GRU单元

相比于LSTM，GRU简化了门控机制，仅使用更新门（Update Gate）和重置门（Reset Gate）来控制信息的流动。

class GRUUnit(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(GRUUnit, self).__init__()
        self.Wz = nn.Linear(input_size + hidden_size, hidden_size)
        self.Wr = nn.Linear(input_size + hidden_size, hidden_size)
        self.Wh = nn.Linear(input_size + hidden_size, hidden_size)

        self.bz = nn.Parameter(torch.zeros(hidden_size))
        self.br = nn.Parameter(torch.zeros(hidden_size))
        self.bh = nn.Parameter(torch.zeros(hidden_size))

    def forward(self, x, prev_h):
        combined = torch.cat((x, prev_h), dim=1)
        reset = torch.sigmoid(self.Wr(combined) + self.br)
        z = torch.sigmoid(self.Wz(combined) + self.bz)
        candidate = torch.tanh(self.Wh(combined) + self.bh)
        update = 1 - z

        next_h = reset * prev_h + update * candidate
        return next_h

model = GRUUnit(input_size=100, hidden_size=128)

序列数据处理

序列数据具有显著的时间依赖性，RNN通过在时间步之间传递信息来处理这种依赖性。以下是处理序列数据的一般步骤：

数据预处理：对文本进行分词、编码等操作。
构建输入序列：将数据转换为适合RNN处理的序列输入。
模型训练：利用RNN进行训练，优化权重以最小化损失函数。
预测与评估：使用训练好的模型进行预测，并评估性能。

实践案例：文本生成

假设我们有一个简单的任务，即基于先前的文本生成下一个单词。以下是一个使用LSTM进行文本生成的示例：

import torch
import torch.nn as nn
from torchtext.data import Field, TabularDataset, BucketIterator

# 数据加载和预处理
TEXT = Field(sequential=True, tokenize='spacy', tokenizer_language='en_core_web_sm')
train_data, valid_data, test_data = TabularDataset.splits(
    path='./', train='train.csv', validation='valid.csv', test='test.csv', format='csv', fields=[('text', TEXT)]
)

# 构建词汇表和模型
TEXT.build_vocab(train_data, min_freq=2)
vocab_size = len(TEXT.vocab)
input_size = 100  # 具体大小取决于输入特征的数量
hidden_size = 128

model = LSTMUnit(input_size, hidden_size)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device)
criterion = criterion.to(device)

# 训练循环
training_loop(model, criterion, optimizer, device, train_data)

完整训练循环

def training_loop(model, criterion, optimizer, device, data):
    model.train()
    total_loss = 0
    for _, batch in enumerate(data):
        optimizer.zero_grad()
        inputs = batch.text.to(device)
        targets = batch.label.to(device)
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    print(f'Epoch Loss: {total_loss/len(data)}')

通过这些步骤，我们展示了如何使用RNN处理序列数据，并应用到实际问题中。循环神经网络在自然语言处理、语音识别、时间序列分析等领域具有广泛的应用价值。随着深度学习技术的不断发展，RNN的应用将更加深入，未来的研究方向包括更高效的记忆机制、更快的训练速度以及更复杂的序列建模。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

芜湖不芜

手记
篇

粉丝

77

获赞与收藏

339

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30589 343

网络编程入门教程

20个小节 12562 237

Pandas 入门教程

25个小节 18499 337

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空