首页手记 RNN与LSTM之间的介绍和公式梳理

RNN与LSTM之间的介绍和公式梳理

标签：

人工智能

最近在整理tensorflow，经常用到RNN与lSTM，故整理如下：
-RNN：循环神经网络(Recurrent Neural Networks)
-LSTM：长短时记忆网络（Long Short-Term Memory）

在看这篇文章之前，如果之前没有接触过-神经网络，请先阅读-神经网络调优
RNNs的目的使用来处理序列数据。其在自然语言中贡献巨大，中文分词、词性标注、命名实体识别、机器翻译、语音识别都属于序列挖掘的范畴。序列挖掘的特点就是某一步的输出不仅依赖于这一步的输入，还依赖于其他步的输入或输出。在序列挖掘领域传统的机器学习方法有HMM（Hidden Markov Model，隐马尔可夫模型）和CRF（Conditional Random Field，条件随机场），近年来又开始流行深度学习算法RNN（Recurrent Neural Networks，循环神经网络）。

你可以这样理解：
LSTM有多种变换形式，但我们只讲解一个简单的。一个Cell由三个Gate（input、forget、output）和一个cell单元组成。Gate使用一个sigmoid激活函数，而input和cell state通常会使用tanh来转换。

其中S(t+1) = tanh( U*X(t+1) + W*S(t))，[tanh激活函数]

(http://blog.csdn.net/hhtnan/article/details/78316785)
如果上面不理解，请查看下面这个整理如下：

RNN的变体

1.双向RNN

双向RNN认为otot不仅依赖于序列之前的元素，也跟tt之后的元素有关，这在序列挖掘中也是很常见的事实。

2.深层双向RNN

在双向RNN的基础上，每一步由原来的一个隐藏层变成了多个隐藏层。

RNN的问题所在

LSTM

由于梯度消失/梯度爆炸的问题传统RNN在实际中很难处理长期依赖，而LSTM（Long Short Term Memory）则绕开了这些问题依然可以从语料中学习到长期依赖关系。比如“I grew up in France… I speak fluent (French)”要预测()中应该填哪个词时，跟很久之前的”France”有密切关系。

传统RNN每一步的隐藏单元只是执行一个简单的tanh或ReLU操作。

LSTM每个循环的模块内又有4层结构:3个sigmoid层，1个tanh层

LSTM每个模块的4层结构后文会详细说明，先来解释一下基本的图标。
粉色的圆圈表示一个二目运算。两个箭头汇合成一个箭头表示2个向量首尾相连拼接在一起。一个箭头分叉成2个箭头表示一个数据被复制成2份，分发到不同的地方去。

LSTM内部结构详解

LSTM的关键是细胞状态C，一条水平线贯穿于图形的上方，这条线上只有些少量的线性操作，信息在上面流传很容易保持。
图细胞状态的传送带
第一层是个忘记层，决定细胞状态中丢弃什么信息。把ht−1ht−1和xtxt拼接起来，传给一个sigmoid函数，该函数输出0到1之间的值，这个值乘到细胞状态Ct−1Ct−1上去。sigmoid函数的输出值直接决定了状态信息保留多少。比如当我们要预测下一个词是什么时，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当我们看到新的主语，我们希望忘记旧的主语。

图更新细胞状态
一步的细胞状态Ct−1Ct−1已经被忘记了一部分，接下来本步应该把哪些信息新加到细胞状态中呢？这里又包含2层：一个tanh层用来产生更新值的候选项C~tC~t，tanh的输出在[-1,1]上，说明细胞状态在某些维度上需要加强，在某些维度上需要减弱；还有一个sigmoid层（输入门层），它的输出值要乘到tanh层的输出上，起到一个缩放的作用，极端情况下sigmoid输出0说明相应维度上的细胞状态不需要更新。在那个预测下一个词的例子中，我们希望增加新的主语的性别到细胞状态中，来替代旧的需要忘记的主语。

图生成新的细胞状态
现在可以让旧的细胞状态Ct−1Ct−1与ftft（f是forget忘记门的意思）相乘来丢弃一部分信息，然后再加个需要更新的部分it∗C~tit∗C~t（i是input输入门的意思），这就生成了新的细胞状态CtCt。

图循环模块的输出
最后该决定输出什么了。输出值跟细胞状态有关，把CtCt输给一个tanh函数得到输出值的候选项。候选项中的哪些部分最终会被输出由一个sigmoid层来决定。在那个预测下一个词的例子中，如果细胞状态告诉我们当前代词是第三人称，那我们就可以预测下一词可能是一个第三人称的动词。

LSTM实现
原理推到参数更新方法。核心是实现了dL(t)dh(t)dL(t)dh(t)和dL(t+1)ds(t)dL(t+1)ds(t)反向递归计算。

对应的github代码。

GRU

GRU（Gated Recurrent Unit）是LSTM最流行的一个变体，比LSTM模型要简单。

RNN与LSTM之间的联系

探讨与思考

应用

如有整理错误，欢迎批评指正！

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕斯卡3302699

算法工程师

手记
篇

粉丝

58

获赞与收藏

314

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 30591 343

网络编程入门教程

20个小节 12566 237

Pandas 入门教程

25个小节 18499 337

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空