首页手记 Transformer中的正弦位置嵌入详解

Transformer中的正弦位置嵌入详解

标签：

机器学习深度学习自然语言处理

在扩散模型中，噪声会在前向过程中加入，随时间推移在反向过程中被消除。因此，时间步长信息非常重要，必须被纳入网络中。

所以我们怎么才能把时间信息加到网络里呢？一个简单的方法是在输入特征中添加时间步长 T ，例如 [inputFeature , T]（如 [输入特征, 时间步T]）。我用这个方法弄了一个简单的扩散模型。我已经用这种方法实现了个简单的扩散模型。

然而，这种方法也有一些缺点。如果在训练和推理时时间步不同，它就不太能适应不同的情况了。例如，如果一个模型是在时间步为50时训练的，那么在推理时时间步为10000时，模型的准确性可能就不太好了。

所以要不我们试试将时间步长的范围规范化？例如，如果我们把范围设为0到1，所有的时间步长都将落在0到1的范围内。然而，如果时间步长的数量不同，这将无法保持每一步的一致含义。

最好是不同时间步之间的关系最好保持一致，并且每个时间步的意义也应保持一致。另外，每个时间步还应有不同的表现形式。

这篇扩散模型的论文使用了 Transformer 正弦位置编码 来保留时间步信息。Transformer 正弦位置编码是一种可以解决这些问题的方法，这种方法在注意力机制的论文中提出。

参数在时间维度上是共享的，这是通过Transformer模型中的正弦位置嵌入来实现的。

位置编码（PE）的公式如下。

下面是一个用 Python 实现的例子，其中 pos 表示位置，i 表示维度。

    class SinusoidalPositionalEmbedding(nn.Module):  
        def __init__(self, embedding_dim):  
            super().__init__()  
            self.embedding_dim = embedding_dim  

        def forward(self, timesteps):  
            positions = np.arange(timesteps)[:, np.newaxis]  # 形状：(timesteps, 1)  
            dimensions = np.arange(self.embedding_dim)[  
                np.newaxis, :  
            ]  # 形状：(1, embedding_dim)  

            # 使用正弦函数来计算偶数索引的角度，使用余弦函数来计算奇数索引的角度  
            angle_rates = 1 / np.power(10000, (2 * (dimensions // 2)) / self.embedding_dim)  
            angle_rads = positions * angle_rates  

            # 创建一个与angle_rads相同形状的全零数组  
            pos_encoding = np.zeros_like(angle_rads)  
            pos_encoding[:, 0::2] = np.sin(angle_rads[:, 0::2])  
            pos_encoding[:, 1::2] = np.cos(angle_rads[:, 1::2])  
            return pos_encoding

你可以试试通过运行这段代码来体验位置编码（PE）。

可以看出，通过使用_sin_和cos，可以在连续的时间点之间保持连续性。这使得模型可以轻松地学习到连续性。

此外，更重要的是，即使改变时间步长，也能保持信息的一致性，因此即使在推理时出现了一些训练时未提供的时间步长信息，模型也能很好地应对。

下面的 GIF 显示了时间步从 100 改为 500 时 PE 的情况。你可以看到位置信息保持一致。

最后，PE在三角函数里为什么用数字10000？
论文中没有详细解释这一点，但也许10000只是一个合适的数值，虽然也可以选择其他数字。

下面这张图片是我将数值从10000改为了100以进行测试时拍下的。你看，波长变长了。

参考资料

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕仙森

手记
篇

粉丝

37

获赞与收藏

104

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 31437 350

网络编程入门教程

20个小节 12893 243

Pandas 入门教程

25个小节 18782 352

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

Transformer中的正弦位置嵌入详解

阅读免费教程