为了账号安全,请及时绑定邮箱和手机立即绑定

谷歌推出新架构Titans:Transformer主导的LLM时代要结束了吗?

为LLM寻找更好的架构

照片由Igor Sporynin拍摄,图片来自Unsplash

自2024年底开始,我注意到生成式AI领域出现了一种新的趋势,即在Transformer的核心架构上的创新,使其更好地处理长上下文并提高效率,变得更加高效。Meta公司推出了大型概念模型(LCMs)、字节潜在Transformer(Mamba)。这次轮到了谷歌,他们也没有让人失望,推出了Titans模型。

Google的Titans指的是什么?

谷歌的Titans是一种新的神经架构家族,旨在改进现有模型(尤其是Transformer)的局限性,特别是在处理长期依赖关系和大范围上下文方面。

泰坦的关键创新在于引入了一个神经长时记忆模块,该模块能够记住历史上下文,使模型可以有效地在推理过程中同时使用短期和长期记忆。泰坦的主要特性和组件如下:

点击 Gumroad 上的 datasciencepocket 进行订阅,努力让每个人都能学习 AI!datasciencepocket.gumroad.com
Google 的 Titan 关键特性:

神经长时记忆模块

提坦引入了一种深度神经长期记忆模块,该模块灵感来源于人类的长期记忆系统,旨在更有效地捕捉令人惊讶或意外的事件。

记忆模块使用一种基于神经网络对输入的梯度的 意外度指标,这有助于衡量输入的记忆度。

它引入了一种 衰减机制 来管理记忆容量,使模型能够逐渐遗忘不太相关的信息,类似人类忘记不太重要的细节的方式。

内存管理

内存模块被设计成通过自适应地丢弃不再需要的信息来处理长序列。这是通过一个 权重衰减机制 实现的,这类似于现代递归模型中的遗忘门功能。

内存更新过程被定义为带有动量的梯度下降,让模型能够记住过去的新鲜事,并更好地管理内存。

三种泰坦类型

  • 泰坦公司提出了三种方式将内存模块融入架构。

记忆作为上下文(MAC): 记忆被视作当前信息的上下文,模型从长期记忆中检索过往信息,并利用注意力机制将其与当前上下文结合。

Memory as a Gate (MAG,门控内存模块):内存模块与滑动窗口注意力机制并行使用,其中内存充当模型的逐渐淡忘的信息。

内存作为一层(MAL):将内存模块(简称MAL)作为神经网络的一层使用,将过去的和当前的上下文整合后传递给注意力模块。

持久性内存:

除了长期记忆之外,Titans 还包含了持久性记忆,它由可学习的特定任务参数构成,用来存储任务相关知识。这种记忆独立于输入,帮助模型在不同情况下保持任务相关信息。

效率和扩展性

泰坦设计为高效且可扩展,特别具备处理超过200万个token的上下文窗口的能力。 内存模块通过快速且可并行化的算法进行训练,该算法利用张量操作和小批量梯度下降。

该架构在训练和推理上都进行了优化,非常适合处理大规模任务,如语言建模、时间序列预测和基因组学。

表现

泰坦模型在诸如语言模型、常识判断以及“长上下文场景的任务,如‘大海捞针’这种类型的任务”中,远超最前沿的模型,如Transformer和现代递归神经网络。

即使参数规模较小,该模型在需要长期记忆能力和逻辑推理的任务中也能与大型模型如GPT-4相媲美。

Google 的 Titan 是怎么运作的?

这是一个非常复杂的架构,但我会尽量用简单的语言来解释给大家听。

想象你正在读一本超级长的书。当你读到后面时,你需要记住前面章节的关键内容。

泰坦通过利用两种类型的记忆来帮助AI做类似的事情。

短时记忆

  • 这就像你在读当前页面时注意一样。巨人们使用一种称为 注意机制 的方法(类似于人类在段落中聚焦最重要的词语或句子)来处理当前信息。

长期的记忆

  • 这就像记住之前章节中的关键细节。泰坦巨人有一个特殊的记忆模块,会存储过去的重要信息。它不会记住所有内容,而是决定哪些重要信息需要记住,哪些可以随着时间遗忘(就像你可能会忘记一些次要细节,但记得主要的情节一样)。

简单易懂的主要特点:

意外引发的记忆

  • 泰坦设计为记住那些意外的或出乎意料的事情。例如,如果故事中发生了不同寻常的事,AI 会因为这些事件更显眼而记得更清楚。这和人类记住那些令人惊讶的事件相似。

别太在意那些不那么重要的东西

  • 就像你不会记得一本书的所有细节一样,Titans 可以忽略不太重要的信息来节省空间。这有助于 AI 更好地管理其记忆,特别是在处理大量数据时。

短时记忆和长时记忆功能

  • 泰坦具有短时间内注意力集中(比如关注当前文本)与长期记忆能力(比如记住过去的信息)。这使AI既能理解眼前的语境,也能把握整体背景。
为为什么这很重要?

长文档:泰坦可以处理长书、法律文件或科学论文,帮助你记住许多页的内容。

时间序列数据:对于诸如天气预报或股市预测之类的任务,泰坦可以利用过去的模式来进行更好的预测。

更好的推理:泰坦在处理需要长期理解与推理的任务上更胜一筹,例如回答复杂问题或解决谜题。

比如一个真实的例子:

假设你在看一个情节复杂的电视节目,Titans会:

注意当前场景(短期记忆)。

记住之前各集中的重要事件(长期记忆)。

忘记不再相关的不重要细节(一种遗忘机制)。

利用这些信息来理解正在发生的事情并预测接下来可能发生的情况。

泰坦和Transformers有什么不同?

在很多方面,

1. 记忆:短期与长期

Transformers :

Transformers 很擅长关注 当前的上下文(比如你刚读的几句或几段话)。它们使用一种称为 注意力 的机制来查看当前上下文中的所有单词,并弄清楚它们是如何相互关联的。

然而,Transformers 有一个 有限的上下文窗口。如果文本或数据过长,它们无法记住之前部分的信息,因为它们只关注当前的数据块。

Titans :

Titans 通过添加一个 长期记忆模块 来改进这一点,这使它们能够记住序列中远早之前的重要信息,即使这些信息超出了当前的上下文窗口。

Titans 结合了 短期注意力(像 Transformers 那样)和 长期记忆,因此,它们既能理解即时的上下文,又能把握更大的背景。

2. 可扩展性:应对长文本数据

Transformers:由于其注意力机制在处理非常长的序列时计算开销大,Transformer在处理这类序列时会遇到困难。序列越长,处理时间和所需内存就越多,这限制了它们一次能处理的数据量。

Titans: Titans被设计为能够处理更长得多的序列(超过200万个token,相当于一本超长的书)(例如,文本中的词或字符)。它们通过更高效的内存系统来实现这个,该系统可以压缩并存储过去的重要信息,无需一次性处理所有内容。

3. 内存管理:减少对不重要信息的关注

Transformers :Transformer 没有内置机制来忽略不太重要的信息。如果你给它们一个很长的序列,它们要么必须截断它,要么处理整个序列,这可能会导致效率降低。

Titans :Titan 有一个 遗忘功能,帮助它们管理内存。它们可以决定保留哪些重要信息,这使得它们在处理长序列时更高效。

4. 惊喜学习

Transformers : Transformers 对输入序列中的所有部分一视同仁(除非经过其他训练)。它们没有内置的机制来优先处理意外或令人惊讶的信息。

Titans : Titans 被设计得能更好地记住 令人惊讶或出乎意料的事件。这是模仿人类对突出事物记忆的方式设计的。例如,在故事中如果发生了一些不寻常的事情,Titans 更清晰地记住这些事件,而不会像记住不太重要的细节那样模糊。

5. 架构:结合注意机制和内存

Transformer :Transformer 完全依赖 注意力机制 来处理序列中的词语或数据点。它们会查看当前上下文中的所有词语或数据点,并找到它们之间的关联。

巨兽 :巨兽结合了 注意力(用于近期上下文)和 神经记忆模块(用于历史上下文)。这种混合方式使它们能更好地处理即时和历史信息。

6. 长文本任务的性能表现

Transformers :Transformers模型在处理上下文较短或中等长度的任务(如翻译句子或总结段落)时表现出色。然而,对于需要理解非常长序列的任务(如回答关于长篇书籍的问题或预测多年数据的趋势),它们则显得力不从心。

Titans :Titans在长文本任务中表现出色,因为它们具有长期记忆。例如,它们可以从非常长的文档中检索到特定信息(就像大海捞针),或者在长序列中跨多个事实进行推理。

最后,我们来总结一下

Google Titans 代表了 AI 架构上的重大进展,解决了 Transformer 架构中的局限性,通过引入一个 长期记忆模块,使模型能够更高效地管理内存,处理更长的序列,并优先处理重要或令人惊讶的信息。通过结合 短期注意力长期记忆 模块,Titans 在需要深入上下文理解的任务中表现出色,例如处理长文档、时间序列预测和复杂推理。

尽管Transformer在较短的任务中依然强大,但Titans为长文本挑战提供了可扩展且高效的替代方案,有可能改变大型语言模型(LLMs)的未来格局。不过,Titans是否会完全取代Transformer仍有待观察,因为这两种架构各有千秋,应用领域也有所不同。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消