大型语言模型与Transformer:革新AI格局——(作者供图)
围绕生成式AI工具如 ChatGPT, Gemini, DALL-E2, AlphaCode 等的热议,这些工具使用了大型语言模型(LLMs),例如 GPT、BERT、Cohere、LLAMA、Mistral 等,我们有必要回顾一下启发了这一切的工作,这些工作奠定了基础。
💡 大规模语言模型 (LLM) 是巨大的转换器模型(具有数十亿参数),它们在海量数据上进行预训练,以生成类似人类的文本,通过学习底层模式。
额外说明: 了解生成式人工智能背后的 技术!,此处👈🏻
让我们一起探索Transformer的世界——不是来自外太空的那些可以变形的机器人(撇开那个愚蠢的笑话不谈),而是自然语言处理(NLP)领域的核心模型,它改变了机器理解和生成类似人类文本的方式。
在Transformer的必要性开始理解。关注我以获取更多数据科学领域的相关见解。在此之前,如果你想通过关注我来获取新的数据科学相关见解的通知。
背景:Transformer之前的时期在Transformer出现之前,NLP模型很大程度上依赖于循环神经网络(RNNs)和其他更复杂的变体,例如长短期记忆(LSTM)和门控循环单元(GRU)网络。
这些模型能够处理序列数据(例如逐词处理文本),并具有一定的上下文理解能力。(重要!)
虽然RNNs和LSTMs各自在辉煌的时刻,但它们也存在自身的局限性。
- 长期依赖问题: RNNs 往往会忘记序列早期的信息,尤其是较早的信息。
- 顺序计算: 它们一次处理一个词,这使得处理速度变慢。
- 无法并行化: 它们的顺序性质使得并行计算变得困难。
从LSTMs到 LLMs,我们已经见证了在序列到序列模型领域中的重大进展。
序列到序列学习简史图 — 作者的流程图
首先,编码器-解码器架构的改进是由Ilya Sutskever和他的团队通过他们的论文“神经网络中的序列到序列学习”(2014-2015年)提出,这标志着变压器的起源始于这一改进。
用神经网络进行序列到序列的学习部分已调整至句首,以保持与原文结构一致。
“注意力机制全靠它” 是什么?在大型语言模型突破的核心在于Vaswani等人以及来自Google Brain团队的研究人员于2017年发表的论文《Attention Is All You Need》。尽管其标题看似简单直接,这篇论文彻底改变了处理序列数据的机器学习任务的范式。
什么是Transformer?变换器是一系列由编码器和解码器组成的神经网络层,这些层具有自注意力机制,克服了RNN及其各种变体的限制。
剖析Transformer架构Transformer不是按时间戳顺序(一个一个地)处理单词,而是可以通过并行处理一次性处理整个句子或文档。这种方法不仅使它们更快,而且在捕捉句子中单词的上下文方面也更准确(值得一提的是,将在后续文章中详细讨论这一点)。
Transformer架构图 — (图源:作者)
让我来解析这个令人望而生畏的架构,以免让你感到困惑。我们将在后续的文章中详细讨论这些组件。
1. 输入嵌入层首先,文本输入序列被转换为固定大小的词向量或输入词嵌入,捕捉文本的词汇和句法信息。
也就是说,这一层将每个标记映射到一个高维嵌入向量空间,在这个空间里,语义相似的标记会更接近。
考虑这句话:“Transformers增强LLM能力”,这里的词元“Transformers”、“enhance”、“LLM”和“capabilities”会被转换成嵌入向量,其中“Transformers”和“LLM”的嵌入向量会更接近。
2. 位置编码(Positional Encoding)由于Transformer模型一次性处理整个句子,它们需要一种方法来记住单词的排列顺序。位置编码被添加到令牌的嵌入中,以提供序列中每个令牌位置的具体信息。
注意:模型进一步有用的是能够区分相同嵌入的标记,但这些标记在不同位置。
如图所示,逐点位置的编码被添加到 token 的嵌入中,以帮助模型更好地理解序列的顺序。
位置编码(Positional Encoding)添加到相应的词嵌入中 — (作者提供图片)
3. 编码器-解码器架构Transformer模型遵循编码器-解码器架构:
- 编码器: 如图所示的左侧部分,处理输入序列并生成表示向量。
- 解码器: 这个右侧部分以编码器生成的隐藏状态作为输入,并使用先前生成的令牌来生成输出句子。
在变压器的核心是一种注意力机制,它增强了编码器-解码器架构的能力,使模型能够动态地关注输入序列的各个部分。
变压器模型中有三种注意力机制:
- 自注意力机制: 句子中的每个词都会关注句子中的每个其他词(包括它自己在内),以确定理解上下文时的相对重要性,从而生成特定于文本的上下文嵌入表示。
在这里,就我们的例子而言,“Transformer”旨在“增强”“LLM”和“功能”,以理解其与这些词之间的关系。
- 多头自注意力: 并行使用两个或更多的自注意力机制,以捕捉句子中更广泛的上下文视角。
在预测“功能”或“能力(功能)”时,解码器可能会关注编码器为“Transformers”、“enhance”和“LLM”生成的上下文嵌入,从而关注输入序列的这些相关部分。
- 掩码自注意力机制: 在解码器中使用,它确保每个词只能关注序列中先前的词,防止通过查看后续词作弊。
例如:该模型会对“capabilities”,即序列中未来的token,进行遮蔽,以预测“LLM”这一目标,确保下一个token的预测完全基于已有的上下文,即“Transformers增强”这一部分。
这个模型也被称为自回归模型,其中的词“回归”只是意味着试图理解两个词之间的关系(类似于我们简单的回归模型所做的)。例如,输入的词和预期输出的词。而“自”则简单地意味着“自动”。
一个自回归模型是一个自预测模型。它预测一个单词,然后用这个单词来预测下一个单词,接着用预测出的单词来预测再下一个单词,如此循环下去,直到指定的词元用完。
5. 前馈网络👉🏻 阅读这里详细了解的Transformer架构自注意力网络的图文指南。
在注意力机制之后,模型将信息通过位置-wise前馈神经网络传递,在序列中的每个位置独立地应用全连接层,从而使模型能够捕获序列中各令牌之间复杂的非线性关系。
6. 层规范化和残差链接Transformer中的“Add & Norm”操作涉及将输入添加到前馈网络输出,然后对组合结果进行标准化。此过程有助于训练的稳定性,并促进梯度信息在网络和残差连接中的有效流动。
👉🏻 最后,在Transformer架构中,解码器块的输出结果如下处理:
解码器栈到Transformer预测的令牌输出流 — (图源:作者)
7. 全连接层:来自最后一个解码层的归一化的向量序列,捕捉了输入序列中每个位置标记的上下文化表示,然后被送入一个线性层。
8. Softmax函数:从架构的角度来看,线性层是一个全连接的神经网络层,它使用权重矩阵和偏置向量对输入执行线性变换。
在对输出应用 softmax 函数之前,先进行线性变换,以产生序列中每个位置的词汇表(词汇集)上的概率分布。
softmax函数是一种常见的激活函数,它将logits转换为概率。它确保输出值的总和为1,从而选择最可能的标记作为输出。
该概率分布代表了模型在给定位置对输出序列中的下一个词是每个可能标记的信心。
9 输出预测:在训练过程中,模型采用教师强制解码方法,即在每一步都将前一个实际标记输入解码器。
在推理过程中,模型可以选择最可能的词元(使用贪心搜索)或从概率分布中采样(选择最高概率的词元),或者可以使用更高级的技术如束搜索以自回归方式生成序列中的下一个词元。
预测的输出令牌被反馈到解码器中,作为下一个时间步的输入,与先前生成的令牌和编码器的隐藏状态一起。
为什么创建Transformer模型?此过程会反复迭代,直到生成结束标记(例如,<eos>)为止,或达到预定的最大长度。
变压器是许多最先进的NLP模型(诸如BERT、GPT、T5等)的骨干,因为它们提供:
- 处理长期依赖问题: 由于注意力机制,它们不会出现 记忆损失问题。
- 并行化: 它们可以一次处理整个语料库,使用并行处理,比RNN 更快。
- 速度快且高效: Transformer被设计为并行处理,能够更有效地利用现代硬件,例如GPU和TPU。
- 多功能性: 如今,它们是不同领域Gen-AI应用的支柱,包括 图像处理、音乐生成、甚至强化学习。
Transformer模型已应用于众多的机器和深度学习应用中,重塑了我们如今与技术互动的方式。
- NLP 领域的革命: Transformer 是像 BERT (双向编码表示的 Transformer) 和 GPT (生成式预训练的 Transformer) 模型这样的模型的大脑,为诸如 情感分析、机器翻译、命名实体识别(NER)和问答系统 等任务设定了新的基准。
- 生成式 AI 的加速: ChatGPT、Gemini、CodeX 等使用 Transformer 生成类似人类的文本。这些模型能够撰写文章、诗歌、总结文本,甚至生成代码。
- 语音识别: 像 Siri 和 Alexa 这样的语音助手使用 Transformer 技术进行语音识别,从而实现更准确的响应。
- 深度学习的统一: 此外,Transformer 在 计算机视觉和强化学习 领域也展现出潜力,推动了不同领域的界限。
虽然Transformer模型取得了显著成功,但它们也面临着挑战。
1. 高昂的计算成本(所需的时间和资源:训练大型Transformer模型)
2. 这些“黑箱”模型的较低可解释性,使得我们难以理解它们是如何做出决策的。
3. 确保Transformer模型的公平性和减少其偏见(如过拟合)是当前研究中的关键领域。
4. 随着参数的增加,可扩展性变得越来越具有挑战性。为此,人们正在探索诸如模型修剪、量化和知识提炼等技术来解决这一问题。
结论部分简而言之,Transformer模型在自然语言处理领域标志着一个转折点。完全基于注意力机制,它提供了前所未有的速度、准确性和多功能性。它们已成为许多前沿生成式AI应用的基础,包括语言理解、图像处理等。
这就结束了,今天我们只是浅尝辄止地探讨了Transformer架构。随着不断的研究和创新,未来将会有更多令人兴奋的可能性。
在你离开之前……如果你有任何问题、建议或想法,请在下面留言。🖋️
如果你喜欢阅读关于数据科学及其发展的内容,不要忘了订阅以获取未来的更新。
请鼓掌 50次,如果你认识的人会从这个故事中受益,请与他们分享这个故事。
就这样,我结束了。很快再聊!👋
— 尼基塔·普拉沙德
简单明了感谢您成为In Plain English社区的一员!在您离开之前,有几件事想对您说!
- 请记得鼓掌👏️并关注作者
- 关注我们在以下平台:X | LinkedIn | YouTube | Discord | Newsletter
- 更多平台请访问:CoFeed | Differ
- 更多内容,请访问 PlainEnglish.io
共同学习,写下你的评论
评论加载中...
作者其他优质文章