为了账号安全,请及时绑定邮箱和手机立即绑定

词元和嵌入:语言模型背后的秘密武器

令牌和嵌入是大规模语言模型(LLM)如GPT和BERT的基础。虽然这些概念可能听起来很复杂,但它们对于理解现代AI如何与语言交互至关重要。本指南将解释令牌和嵌入是什么,并介绍它们的工作原理,以及它们在语言模型中的应用以及更广泛的场景。无论你是好奇的初学者,还是希望利用LLM进行业务或个人项目的人,本文都为你提供了所需的信息。

什么是代币以及为什么它们很重要?
词元(Tokens):语言模型的基础组件

语言模型不会一次性读取整个句子或段落,而是将文本分解成标记——这些标记可能是较小的文本单元,例如:

  • 完整的单词(例如:‘苹果’)
  • 单词的一部分(例如:“appl”和“e”如“apple”)
  • 字母(例如:“a”,“p”,“p”,“l”,“e”)
  • 标点符号(例如:“!”,“。”,“,”)
  • **例如 <s></s> 这样的特殊符号可以帮助模型理解上下文。
分词为何重要

分词非常重要,因为它将人类可读的文本转换成大型语言模型(LLMs)可以理解的格式。在任何模型处理输入之前,分词器将文本分解成一个个词元并将其转换为数字。模型就是用这些数字来进行计算的。

词元化器是如何工作的

分词工具通过将文本拆分成词元并将其转换成词元ID来为大型语言模型准备文本。我们来看看具体是如何操作的:

  1. 输入文本:想象你写下:
    “写一封道歉信给 Sarah,为那次不幸的园艺事故道歉。”
  2. 分词:分词器将文本拆分成词语:
  • <s> (一个特殊的开始符号)

  • “写”、“一个”、“邮件”等。

3. 令牌ID号:每个代币都被转换为一个唯一的数字ID:

  • <s>1
  • “写” → 14350
  • “邮箱” → 5281

这些token ID随后被输入到LLM中进行处理。

分词的几种类型

标记文本的方法有很多,这要看你用的是什么语言模型。

1. 单词分词.

将文本拆分成完整单词。例如:
“我爱AI”["我", "爱", "AI"]

  • 优点:容易懂。
  • 不足:不认识新词或词的变化形式(例如“loving”和“loved”)。
2. 子词切分:

将文本分成更小的部分。例如:将"loving"拆分成['lov', 'ing']

  • 优点:处理新词高效。可以处理如“爱”、“爱着”和“爱过”这样的变化。
  • 缺点:比分词更复杂。
3. 字符 tokenization.

将文本拆分为单独的字符。例如:
“AI”” → ["A", "I"]

结果如下:
“AI”” → ["A", "I"]

  • 优点: 可以处理任何文本,甚至是罕见或虚构的单词。
  • 缺点: 表示句子需要更多的令牌数。
4. 字节令牌化

将文本拆分为字节,这是字符的一种低层次表示形式。

  • 优点:对于字符较多的语言(如中文)效果很好。
  • 缺点:需要更多的计算资源。
什么是嵌入技术及为什么它很重要?
嵌入:将词转换成数字

一旦文本被分词,嵌入技术会把这些词转换成密集的数值向量。这些向量能够以计算机可以理解的方式表达文本的意义。

  • 示例:单词“king”(例如)可能表示为像 [0.59, 0.77, 0.19, ...]

嵌入如何工作

词嵌入存储在语言模型内部的一个大表中。每个词元 ID 对应一个特定的词嵌入向量。这些词嵌入在训练过程中不断优化,以帮助模型更好地理解词与词之间的关联。

静态嵌入与上下文嵌入的区别
  • 静态词嵌入(例如,Word2Vec,GloVe):一个词的向量始终相同,不考虑其所在上下文。
  • 上下文相关的词嵌入(例如,GPT,BERT):一个词的向量会根据所在的句子而变化,捕捉意义的细微变化。
令牌和嵌入编码的应用
1.\ 语言理解部分

词嵌入帮助模型理解和生成通顺的文本,例如:

  • 预测句子中的下一个字。
  • 总结长文档。
2.: 语义型搜索

文本嵌入技术使得系统能够比较意义而不是具体的单词。比如搜索“最好的智能手机”可能会显示“最好的移动电话”的结果。

3. 推荐引擎

令牌和嵌入向量在像 Spotify 和 Netflix 这样的平台上用来根据相似性推荐音乐和视频等内容。

4. 多模态应用:

嵌入表示连接不同类型的数据。例如:

  • 将文本嵌入和图像嵌入结合,使得工具如 DALL·E 成为可能。
从Word2Vec到现代大模型

在像GPT和BERT这样的大型语言模型(LLMs)出现之前,Word2Vec等方法在自然语言处理(NLP)中占主导地位。Word2Vec采用称为skip-gram的技巧来预测单词之间的关系。虽然有效,但它的复杂度不及现代上下文嵌入技术。

如今,大型语言模型生成了更丰富的向量,从而可以实现以下高级应用:

  • 聊天bot
  • 情绪分析
  • 代码生成
选择正确的分词器和词嵌入模型

选择合适的分词工具和嵌入模型,这取决于你的需求。

  • 对于通用语言任务:可以使用类似GPT的子词分词器。
  • 对于与代码相关的任务:像StarCoder2这样的专用分词器效果更佳。
  • 对于特定领域的任务(比如科学):Galactica这样的模型更适合处理技术语言。
要点:
  • Token 是 LLM 处理的基本单位。
  • Embedding 是将 Token 数值化,帮助 LLM 理解关系和上下文。
  • 不同的分词器会根据需要定制,以适应特定的任务和数据集。
  • 现代的 embedding 技术支持如语义搜索、推荐系统和多模态 AI 等强大的应用。
结论

令牌和嵌入表示可能听起来像技术术语,但它们是当今AI令人印象深刻的功能背后的秘制配方。无论您是与AI助手聊天还是收到个性化歌曲推荐,令牌和嵌入表示都在幕后运作。通过了解这些概念,您就能更接近于发掘语言模型在您的项目中的潜力。

想要了解更多关于在实际应用中使用LLM的更多见解,请关注我们即将发表的下一篇文章,我们将更深入地探讨Transformer模型及其架构!敬请期待!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消