为了账号安全,请及时绑定邮箱和手机立即绑定

你的公司需要小型语言模型

Stable Diffusion生成的图片

专业模型胜过通用模型时

“大就是好”——这一原则在人工智能界根深蒂固。每月都有更大的模型被创造出来,参数越来越多。甚至有公司正在建设价值100亿美金的人工智能数据中心来支持这些模型。但这是否是唯一的出路?

在2024年的NeurIPS会议上,OpenAI的联合创始人之一Ilya Sutskever分享了一个观点:“我们所熟知的那种预训练方法无疑将结束。”这表明规模化时代的终结似乎即将到来,这表明是时候专注于改进现有的方法和算法了。

最有前景的领域之一是使用小型语言模型(SLM),其参数量可达到100亿。这种方法正在业界兴起。例如,Hugging Face的首席执行官克莱门特·德朗格预测,多达99%的使用案例可以通过SLM解决。这种趋势也体现在例如YC最新对创业公司的需求中

拥有大量参数的巨型通用模型非常引人注目。但它们也非常昂贵,并且常常伴随着延迟情况和隐私挑战性。

在我的上一篇文章“你不需要托管的LLM,对吧?:”中,我思考了你是否需要自托管模型。现在我更进一步问:你是否需要LLM?

文章的简介。

在这篇文章里,我将讨论为什么小规模模型可能是您业务所需的解决方案。我们将探讨它们如何降低成本、提高准确性和保持数据控制。当然地,我们还将诚实地讨论它们的局限。

性价比

LLM的成本可能是企业最头疼的问题之一。然而,这个问题要广泛得多,涉及的内容包括昂贵的硬件、基础设施的花费、能源消耗成本以及环境影响和后果。

是的,大型语言模型确实功能强大,但维护它们的成本也非常高。你可能已经注意到基于LLM的应用订阅价格正在上涨吧?例如,OpenAI最近宣布的200美元每月的Pro计划就是成本上升的一个信号。其他竞争对手也可能跟进,提高价格到这个水平。

200美元的Pro计划

莫克斯机器人故事(https://arstechnica.com/gadgets/2024/12/startup-will-brick-800-emotional-support-robot-for-kids-without-refunds/)就是一个很好的例子。Embodied公司创造了一款出色的儿童陪伴机器人,并且售价为800美元,使用了OpenAI的API。虽然产品很受欢迎且成功(孩子们每天发送500到1000条消息!),但由于API的运营成本过高,公司不得不关闭业务。现在,这些机器人将失去功能,数千个孩子将失去他们的机器人朋友。

一种方法是微调一个专为您的特定领域设计的小型语言模型(SLM)。当然,它不会解决“世界上的所有问题”,但它会完美地完成分配给它的任务。如分析客户文档或生成特定报告。同时,小型语言模型(SLM)将更经济地维护,消耗更少的资源,需要更少的数据,并且可以在更简单的硬件设备上运行(甚至可以在智能手机上运行,如教程所示教程链接)。

不同数量的参数的这些模型的使用情况对比。Source1Source2Source3Source4

最后,我们也不能忽视环境问题。在文章《碳排放与大型神经网络训练》(链接)中,我发现了一些令我惊讶的统计数据:训练具有175亿参数的GPT-3消耗的电量相当于一个美国家庭120年的用电量。同时,它还产生了502吨二氧化碳,这相当于一百多辆汽油车一年的排放量。这还不包括推理时的能耗。相比之下,部署一个较小的模型如70亿参数的模型(7B)将只需要大模型能耗的5%。那么最新的o3版本呢?

模拟o3二氧化碳生成。来源链接

💡小提示: 不要追逐潮流。在着手任务之前,计算使用 API 或你自己的服务器的成本。考虑这样的系统如何扩展性以及使用大语言模型是否合理。

特定任务的性能:

现在我们已经谈完了经济方面,接下来谈谈质量。显然,很少有人愿意为了省钱而降低解决方案的准确性。但在这个方面,SLM也有所贡献。

领域内内容审核性能。比较SLM和LLM在准确性、召回率和精确度上针对领域内内容审核的表现。表现最佳的SLM在所有子版块的准确性与召回率上都超越了LLM,而LLM在精确度上优于SLM。来源

许多研究表明,对于高度专业化任务,小模型不仅能和大模型一较高下,而且常常能胜过它们。咱们来看几个例子:

  1. 医学: 基于Qwen2–7B的Diabetica-7B模型在糖尿病相关测试中达到了87.2%的准确率,而GPT-4则为79.17%,Claude-3.5–80.13%。尽管如此,Diabetica-7B的大小还不到GPT-4的几十分之一,并且可以在普通的消费级GPU上本地运行。
  2. 法律领域: 一个仅含0.2B参数的SLM模型在合同分析中达到了77.2%的准确率(GPT-4的大约为82.4%)。此外,在识别用户协议中的“不公平”条款等任务上,SLM在F1指标上甚至超过了GPT-3.5和GPT-4
  3. 数学任务: 谷歌DeepMind的研究显示,训练一个小模型Gemma2–9B,使用另一个小模型生成的数据,其结果比使用更大模型Gemma2–27B生成的数据更好。小模型倾向于更好地聚焦于细节,而不像大型模型那样容易表现出“试图用所有知识来炫耀自己”的倾向。
  4. 内容审核: LLaMA 3.1 8B在审核15个热门subreddit的内容时,其准确率比GPT-3.5高了11.5%,召回率高了25.7%。即使采用了4位量化技术,这也进一步减少了模型的大小。

在PubMedQA上比较指令调优的特定领域SLM和LLM。来源

我将进一步分享,即使是经典的NLP方法也常常表现得出乎意料的好。让我分享一个个人案例:我正在开发一款提供心理支持的产品,在该产品中,用户每天可以发送并接收上千条聊天中的消息。用户可以在聊天中输入消息并获得回复。每条消息首先会被归类为四个类别之一。

消息分类系统。

  • SUPPORT — 关于应用运作方式的问题;我们通过文档来回答。
  • GRATITUDE — 用户感谢机器人;我们只需回复一个“赞”。
  • TRY_TO_HACK — 用户请求与应用目的无关的内容(例如,“用Python写一个函数”)。
  • OTHER — 所有其他消息,我们将进一步处理。

最初,我使用了GPT-3.5-turbo进行分类,但后来换成了GPT-4o mini,花费了大量时间调整提示。然而,仍然遇到了一些错误。因此,我决定试一试传统的TF-IDF加简单分类器的方法。训练时间不到一分钟,效果显著提升了Macro F1分数到0.95,相比之下,GPT-4o mini的Macro F1分数是0.92。模型大小仅为76MB,当应用于我们实际的2百万条处理过的消息时,成本节约显著:基于GPT的解决方案大约需花费500美元,而传统方法几乎无需成本。

以下是准确性、速度和成本对比表:GPT-4o迷你版 vs TF-IDF 模型。

我们产品中有几个这样的“小”而简单的任务。我相信你也会在你的公司里遇到类似的情况。当然,大型模型对于快速启动非常有用,尤其是在没有标注数据的情况下。但尤其是在没有标注数据且需求不断变化的场景下。对于定义明确且相对稳定的任务,当准确性与最小成本是关键时,专门且简单的模型(包括经典方法)往往能提供更有效的解决方案。

💡提示:大模型来制作原型,一旦任务清晰且稳定,替换为更小巧、更经济且更精准的模型。这种方法能保持质量高,且大幅削减成本,同时避免通用模型的冗余。

安全,隐私和合规

通过API使用LLM,您将敏感数据交给了外部提供商,增加了数据泄露的危险性,并且使得遵守HIPAA、GDPR和CCPA等严格的法律法规变得更加复杂。OpenAI最近宣布计划引入广告,更加突显了这些风险。您的公司不仅失去了对数据的完全控制,还依赖于第三方的服务水平协议(SLA)保障。

当然,可以在本地运行大型语言模型,但部署和扩展的成本(数百吉字节的内存和多个GPU)超出了合理的经济范围,并且使得快速适应新的监管要求变得困难。更别提在低端硬件上运行它了。

比较云服务API的风险点和设备端slm的好处。

这就是“小人物们”再次登场的时候了:

1. 简化的审计流程

SLM较小的规模降低了进行审计、验证和定制以满足特定法规的难度。更容易理解模型处理数据的过程,实施自己的加密或日志记录,并向审计员证明信息从未离开受信任的环境。作为一家医疗公司的创始人,我深知这项任务的挑战性和重要性。

2. 在独立且低端的硬件上运行

大型语言模型(LLM)很难高效部署到一个孤立的网络环境中或在智能手机上。然而,由于计算需求较低,小型语言模型(SLM)几乎可以在任何地方运行起来:从私有网络中的本地服务器上到医生或检查员的设备上。据IDC预测,到2028年,预计将有超过9亿部智能手机能够在本地运行生成式AI模型。

3. 新规调整及适应

规章制度和法律经常变更——紧凑型模型可以在几小时内完成微调,无需几天的时间。这使得我们能够迅速响应新的需求,而无需进行大规模的基础设施升级,这通常是大规模语言模型必须进行的操作。

第四部分:分布式安全架构

与将所有安全组件“集成”到一个大型模型中的LLM的单体架构不同,SLM则可以构建一个分布式安全系统。每个组件如下:

  • 专注于特定任务。
  • 可以独立地进行更新和测试。
  • 可以独立扩展,与其他部分分开扩展。

例如,一个医疗应用可以使用三个模型的序列。

  1. 隐私守护者 (2B) — 保护个人数据。
  2. 医学准确性验证器 (3B) — 确保医学准确性。
  3. 合规检查器 (1B) — 确保 HIPAA 合规。

更小的模型更便于验证和更新,使整体架构更加灵活可靠。

数据隐私特性的比较。

💡提示: 如果你在受到严格监管的领域工作,可以考虑使用SLMs。特别留意数据传输政策以及监管政策变化的频率。如果你的工作领域是比如医疗、金融或法律,我建议你使用SLMs。

AI 代理:完美的用例

还记得那个老话“做好一件事”吗?现在看来我们又回到了这个原则,这次是在人工智能的背景下。

伊利亚·苏茨克弗(Ilya Sutskever)最近在NeurIPS上发表的声明,“我们所知的预训练将不可避免地结束”,并且下一代模型将“在真正意义上具有代理性”,这一说法进一步证实了这一趋势,。Y Combinator 更进一步预测,AI代理可能创造出比SaaS大十倍的市场

例如,目前已知已有 12% 的企业解决方案采用了基于代理的架构。此外,分析师预测代理将是下一次能够影响不仅是 4000 亿美元的软件市场,还包括 10 万亿美元的美国服务业 的 AI 变革浪潮。

而且SMLs非常适合担任这一角色。也许单个模型可能有限,但一群这样的模型——可以分步骤地完成复杂任务。更快、质量更高、更便宜。

让我们通过一个具体的例子来说明:假设你正在开发一个分析财务文件的系统。你可以将任务拆分成几个专门的模块或组件,而不是使用一个大型单一模型。

这里有一个关于专业代理之间信息流的例子。

而这种方法不仅更经济,而且更可靠:每个代理都只做自己最擅长的事。更便宜。更快。更好。 没错,我再说一遍。

为了举例说明,让我提到几个公司:

  1. H公司 在种子轮融资中筹集了1亿美元(约6.3亿人民币),用于开发基于SLM(2-3B参数)的多代理系统。他们的代理Runner H(3B)在任务完成成功率上达到了67%,相比之下,Anthropic的Computer Use为52%,并且成本显著降低
  2. Liquid AI 最近获得了2.5亿美元的融资,专注于构建高效的大型企业模型。他们的模型(1.3B参数)在同规模模型中表现更优异。同时,他们的LFM-3B在性能上与7B和13B模型相当,但所需内存更少
  3. Cohere 推出了专用于RAG应用的Command R7B,甚至可以在CPU上运行而无需特殊硬件。该模型支持23种语言,并可与外部工具集成,在推理和问答任务中表现出最佳水平。
  4. 您的公司名称 也可以加入这一行列。我在开发的Reforma Health 公司正在为各种医疗领域开发专门的SLM。这一决定是为了遵守HIPAA要求并适应医疗信息处理的特殊需求。我们的经验表明,高度专门化的SLM可以成为显著的竞争优势,尤其是在需要严格监管的领域。

这些例子说明了以下

  • 投资者看好专业的小模型的未来。
  • 企业客户愿意为无需将数据发送给外部提供商的高效解决方案买单
  • 市场正转向“智能”的专业代理,而不是依赖“通用”大模型

💡提示: 首先找出项目中的重复任务。这些任务最适合用来开发专门的SLM代理。这样可以避免为LLM的多余功能支付过多费用,同时让你更好地掌控整个流程。

SLMs与LLMs相比:可能的局限性

尽管我在整篇文章中都在夸小型模型,但也应公平地指出它们的不足。

1. 任务灵活性受限

SLM 的最显著限制是其专业领域狭窄。与能够处理广泛任务的 LLMs 不同,SLMs 只能在特定任务中取得成功。例如,在医学领域,Diabetica-7B 在糖尿病相关的测试中表现优于 LLMs,但在其他医学学科中,则需要额外的微调或采用新的架构。

大语言模型(LLM)与专门语言模型(SLM):灵活性 vs 专业化能力。

2. 上下文窗口的限制

相比之下,SLM 的上下文较短,不像像 Gemini 2.0 这样的大模型可以达到 1M 令牌。尽管最近的 LLaMA 3.2 小型模型(如 3B 和 1B)的上下文长度达到了 128K 令牌,实际的有效上下文长度往往不如所声称的那样:这些模型经常在文本的开头和结尾之间失去“联系”。例如,SLM 无法高效处理诸如数年累积的患者病史或大型法律文件这样的长文本。

不同模型之间的最大上下文长度限制比较如下。

3. 出现能力差距

许多“新兴能力”只有在模型达到一定的规模阈值时才会出现。SLM通常达不到达到高级逻辑推理或深度情境理解所需的参数水平。谷歌研究的一项研究表明,即使是简单的算术题,小模型也难以解决,而更大的模型则突然展现出复杂的数学推理技能。

然而,Hugging Face最近的研究表明测试时间计算扩展可以在一定程度上填补这一差距。通过采用迭代自我完善等策略或使用奖励模型,小型模型可以在复杂问题上“多思考一会”。例如,通过延长生成时间,较小的模型(10亿和30亿参数)在MATH-500基准测试中胜过更大的模型(80亿和700亿参数)。

💡提示: 如果你在一个工作任务每周都有变化、需要分析大量文档或解决复杂的逻辑问题的环境中,较大的LLM通常更可靠且功能更多样。

最后的感想

与我在之前的文章中选择开源AI和自托管LLM时一样,这里也没有一刀切的解决方案。如果你的任务涉及不断变化、缺乏明确的专业化需求,或者需要快速原型设计,那么LLM会为你提供一个轻松的开始。

然而,随着随着时间的推移,当你的目标越来越明确时,转向紧凑、专业的SLM代理可以显著降低成本并提高准确性,同时简化符合监管要求的流程。

从LLM的快速原型制作转向一个更优化的SLM代理生态体系。

SLM并不是为了追逐趋势而进行的范式转变,而是一种实用的方法,它使你能够更准确、更经济地解决特定问题,而不会为不必要的功能支付过多。你不需要完全放弃大型语言模型(LLM),你可以逐渐用SLM或甚至传统NLP方法来替代一些组件,而无需完全替换。这一切完全取决于你的指标、预算以及任务本身的特性。

IBM 就是一个很好的例子,采用了一种多模型策略,将不同类型的较小模型结合在一起,用于不同的任务。正如他们所说的,

更大的并不总是更好,专门化的模型在较低的硬件要求下表现更佳,胜过通用模型。

最终,成功的关键是适应。从一个大型模型着手,评估它在哪方面表现最好,然后优化架构,避免为不必要的功能支付过高的费用,同时保护数据隐私。这种方法让你可以兼顾两者的优势:在初期阶段利用大语言模型的灵活性和多功能性,而在产品成熟阶段则利用小语言模型的精准和成本效益。

如果你有任何问题或建议,欢迎在LinkedIn上联系,去掉“我”以使表达更加自然和简洁。

免责声明: 文中信息截至2024年12月为最新,但请注意,之后可能有所变动。

未特别注明的情况下,所有图片均由作者提供。

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消