在《银河系漫游指南》:中,超级计算机深思花了750万年时间计算关于“生命、宇宙及一切”的终极问题的答案。
今天,我们部署了自己的“深思”形式的先进AI“推理”模型:OpenAI刚刚宣布的o3和o3-mini 相较于之前的o1和o1-mini 是一种进步,谷歌的Gemini快速思考 和阿里的QWQ。这些模型可能不像“深思”一样需要7.5百万年才能计算出答案,但像“深思”一样,它们在推理过程中可能会增加计算量,有时需要花上一分钟甚至更长时间来解决难题。这是否是现实模仿科幻?
不存在的扩展难题最近这段时间,大家都在讨论使用基于Transformer架构的AI可能遇到了扩展瓶颈——即不断增大模型规模导致大型语言模型的收益递减。证据是,至少有半年时间,我们在前沿模型上没有看到重大突破。
那么,具体有哪些证据表明人工智能的进展停止了?
2024年初,AI模型在ARC-AGI测试中只得了5分。
九月份,我们是32%的进度。
如今,随着OpenAI的新产品o3发布后,仅仅过了3个月,我们已经达到了88%的水平。
就在一个多月前,Epoch AI 推出了 FrontierMath,这是一个由专家设计的一系列数学问题,旨在测试 AI 系统的高级逻辑思维。这些问题难度之大,以至于难倒了不少 AI 系统。这些难题让许多 AI 系统都难以应对。
“每个问题都需要专家数学家花上好几个小时来解决。即使是现在最前沿的AI系统,比如GPT-4和Gemini,它们能解决的也只有不到2%。” — EpochAI
但OpenAI的o3已经领先一大步,得分达到25%。我们现在有了一个不仅数学能力强,甚至能与人类博士匹敌的AI模型。
我和一个正在学数学的本科朋友试了一下。她告诉我“AI不怎么行”,我就让她出个数学难题。然后我就把这题给OpenAI的模型o1做了,结果它还真做出来了,我朋友对AI的看法也变了。
关于AI能否突破像Munch猜想那样的极限,这种讨论源于一丝真理:我们终将到达一个点,在那个点上,单纯使AI模型变得更大已无法获得边际效益递减的回报。这似乎是显而易见的,但也忽视了这一点:还有很多其他创新可以提升模型性能。
2024年,我们取得的进展主要得益于一种架构创新,即使用Chain of Thought技术。但还有其他创新正在出现——比如MoE、Mamba等。在大模型世界里,充满了各种各样的想法,不仅仅是增大模型规模就能实现扩展。
什么是“思维链条”以及它为什么重要?在像OpenAI的o1和o3、Google的Gemini-Flash-Thinking,还有阿里云的QWQ这样的模型的核心,有一个叫做“链式思维”(Chain of Thought,简称CoT)的概念。想要深入了解“链式思维”的细节,可以在这里查看其原论文这里。
作为旁注,值得注意的是,引入Transformer架构的原始论文(《注意力就是你所需的一切》(https://arxiv.org/abs/1706.03762)),使用了混合专家架构(《极其庞大的神经网络:稀疏门控的混合专家层》(https://arxiv.org/abs/1701.06538))的顶级LLM和关于链式思维提示的这篇论文(《链式思维提示激发大型语言模型进行推理》(https://arxiv.org/abs/2201.11903))都是由Google Brain团队发表的。可以说,没有Google Brain团队公开发布他们的研究成果,LLM不可能达到今天的水平。这是“开放科学”的一个典型例子,但这是一个很好的例子,因为它展示了开放出版如何让思想传播并推动整个领域前进,而如果这些知识只局限于一个机构内部,这种效果是不可能实现的。
回到CoT话题,它是一种技术,通过这种方式,大型语言模型会被提示展示其推理过程,就像在数学问题中逐步解题一样。CoT提示提供了如何推理问题的例子,这些例子可以用来帮助用户将问题分解成步骤。像o1和o3这样的模型在模型本身中集成了CoT技术,并且融入了多种推理风格,以便给模型提供多种选择。
因此,这些推理模型并不会直接从一个问题跳到一个答案,而是先列出中间步骤或部分结论,最后才会给出最终答案。
CoT 的结果是:,
- 简化复杂性:通过将步骤细化,模型能够处理更复杂或多阶段的任务。这就像一步一步地解一个多变量方程一样。
- 提高准确性:这些中间步骤让模型更容易检查和优化其逻辑,从而在处理复杂问题时减少错误。
- 增强可解释性:虽然这些步骤未必完全符合人类的思维方式,但它们仍然可以为开发人员和最终用户提供一个有用的“透视窗”,以判断模型得出的答案是否合理。
我们不知道CoT在这些模型中的具体应用细节,因为这些细节受到商业保密。我们确实知道,所有这些推理模型都在使用CoT,并且显著影响了这些模型的表现。
CoT 的工作原理是通过给模型展示问题及其解决步骤的例子来引导模型,然后让模型根据这些例子来解决新的问题,这种方法非常简单。
使用Chain of Thought(CoT)的模型可以采用不同的方法来解决特定类型的数学问题或编码挑战。如果这个推理技术库足够丰富,模型就有多种可能的解决方法可供选择。它甚至可以尝试不同的路径并再进行比较。我们知道至少OpenAI的模型确实会这样做,因为你可以在获取答案时指定所需的计算资源量。这意味着你在指定CoT应执行多少“工作”,以及模型应探索多少不同的推理路径。如果模型能够探索更多路径,通常会得出更好的结论,这并不令人惊讶。
从僵化的规则到灵活思考在之前的AI时代,重点是试图将领域分解成可以编码的规则,但在这个时代,我们则专注于教会机器如何思考和解决问题。这显然是一次重大的进步,因为机器可以将其解决问题的知识应用到之前未曾见过的新领域和新问题上。
然而,基于规则的系统面临着它们的支持者很少承认的挑战:大多数领域的现实是混乱的,专家并不清楚那些规则是什么。或者,这些规则复杂到难以理解,以至于管理这些规则的人在定义规则时出错。因此,基于规则的系统并没有像一些人想象的那样准确。
“专家的知识往往不够明确或不完整,因为专家本人并不总是清楚自己知道些什么。”例如,费根鲍姆和麦科德克在《第五代:人工智能与日本的计算机挑战》一书中提到。
能够尝试解决不同问题的方法并尝试不同的途径,而不是遵循一套固定的规则,因此最近的AI模型展现出高“能力”。
然而,对于像“谁是美国总统”这样简单的问题,你不会察觉到任何不同。要真正体验所谓的推理模型的能力,你需要提出更复杂的问题。这就是一些测试过这些模型的人感到失望的原因。这有点像在鸡尾酒会上与一个博士生聊天——对全球政治的表面讨论不太可能帮助你了解学生对黑洞数学的理解。
扩展推理计算能力,而不是训练计算我们大多数人认为“扩容”一个LLM意味着使它的规模更大,拥有更多的参数,用更多数据训练更长时间等,换句话说,我们陷入了这样的假设,即“扩容”就意味着增加训练模型所需资源。
然而,事实证明,你也可以调整推理时使用的计算资源,而这正是这些推理模型所做的事情。这种方法在另一篇由Google Brain团队发表的论文中有所详述,论文题目为“在测试阶段优化大规模语言模型计算量优于扩展模型参数”。换句话说,像OpenAI的o3这样的模型之所以聪明,并不是因为它们更大,而是因为一个同样大小的模型被赋予了在提问时“做更多事情”的能力。这并不是“扩展墙”支持者所指的那种扩展,但它确实也是扩展。
有趣的是,谷歌的研究表明,在增加训练或推理计算的资源方面存在权衡,这些权衡以不同的方式影响模型的不同功能。换句话说,并没有一个简单的答案——这很复杂!随着大语言模型的进一步发展,我完全预期会采用更多样的技术,不同团队可能会偏好不同的组合方式。换句话说,在构建更智能的机器方面并没有一个固定的方法,就如同大自然在构建智能生命时也没有遵循单一的方法。
当考虑人工智能在未来十年中可能的发展时,我们需要抛弃单一、线性发展的想法。相反,其发展更可能像错综复杂的小径网络,而不是一条单一、明确的道路。
“推理模型”现在挺火的地方CoT使AI系统显得更聪明,使像高级科学问答或复杂的逻辑谜题这样的任务变得更加简单。测试结果也证实了这一点:o3在多个指标上得分显著高于之前的模型,在某些特定测试中展现出了接近人类甚至超人类的能力。OpenAI特别强调,o3在科学问答、数学和逻辑谜题方面特别出色。
然而,大多数业务领域并不像那三个领域。这是否意味着这些模型只是些无实际用途的花哨东西?
我不认为它有效。在软件工程领域,这种复杂的逻辑推理能力有明确的应用价值。从我个人使用o1的经验来看,将复杂的编码请求分解为逐步的任务,这使得AI能够产生更准确的解决方案,并解决其他模型无法解决的复杂问题。
自从发布以来,每周我都看到o1用几分钟时间完成那些原本需要我花一整天时间才能完成的任务。o1带来了显著的价值,远远超过我每月支付的20美元费用。这大概也是为什么现在有了每月200美元的“专业”订阅层的原因。虽然价格涨幅很大,但“专业模式”可以让o1“运算”更长时间,解决更复杂的难题。
像 o1 这样的模型表明,人工智能的能力已经达到可以彻底改变整个软件工程行业的程度。新的原生AI工具正在兴起(例如 Cursor,V0,Bolt,Windsurf,Lovable 等),工作流程和所需技能也在发生显著变化。那些拥抱这一变化的人将享受到前所未有的生产效率提升。
并非每个人都能马上理解这一点,我也遇到过不少持怀疑态度的人。然而,我个人的经历让我确信他们是错误的。我们正处于根本性变革的边缘,软件工程领域就在我们眼前发生变化。将来,我们会像现在看待那些编写机器语言代码的人一样看待今天的程序员,他们精心设计算法,以节省单个字节为目标。就像我们现在看待那些编写机器语言的人一样看待今天的程序员。
如果我们能在软件工程方面看到这种程度的影响,我看不到任何理由不相信其他学科会跟进。软件工程只是走在前列。
一个警告复杂的科学问答和逻辑谜题与我平时在编码之外遇到的商业应用场景差别很大。相比之下,更普通的应用需求更注重可预测性,并且需要更强地遵循指令。
大型语言模型有时会忽略复杂提示中的部分内容,这在许多业务场景中是一个重要问题。推理模型有可能改善这一情况,这让人感到兴奋。但现在还处于早期阶段,基于链式思考的初步模型存在延迟问题并成本高昂,使它们无法直接替代更简单的模型。
OpenAI的o3-mini和Google的Gemini Flash Thinking(o3-mini)(Gemini Flash Thinking)因为它们既是推理模型,又显著减少了延迟而引人注目。然而,由于o3-mini尚未发布,而Gemini Flash Thinking仅作为实验性模型提供且没有确认的最终定价,现在还为时过早,无法断定。如果我是个赌徒,我会说,到2025年底,大多数模型将能够进行推理。
这真是AGI吗?ARC Prize 对 AGI 的定义是:
“AGI 是一个能够高效地获取新技能并解决开放性问题的系统。”
按照那种定义,我们还没有达到那个阶段。能够“迅速学习新技能”意味着AI能够自行学习——不需要人工进行标记或提示。有了真正的通用人工智能(AGI),你就不必再为客服或医疗诊断等领域专门构建系统;AI会自动适应你的领域,不需要额外的帮助。这很令人兴奋(也许还有些令人害怕),但这与我们今天拥有的技术相差甚远。
令人印象深刻的,但并不聪明(像猫一样)比如说:o3 在 GPQA 钻石基准上取得了 87.7% 的准确率,这一基准代表了博士级别的科学问题。o3 的准确率超过了真正的博士(65%),远远超过了非专家评审员(34%),即便这些评审员有长达 30 分钟的时间和全面的互联网访问权限。然而,o3 仍然无法从现实世界的经历中学习,也无法独立地将其推理应用到不相关任务。
正如扬·乐昆指出的,即使是目前最好的大语言模型,目前还比不上一只猫的能力。
“一只猫能记住事情,能够理解环境,能够计划复杂的行为,能够进行一定程度的思考——实际上比最大的语言模型还要强。这说明我们在理论上还有很大的欠缺,才能让机器拥有像动物和人类一样的智能。”
猫可以与复杂的物理环境互动,实时地学习和适应,这是人工智能目前还无法复制的。没有人会把他们的猫隔离一个月来做训练。也没有人需要提示猫该做什么——猫自己就能自己学会,它们自己就能搞清楚。
虽然AI模型并不会和猫一样竞争,它们正在做一些可以说更实用的事情。猫不能回答博士水平的科学问题,甚至解决不了客服问题,但一些聪明的人可以用LLMs构建系统来完成这些任务。
或许我们真的不需要AGI?毕竟,Catbert是虚构的。在通往AGI的路上的AI模型可能在大多数商业场景中就跟真正的AGI一样有用。大多数企业更看重可预测性而非“神奇地解决问题的能力”,因此,我们实际上并不需要真正的AGI,AI就足以改变我们的世界。
现在谁还关心智商值不值钱?根本测不准。OpenAI的o3的一个显著特点是其成本。o1的运行成本已经相当高,而o3则更加资源密集。OpenAI展示了一张图表,暗示在某些情况下,每项任务的成本可能超过1000美元。
进入 o3-mini:早期演示表明,o3-mini 在更低的成本下超越了 o1,且延迟与 GPT-4 类似。
成本很重要,因为它常常决定了一个应用场景是否能赚钱。
关键是什么呢?每一代新模型都在提升性能的同时降低成本,o3-mini就是典型的例子。
结论:路比终点更重要我们将持续多年讨论“这是否已经是通用人工智能了?”随着模型越来越令人印象深刻,这些模型的性能已经越来越接近甚至超越人类的表现。OpenAI 的 o3 在一些极其复杂的任务上已经可以匹敌甚至超越人类的表现,这已经促使一些人开始了这一辩论,辩论已经正式拉开帷幕。“这是通用人工智能!”的声音每年只会更响亮,但当辩论转而停滞不前的时候要留心。
然而,我们在通往AGI的道路上开发的技术将产生巨大的影响,其中一个关键原因是大多数企业其实并不需要真正的AGI。能够“自己解决问题”的模型虽然很有吸引力,但那些能够可靠遵循人类指令的模型将会带来巨大的变化。
我们不断看到基准被突破,这表明我们不必担心所谓的“遇到瓶颈”。朝着任何复杂目标的进步通常不是直线前进的,因此,途中遇到一些困难是预料之中的。但这并不意味着遇到障碍就意味着停滞不前。如今投入到人工智能研究中的集体智慧和资金投入意味着几乎没有解决不了的问题。我预计在未来十年内会取得重大突破,即使这些突破可能是时有时无的。
我这里有5个预测:
- 智力和资金被投入到AI中,这意味着我们正在一条无法阻挡的道路上迈向通用人工智能(AGI)。所谓的“推理”模型只是即将到来事物的一个预告。
- 正如人类智能不同于其他生物智能形式,例如章鱼和鲸鱼,可能有多种形式的AGI。没有单一的终点,通往AGI的路径可能变得更加复杂。
- 我们在通往AGI的道路上开发的技术可能会和真正的AGI一样具有影响力,甚至更大。大多数日常业务需要的是可预测的AI,而不是那么多的“让模型自己处理”的AGI。
- 人工智能带来的社会变革已经开始,软件工程处于最前沿。但其他领域也将迅速跟进。变化即将来临。
- 追求AGI和沿途开发的技术将重塑商业、工作的性质和社会。从软件工程早期影响中我们可以看到的是,那些成功的人是那些拥抱自己作为“AI协调者”新角色的人,利用各种新工具和技术,并学会如何从每个工具中获得最佳效果。了解如何使用新技术和工具是真正的技能。
我这篇帖子开头引用了《银河系漫游指南》的内容,现在我也想用这本书来结尾。《指南》告诉我们,戈尔加弗林查那星上的居民把所有那些没用的中间层经理送到了外太空。《指南》定义了这一群体,包括电话清洁工、管理咨询师和市场营销人员(向管理咨询师和市场营销人员们表示歉意,当然我知道他们在各自的领域做得非常出色)。也许这是一个值得思考的一课,那就是在这个人工智能的时代,我们所有人都需要努力提高自己的实用技能,因为没有人愿意像戈尔加弗林查那星上的电话清洁工那样被边缘化。
共同学习,写下你的评论
评论加载中...
作者其他优质文章