首页手记 OpenAI...

OpenAI o3模型——快速与慢速的思考

标签：

机器学习人工智能自然语言处理

OpenAI今天发布了o3模型——这是“推理”模型的更进一步发展，也是接替o1的后续版本。

我对它在ARC-AGI-1基准测试上的改进印象深刻——这个基准测试被认为是当前一代LLMs无法超越的。o1的得分是32%，而o3则直接升至88%。发起ARC挑战赛（奖金100万美元，以奖励击败ARC-AGI的人）的团队对基于Transformer的模型能否在他们的基准测试中取得成功有着极高的信心，他们对o1的表现并不满意。然而，o3的博客文章却有着完全不同的态度，其中使用了诸如“令人惊讶”、“新颖”和“突破性”这样的词汇。然而，有一个问题——它非常非常昂贵：达到76%的得分大约需要花费9000美元，而88%的得分——OpenAI没有披露具体数额，据估算，总成本可能高达150万美元，因为其使用了172倍更多的计算资源。

o3 曾经让我想起一个在讨论大语言模型时常常提到的类比。无论任务有多复杂，GPTs 处理每个 token 所消耗的计算资源都是相同的，就像它们在不停地输出潜意识中的信息一样，从不停下来思考。这类似于人类大脑的系统 1 的运作方式。

简单回顾一下，《思考，快与慢》是丹尼尔·卡内曼在2011年出版的一本书。他在书中提到，根据功能（基于实证研究结果），我们的大脑有两个部门（或者说两种思维模式）：

系统1，快速 - 无意识的努力，自主的反应，联想的思考。
系统2，缓慢的 - 有意识的，谨慎的，逻辑的思考。

这两个系统相互合作，塑造了人类的思维过程。我们可以大声朗读一本书而不感到任何压力，却可能一个字也不记得。读书时，我们不断在脑海中重现场景和画面，追踪情节和时间线，不久便感到疲惫——但我们可能从中获得了新知识。

正如安德鲁·恩格曾经说过的，“试着不按删除键输入一段文字”——这听起来像是个挺难的任务，这也就是大语言模型的工作方式。

就这样，这些模型就是这样运作的，直到最近。随着o1（以及后来的Deepseek R1、QwQ、Gemini 2.0 Flash Thinking）的出现，模型学会了暂停，并以类似“慢”模式的方式运行。“Flash Thinking”可以保留英文或解释为“闪电思考”。

最近越来越多的人讨论大型语言模型预训练停滞不前、训练数据用尽以及人工智能发展遇到困难。

我们可能在2025年看到一种正在形成的趋势——将推理/思维模型与传统的大型语言模型结合起来，规划（慢）和行动（快），识别（快）和评估（慢）等等。

这里有一个来自Aider AI编程助理的最近的例子（https://aider.chat/2024/12/03/qwq.html），展示了QwQ作为架构，Qwen 2.5作为编码，采用两步的“架构-编码”流程如何提升编码效率。

这是否会实现还很难说。我们近期在慢模型上也没有看到太多进展，面临着许多挑战。目前还不清楚像o3这样的模型如何应对幻象。上下文窗口还是太小（https://dev.to/maximsaplin/gpt-4-128k-context-it-is-not-big-enough-1h02）。价格正在上涨...尽管这些慢模型在不同的“孤立”评估中取得了进展，但它们离真正的大规模实际应用（比如独立完成大型项目或模拟初级实习生https://x.com/karpathy/status/1868061331355840704）还有很长的路要走。另外，快模型（即演员），他们似乎在计算机操作方面（https://www.theverge.com/2024/10/22/24276822/anthopic-claude-3-5-sonnet-computer-use-ai）和自动化电脑文员方面仍然存在挑战。

PS >

大约在o3宣布的时候，我得到了o1-mini的API访问权限。我运行了自己的LLM Chess Eval，该程序模拟象棋对局，让模型和随机玩家对战。虽然之前的SOTA模型甚至一次胜利都拿不到（我假设这个基准测试和ARC评估一样难）…… o1-mini赢了30%的时间！现在我少了一些疑虑，毕竟应该还是有些道理的。

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

冉冉说

手记
篇

粉丝

44

获赞与收藏

197

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32676 369

网络编程入门教程

20个小节 13558 255

Pandas 入门教程

25个小节 20174 383

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

OpenAI o3模型——快速与慢速的思考

阅读免费教程