首页手记 OpenAI的o1 Mini与o1...

OpenAI的o1 Mini与o1 Preview全面对比：哪个更适合你？

标签：

大数据机器学习人工智能

OpenAI最近发布的o1系列引起了广泛关注。o1 Mini和o1 Preview这两个模型拥有独特的功能和权衡。本文将深入比较这两个模型，重点比较它们的性能、定价以及应用场景。

OpenAI o1 Mini和o1 Preview简介（o1 Mini和o1 Preview是OpenAI的产品）

o1 Mini 和 o1 Preview 这两款均于 2024 年 9 月 12 日发布，标志着 OpenAI 模型系列新时代的开始。这些模型有若干共同点：

输入上下文长度：这两个模型都支持128K令牌的输入上下文窗口。
知识截止日期：这两个模型的知识库更新截止到2023年10月。
提供商：这两个模型的提供商均为OpenAI公司。

不过，有一些明显的不同之处：

最大输出令牌数：o1 Mini 在单个请求中最多可以生成 65.5K 令牌，而 o1 Preview 限制为 32.8K 令牌。
价格：o1 Mini 便宜得多，输入每百万令牌收费 3.00 美元，输出每百万令牌收费 12.00 美元。相比之下，o1 Preview 的输入每百万令牌收费 15.00 美元，输出每百万令牌收费 60.00 美元。

性能基准对比：o1-preview vs o1-mini vs GPT-4

虽然全面的基准测试还在准备中，初步测试和OpenAI的披露内容已经让我们对这些模型在各种任务中的表现有了了解。

数学

在美国数学邀请赛（AIME）中：

o1 迷你版: 70.0%
o1 预览版: 44.6%

这一表现使得o1 Mini与美国大约前500名高中生的数学水平持平。

写代码

在Codeforces竞赛网站：

Mini: 1650 ELO
预览: 1258 ELO

o1 Mini的Elo分数值它在Codeforces平台上处于第86百分位的程序员参赛者之中。

STEM 教育

在某些需要推理能力的学术要求上：

GPQA（科学）, o1 Mini 胜过 GPT-4
MATH-500, o1 Mini 胜过 GPT-4

不过，需要注意的是，o1 Mini因为世界知识更为有限，在GPQA上落后于o1 Preview。

基于人类喜好的评估

在具有挑战性和开放性提示的比较中，与GPT-4o相比：

o1 Mini 更适合需要大量推理的领域
o1 Mini 在语言为重点的领域则不太适用

瑞典速度与效率

o1 Mini 的一个最大优点是其速度，。在比较一个单词推理问题的响应时间时：

o1 Mini：比GPT-4快3到5倍
o1 预览：比GPT-4快，但比o1 Mini稍慢一些

这种速度优势使得o1迷你版特别适合要求迅速响应或处理大量数据的应用场景。

瑞典烤肉三明治

专业能力

迷你课程：STEM 课程聚焦

o1 Mini 在预训练期间专门针对 STEM 领域的推理进行了优化。因此它在以下方面表现出色：

数学
编码
科学思维

然而，这种专注在其他知识方面却有所欠缺。在非STEM主题上，例如日期、人物传记和一般知识方面，o1 Mini的表现与较小的语言模型，例如GPT-4 mini，差不多。

o1 预览：更强大的功能

虽然 o1 Preview 版本在 STEM 领域的表现不如 o1 Mini 版本，但它在以下任务上表现更佳：

基础知识
语言理解
跨领域广泛推理

安全性和，稳健性

两者都使用了OpenAI的对齐和安全技术进行训练。但是，o1 Mini在某些方面表现出优势：

在内部版本的StrongREJECT数据集上，相比GPT-4，越狱抗性提高了59%
通过了与o1预览版同样的严格安全评估和外部红队测试

这种增强的安全特性使O1 Mini在安全和遵守规范极其重要的场景下非常值得选择。

基于案例的用例和应用场景

o1: Mini

STEM 领域：非常适合用于创建问题集、解释复杂概念和解决实际问题，在数学、物理等学科的作业上提供帮助。
编程支持：非常适合代码生成、调试及解释多种编程语言的概念。
科学研究：在 STEM 领域的数据分析、假设生成和文献回顾方面提供支持。
快速原型设计：其快速迭代的能力，适合于软件开发和工程设计。
自动推理：在需要基于结构化数据做出快速逻辑决策的应用中非常有用。

o1 预览一下

内容创作——更适合生成各种主题的多样化内容，因为它具有更广泛的知识基础。
更擅长进行细致入微的多语言翻译和理解上下文。
能够处理跨不同行业的各种客户咨询。
更适合处理和分析多样化的市场趋势和消费者行为。
更适合进行综合性跨学科研究，涵盖STEM领域之外的内容。

成本考虑

这些模型的定价模式在它们被采用的过程中扮演着至关重要的角色。

o1 Mini的价格比o1 Preview便宜大约80%
这种成本效益让o1 Mini在大规模应用中，特别是在STEM领域，非常有吸引力

对于主要专注于STEM应用的组织而言，o1 Mini设备在这些领域提供了显著的成本效益，同时在性能表现方面也不打折扣。

限制和未来的发展方向

o1 Mini

在非STEM领域的知识有限
在这些任务上可能有些吃力，因为它们需要广泛的文化或历史知识

OpenAI已经表示计划在未来的版本中解决这些问题，有望将o1 Mini的功能扩展到STEM领域以外的其他领域和专业。

o1 预览一下

较高的成本可能使它在某些应用中受到限制
处理速度比o1 Mini慢一些

未来的更新可能会侧重于提高处理速度和效率，使o1 Preview在与o1 Mini的竞争中更具优势。

集成与易访问性：

这两个模型都可以通过OpenAI的API接口获得，但在访问上有一些不同。

仅适用于 ChatGPT Plus 用户（包括团队和企业用户）
API 访问权限仅对 API 使用层级 5 的开发者开放
在 ChatGPT 中，o1 Preview 每周的消息上限为 30 条
o1 Mini 每周的消息上限则为 50 条

达到这些限制时，用户需要换成相应的GPT-4o版本。

结论部分

所以说，结论

结论是

o1 Mini 和 o1 Preview 的发布标志着AI模型能力的重大进步，特别是在推理和特定任务方面。o1 Mini 在STEM（科学、技术、工程和数学）领域表现出色且性价比高，使其成为这些领域内专注于这些组织的吸引力选择。其在数学和编程方面的速度和专业能力使其区别于之前的模型，突显其优势。

另一方面，o1 Preview 提供了一种更为均衡的方法，在更广泛的任务上表现出色，并提供更全面的通用知识。虽然它的价格更高，但其多功能性使其适用于需要多种能力的应用。

对于用户或组织来说，最终选择 o1 Mini 还是 o1 Preview 取决于具体需求。对于那些需要在成本效益和速度方面有高要求的STEM领域的应用，o1 Mini 显然是更好的选择。而对于需要广泛知识和灵活性的一般用途应用，相比之下，尽管 o1 Preview 的成本较高，它可能更适合那些需要广泛知识和灵活性的一般用途。

随着 OpenAI 继续改进这些模型，我们可以期待在专门化和通用能力方面都会有进一步的改进。AI 社区热切期待未来的发展，这些发展可能弥合专门化和通用型模型之间的差距，可能彻底改变我们处理各个领域中的复杂问题解决和决策的方式，从而推动技术革新。

总之，如果你想在一个地方统一管理所有的AI模型，可以考虑以下内容：