OpenAI o3-mini终于发布了!
让我们深入看看他们的官方声明。
他们今天发布了推理模型系列中的最新成员OpenAI o3-mini,这是最经济高效的一款,现在就可以在ChatGPT和API中使用。
o3mini(迷你版),虽然它是迷你版,但在性能测试中却超过了o1。这真让人惊讶,我很想知道未来几周即将推出的非迷你版o3会有什么表现。
2024年12月预览,这款强大且快速的模型超越了小型模型的能力界限,提供了卓越的STEM能力——尤其在科学、数学和编码方面——同时保持了OpenAI o1-mini的低成本和低延迟的优势。
开放AI o3-mini 的主要特点OpenAI o3-mini 是第一个小型推理模型,它支持开发人员所需的功能,包括但不限于:
此外,开发人员可以选择三种推理强度级别——低、中和高——以优化其特定应用场景。这种灵活性使o3-mini在应对复杂挑战时能够更加努力地思考,或在延迟是问题时优先考虑速度。
请注意: o3-mini 不 支持视觉功能。开发人员应继续使用 OpenAI o1 进行视觉推理相关的任务。
可用性- ChatGPT Plus、团队版和Pro用户 今天就可以使用OpenAI o3-mini了。
- 企业用户们 一周后就可以使用了。
- API用户(第3至第5级别) 可以开始将o3-mini集成到他们的应用中。
- 免费用户 可以通过在消息编辑器中选择“原因”,或重新生成回复来试用一下OpenAI o3-mini。
此次升级包括Plus和Team用户的消息限制将从每天50条消息(配备o1-mini)增至每天150条消息(配备o3-mini),即消息限制变为原来的三倍。
性能提升快速、强大,特别适合STEM领域推理
与其OpenAI o1的前辈类似,OpenAI o3-mini 在STEM推理方面进行了优化。在中等推理任务下,它在数学、编程和科学方面表现与o1相当,同时提供更快的响应。
精彩表现:
- 偏好率为56%高于o1-mini。
- 重大错误减少了39%。
- 在AIME和GPQA评估中的表现与o1一致,只需要适度的推理努力。
数学: 在低推理难度下,OpenAI o3-mini 的性能与 OpenAI o1-mini 相当。在高推理难度下,它不仅优于 OpenAI o1-mini,也超过了其前辈 OpenAI o1-mini 的前身 OpenAI o1。
在博士水平的生物、化学和物理问题上,OpenAI o3-mini在高推理强度下表现与OpenAI o1相当。
如图所示
OpenAI 的 o3-mini 在 高推理能力 上比其前任表现更佳,特别是在 FrontierMath 上,首次尝试就解决了超过32%的问题,其中包括超过28%的难题(T3)。
在Codeforces的编程竞赛中,OpenAI o3-mini随着其推理努力的增加,逐步提高其Elo分数。当推理努力处于中等水平时,它的表现与OpenAI o1相当。
OpenAI o3-mini 是在 SWE-bench Verified 中表现最佳的已发布模型。
- 39%的准确率,在开源无代理框架。
- 61%的准确率,用内部工具。
软件工程的表现怎么样?
OpenAI o3-mini 这款模型在 LiveBench 编码测试中表现出色。
OpenAI o3-mini 在这些方面表现出色的同时,标志着 成本效益更好的推理 方面的重要进展。凭借 更快的响应速度、更高的准确性以及更强的灵活性 ,它对于寻求高性能小型模型的开发者和用户来说,将是一个 不错的选择。
让我们看看接下来几天内关于deepseek-qwen-o3-mini的新基准。
*[面向对象]:OO
共同学习,写下你的评论
评论加载中...
作者其他优质文章