为了账号安全,请及时绑定邮箱和手机立即绑定

OpenAI-o3-mini与DeepSeek-R1大比拼

比较 o3-mini 和 DeepSeek-R1 在各种基准中的表现

这张照片来自 Solen Feyissa 拍摄,出处为 Unsplash

所以 OpenAI 今天终于发布了 o3-mini,所有 ChatGPT 用户都可以享受几个免费的使用次数。但大家最关心的问题一直都是呢?

OpenAI o3-mini比DeepSeek-R1怎么样?

尽管团队尚未发布任何直接比较,但现在有些基准测试数据开始浮出水面,表明 OpenAI-o3-mini-high 的表现可能优于 DeepSeek-R1。

LiveBench

全球平均水平

OpenAI o3-mini: 73.94

DeepSeek deepseek-r1: 71.38

对比来看:OpenAI o3-mini 在全球范围内的平均得分略高,显示出它在各种任务上的表现稍微好一些。

平均推理(推理的平均水平):

OpenAI o3-mini: 89.58

DeepSeek deepseek-r1: 83.17

相比之下,OpenAI o3-mini 在推理任务中的表现远远超过 DeepSeek deepseek-r1,这表明它在理解、分析和从信息中得出结论方面具有更强的能力。

编码平均值

OpenAI o3-mini: 82.74

DeepSeek deepseek-r1: 66.74

OpenAI o3-mini 在编程相关任务中表现更胜一筹,这表明其在理解编程概念和解决编程问题方面更为出色。对比:

数学平均分

OpenAI o3-mini: 65.65

DeepSeek deepseek-r1 79.54

相比之下,DeepSeek deepseek-r1 模型在数学任务中表现更佳,拥有更强的数学推理和问题解决能力。

数据平均分析

OpenAI o3-mini: 70.64

DeepSeek deepseek-r1: 69.78

对比来看:OpenAI o3-mini 在数据分析任务中稍微好一点,显示出它在解释和处理数据集方面稍微好一点。

语言平均水平

OpenAI o3-mini: 50.68分

DeepSeek deepseek-r1: 48.53分

相比之下,OpenAI o3-mini 在语言任务上略胜一筹。

平均:

对比来看,OpenAI o3-mini 的平均 IF 分数更高,这意味着它在各种任务上的表现更优秀。

不仅如此,OpenAI-o3-mini的性能甚至超过了DeepSeek-R1。

纽时连线谜题

  • o3-mini 模型得分为 72.4,使其在图表中表现出名列前茅,表明它在解决这项基准测试中的谜题方面非常有效,解决了这些难题。
  • DeepSeek R1 模型得分为 54.4,表现优异,但比 o3-mini 模型低 18 分,显示出一定的差距。
每個人類的終極考驗來了

准确度 (%) :

此指标衡量模型提供的正确响应的百分比。更高的准确率意味着在回答问题时表现更佳。

o3-mini(高):13.0%

DeepSeek-R1:9.4%

对比:o3-mini(高)模型的准确率比DeepSeek-R1高,表明它在这些任务中更有效地提供正确答案。

校准误差 (%) :

这个指标衡量模型对其预测的信心与实际正确性的一致程度。较低的校准误差表明模型的校准更好。

o3-mini(高): 93.2%

DeepSeek-R1: 81.8%

对比:o3-mini(高)的校准误差较高,这可能意味着它比DeepSeek-R1校准差。然而,校准误差在这里可能有点反直觉;较低的百分比实际上表示更好的校准。因此,DeepSeek-R1的校准更好。

其他基准

AIME 2024 : O3-mini 在处理复杂指令的能力方面优于 R1,但需要更高的推理努力。

SWE-bench Verified : O3-mini 比 R1 高出 0.1 分,同样需要较大的推理努力。

Codeforces : O3-mini 表现优于 R1

SWE-bench Benchmark : O3-mini 同样在这里优于 R1

AIME Benchmark : O3-mini 表现领先 R1

API 费用估算

o3-mini 虽然价格还算亲民,但它的价格仍然高于 DeepSeek-R1 API。

DeepSeek的R1模型通过其API每百万缓存输入标记收费1.4元,每百万输出标记收费21.9元。相比之下,O3-mini每百万缓存输入标记收费5.5元,每百万输出标记收费44元,一千万个标记相当于约75万个汉字。这使得O3-mini比O1-mini便宜约63%,并且在价格上与DeepSeek的R1模型相当。

开源的?

不,像往常一样,OpenAI的模型并没有开源,而这正是DeepSeek-R1的一大优势。它则是完全开源的。

总之,

ScrollIndicator: This response includes the Markdown formatting as specified, and the translation reflects the expert suggestions for both accuracy and style.

总的来说,OpenAI的O3-mini 在大多数测试中表现更佳,特别是在推理、编码和执行一般任务的表现方面。然而,DeepSeek-R1数学方面依然更胜一筹,并且在某些测试中,评估准确性更好。

当谈到成本时,DeepSeek-R1更实惠,对于那些讲究性价比的用户来说是更好的选择。两者之间最大的区别在于,DeepSeek-R1是完全开源的,而O3-mini依然保持封闭,这与OpenAI的一贯做法保持一致。

所以,你更喜欢哪个?DeepSeek-R1 还是 o3-mini?

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消