这张照片来自 Solen Feyissa 拍摄,出处为 Unsplash
所以 OpenAI 今天终于发布了 o3-mini,所有 ChatGPT 用户都可以享受几个免费的使用次数。但大家最关心的问题一直都是呢?
OpenAI o3-mini比DeepSeek-R1怎么样?尽管团队尚未发布任何直接比较,但现在有些基准测试数据开始浮出水面,表明 OpenAI-o3-mini-high 的表现可能优于 DeepSeek-R1。
LiveBench全球平均水平
OpenAI o3-mini: 73.94
DeepSeek deepseek-r1: 71.38
对比来看:OpenAI o3-mini 在全球范围内的平均得分略高,显示出它在各种任务上的表现稍微好一些。
平均推理(推理的平均水平):
OpenAI o3-mini: 89.58
DeepSeek deepseek-r1: 83.17
相比之下,OpenAI o3-mini 在推理任务中的表现远远超过 DeepSeek deepseek-r1,这表明它在理解、分析和从信息中得出结论方面具有更强的能力。
编码平均值:
OpenAI o3-mini: 82.74
DeepSeek deepseek-r1: 66.74
OpenAI o3-mini 在编程相关任务中表现更胜一筹,这表明其在理解编程概念和解决编程问题方面更为出色。对比:
数学平均分:
OpenAI o3-mini: 65.65
DeepSeek deepseek-r1 79.54
相比之下,DeepSeek deepseek-r1 模型在数学任务中表现更佳,拥有更强的数学推理和问题解决能力。
数据平均分析
OpenAI o3-mini: 70.64
DeepSeek deepseek-r1: 69.78
对比来看:OpenAI o3-mini 在数据分析任务中稍微好一点,显示出它在解释和处理数据集方面稍微好一点。
语言平均水平:
OpenAI o3-mini: 50.68分
DeepSeek deepseek-r1: 48.53分
相比之下,OpenAI o3-mini 在语言任务上略胜一筹。
平均:
对比来看,OpenAI o3-mini 的平均 IF 分数更高,这意味着它在各种任务上的表现更优秀。
不仅如此,OpenAI-o3-mini的性能甚至超过了DeepSeek-R1。
纽时连线谜题- o3-mini 模型得分为 72.4,使其在图表中表现出名列前茅,表明它在解决这项基准测试中的谜题方面非常有效,解决了这些难题。
- DeepSeek R1 模型得分为 54.4,表现优异,但比 o3-mini 模型低 18 分,显示出一定的差距。
准确度 (%) :
此指标衡量模型提供的正确响应的百分比。更高的准确率意味着在回答问题时表现更佳。
o3-mini(高):13.0%
DeepSeek-R1:9.4%
对比:o3-mini(高)模型的准确率比DeepSeek-R1高,表明它在这些任务中更有效地提供正确答案。
校准误差 (%) :
其他基准这个指标衡量模型对其预测的信心与实际正确性的一致程度。较低的校准误差表明模型的校准更好。
o3-mini(高): 93.2%
DeepSeek-R1: 81.8%
对比:o3-mini(高)的校准误差较高,这可能意味着它比DeepSeek-R1校准差。然而,校准误差在这里可能有点反直觉;较低的百分比实际上表示更好的校准。因此,DeepSeek-R1的校准更好。
API 费用估算AIME 2024 : O3-mini 在处理复杂指令的能力方面优于 R1,但需要更高的推理努力。
SWE-bench Verified : O3-mini 比 R1 高出 0.1 分,同样需要较大的推理努力。
Codeforces : O3-mini 表现优于 R1
SWE-bench Benchmark : O3-mini 同样在这里优于 R1
AIME Benchmark : O3-mini 表现领先 R1
o3-mini 虽然价格还算亲民,但它的价格仍然高于 DeepSeek-R1 API。
DeepSeek的R1模型通过其API每百万缓存输入标记收费1.4元,每百万输出标记收费21.9元。相比之下,O3-mini每百万缓存输入标记收费5.5元,每百万输出标记收费44元,一千万个标记相当于约75万个汉字。这使得O3-mini比O1-mini便宜约63%,并且在价格上与DeepSeek的R1模型相当。
开源的?不,像往常一样,OpenAI的模型并没有开源,而这正是DeepSeek-R1的一大优势。它则是完全开源的。
总之,ScrollIndicator: This response includes the Markdown formatting as specified, and the translation reflects the expert suggestions for both accuracy and style.
总的来说,OpenAI的O3-mini 在大多数测试中表现更佳,特别是在推理、编码和执行一般任务的表现方面。然而,DeepSeek-R1 在数学方面依然更胜一筹,并且在某些测试中,评估准确性更好。
当谈到成本时,DeepSeek-R1更实惠,对于那些讲究性价比的用户来说是更好的选择。两者之间最大的区别在于,DeepSeek-R1是完全开源的,而O3-mini依然保持封闭,这与OpenAI的一贯做法保持一致。
所以,你更喜欢哪个?DeepSeek-R1 还是 o3-mini?
共同学习,写下你的评论
评论加载中...
作者其他优质文章