OpenAI 发布了两个新模型,OpenAI o1-preview 和 OpenAI o1-mini。这也被称为其“草莓”系列,尽管这个截图可能显示不同
这些新模型被设计为在回答之前进行更深入的思考,并且比以前更好地处理复杂的解决问题。
在我们深入探讨之前,需要提到的是,o1 和 o1-mini 只有 ChatGPT Plus 或团队用户才能使用,免费用户无法使用。
现在……什么是更深层次的推理呢?这些模型可以优化它们的思考方式,尝试不同的策略,甚至能发现自己的错误。特别是o1-preview模型,它在STEM领域(如科学、编程和数学)的复杂任务处理上更为有效。
例如,在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 正确解决了 13% 的问题,而 o1-preview 模型的得分是 83%。
这在我们提出一个高难度的数学问题并收到分步骤详细解答时表现得尤为明显,每个步骤都得到了充分的支持和解释。
甚至不需要是高层次的问题就能得到详细的回答当被问及现实生活中的数学情景时,我们会得到其背后完整的思维过程。
即使对于诸如著名的_“热狗是三明治吗?”_这类有趣且荒诞的问题,该模型也为我们提供了一个结构化的回答格式。
看来 o1-preview 在说话前会思考一下此模型旨在更深入地思考并更好地解释其思维过程,而不仅仅是给你答案。这在UI本身中也可以看到,因为它会分享它思考问题的时间。
与 ChatGPT 4o 相比,这可能会感觉延迟更明显,然而正如所见,响应背后有更多的细节。
更多的是关于学习与ChatGPT 4相比,当被要求为一个简单的博客提供代码时,o-1 preview不仅提供了代码,还解释了代码的含义以及下一步的操作。
还实施了新的安全培训o1-preview 模型不仅被训练为遵循安全指南,还能在上下文中理解和推理这些指南。这意味着它们可以更有效地应用安全规则,因为在生成响应时会“思考”这些指南。
这有助于防止“越狱”——即用户试图让AI绕过其安全协议的行为。OpenAI采取了全面的安全措施,包括严格的测试、与安全机构的合作以及加强内部治理。
除了 o1-preview,OpenAI 还发布了 o1-mini这是一个更小、更快且更经济的模型,专为编码任务进行了优化。与完整的 o1-preview 模型相比,它便宜了 80%,这种代码缩减使得高级 AI 功能能够为更广泛的用户所使用。
它非常适合开发者、教育者和企业,这些群体希望获得高效的人工智能辅助,而无需具备广泛的世界知识。
但是有些熟悉的功能存在一些限制与之前的模型不同,o1-preview 无法浏览网站或允许文件上传。对于 o1-mini,每周的消息限制为 50 条。然而,Open AI 计划在未来实现并改进这些功能。
API 的新功能有哪些?目前,该模型仅对API使用层级5的账户开放,但很快将会对所有人开放。
要达到第五级,你必须已经支付了1000美元,并且从首次成功付款给OpenAI以来已经过去了30天以上。
进一步来看定价,这里有一个快速比较:
- GPT-4o — $5.00 / 1M 输入令牌;$15.00 / 1M 输出令牌
- o1-preview — $15.00 / 1M 输入令牌;$60.00 / 1M 输出令牌
- GPT-4o mini — $0.150 / 1M 输入令牌;$0.600 / 1M 输出令牌
- o1-mini — $3.00 / 1M 输入令牌;$12.00 / 1M 输出令牌
这两个模型最初每分钟也有20个请求的限制(RPM),尽管这个限制可能会发生变化。
当前模型的其他限制包括以下几点:
- 模态:仅支持文本,不支持图像。
- 消息类型:仅支持用户和助理消息,不支持系统消息。
- 流式传输:不支持。
- 工具:不支持工具、功能调用和响应格式参数。
- Logprobs:不支持。
- 其他:
temperature
、top_p
和n
固定为1
,而presence_penalty
和frequency_penalty
固定为0
。 - 助理和批量:这些模型不支持在助理API或批量API中使用。
如果你想更深入地用Python测试o1模型,可以在这里阅读更多相关内容:这里。
比较响应时间及令牌数量响应时间
- GPT-4o — 5 秒
- o1-preview — 20 秒
- GPT-4o mini — 4 秒
- o1-mini — 11 秒
由于其 推理 能力,o1 模型生成响应所需的时间显著更长。
令牌
- GPT-4o — 401 个令牌
- o1-preview — 2086 个令牌
- GPT-4o mini — 415 个令牌
- o1-mini — 1791 个令牌
这取决于你的使用场景。到目前为止,o1模型的一个重大改进是它能够为复杂和简单的问题提供推理和解释。
如果你正在创建或密切从事STEM相关科目,那么在你的设置中尝试使用o1模型是值得的。如果你需要帮助开发你的AI系统,我们也在这里进行通话!
但我们认为,对于你应用程序中的大多数任务,目前它们还无法证明其定价和响应时间的合理性。尽管我们期待看到OpenAI在未来如何改进这一点。
共同学习,写下你的评论
评论加载中...
作者其他优质文章