OpenAI 满血版 o1 API 正式开放,实时 API 全面支持 WebRTC,音频 Token 价格更是直降 60%! 这一系列更新预示着 AI 应用开发将迎来爆发式增长,个人定制 AI 助手(类似电影《Her》中的场景)的时代或将来临。
一、满血 o1 API 开放:函数调用、视觉输入、结构化输出等功能齐备
自 9 月推出 o1-preview
以来,开发者们已经基于此构建了各种应用,如智能体、客户支持、财务分析等,其编程能力也备受好评。然而,o1-preview
缺少一些核心功能。此次,OpenAI 正式开放了满血版 o1 API,补齐了这些短板。
开发者获取OpenAI API Key便捷 的步骤如下:
通过第三方 API 代理服务,价格平价,聚合众多AI只需要一个接口即可调用 (推荐) uiuiapi.com
平台提供 OpenAI API 的API分发服务,可以提供更便捷的访问方式:
安全风险: 通过官方途径获取 API Key分发,数据保存用户本地,无风险。
稳定性问题: 第三方服务的稳定性采用企业级服务器,支持高并发。让您的应用正常高效运行。
此次更新主要包括:
- 开发者消息 (Developer Messages): 一种新的系统消息形式,作为 OpenAI 指令层次结构的一部分,允许开发者更精细地控制模型行为。
- 视觉输入 (Visual Input): API 现在支持图像输入,为制造业、科学等领域提供了巨大应用潜力。现场演示中,o1 成功识别了表格扫描件中的人为错误,并根据多张图片信息进行了综合分析和计算。
- 函数调用 (Function Calling) 与结构化输出 (Structured Output): o1 在函数调用和结构化输出方面显著优于 GPT-4,能够更准确地执行指令并生成符合规范的 JSON 格式输出。现场演示中,o1 能够根据定义的 JSON 架构规范输出,并渲染 PDF 界面高亮错误,方便用户查看。
二、性能评估:全面超越 GPT-4,推理能力显著提升
OpenAI 对新版 o1 API 进行了多项性能评估,结果显示:
- 函数调用: o1 在函数调用能力上显著优于 GPT-4,能够更准确地判断何时需要调用函数以及调用哪个函数。
- 结构化输出: o1 在结构化输出方面同样表现出色,指令遵循能力更强,偏离预期的可能性更低。
- 编码能力: o1 在 Livebench 评估中远超
o1-preview
和 GPT-4o,进步巨大。在 AIME 评估中,o1 再次显著优于o1-preview
。 - 推理能力: 即使在启用结构化输出功能的情况下,o1 的推理能力依然保持,确保了结果的准确性。
- 延迟: o1 使用的推理 Token 比
o1-preview
少 60%,这意味着应用程序运行速度更快、成本更低。
三、实时 API 支持 WebRTC:打造个人专属“Her”成为可能
实时 API (Realtime API) 于 10 月初开放公测,其强大的实时语音能力在伦敦开发者日上已有所展示。此次更新,OpenAI 宣布实时 API 全面支持 WebRTC,为开发者构建实时语音交互应用提供了极大便利。
WebRTC 是一种专为互联网设计的网络传输协议,常用于视频会议和低延迟视频流传输。它能够实时处理网络变化,如动态调整比特率、进行回声消除等。
现场演示中,OpenAI 研究人员仅用 12 行代码 就实现了与 AI 助手的实时语音交互,相比之前使用 WebSocket 集成所需的 200-250 行代码,效率大幅提升。
更令人兴奋的是,研究人员还展示了将实时 API 集成到微型设备(如一枚硬币大小的微型控制器)中的应用,只需 30-45 分钟即可完成配置,让设备“活”起来,实现实时语音交互。
此外,OpenAI 还宣布:
- GPT-4o 音频 Token 价格下降 60%!
- API 中提供对
4o-mini
的支持,其音频 Token 成本降至当前价格的 1/10。 - 推出对 Python SDK 的支持,简化集成流程。
四、偏好微调 (Preference Fine-tuning):更轻松地定制个性化模型
OpenAI 推出了新的微调方法——偏好微调 (Preference Fine-tuning),使用直接偏好优化 (DPO) 帮助开发者创建更符合用户偏好的模型。
与监督微调需要提供精确的输入和输出不同,偏好微调只需要提供一对一的响应,其中一个响应的偏好度高于另一个。然后,微调过程会优化模型,使其学会区分这些响应之间的差异,例如格式、风格、有用性或创造力等。
偏好微调特别适用于需要考虑语气、风格和创造力的主观任务,例如客户支持、内容创作、创意写作等。
现场演示中,通过上传包含偏好和非偏好响应的 JSONL 文件,开发者可以轻松启动微调过程,定制个性化模型。
五、其他更新:简化流程,提升开发者体验
除了上述核心更新外,OpenAI 还推出了一系列提升开发者体验的举措:
- 发布新的 SDK: 新增对 Go 和 Java SDK 的支持。
- 简化登录、注册和获取 API 密钥的流程: 开发者现在可以在几秒钟内获取 API 密钥。
- 公开开发者日现场视频: 开发者可以在 OpenAI 官方 YouTube 页面查看。
最后我们的总结:
OpenAI 此次发布的一系列更新,为开发者带来了前所未有的便利和可能性。满血版 o1 API 的开放、实时 API 对 WebRTC 的支持、音频 Token 的大幅降价以及偏好微调功能的推出,将极大地推动 AI 应用的开发和普及,一个更加智能、个性化的 AI 时代正在加速到来!
共同学习,写下你的评论
评论加载中...
作者其他优质文章