2025 年 4 月 16 日,OpenAI 宣布推出其 o 系列模型的最新成员——o3 和 o4-mini。这两个模型在推理能力、工具使用以及多模态融合等方面表现出色,标志着 ChatGPT 能力的显著飞跃,为用户带来了更智能、更高效的使用体验。
o3 是 OpenAI 目前最强大的推理模型,它在多个领域如编码、数学、科学、视觉感知等取得了显著进步。在 Codeforces、SWE-bench 等基准测试中,o3 设定了新的最高标准。与 OpenAI o1 相比,o3 在复杂查询的处理上更为出色,尤其是在编程、商业咨询和创意构思等领域,错误率降低了 20%。此外,o3 还能够智能地使用和组合 ChatGPT 中的各种工具,如网页搜索、Python 编程分析等,以生成详细且周到的答案。
o4-mini 则是一款更小巧的模型,专为快速、经济高效的推理而优化。在数学、编程和视觉任务方面,o4-mini 的性能尤为突出。例如,在 2025 年的 AIME 竞赛中,o4-mini 在访问 Python 解释器时的得分高达 99.5%,展现了其卓越的性能。与 o3-mini 相比,o4-mini 在非 STEM 任务以及数据科学等领域的表现也更为出色,支持的使用限制也更高,能够处理更多需要推理能力的问题。
OpenAI 在开发 o3 的过程中,通过大规模强化学习,实现了模型性能的显著提升。o3 和 o4-mini 都能够根据期望结果智能地部署工具,这使得它们在开放式情境中表现更佳,尤其是在涉及视觉推理和多步骤工作流程的情况下。此外,这两个模型还能够将图像直接整合到思维链中,开启了融合视觉和文本推理的全新问题解决方式。
在安全性方面,OpenAI 对 o3 和 o4-mini 进行了全面的安全评估。公司重建了安全训练数据,增加了新的拒绝提示,涵盖生物威胁、恶意软件生成和越狱等领域。这些改进使得 o3 和 o4-mini 在内部拒绝基准测试中表现出色。此外,OpenAI 还开发了系统级缓解措施,以标记前沿风险领域的危险提示。
OpenAI 还推出了一项名为 Codex CLI 的新实验,这是一个轻量级的编码代理,用户可以在终端中运行。Codex CLI 能够直接在用户的计算机上工作,最大化模型的推理能力,并支持即将推出的更多 API 模型,如 GPT-4.1。OpenAI 还启动了一项 100 万美元的计划,支持使用 Codex CLI 和 OpenAI 模型的项目。
在访问权限方面,ChatGPT Plus、Pro 和 Team 用户将从今天开始在模型选择器中看到 o3、o4-mini 和 o4-mini-high,取代之前的 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周后获得访问权限。免费用户可以通过在提交查询之前选择“思考”来尝试 o4-mini。开发者也可以通过 Chat Completions API 和 Responses API 使用 o3 和 o4-mini。
OpenAI 表示,未来的模型将融合 o 系列的专业推理能力和 GPT 系列的自然对话能力,支持无缝、自然的对话以及主动的工具使用和高级问题解决。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!