OpenAI 推出新一代推理模型 o3 和 o4-mini

小哪吒

2025 年 4 月 16 日，OpenAI 宣布推出其 o 系列模型的最新成员——o3 和 o4-mini。这两个模型在推理能力、工具使用以及多模态融合等方面表现出色，标志着 ChatGPT 能力的显著飞跃，为用户带来了更智能、更高效的使用体验。
o3 是 OpenAI 目前最强大的推理模型，它在多个领域如编码、数学、科学、视觉感知等取得了显著进步。在 Codeforces、SWE-bench 等基准测试中，o3 设定了新的最高标准。与 OpenAI o1 相比，o3 在复杂查询的处理上更为出色，尤其是在编程、商业咨询和创意构思等领域，错误率降低了 20%。此外，o3 还能够智能地使用和组合 ChatGPT 中的各种工具，如网页搜索、Python 编程分析等，以生成详细且周到的答案。

      o4-mini 则是一款更小巧的模型，专为快速、经济高效的推理而优化。在数学、编程和视觉任务方面，o4-mini 的性能尤为突出。例如，在 2025 年的 AIME 竞赛中，o4-mini 在访问 Python 解释器时的得分高达 99.5%，展现了其卓越的性能。与 o3-mini 相比，o4-mini 在非 STEM 任务以及数据科学等领域的表现也更为出色，支持的使用限制也更高，能够处理更多需要推理能力的问题。
      OpenAI 在开发 o3 的过程中，通过大规模强化学习，实现了模型性能的显著提升。o3 和 o4-mini 都能够根据期望结果智能地部署工具，这使得它们在开放式情境中表现更佳，尤其是在涉及视觉推理和多步骤工作流程的情况下。此外，这两个模型还能够将图像直接整合到思维链中，开启了融合视觉和文本推理的全新问题解决方式。
      在安全性方面，OpenAI 对 o3 和 o4-mini 进行了全面的安全评估。公司重建了安全训练数据，增加了新的拒绝提示，涵盖生物威胁、恶意软件生成和越狱等领域。这些改进使得 o3 和 o4-mini 在内部拒绝基准测试中表现出色。此外，OpenAI 还开发了系统级缓解措施，以标记前沿风险领域的危险提示。
      OpenAI 还推出了一项名为 Codex CLI 的新实验，这是一个轻量级的编码代理，用户可以在终端中运行。Codex CLI 能够直接在用户的计算机上工作，最大化模型的推理能力，并支持即将推出的更多 API 模型，如 GPT-4.1。OpenAI 还启动了一项 100 万美元的计划，支持使用 Codex CLI 和 OpenAI 模型的项目。
      在访问权限方面，ChatGPT Plus、Pro 和 Team 用户将从今天开始在模型选择器中看到 o3、o4-mini 和 o4-mini-high，取代之前的 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周后获得访问权限。免费用户可以通过在提交查询之前选择“思考”来尝试 o4-mini。开发者也可以通过 Chat Completions API 和 Responses API 使用 o3 和 o4-mini。
      OpenAI 表示，未来的模型将融合 o 系列的专业推理能力和 GPT 系列的自然对话能力，支持无缝、自然的对话以及主动的工具使用和高级问题解决。