OpenAI发布新一代推理模型o3，多项基准测试刷新纪录

小哪吒

OpenAI近日发布其最新推理模型o3，在多个关键性能指标上取得突破性进展。该模型在AGI基准测试ARC Prize上达到75.7%的准确率，使用更多计算资源时可提升至87.5%。

在技术细节方面，o3采用了与AlphaZero类似的方法论，通过实时编程方式解决陌生问题，而非传统语言模型单纯依赖模式匹配。每个任务处理最多可达3300万个标记，计算开销显著提升。

具体表现上，o3在去年11月发布的前沿数学基准测试中取得25.2%的成绩，远超此前模型不足2%的水平。在软件开发领域，其准确率较前代提升20%，达到71.7%。在博士级科学问题测试中，o3的得分为87.7%，超过该领域专家约70%的平均水平。

不过，高性能伴随着高成本。o3的高效版本每个任务成本约20美元，低效版本则需要172倍于高效版的计算资源，每个任务处理时间约1.3分钟。

为降低使用门槛，OpenAI计划于2025年1月底推出经济型版本o3-mini，将提供低、中、高三档速度设置。即便在中档设置下，o3-mini的性能也优于其前代产品o1。

ARC基准测试开发者François Chollet表示，尽管o3展现出惊人能力，但与人类智能仍有本质区别。为推动AI发展，他已着手准备难度更高的2025版测试基准，预计o3在新基准上的表现将降至30%左右。