OpenAI近日发布其最新推理模型o3,在多个关键性能指标上取得突破性进展。该模型在AGI基准测试ARC Prize上达到75.7%的准确率,使用更多计算资源时可提升至87.5%。
在技术细节方面,o3采用了与AlphaZero类似的方法论,通过实时编程方式解决陌生问题,而非传统语言模型单纯依赖模式匹配。每个任务处理最多可达3300万个标记,计算开销显著提升。 具体表现上,o3在去年11月发布的前沿数学基准测试中取得25.2%的成绩,远超此前模型不足2%的水平。在软件开发领域,其准确率较前代提升20%,达到71.7%。在博士级科学问题测试中,o3的得分为87.7%,超过该领域专家约70%的平均水平。 不过,高性能伴随着高成本。o3的高效版本每个任务成本约20美元,低效版本则需要172倍于高效版的计算资源,每个任务处理时间约1.3分钟。 为降低使用门槛,OpenAI计划于2025年1月底推出经济型版本o3-mini,将提供低、中、高三档速度设置。即便在中档设置下,o3-mini的性能也优于其前代产品o1。 ARC基准测试开发者François Chollet表示,尽管o3展现出惊人能力,但与人类智能仍有本质区别。为推动AI发展,他已着手准备难度更高的2025版测试基准,预计o3在新基准上的表现将降至30%左右。
|