OpenAI 创建了一种新方法来提高 AI 生成文本的清晰度和可验证性

小哪吒

OpenAI 创新了一种方法，旨在提升 AI 生成文本的清晰度和可验证性。这一方法不仅增强了人们对 AI 系统的信任，还拓宽了其在关键领域的应用前景。

该方法基于“证明者-验证者游戏”。在这一过程中，两个 AI 模型相互竞争：一个作为“证明者”提供解决方案，另一个则作为“验证者”检查这些方案的正确性。

训练的核心目标是使证明者能够提供易于验证者理解的解决方案。OpenAI 指出，这同样使得解决方案更易于人类理解与验证。

在实验中，研究人员采用了更强大的 GPT-4 模型作为证明者，而更弱的 GPT-4 模型则充当验证者。在训练过程中，证明者在“有帮助”和“偷偷摸摸”的角色之间不断切换。

当证明者扮演有用角色时，它因提供验证者青睐的正确解决方案而获得奖励。相反，当它试图欺骗验证者时，也会因提供错误解决方案而获得奖励。

起初，狡猾的证明者能够轻易地用错误答案欺骗验证者。然而，经过反复训练，验证者学会了识别细微的错误。这促使证明者不断尝试新策略。训练结束的标志是证明者再也无法欺骗验证者。

研究人员在小学数学问题上测试了这种方法。结果显示，仅针对正确性优化的模型虽然答案准确，但难以理解。与新方法得出的答案相比，人类评估者在评估这些答案时的错误率几乎是前者的两倍。

证明者-验证者游戏在准确性和清晰度之间取得了平衡。解决方案不仅保持了高准确性，同时也更易于理解。

与常规 GPT-4 相比，证明者-验证者模型提供了更准确、更易于理解的结果。这一发现表明，一个强大的验证器能够可靠地区分正确和错误答案，而一个有用的证明者则使人们更容易发现错误。这可能成为一个强大的工具。

OpenAI 团队认为，这种方法是开发能够正确且透明验证结果的人工智能系统的有前途的途径。这不仅可以提高人们对人工智能应用的信任度，还可以扩大其在医学、金融和法律等关键领域的应用，因为这些领域对准确性和可追溯性有着极高的要求。

此外，这种方法减少了对人类指导和评估的依赖。OpenAI 指出，这对于开发超级智能 AI 系统至关重要，因为这些系统需要在没有人类直接监督的情况下，可靠地与人类价值观和期望保持一致。