降低用户提示词门槛：Anthropic上线提示生成与评估功能

小哪吒

在构建AI驱动的应用程序时，提示词的质量对结果有重大影响。然而，制作高质量的提示具有挑战性，它需要对应用程序的需求有深入的了解以及对大型语言模型的专业知识。为了加快开发速度并改善结果，简化这一流程，使用户更容易生成高质量的提示。

现在，用户可以在Anthropic控制台中生成、测试和评估提示词。新功能包括生成自动测试用例和比较输出的能力，让用户可以利用Claude为需求生成最佳响应。

生成提示：

编写优秀的提示可以像向Claude描述任务一样简单。控制台提供了一个内置的提示生成器，由Claude 3.5 Sonnet驱动，允许您描述任务（例如“分类进入的客户支持请求”），并让Claude为您生成高质量的提示。

测试用例生成：

使用Claude的新测试用例生成功能，您可以为提示生成输入变量——例如，一个进入的客户支持消息——并运行提示以查看Claude的响应。或者，您也可以手动输入测试用例。

生成测试套件：

在一系列真实世界的输入上测试提示，可以帮助您在将其部署到生产环境之前建立对提示质量的信心。使用我们控制台中新的评估功能，您可以直接在这里进行测试，而不需要在电子表格或代码中手动管理测试。

您可以手动添加或从CSV导入新的测试用例，或者使用“生成测试用例”功能让Claude为您自动生成测试用例。根据需要修改您的测试用例，然后一键运行所有测试用例。查看并调整Claude对每个变量生成要求的理解，以获得对Claude生成的测试用例更细粒度的控制。

评估模型响应并迭代提示：

现在，您可以更少的步骤来完善提示，因为您可以创建提示的新版本，并重新运行测试套件，以快速迭代和改进您的结果。我们还添加了并排比较两个或更多提示输出的能力。

您甚至可以邀请主题专家按5分制对响应质量进行评分，以查看您所做的更改是否提高了响应质量。这些功能使改进模型性能的方式更快、更易于访问。

[行业动态] 降低用户提示词门槛：Anthropic上线提示生成与评估功能