当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 最强的大模型:Anthropic发布Claude 3,超越GPT-4和Gemini Ultra

本帖最后由 垚麟 于 2024-3-5 00:49 编辑

4e78f69ef8d4186fb5691714abe36224483d91b0-2880x1620.webp

3月4日,领先的人工智能初创公司Anthropic发布了Claude 3系列AI大模型。该系列包括三种型号:Opus、Sonnet 和即将推出的 Haiku。

去年的这个时候,Anthropic 被视为一家有前途的生成式人工智能初创公司,由前 OpenAI 研究高管创立。12 个月后,它成为最热门的人工智能初创公司之一,支持者包括谷歌、Salesforce 和亚马逊,其产品在企业和消费者领域与ChatGPT 直接竞争。去年,这家初创公司完成了五笔不同的融资交易,总计约 73 亿美元。

据该初创公司称,该系列中功能最强大的 Claude 3 Opus 在各种基准测试中均优于 OpenAI 的竞争对手模型 GPT-4 和 Google 的Gemini 1.0 Ultra。

“这是车型中的劳斯莱斯,至少在目前是这样,”首席执行官达里奥·阿莫迪在接受采访时表示。

Claude 3 Opus 收取每 100 万条称为代币的数据的费用为 15 美元,而处理相同数据的同类模型的费用至少低30%。相比之下,OpenAI 对输入其 GPT-4 Turbo 模型的每百万代币收取 10 美元的费用。

Anthropic 总裁 Daniela Amodei 表示,尽管价格较高,但客户仍会选择 Claude 3 Opus,“如果他们需要执行认知上最复杂的任务”,例如准确处理复杂的财务分析。

Anthropic 表示,其 Claude 3 模型将通过亚马逊和谷歌的云平台提供。

以下是Anthropic官网发布的新闻重点:

今天,我们宣布推出 Claude 3 模型系列,它为广泛的认知任务树立了新的行业基准。该系列包括三种最先进的型号(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续型号都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。
Opus 和 Sonnet 现已可在 claude.ai 中使用,而 Claude API 现已在159 个国家/地区广泛使用。俳句即将推出。

智能的新标准
Opus 是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。
9ad98d612086fe52b3042f9183414669b4d2a3da-2200x1954.webp
所有Claude 3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。

近乎即时的结果
Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须立即且实时。

Haiku 是智能类别市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。发布后,我们期望进一步提高性能。

对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。 Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

强大的视觉能力
Claude 3 型号具有与其他领先型号相当的复杂视觉功能。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。
6b66d86ff0c180e95bc6ad2e6e4a1843aa74c80f-2200x960.webp

更少的拒绝
以前的克劳德模型经常做出不必要的拒绝,这表明缺乏语境理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得多。

d1fbcf3d58ebc2dcd2e98aac995d70bf50cb2e9c-2188x918.webp
提高准确性
各种规模的企业都依赖我们的模型来为其客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题来针对当前模型中已知的弱点。我们将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型表示它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案的水平。

7cb598c6a9fa58c12b77f67ee2067feaac4a2de0-2200x896.webp

除了产生更值得信赖的回复之外,我们很快还将在 Claude 3 模型中启用引用,以便他们可以指向参考材料中的精确句子来验证他们的答案。

长上下文和近乎完美的回忆
Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个代币的输入,我们可能会将其提供给需要增强处理能力的精选客户。

d2aa12b60e9c57e7057924bd8878d754c7b3d8e7-2200x1088.webp
为了有效地处理长上下文提示,模型需要强大的回忆能力。 “大海捞针”(NIAH)评估衡量模型从大量数据中准确回忆信息的能力。我们通过在每个提示中使用 30 个随机针/问题对之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。 Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至通过识别“针”这句话似乎是人类人为插入到原文中来识别评估本身的局限性。

更容易使用
Claude 3 模型更擅长遵循复杂的多步骤指令。他们特别擅长遵守品牌声音和响应准则,并开发用户可以信赖的面向客户的体验。此外,Claude 3 模型更擅长以 JSON 等格式生成流行的结构化输出,从而可以更轻松地指导 Claude 进行自然语言分类和情感分析等用例。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海