当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Meta发布最新开源大模型Llama 3,声称它是最好的开放模型之一

WX20240419-101824@2x.png

4月18日,Meta 公司发布了其 Llama 系列开放式生成 AI 模型的最新力作:Llama 3。更具体地说,该公司首次推出了 Llama 3 系列中的两款新模型,而更多模型将在未来的某个时间点陆续亮相。

Meta 将这两款新模型——包含 80 亿参数的 Llama 3 8B 和包含 700 亿参数的 Llama 3 70B——标榜为与前一代 Llama 2 系列的 Llama 2 8B 和 Llama 2 70B 相比的“显著进步”。参数数量在本质上决定了人工智能模型处理问题的能力,如分析和生成文本;通常,参数数量越多的模型,其处理能力也越强。Meta 甚至宣称,Llama 3 8B 和 Llama 3 70B 在两个定制的 24,000 个 GPU 集群上进行训练后,已成为当前性能最佳的生成式 AI 模型之一。


为了支持这一断言,Meta 引用了 Llama 3 模型在一系列流行 AI 基准测试中的得分,包括 MMLU(旨在衡量知识)、ARC(旨在衡量技能获取)和 DROP(测试模型对文本块的推理能力)。尽管这些基准测试的有效性存在争议,但它们仍是目前少数几个标准化的方法,用于评估 Meta 等公司 AI 模型的性能。

Llama 3 8B 在至少九个基准测试中超越了其他开放模型,如 Mistral 的 7B 和 Google 的 Gemma 7B,这两个模型均包含 70 亿参数:MMLU、ARC、DROP、GPQA(涵盖生物学、物理和化学相关问题)、HumanEval(代码生成测试)、GSM-8K(数学应用题)、MATH(另一个数学基准)、AGIEval(解决问题的测试集)以及 BIG-Bench Hard(常识推理评估)。

值得注意的是,尽管 Mistral 7B 和 Gemma 7B 并非处于最前沿(Mistral 7B 发布于去年 9 月),在 Meta 引用的一些基准测试中,Llama 3 8B 的得分仅略高于这两个模型几个百分点。然而,Meta 还声称,参数数量更多的 Llama 3 70B 模型与旗舰级生成式 AI 模型,包括 Google Gemini 系列的最新产品 Gemini 1.5 Pro,具有竞争力。

Screenshot_2024-04-18_at_11.49.08a_¯AM-transformed.webp

Llama 3 70B 在 MMLU、HumanEval 和 GSM-8K 上超越了 Gemini 1.5 Pro,尽管它未能匹敌 Anthropic 性能最强的模型 Claude 3 Opus,但 Llama 3 70B 的得分在五个基准测试(MMLU、GPQA、HumanEval、GSM-8K 和 MATH)中优于 Claude 3 系列中第二弱的模型 Claude 3 Sonnet。

Screenshot_2024-04-18_at_11.49.24a_¯AM-transformed.webp

Meta 还开发了自己的测试集,覆盖了从编码和创意写作到推理和总结的多种用例。令人惊讶的是,Llama 3 70B 在与 Mistral 的 Mistral Medium 模型、OpenAI 的 GPT-3.5 和 Claude Sonnet 的竞争中胜出。Meta 表示,为了保持客观性,它限制了建模团队对该数据集的访问,但显然——考虑到 Meta 自己设计了测试——这些结果需要谨慎对待。

Screenshot-2024-04-18-at-11.54.48 AM.webp

从更定性的角度看,Meta 表示,新 Llama 模型的用户可以期待更多的“可操作性”,更少的拒绝回答问题的情况,以及在琐事问题、与历史和 STEM 领域(如工程和科学以及一般编码)相关的问题上的更高准确性。这在一定程度上归功于更大的数据集:一个包含 15 万亿个令牌的集合,或者说约 750 亿个单词——是 Llama 2 训练集大小的七倍。在人工智能领域,“令牌”指的是原始数据的细分,例如将“fantastic”一词细分为“fan”、“tas”和“tic”等音节。

那么,这些数据来自哪里?Meta 并未透露详细信息,只是说明它们源自“公开来源”,并且包含的代码量是 Llama 2 训练数据集的四倍。此外,该数据集中有 5% 是非英语数据(约 30 种语言),以提升模型在英语以外语言的表现。Meta 还表示,它使用合成数据(即由人工智能生成的数据)来训练 Llama 3 模型,以创建更长的文档,但这种做法由于潜在的性能问题而存在争议。

“尽管我们今天发布的模型仅针对英语输出进行了微调,但数据多样性的增加有助于模型更好地识别细微差别和模式,并在各种任务中表现出色,”Meta 在与 TechCrunch 分享的博客文章中写道。

许多生成式人工智能供应商将训练数据视为竞争优势,并对其保密。但训练数据的细节也是知识产权相关诉讼的潜在来源,这是供应商不愿透露太多信息的另一个原因。最近的报道显示,为了与人工智能竞争对手保持同步,Meta 一度不顾公司律师的警告,使用了受版权保护的电子书进行人工智能培训。Meta 和 OpenAI 因此成为包括喜剧演员 Sarah Silverman 在内的作家提起的持续诉讼的对象,他们指控这些供应商未经授权使用受版权保护的数据进行培训。

至于生成式 AI 模型(包括 Llama 2)常见的毒性和偏见问题,Llama 3 是否有所改进?Meta 表示,它开发了新的数据过滤流程,以提升模型训练数据的质量,并更新了其生成式 AI 安全套件 Llama Guard 和 Cyber​​secEval,以防止误用和不需要的文本生成,如 Llama 3 模型等。该公司还发布了 Code Shield 工具,旨在检测生成人工智能模型中可能引入的安全漏洞的代码。

然而,过滤并非完美无缺,Llama Guard、Cyber​​SecEval 和 Code Shield 等工具的作用也仅此而已。(参考:Llama 2 倾向于编造问题的答案,并泄露私人健康和财务信息。)我们将不得不等待,看看 Llama 3 模型在实际应用中的表现如何,包括学术界对替代基准的测试。

Meta 表示,Llama 3 模型现已可供下载,并为 Facebook、Instagram、WhatsApp、Messenger 和网络上的 Meta AI 助手提供支持。不久的将来,它们还将在包括 AWS 在内的各种云平台上以托管形式提供。Databricks、Google Cloud、Hugging Face、Kaggle、IBM 的 WatsonX、Microsoft Azure、Nvidia 的 NIM 和 Snowflake 也在支持之列。未来,还将推出针对 AMD、AWS、戴尔、英特尔、Nvidia 和高通硬件优化的型号版本。

Llama 3 型号可能会被广泛采用。但请注意,我们使用“开放”而非“开源”来描述它们,这是因为,尽管 Meta 声称,其 Llama 系列模型并非没有任何附加条件。它们可以用于研究和商业应用,但 Meta 禁止开发人员使用 Llama 模型来训练其他生成模型。此外,每月用户超过 7 亿的应用程序开发人员必须向 Meta 申请特殊许可证,而该公司将自行决定是否授予该许可证。

Meta 正在训练超过 4000 亿参数的 Llama 3 模型,这些模型将能够以多种语言进行对话,接收更多数据,并理解图像和其他模式以及文本。这将使 Llama 3 系列与 Hugging Face 的 Idefics2 等开放版本相一致。

Screenshot-2024-04-18-at-11.49.35 AM.webp

Meta 在博客文章中写道:“我们在不久的将来的目标是使 Llama 3 成为多语言和多模式的模型,拥有更长的上下文,并继续提高推理和编码等核心[大语言模型]功能的整体性能。” “还有很多事情要做。”

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海