NVIDIA 于 2024 年 6 月 14 日宣布,推出 Nemotron-4 340B 系列,这是一套开放模型,旨在帮助开发人员生成合成数据,以训练大型语言模型(LLM),适用于医疗保健、金融、制造、零售等多个行业的商业应用。 Nvidia发布了“ Nemotron-4 340B ”,再次证明了其在 AI 领域无可争议的领导地位。Nemotron-4 340B 是一系列具有突破性的开放模型,将彻底改变用于训练大型语言模型 (LLM) 的合成数据生成方式。这一发展标志着 AI 行业的一个重要里程碑,因为它使各个行业的企业能够创建功能强大、特定领域的 LLM,而无需大量且昂贵的真实世界数据集。
Nemotron-4 340B 系列包括基础、指导和奖励模型,构成了生成高质量合成数据的综合管道。Nemotron-4 340B 在训练中使用了惊人的 9 万亿个标记,拥有 4,000 个上下文窗口,并支持 50 多种自然语言和 40 种编程语言,其表现远超其竞争对手,包括 Mistral 的Mixtral-8x22B、Anthropic 的Claude-Sonnet、Meta 的Llama3-70B、Qwen-2,甚至可以与 GPT-4 的性能相媲美。 Nemotron-4 340B 最引人注目的方面之一是其商业友好的许可。高级深度学习研究工程师Somshubra Majumdar在X.com 的一篇文章中强调了这一点,他表示:“该许可证具有商业可行性。是的,你可以使用它来生成你想要的所有数据。”
https://huggingface.co/nvidia/Nemotron-4-340B-Base
|