AI21 Labs 推出革命性的用于文本生成 Jamba AI 模型

小哪吒

https://www.ai21.com/

https://huggingface.co/ai21labs/Jamba-v0.1

以下是官方新闻

AI21 Labs 在3月28日推出 Jamba，这是世界上第一个基于 Mamba 的量产级模型。通过利用传统 Transformer 架构的元素增强Mamba结构化状态空间模型 (SSM) 技术，Jamba 弥补了纯 SSM 模型的固有局限性。它提供了 256K 上下文窗口，已经在吞吐量和效率方面展现了显着的进步——这只是这种创新混合架构的开始。值得注意的是，Jamba 在各种基准测试中均优于或与同尺寸级别的其他最先进型号相媲美。

在发布具有 Apache 2.0 许可的开放权重 Jamba 时，我们邀请进一步的发现和优化，以构建模型架构方面令人兴奋的进步。我们迫不及待地想看看您将构建什么。

Jamba 还可以作为NVIDIA NIM推理微服务从NVIDIA API 目录进行访问，企业应用程序开发人员可以使用NVIDIA AI Enterprise 软件平台进行部署。

Jamba 提供两全其美的产品

Jamba 的发布标志着 LLM 创新的两个重要里程碑：成功地将 Mamba 与 Transformer 架构结合在一起，并将混合SSM-Transformer 模型提升到生产级规模和质量。

‍

到目前为止，法学硕士主要建立在传统的 Transformer 架构之上。虽然毫无疑问功能强大，但这种架构存在两个主要缺点：

内存占用大： Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批次变得具有挑战性，从而限制了广泛的实验和部署机会。

‍

随着上下文的增长，推理速度变慢： Transformer 的注意力机制随序列长度呈二次方扩展，并降低吞吐量，因为每个标记都依赖于它之前的整个序列，从而将长上下文用例置于高效生产的范围之外。

‍

由卡内基梅隆大学和普林斯顿大学的研究人员提出，Mamba 正是解决了这些缺点，为语言模型开发开辟了新的可能性领域。然而，如果不关注整个上下文，这种架构很难与现有最佳模型的相同输出质量相匹配，尤其是在与召回相关的任务上。

‍

为了充分发挥 Mamba 和 Transformer 架构的优点，我们开发了相应的联合注意力和 Mamba (Jamba) 架构。Jamba 由 Transformer、Mamba 和专家混合 (MoE) 层组成，可同时优化内存、吞吐量和性能。

Jamba 的 MoE 层允许它在推理时仅利用可用的 52B 参数中的 12B，并且其混合结构使这些 12B 活动参数比同等大小的仅 Transformer 模型更有效。

‍

虽然有些人尝试过扩展 Mamba，但没有人将其扩展到 3B 参数之外。 Jamba 是同类中第一个达到生产级规模的混合架构。

使用 Jamba 架构实现规模化建设

要成功扩展 Jamba 的混合结构，需要进行多项核心架构创新。

‍

如下图所示，AI21 的 Jamba 架构采用块和层方法，使 Jamba 能够成功集成两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后跟一个多层感知器 (MLP)，从而产生每八层中一个 Transformer 层的总体比例。

第二个功能是利用 MoE 来增加模型参数的总数，同时简化推理中使用的活动参数的数量，从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量，我们优化了所使用的 MoE 层和专家的数量，为常见推理工作负载留下了足够的可用内存。

‍

前所未有的吞吐量和效率

根据我们的初步评估，Jamba 在吞吐量和效率等关键衡量指标上表现出色。虽然其初步性能已经达到了令人印象深刻的里程碑，但我们很高兴看到随着社区通过实验和优化进一步推动这项新技术，这些基准将如何继续改进。

‍

效率

在长上下文中提供 3 倍的吞吐量，使其成为比 Mixtral 8x7B 等大小相当的基于 Transformer 的模型更高效的模型。

成本

‍ Jamba可以在单个 GPU 上容纳 140K 上下文，与当前类似大小的其他开源模型相比，提供更多的部署和实验机会。

我们预计这些已经令人鼓舞的成果将通过未来的优化得到进一步增强，例如更好的 MoE 并行性、更快的 Mamba 实施等等。

‍