当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Together AI推出FlashAttention-3,GPU 利用率从 35% 提高至 75%。

WX20240714-151900@2x.png



Together AI与 Meta、NVIDIA、普林斯顿大学和 Colfax International 合作发布 FlashAttention-3。这项技术的进步包括:

  • GPU 利用率的显著提升,从 35% 提高至 75%。
  • 在保持精度的同时,实现更低精度下的性能飞跃。
  • 在大型语言模型(LLM)中更高效地处理更长上下文的能力。

作为 Transformer 架构的核心,注意力机制是大型语言模型和长上下文应用的关键。FlashAttention 系列技术通过最小化内存读写操作,加速了 GPU 上的注意力计算,已被广泛应用于 Transformer 的训练和推理。这一创新推动了 LLM 上下文长度的显著增长,从 GPT-3 和 OPT 的 2-4K 增加到 GPT-4 的 128K,甚至 Llama 3 的 1M。

尽管 FlashAttention-2 取得了成功,但其尚未充分利用现代硬件的新功能。在 H100 GPU 上,FlashAttention-2 仅达到了理论最大 FLOP 利用率的 35%。在这篇博文中,我们介绍了三种在 Hopper GPU 上加速注意力的主要技术:利用 Tensor Cores 和 TMA 的异步性,通过 warp-specialization 重叠计算与数据移动,交错块式 matmul 和 softmax 操作,以及利用硬件对 FP8 低精度的支持进行非相干处理。

FlashAttention-3 的发布,标志着性能的显著提升。与使用 FP16 的 FlashAttention-2 相比,FlashAttention-3 的速度提高了 1.5 至 2 倍,达到了 740 TFLOPS,即 H100 GPU 理论最大 FLOPS 的 75%。在 FP8 精度下,FlashAttention-3 的性能接近 1.2 PFLOPS,同时误差比基线 FP8 注意力减少了 2.6 倍。

这项技术的提升意味着:

  • GPU 利用率的极大提高,新技术能够更充分地发挥 H100 GPU 的潜力。
  • 在降低精度的同时,FlashAttention-3 依然保持了优异的性能和准确性,为大规模 AI 操作的运行带来了成本效益和效率提升。
  • FlashAttention-3 加速了注意力机制,使 AI 模型能够更高效地处理更长的文本,从而在不牺牲速度的前提下,提升应用程序处理复杂内容的能力。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海