在2025年2月24日,DeepSeek在其官方账号上宣布推出了FlashMLA——一款专为NVIDIA Hopper GPU(如H800)设计的高效MLA解码内核。该内核针对可变长度序列进行了优化,现已投入生产使用。FlashMLA支持BF16数据格式,并采用分页KV缓存技术(块大小为64),在H800 GPU上实现了3000 GB/s的内存带宽和580 TFLOPS的计算性能。
FlashMLA的推出标志着深度学习解码技术在硬件适配和性能优化方面迈出了重要一步。该内核通过充分利用Hopper GPU的先进特性,如Tensor Cores和Transformer Engines,显著提升了模型的运行效率。此外,FlashMLA的分页KV缓存设计能够有效管理内存资源,进一步优化了计算性能。
DeepSeek表示,FlashMLA的代码已在GitHub上开源,供开发者探索和使用。这一举措不仅体现了DeepSeek对开源社区的贡献,也为相关领域的研究和开发提供了有力支持。开源地址为:[https://github.com/deepseek-ai/FlashMLA](https://github.com/deepseek-ai/FlashMLA)。
随着人工智能技术的不断发展,硬件与软件的深度结合已成为提升模型性能的关键。FlashMLA的发布为Hopper GPU用户提供了更高效的解码解决方案,也为未来大规模模型的部署和优化提供了新的思路。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!