2025 年 2 月 26 日,DeepSeek 在其官方社交媒体账号上宣布推出 DeepGEMM,一款专为 AI 训练和推理设计的 FP8 GEMM(矩阵乘法)库。该库支持密集矩阵和 MoE(Mixture of Experts)矩阵布局,能够在 Hopper GPU 上实现高达 1350+ FP8 TFLOPS 的计算性能,显著提升了大规模模型的计算效率。
DeepGEMM 的核心优势在于其简洁高效的设计。该库的核心逻辑仅约 300 行代码,却能在大多数矩阵规模下超越专家优化的内核。其完全即时编译的特性,进一步减少了运行时的依赖,使得部署和使用更加便捷。此外,DeepGEMM 提供了清晰的教程级文档,降低了开发者的使用门槛。
DeepSeek 表示,DeepGEMM 的推出旨在为 AI 领域的 V3/R1 训练和推理任务提供强大支持。通过优化计算性能和降低资源消耗,该库有望在大规模模型训练和部署中发挥重要作用。DeepGEMM 的代码已开源,GitHub 仓库地址为:[https://github.com/deepseek-ai/DeepGEMM](https://github.com/deepseek-ai/DeepGEMM)。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!