杭州深度求索人工智能基础技术研究有限公司宣布,其全新系列模型DeepSeek-V3首个版本正式上线并开源。用户可通过官网chat.deepseek.com体验最新版V3模型,API服务同步更新,无需改动接口配置。DeepSeek-V3,一款671B参数的自研MoE模型,在14.8T token上完成预训练,性能与海外领军闭源模型相媲美。
在多项评测中,DeepSeek-V3超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型不分上下。尤其在百科知识、长文本处理、代码编写和数学竞赛等领域,DeepSeek-V3展现了卓越的性能。此外,其生成速度提升至60 TPS,是V2.5模型的三倍,为用户提供更流畅的体验。
为庆祝新模型发布,DeepSeek-V3的API服务价格将调整为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。同时,公司为新模型设置了45天的优惠期,期间价格为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。
DeepSeek-V3采用FP8训练,并开源了原生FP8权重,支持SGLang和LMDeploy的V3模型原生FP8推理,同时TensorRT-LLM和MindIE实现了BF16推理。公司还提供了FP8到BF16的转换脚本,以方便社区适配和拓展应用场景。模型权重和本地部署信息可在Huggingface.co上查看。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!