DeepSeek-V3 模型更新，各项能力全面进阶

小哪吒

DeepSeek-V3 模型迎来新版本 DeepSeek-V3-0324。用户登录官方平台，关闭深度思考功能即可体验。API 接口和使用方式不变，非复杂推理任务建议使用新版本，享受更流畅、效果更好的对话体验。
新版模型在推理任务上表现亮眼，借鉴 DeepSeek-R1 训练技术，数学、代码类评测集得分超 GPT-4.5。在百科知识、数学和代码任务上均有提升。前端开发能力增强，生成的 HTML 等代码可用性更高、视觉效果更佳。中文写作方面，基于 R1 优化，中长篇文本创作质量提升。中文搜索能力优化，在联网搜索场景下，报告生成类指令输出更详实准确、排版更清晰。此外，工具调用、角色扮演、问答闲聊等方面也有所提升。

DeepSeek-V3-0324 与之前版本使用相同 base 模型，仅改进后训练方法。私有化部署只需更新 checkpoint 和 tokenizer_config.json。模型参数约 660B，开源版本上下文长度 128K，网页端、App 和 API 提供 64K 上下文。模型权重下载地址已公布，开源仓库采用 MIT License，允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。