当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] DeepSeek-V3 模型更新,各项能力全面进阶

WX20250326-000613@2x.png


         DeepSeek-V3 模型迎来新版本 DeepSeek-V3-0324。用户登录官方平台,关闭深度思考功能即可体验。API 接口和使用方式不变,非复杂推理任务建议使用新版本,享受更流畅、效果更好的对话体验。
         新版模型在推理任务上表现亮眼,借鉴 DeepSeek-R1 训练技术,数学、代码类评测集得分超 GPT-4.5。在百科知识、数学和代码任务上均有提升。前端开发能力增强,生成的 HTML 等代码可用性更高、视觉效果更佳。中文写作方面,基于 R1 优化,中长篇文本创作质量提升。中文搜索能力优化,在联网搜索场景下,报告生成类指令输出更详实准确、排版更清晰。此外,工具调用、角色扮演、问答闲聊等方面也有所提升。
v3.webp


         DeepSeek-V3-0324 与之前版本使用相同 base 模型,仅改进后训练方法。私有化部署只需更新 checkpoint 和 tokenizer_config.json。模型参数约 660B,开源版本上下文长度 128K,网页端、App 和 API 提供 64K 上下文。模型权重下载地址已公布,开源仓库采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海