腾讯混元大模型家族近日再添新成员,混元 - A13B 模型正式发布并开源。该模型以专家混合(MoE)架构为依托,拥有 800 亿总参数与 130 亿激活参数,在效果媲美顶尖开源模型的基础上,大幅削减推理延迟与计算开销,为个人开发者及中小企业带来福音,仅需 1 张中低端 GPU 卡即可完成部署。
混元 - A13B 模型在数学推理方面表现出色,能够准确完成小数比较等任务并给出分步解析。它还可以调用工具,高效生成出行攻略、分析数据文件,轻松应对复杂指令。此外,该模型在多个公开数据测试集的数学、科学和逻辑推理任务中展现出领先效果。
技术层面,混元 - A13B 模型在预训练阶段使用了 20 万亿高质量网络词元语料库,提升了推理能力上限。它还完善了 MoE 架构的 Scaling Law 理论体系,为模型设计提供量化指导。同时,用户可根据需求选择快思考模式或慢思考模式,前者简洁高效,后者推理全面,优化了计算资源分配。
混元 - A13B 模型的推出不仅丰富了混元大模型家族的产品矩阵,更为行业提供了一种低成本、高效率的模型部署方案,有助于推动 AI 技术在更多场景下的应用与创新。用户可从 Github、HuggingFace 等技术社区下载使用,其模型 API 也在腾讯云官网正式上线。
https://github.com/Tencent-Hunyuan
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!