2025年2月18日,上海阶跃星辰智能科技有限公司与吉利汽车集团联合开源了两款多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。这一合作成果不仅展示了双方在算力算法和场景训练领域的深度协同,也为全球开源社区贡献了来自中国的创新力量。
Step-Video-T2V模型拥有300亿参数,可直接生成204帧、540P分辨率的高质量视频,其参数量和性能在全球开源视频生成领域处于领先水平。该模型在复杂运动、人物生成、镜头语言等方面表现出色,能够精准呈现创意内容。同时,阶跃星辰还发布了Step-Video-T2V-Eval评测基准数据集,包含128条真实用户评测问题,覆盖11个内容类别,全面评估生成视频的质量。
另一款开源模型Step-Audio是业内首款产品级开源语音交互模型,支持情绪、方言、语种、歌声和个性化风格的表达,能够满足影视娱乐、社交、游戏等多场景需求。在HSK-6评测中,Step-Audio展现了对中文的深刻理解,同时具备高情商和韵律创作能力。此外,阶跃星辰自建并开源了StepEval-Audio-360基准测试,从9项基础能力维度对语音模型进行全面测评,结果显示Step-Audio在各项能力上均优于现有开源语音模型。
目前,两款模型已在跃问App及网页端上线,供用户体验。阶跃星辰欢迎更多开发者参与,共同推动多模态技术的发展。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!