阿里云通义千问系列的Qwen2.5-Omni-7B模型近日正式开源。作为首个端到端全模态大模型,它可同时处理文本、图像、音频和视频等输入,并实时生成文本与自然语音合成输出。在多模态融合任务测评中,其性能全维度超越同类模型。
Qwen2.5-Omni采用通义团队首创的双核架构及融合音视频技术,拥有类似人类的“大脑”和“发声器”,能以流式处理方式实时响应。它在同等规模单模态模型测试中,展现出全球最强的全模态性能,语音生成测评分数与人类持平。
与动辄数千亿参数的闭源大模型不同,Qwen2.5-Omni以7B的小尺寸让全模态大模型在产业广泛应用成为可能,手机等终端智能硬件也能轻松部署。目前,该模型已在魔搭社区和Hugging Face开源,用户还可通过Qwen Chat等平台直接体验。
Qwen Chat免费体验: https://chat.qwenlm.ai
百炼平台模型调用:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
Demo体验:
https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
开源地址: https://huggingface.co/Qwen/Qwen2.5-Omni-7Bhttps://modelscope.cn/models/Qwen/Qwen2.5-Omni-7Bhttps://github.com/QwenLM/Qwen2.5-Omni
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!