当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

2024年10月21日,北京智源人工智能研究院(BAAI)宣布了一项重大突破:推出了原生多模态世界模型Emu3。这一创新模型基于下一个token预测,能够无缝整合文本、图像和视频数据,标志着多模态AI领域的一次质的飞跃。
640 (15).webp
Emu3模型在多个任务中展现了卓越的性能,包括图像生成、视频生成和视觉语言理解等。它不仅超越了现有的SDXL、LLaVA、OpenSora等知名开源模型,而且完全不需要依赖于扩散模型或组合方法。Emu3通过其强大的视觉tokenizer,将视频和图像转换为离散token,这些token能够与文本tokenizer输出的token一同输入模型,并转换为多种模态的输出。
640 (16).webp
智源研究院的这一成果不仅在技术上实现了创新,还在推动人工智能的广泛应用上具有重要意义。Emu3模型的开源,将为全球的研究人员和开发者提供强大的工具,以探索多模态AI的无限可能。模型的灵活性和高效性预示着多模态AI系统将更加简洁而强大,为内容生成、分析和理解开辟了新的可能性。
640 (17).webp


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海