2024年10月21日,北京智源人工智能研究院(BAAI)宣布了一项重大突破:推出了原生多模态世界模型Emu3。这一创新模型基于下一个token预测,能够无缝整合文本、图像和视频数据,标志着多模态AI领域的一次质的飞跃。 Emu3模型在多个任务中展现了卓越的性能,包括图像生成、视频生成和视觉语言理解等。它不仅超越了现有的SDXL、LLaVA、OpenSora等知名开源模型,而且完全不需要依赖于扩散模型或组合方法。Emu3通过其强大的视觉tokenizer,将视频和图像转换为离散token,这些token能够与文本tokenizer输出的token一同输入模型,并转换为多种模态的输出。 智源研究院的这一成果不仅在技术上实现了创新,还在推动人工智能的广泛应用上具有重要意义。Emu3模型的开源,将为全球的研究人员和开发者提供强大的工具,以探索多模态AI的无限可能。模型的灵活性和高效性预示着多模态AI系统将更加简洁而强大,为内容生成、分析和理解开辟了新的可能性。
|