智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

小哪吒

2024年10月21日，北京智源人工智能研究院（BAAI）宣布了一项重大突破：推出了原生多模态世界模型Emu3。这一创新模型基于下一个token预测，能够无缝整合文本、图像和视频数据，标志着多模态AI领域的一次质的飞跃。

Emu3模型在多个任务中展现了卓越的性能，包括图像生成、视频生成和视觉语言理解等。它不仅超越了现有的SDXL、LLaVA、OpenSora等知名开源模型，而且完全不需要依赖于扩散模型或组合方法。Emu3通过其强大的视觉tokenizer，将视频和图像转换为离散token，这些token能够与文本tokenizer输出的token一同输入模型，并转换为多种模态的输出。

智源研究院的这一成果不仅在技术上实现了创新，还在推动人工智能的广泛应用上具有重要意义。Emu3模型的开源，将为全球的研究人员和开发者提供强大的工具，以探索多模态AI的无限可能。模型的灵活性和高效性预示着多模态AI系统将更加简洁而强大，为内容生成、分析和理解开辟了新的可能性。

官方原文：https://mp.weixin.qq.com/s?__biz ... ionid=1729507431#rd