商汤Vimi成为WAIC镇馆之宝！首个“可控”人物视频生成大模型来了

小哪吒

2024年7月4日，在上海举行的世界人工智能大会（WAIC 2024）上，商汤科技推出的可控人物视频生成大模型Vimi荣获“镇馆之宝”荣誉，成为大会的创新亮点。Vimi基于商汤先进的大模型技术，仅需一张风格多样的照片，即可生成与目标动作一致的人物视频，支持多种驱动方式，包括视频、动画、声音和文字。

Vimi：精准表情控制与分钟级视频生成

Vimi突破了现有技术限制，不仅实现人物表情的精准控制，还能在半身区域内操控人物的自然肢体动作，自动生成匹配的头发、服饰和背景，以及合理的光影效果。Vimi的稳定性保证了长达1分钟的视频生成，画面效果持久且不劣化，满足了娱乐互动等场景的长时间视频需求。

Vimi：C端用户的理想选择

Vimi面向C端用户，特别是女性用户，提供了一个满足娱乐创作需求的平台。用户只需上传高清人物图片，即可生成数字分身和不同风格的写真视频。Vimi的视频人物动作完整统一，支持手势、肢体、头发等元素，为创作者提供了丰富的剪辑和再创作素材。

Vimi：多样化的娱乐互动与创作自由

Vimi支持聊天、唱歌、舞动等多种娱乐互动场景，为喜爱自拍的用户提供了一个展示自我的平台。同时，Vimi还能通过单张图片生成趣味的人物表情包，玩法多样，满足不同用户的创作需求。此外，Vimi提供多种生成风格，如唯美写真风、奇幻风等，让用户享受沉浸式的视觉体验。

Vimi：填补行业需求空缺

目前，人物视频在行业中占比高达80%，短视频和直播平台的兴起使得人物视频的需求量急剧增长。Vimi的推出，为缺乏可控人物视频生成工具的内容创作者提供了解决方案，提高了创作效率。

Vimi：商汤科技的创新成果

Vimi基于商汤科技的日日新大模型体系，结合公司在计算机视觉领域的技术积累，能够精准识别和理解复杂人物图片，并通过AIGC技术实现和谐、稳定的视频内容生成。

Vimi目前已在商汤科技官网开放预约体验，并将在7月5日的人工智能论坛上展示更多细节，敬请期待。