Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。
Vid2World的主要功能
- 高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
- 动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
- 自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
- 因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
- 支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。
Vid2World的项目地址
- 项目官网:https://knightnemo.github.io/vid2world/
- HuggingFace模型库:https://huggingface.co/papers/2505.14357
- arXiv技术论文:https://arxiv.org/pdf/2505.14357