WonderPlay:
WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架,它能将一张静态图片和用户自定义的动作,转化为一个动态的 3D 场景。
该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态,然后驱动视频生成器合成更逼真的视频,最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环,确保了最终效果既符合物理规律,又具备极高的视觉真实度。
WonderPlay 支持多种物理材质(如刚体、布料、液体、气体等)和多种动作(如重力、风力等),让用户能够通过简单的操作,创造出丰富多样的动态效果。
核心功能
- 单图动态场景生成:只需一张图片和一个用户定义的动作,即可生成一个动态 3D 场景,直观地展示动作所带来的物理后果。
- 多材质支持:框架支持刚体、布料、液体、气体、弹性体和颗粒等多种物理材质,能够满足多样化的场景需求。
- 交互式动作响应:用户可以通过输入重力、风力、点力等动作,直接与场景进行互动,创造出不同的动态效果。
- 高视觉与物理真实度:通过结合物理模拟的精确性和视频生成的丰富性,确保生成的动态场景既符合物理规律,又具备极高的视觉真实度。
- 沉浸式交互体验:配备交互式查看器,用户可以自由探索生成的动态 3D 场景,获得更强的沉浸感。
技术原理
- 混合生成式模拟器:这是一个独特的闭环系统,物理求解器负责模拟粗略的 3D 动态,然后驱动视频生成器生成逼真视频,最后用视频反馈来更新动态 3D 场景,实现模拟与生成的持续优化。
- 空间变化双模态控制:在视频生成阶段,模型使用**运动(流场)和外观(RGB)**双模态信号来控制生成器,并根据场景区域动态调整生成策略,确保视频在动态和外观上与物理模拟结果高度一致。
- 3D 场景重建:从输入图片中,框架能够分别重建背景和物体。背景以分层高斯曲面(FLAGS)表示,物体则构建为具有拓扑连接性的“拓扑高斯曲面”,并估计材质属性,为后续的模拟和生成奠定基础。
应用场景
- AR/VR 场景构建:用于创建具备动态交互功能的沉浸式虚拟环境。
- 影视特效制作:快速生成动态场景原型,为特效制作提供辅助,提升视觉效果。
- 教育与培训:通过模拟物理现象和工作环境,增强教学和培训的实践性。
- 游戏开发:生成逼真的动态场景和交互效果,提升游戏的真实感和趣味性。
- 广告与营销:制作动态广告内容,提供互动体验,增强观众参与度。
项目地址
- 项目官网:https://kyleleey.github.io/WonderPlay/
- arXiv 技术论文:https://arxiv.org/pdf/2505.18151