TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传统的 2D 模型,能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性,支持新视角合成,显著提升了策略学习的性能。
TesserAct的主要功能
- 4D 场景生成:TesserAct 能生成包含 RGB(彩色图像)、深度图和法线图的视频流,共同构成了一个连贯的 4D 场景,帮助 AI 系统理解物体的形状、位置和运动。
- 新视角合成:模型支持从不同视角生成场景的图像,对于机器人在复杂环境中的导航和操作非常有帮助。
- 时空一致性优化:通过引入时空连续性约束,TesserAct 确保生成的 4D 场景在时间和空间上保持高度一致,更接近真实世界的物理规律。
- 机器人操作支持:基于 TesserAct 的机器人在各种操作任务中表现优异,特别是在需要精确空间理解的任务上,成功率远高于仅依赖 2D 图像的方法。
- 跨平台泛化能力:TesserAct 在不同平台和环境中的表现稳定,能适应多种复杂的场景。
TesserAct的项目地址
- 项目官网:https://tesseractworld.github.io/
- Github仓库:https://github.com/UMass-Embodied-AGI/TesserAct
- HuggingFace模型库:https://huggingface.co/anyeZHY/tesseract
- arXiv技术论文:https://arxiv.org/pdf/2504.20995