LatticeWorld 是一个开创性的多模态 3D 世界生成框架,由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5(UE5)相结合,能通过简单的文本描述和视觉指令,快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。
与传统手工创作相比,LatticeWorld 的效率提升超过 90 倍,且生成质量高,有望在游戏、影视等领域带来革命性的变革。
核心功能
- 极速 3D 世界生成:只需输入文本或视觉指令,即可迅速生成大规模、高动态且真实的 3D 世界,大幅缩短创作周期。
- 支持多种场景类型:能够生成多种类型的场景,例如郊区、荒野等,满足不同的创作需求。
- 生成动态交互环境:能够生成动态智能体(AI)的配置信息,包括它们的类别、数量、行为状态和空间位置,让生成的 3D 世界更具互动性和生命力。
- 多模态输入:支持文本描述和视觉条件等多种输入方式,让用户可以根据自身需求选择最便捷的创作方式。
技术原理
LatticeWorld 的强大能力源于其精巧的技术架构:
- 符号序列场景布局:将复杂的空间布局转换为符号矩阵,每个符号代表特定的资产类型(如 “F” 代表森林、“W” 代表水体)。这种方法能将复杂的空间信息转化为语言模型可以处理的字符串,同时保持空间关系的完整性。
- 多模态视觉融合:利用 CLIP 预训练的视觉编码器,并结合专门设计的 CNN 网络,将视觉特征精确地映射到词嵌入空间。整个过程采用三阶段训练范式进行联合优化,确保视觉指令能够被模型有效理解和执行。
- 分层场景属性框架:框架分为粗粒度和细粒度两层。粗粒度属性控制全局环境(如地形、天气),细粒度属性则涵盖细节参数(如资产材质、位置),这种分层结构确保了场景的语义一致性,并减少了参数冲突。
- 程序化渲染管线:将符号化的场景布局和 JSON 格式的环境配置,通过解码器和转译系统,精准地转换为 UE5 引擎能识别的原生属性格式,实现对场景元素的精确控制。
应用场景
LatticeWorld 的出现,为多个行业带来了巨大的潜力:
- 游戏开发:快速生成游戏世界原型,如地形、建筑和植被,极大地加速开发进程。
- 影视制作:迅速搭建复杂虚拟场景,例如外星世界或古代城市,大幅降低实体场景搭建的成本和时间。
- VR/AR:创建沉浸式虚拟环境,例如虚拟旅游、虚拟教育等,提供身临其境的体验。
- 城市规划:快速生成城市虚拟模型,用于前期研究和可视化。
- 教育与培训:创建虚拟实验室和历史场景,提供互动式学习体验。
- 技术论文:https://arxiv.org/pdf/2509.05263