WonderPlay - 从单张图片生成动态 3D 世界

3D 世界模型世界模型

WonderPlay：

WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架，它能将一张静态图片和用户自定义的动作，转化为一个动态的 3D 场景。

该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态，然后驱动视频生成器合成更逼真的视频，最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环，确保了最终效果既符合物理规律，又具备极高的视觉真实度。

WonderPlay 支持多种物理材质（如刚体、布料、液体、气体等）和多种动作（如重力、风力等），让用户能够通过简单的操作，创造出丰富多样的动态效果。

核心功能

单图动态场景生成：只需一张图片和一个用户定义的动作，即可生成一个动态 3D 场景，直观地展示动作所带来的物理后果。
多材质支持：框架支持刚体、布料、液体、气体、弹性体和颗粒等多种物理材质，能够满足多样化的场景需求。
交互式动作响应：用户可以通过输入重力、风力、点力等动作，直接与场景进行互动，创造出不同的动态效果。
高视觉与物理真实度：通过结合物理模拟的精确性和视频生成的丰富性，确保生成的动态场景既符合物理规律，又具备极高的视觉真实度。
沉浸式交互体验：配备交互式查看器，用户可以自由探索生成的动态 3D 场景，获得更强的沉浸感。

技术原理

混合生成式模拟器：这是一个独特的闭环系统，物理求解器负责模拟粗略的 3D 动态，然后驱动视频生成器生成逼真视频，最后用视频反馈来更新动态 3D 场景，实现模拟与生成的持续优化。
空间变化双模态控制：在视频生成阶段，模型使用**运动（流场）和外观（RGB）**双模态信号来控制生成器，并根据场景区域动态调整生成策略，确保视频在动态和外观上与物理模拟结果高度一致。
3D 场景重建：从输入图片中，框架能够分别重建背景和物体。背景以分层高斯曲面（FLAGS）表示，物体则构建为具有拓扑连接性的“拓扑高斯曲面”，并估计材质属性，为后续的模拟和生成奠定基础。

应用场景

AR/VR 场景构建：用于创建具备动态交互功能的沉浸式虚拟环境。
影视特效制作：快速生成动态场景原型，为特效制作提供辅助，提升视觉效果。
教育与培训：通过模拟物理现象和工作环境，增强教学和培训的实践性。
游戏开发：生成逼真的动态场景和交互效果，提升游戏的真实感和趣味性。
广告与营销：制作动态广告内容，提供互动体验，增强观众参与度。

项目地址

项目官网：https://kyleleey.github.io/WonderPlay/
arXiv 技术论文：https://arxiv.org/pdf/2505.18151

LatticeWorld – 开创性的多模态 3D 世界生成框架

<h3></h3><p>LatticeWorld 是一个开创性的多模态 <strong>3D 世界生成框架</strong>，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将<strong>大语言模型</strong>与工业级 <strong>3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述</strong>和<strong>视觉指令</strong>，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。</p><p>与传统手工创作相比，LatticeWorld 的效率提升超过 <strong>90 倍</strong>，且生成质量高，有望在<strong>游戏</strong>、<strong>影视</strong>等领域带来革命性的变革。</p><h3>核心功能</h3><ul><li>极速 3D 世界生成：只需输入文本或视觉指令，即可迅速生成大规模、高动态且真实的 3D 世界，大幅缩短创作周期。</li><li>支持多种场景类型：能够生成多种类型的场景，例如郊区、荒野等，满足不同的创作需求。</li><li>生成动态交互环境：能够生成动态智能体（AI）的配置信息，包括它们的类别、数量、行为状态和空间位置，让生成的 3D 世界更具互动性和生命力。</li><li>多模态输入：支持文本描述和视觉条件等多种输入方式，让用户可以根据自身需求选择最便捷的创作方式。</li></ul><h3>技术原理</h3><p>LatticeWorld 的强大能力源于其精巧的技术架构：</p><ul><li>符号序列场景布局：将复杂的空间布局转换为符号矩阵，每个符号代表特定的资产类型（如 “F” 代表森林、“W” 代表水体）。这种方法能将复杂的空间信息转化为语言模型可以处理的字符串，同时保持空间关系的完整性。</li><li>多模态视觉融合：利用 CLIP 预训练的视觉编码器，并结合专门设计的 CNN 网络，将视觉特征精确地映射到词嵌入空间。整个过程采用三阶段训练范式进行联合优化，确保视觉指令能够被模型有效理解和执行。</li><li>分层场景属性框架：框架分为粗粒度和细粒度两层。粗粒度属性控制全局环境（如地形、天气），细粒度属性则涵盖细节参数（如资产材质、位置），这种分层结构确保了场景的语义一致性，并减少了参数冲突。</li><li>程序化渲染管线：将符号化的场景布局和 JSON 格式的环境配置，通过解码器和转译系统，精准地转换为 UE5 引擎能识别的原生属性格式，实现对场景元素的精确控制。</li></ul><h3>应用场景</h3><p>LatticeWorld 的出现，为多个行业带来了巨大的潜力：</p><ul><li>游戏开发：快速生成游戏世界原型，如地形、建筑和植被，极大地加速开发进程。</li><li>影视制作：迅速搭建复杂虚拟场景，例如外星世界或古代城市，大幅降低实体场景搭建的成本和时间。</li><li>VR/AR：创建沉浸式虚拟环境，例如虚拟旅游、虚拟教育等，提供身临其境的体验。</li><li>城市规划：快速生成城市虚拟模型，用于前期研究和可视化。</li><li>教育与培训：创建虚拟实验室和历史场景，提供互动式学习体验。</li></ul><p><br></p><ul><li>技术论文：https://arxiv.org/pdf/2509.05263</li></ul>

CWM – Meta开源的代码世界模型

<p>CWM（Code World Model）是 Meta 开源的一个拥有 <strong>320 亿参数</strong>的代码语言模型。它率先将“<strong>世界模型</strong>”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。</p><p>CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 <strong>96.6% 的准确率</strong>。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地利用 AI 进行软件开发。</p><h3>主要功能</h3><ul><li>代码生成与理解：CWM 不仅能生成高质量的代码片段，还能通过模拟代码执行来理解其背后的逻辑和行为。它适用于解决编程竞赛问题、修复代码错误和实现新功能等多种任务。</li><li>数学与逻辑推理：模型在生成代码时具备数学和逻辑推理能力，能处理复杂的编程任务和问题。</li><li>多语言支持：目前主要支持 Python，但其底层架构和方法具备扩展到其他编程语言的潜力。</li><li>强化学习支持：通过与环境的交互（执行代码、观察结果），CWM 能持续优化其生成的代码，提升准确性和效率。</li></ul><h3>技术原理</h3><p>CWM 的核心优势源于其独特的技术架构：</p><ul><li>世界模型（World Model）：通过模拟代码的执行过程来理解代码的动态行为。模型在训练中学习大量的代码执行轨迹，从而在生成代码前预测其执行结果。</li><li>多任务强化学习（Multi-Task RL）：结合多任务强化学习，让模型通过运行代码并观察测试结果来优化生成过程，使其更加准确。</li><li>密集解码器架构（Dense Decoder Architecture）：该架构支持处理长达 131k tokens 的长上下文，并通过交替的局部和全局注意力机制提高处理效率，使其能处理复杂的代码结构和长代码片段。</li><li>多阶段训练（Multi-Stage Training）：训练过程分为预训练、中间训练和后训练三个阶段，每个阶段都有特定的数据集和目标，逐步增强模型性能，特别是在中间训练阶段引入了代码执行轨迹来强化其世界建模能力。</li></ul><h3>应用场景</h3><p>CWM 在软件开发领域具有广泛的应用潜力：</p><ul><li>代码生成与优化：帮助开发者快速实现新功能，并优化现有代码，提升开发效率。</li><li>软件工程自动化：通过理解代码逻辑，自动化修复代码错误和优化性能。</li><li>编程竞赛辅助：快速生成解决方案，帮助参赛者节省时间并提高解题成功率。</li><li>代码理解与教学：模拟代码执行过程，帮助开发者和学习者更好地理解代码逻辑，提升编程能力。</li></ul><h3>项目链接</h3><p>您可以访问以下链接了解更多详情：</p><ul><li>GitHub 仓库：https://github.com/facebookresearch/cwm</li><li>HuggingFace 模型库：https://huggingface.co/facebook/cwm</li><li>技术论文：https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/</li></ul>

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

<p style="text-align: left; line-height: 2;">YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功能，自动从研究主题生成报告，完成整个社会科学研究循环。YuLan-OneSim推动社会科学与AI的深度融合，为社会科学研究提供强大工具。</p><h2 style="text-align: left;">YuLan-OneSim的主要功能</h2><ul><li style="text-align: left;"><strong>无需编程构建模拟场景</strong>：用户用自然语言交互描述和细化模拟场景，系统自动生成相应的执行代码，降低对编程技能的要求。</li><li style="text-align: left;"><strong>丰富的默认场景库</strong>：提供50多个涵盖8个主要社会科学领域的默认模拟场景，包括经济学、社会学、政治学等，为研究者提供丰富的研究素材。</li><li style="text-align: left;"><strong>可进化的模拟</strong>：根据外部反馈自动优化LLM，提升模拟的准确性和可靠性。</li><li style="text-align: left;"><strong>大规模模拟能力</strong>：基于分布式架构，支持高达10万个Agent的模拟。</li><li style="text-align: left;"><strong>AI社会研究者</strong>：自动将研究主题转化为具体的模拟场景，生成研究报告，从研究主题的提出到报告的生成，实现研究过程的自动化。</li></ul><h2 style="text-align: left;">YuLan-OneSim的技术原理</h2><ul><li style="text-align: left;"><strong>场景形式化</strong>：基于Overview, Design Concepts, and Details (ODD)协议将用户需求转化为结构化的场景描述。</li><li style="text-align: left;"><strong>行为图构建</strong>：基于ODD协议，提取Agent类型和行为逻辑，生成行为图，定义Agent之间的交互逻辑。</li><li style="text-align: left;"><strong>代码生成</strong>：根据行为图生成可执行的模拟代码，用模块化代码生成方法，确保代码的准确性和可维护性。</li><li style="text-align: left;"><strong>场景规范</strong>：生成环境数据、Agent配置数据和Agent关系数据，确保模拟的完整性和一致性。</li><li style="text-align: left;"><strong>模拟子系统</strong>：Agent由多个模块组成，包括配置、记忆、规划和行动模块，支持高度定制化。用事件驱动的异步事件总线，支持并行计算和高效的事件处理。基于主从节点架构，支持大规模Agent的并行计算，优化通信效率和资源分配。</li><li style="text-align: left;"><strong>反馈驱动的进化子系统</strong>：基于多智能体框架（Verifier–Reasoner–Refiner–Tuner, VR²T），对模拟结果进行评估和优化。系统生成的提示响应对经过验证、推理、修正和微调，提高LLM的性能。</li><li style="text-align: left;"><strong>AI社会研究者子系统</strong>：实验设计模块将研究主题转化为具体的模拟场景，包括生成候选研究问题、评估场景可行性和生成ODD协议。报告生成模块基于模拟结果生成详细的分析报告，包括数据解读、报告结构生成、报告撰写和报告审查。</li></ul><h2 style="text-align: left;">YuLan-OneSim的项目地址</h2><ul><li style="text-align: left;"><strong>GitHub仓库</strong>：<a href="https://github.com/RUC-GSAI/YuLan-OneSim" target="_blank">https://github.com/RUC-GSAI/YuLan-OneSim</a></li><li style="text-align: left;"><strong>arXiv技术论文</strong>：<a href="https://arxiv.org/pdf/2505.07581" target="_blank">https://arxiv.org/pdf/2505.07581<br></a></li><li style="text-align: left;"></li></ul>

Evoker – 一站式AI创作平台，支持文本、图像和视频生成

<p style="text-align: left; line-height: 2;">Evoker 是一站式 AI 创作平台，激发创意灵感并加速创作过程。支持文本、图像和视频生成，提供多模态创作体验。用户可以在一个聊天框中轻松创作和完善作品，平台提供灵感市场，帮助用户发现新想法和创意触发点。Evoker 集成了多种先进的 AI 模型和工具，支持多模型共享上下文，使创作过程更加连贯。提供 <a href="https://ai-bot.cn/sites/13896.html" target="_blank">Figma</a> 插件，让用户在熟悉的工作环境中完成设计咨询或创作。</p><h2 style="text-align: left;">Evoker的主要功能</h2><ul><li style="text-align: left;">多模态创作：支持文本、图像和视频生成，满足不同创作需求。</li><li style="text-align: left;">灵感市场：提供一个探索新想法和创意触发点的平台，帮助用户突破创作瓶颈。</li><li style="text-align: left;">逐步调整：AI 跟踪创作过程，帮助用户逐步完善作品，确保每一步都达到理想效果。</li><li style="text-align: left;">多模型集成：整合多种先进的 AI 模型，用户可以根据需求选择不同模型进行创作。</li><li style="text-align: left;">共享上下文：所有模型共享上下文，确保创作过程的连贯性和一致性。</li><li style="text-align: left;">Figma 插件支持：作为 Figma 插件，用户可以直接在 Figma 中使用 Evoker 的功能，无需切换工具。</li><li style="text-align: left;">用户友好界面：提供直观易用的界面，即使没有技术背景的用户也能轻松上手。</li><li style="text-align: left;">商业许可：付费计划提供商业许可，确保用户可以将生成的内容用于商业用途。</li></ul><h2 style="text-align: left;">Evoker的官网地址</h2><ul><li style="text-align: left;"><strong>官网地址</strong>：https://www.evoker.design/</li></ul>

UnifoLM-WMA-0

<p><strong>项目主页：</strong></p><p>https://unigen-x.github.io/unifolm-world-model-action.github.io/</p><p><br></p><p><strong>开源代码网址：</strong></p><p>https://github.com/unitreerobotics/unifolm-world-model-action</p>

Seed GR-3 – 字节跳动推出通用机器人模型

<p style="text-align: left; line-height: 2;">Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型，具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法（机器人数据、VR 人类轨迹数据、公开图文数据）及定制的灵活“身体”ByteMini，实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色，是迈向通用机器人“大脑”的重要一步。</p><h2 style="text-align: left;">Seed GR-3的项目地址</h2><ul><li style="text-align: left;"><strong>项目官网</strong>：https://seed.bytedance.com/zh/GR3</li><li style="text-align: left;"><strong>arXiv技术论文</strong>：https://arxiv.org/pdf/2507.15493</li></ul>

Genie Envisioner

<p>智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner（GE）。GE基于约3000小时真实机器人操控视频数据，整合未来帧预测、策略学习与仿真评估，形成闭环架构，使机器人实现从“看”到“想”再到“动”的端到端推理与执行。</p> <p>链接：</p> <ul class="list-paddingleft-2"> <li> <p>Project page：https://genie-envisioner.github.io/</p> </li> <li> <p>Arxiv：https://arxiv.org/abs/2508.05635</p> </li> <li> <p>Github：https://github.com/AgibotTech/Genie-Envisioner</p> </li> </ul>

ImageBind

<p>ImageBind是Meta公司推出的开源多模态AI模型，将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁，实现其他模态数据的隐式对齐，无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能，为创建沉浸式、多感官的AI体验提供新的可能性。</p> <h2 style="font-size: 20px;">ImageBind的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://imagebind.metademolab.com/?utm_source=medsci" target="_blank" rel="noopener">imagebind.metademolab.com</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/facebookresearch/ImageBind" target="_blank" rel="noopener nofollow">https://github.com/facebookresearch/ImageBind</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2305.05665" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2305.05665</a></li> </ul>

RoboOS

<p>RoboOS 2.0 是智谱开源的跨本体大小脑协同框架，专为具身智能设计。框架支持多机器人协作，基于集成MCP协议和无服务器架构实现轻量化部署，降低开发门槛。框架包含基于云计算的大脑模块，负责高级认知与多智能体协同；分布式小脑模块群，专司机器人专项技能执行；及实时共享内存机制，强化环境态势感知能力。RoboOS 2.0 提供标准化接口，消除硬件适配差异，用技能商店实现机器人技能模块的智能匹配与一键适配，助力机器人从“单机智能”迈向“群体智能”。</p> <h2 style="font-size: 20px;">RoboOS 2.0的主要功能</h2> <ul> <li>多机器人协作：支持多智能体任务的动态分配与并行执行，适用复杂场景，提升任务执行效率。</li> <li>大小脑协同：大脑模块负责高级认知与多智能体协同，小脑模块专司机器人专项技能执行，实现高效分工。</li> <li>轻量化部署：集成MCP协议和无服务器架构，降低开发门槛，支持快速部署，简化开发流程。</li> <li>标准化接口：提供标准化接口，消除不同厂商和硬件之间的适配差异，支持一键适配全球开发者创建的机器人技能模块。</li> <li>实时感知与建模：新增多本体时空记忆场景图共享机制，支持动态环境下的实时感知与建模，增强环境适应能力。</li> <li>任务监控与反馈：引入多粒度任务监控模块，实现任务闭环反馈，提升任务执行的稳定性和成功率，确保任务可靠完成。</li> </ul> <h2 style="font-size: 20px;">RoboOS 2.0的项目地址</h2> <ul> <li>项目官网：https://github.com/FlagOpen/RoboOS</li> <li>GitHub仓库：https://github.com/FlagOpen/RoboOS</li> <li>arXiv技术论文：https://arxiv.org/pdf/2505.03673</li> </ul>

RoboBrain

<p>RoboBrain 2.0 是强大的开源具身大脑模型，能统一感知、推理和规划，支持复杂任务的执行。RoboBrain 2.0 包含 7B（轻量级）和 32B（全规模）两个版本，基于异构架构，融合视觉编码器和语言模型，支持多图像、长视频和高分辨率视觉输入，及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色，适用机器人操作、导航和多智能体协作等任务，助力具身智能从实验室走向真实场景。</p> <h2 style="font-size: 20px;">RoboBrain 2.0的主要功能</h2> <ul> <li>空间理解：根据复杂指令进行精确点定位、边界框预测和空间关系推理，支持三维空间内的复杂任务。</li> <li>时间建模：具备长期规划、闭环交互和多智能体协作能力，应对动态环境中的连续决策任务。</li> <li>复杂推理：支持多步推理、因果逻辑分析，能生成推理过程的详细解释，提升决策透明性。</li> <li>多模态输入处理：支持高分辨率图像、多视图输入、视频帧、语言指令和场景图等多种输入形式。</li> <li>实时场景适应：快速适应新场景，实时更新环境信息，支持动态任务执行。</li> </ul> <h2 style="font-size: 20px;">RoboBrain 2.0的项目地址</h2> <ul> <li>项目官网： <a href="https://superrobobrain.github.io/" target="_blank" rel="noopener">https://superrobobrain.github.io/</a> </li> <li>GitHub仓库： <a href="https://github.com/FlagOpen/RoboBrain2.0" target="_blank" rel="noopener">https://github.com/FlagOpen/RoboBrain2.0</a> </li> <li>HuggingFace模型库： <a href="https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036" target="_blank" rel="noopener">https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036</a> </li> <li>arXiv技术论文： <a href="https://arxiv.org/pdf/2507.02029" target="_blank" rel="noopener">https://arxiv.org/pdf/2507.02029</a> </li> </ul>

UniWorld

<p>北大团队通过对GPT-4o-Image的深入实验，突破性发现其在视觉特征提取环节中，相较于传统变分自编码器（VAE），更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。</p> <p>基于上述研究成果，团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型，仅需2.7M训练样本，即可实现图像理解、生成、编辑、感知等多任务处理。</p> <p>实验数据显示，在多个权威基准测试中，UniWorld-V1的性能表现与使用2665M样本训练的BAGEL模型、专业图像编辑模型Step1X-Edit旗鼓相当。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/06/23/1750696353_ZiWI8VrmME.png"></p> <p>通过示例与 GPT-4o-Image 进行了定性对比（见图6）。结果显示，UniWorld-V1 在各类感知任务上表现不俗，甚至在许多方面超越了 GPT-4o-Image。尤其在 Canny 边缘检测、法线图生成、HED、分割和草图生成等任务中，UniWorld-V1 的指令理解与执行能力更强。这表明其一体化架构能够提供广泛且准确的图像感知功能，是首个具备如此多样且高保真视觉分析能力的开源统一模型。</p>

EmbodiedGen

<p>EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和 URDF 格式，为具身智能研究提供了强大的工具支持。</p> <h2 style="font-size: 20px;">EmbodiedGen的主要功能</h2> <ul> <li> <div class="paragraph">图像到 3D 转换：能从输入图像生成具有物理合理性的 3D 资产。</div> </li> <li> <div class="paragraph">文本到 3D 生成：根据文本描述生成各种几何形状和风格的 3D 资产。</div> </li> <li> <div class="paragraph">纹理生成功能：为 3D 网格生成视觉丰富的纹理。</div> </li> <li> <div class="paragraph">复杂场景构建：支持从简单物体到复杂场景的创建，能生成具有真实世界比例且符合统一机器人描述格式（URDF）的高质量 3D 资产。</div> </li> <li> <div class="paragraph">智能布局生成：提供智能布局生成能力，支持训练与评估中的下游任务。</div> </li> <li> <div class="paragraph">物理属性支持：生成的 3D 资产具备密封的几何结构和物理上合理的属性，可以直接应用于机器人仿真和描述格式中。</div> </li> </ul> <h2 style="font-size: 20px;">EmbodiedGen的项目地址</h2> <ul> <li>项目官网：https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html</li> <li>Github仓库：https://github.com/HorizonRobotics/EmbodiedGen</li> <li>arXiv技术论文：https://arxiv.org/pdf/2506.10600</li> </ul>

V-JEPA 2

<p>Meta 又有新的动作，推出基于视频训练的世界模型 V-JEPA 2（全称 Video Joint Embedding Predictive Architecture 2）。其能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。</p> <p>Meta 表示，他们在追求高级机器智能（AMI）的目标过程中，关键在于开发出能像人类一样认知世界、规划陌生任务执行方案，并高效适应不断变化环境的 AI 系统。</p> <p>这次，Meta 首席 AI 科学家 Yann LeCun 亲自出镜，介绍世界模型与其他 AI 模型的不同。</p> <p>他说，世界模型是一种现实的抽象数字孪生，AI 可以参考它来理解世界并预测其行为的后果。与理解语言不同，世界模型使机器能够理解物理世界，并能够规划行动路线以完成任务，而无需进行数百万次的试验，因为世界模型提供了对世界运行方式的基本理解。能够使用世界模型进行推理和规划的 AI 将产生广泛影响。例如，它可以用于帮助视障人士的辅助技术、在混合现实中为复杂任务提供指导、使教育更加个性化，甚至可以理解代码对程序状态和外部世界的影响。</p> <p>此外，世界模型对于自动驾驶汽车和机器人等自主系统至关重要，它将开启机器人技术的新纪元，使现实世界中的 AI 智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。</p> <p>V-JEPA 2 拥有 12 亿参数，基于联合嵌入预测架构（JEPA）构建。在此之前，Meta 已经证明，JEPA 架构在处理图像和 3D 点云等模态方面出色的表现。</p> <p>此次发布的 V-JEPA 2 是在去年首个基于视频训练模型 V-JEPA 的基础上，进一步提升了动作预测和世界建模能力，使机器人能够通过与陌生物体及环境交互来完成任务。</p>

SmolVLA

<p>SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，模型小巧，可在CPU上运行，单个消费级GPU即可训练，能在MacBook上部署。SmolVLA 完全基于开源数据集训练，数据集标签为“lerobot”。</p> <h2 style="font-size: 20px;">SmolVLA的主要功能</h2> <ul> <li> <div class="paragraph">多模态输入处理：SmolVLA 能处理多种输入，包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征，将语言指令标记化后输入解码器，将传感运动状态通过线性层投影到一个标记上，与语言模型的标记维度对齐。</div> </li> <li> <div class="paragraph">动作序列生成：模型包含一个动作专家模块，是一个轻量级的 Transformer，能基于视觉-语言模型（VLM）的输出，生成未来机器人的动作序列块。采用流匹配技术进行训练，通过引导噪声样本回归真实数据分布来学习动作生成，实现高精度的实时控制。</div> </li> <li> <div class="paragraph">高效推理与异步执行：SmolVLA 引入了异步推理堆栈，将动作执行与感知和预测分离，实现更快、更灵敏的控制，使机器人可以在快速变化的环境中更快速地响应，提高了响应速度和任务吞吐量。</div> </li> </ul> <h2 style="font-size: 20px;">SmolVLA的项目地址</h2> <ul> <li>HuggingFace模型库： <a href="https://huggingface.co/lerobot/smolvla_base" target="_blank" rel="noopener">https://huggingface.co/lerobot/smolvla_base</a> </li> <li>arXiv技术论文： <a href="https://arxiv.org/pdf/2506.01844" target="_blank" rel="noopener">https://arxiv.org/pdf/2506.01844</a> </li> </ul>

VRAG-RL

<p>VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制，结合检索效率和基于模型的结果奖励，优化模型的检索和生成能力。在多个基准测试中，VRAG-RL显著优于现有方法，展现在视觉丰富信息理解领域的强大潜力。</p> <h2 style="font-size: 20px;">VRAG-RL的项目地址</h2> <ul> <li>GitHub仓库： <a href="https://github.com/Alibaba-NLP/VRAG" target="_blank" rel="noopener">https://github.com/Alibaba-NLP/VRAG</a> </li> <li>HuggingFace模型库： <a href="https://huggingface.co/collections/autumncc/vrag-rl" target="_blank" rel="noopener">https://huggingface.co/collections/autumncc/vrag-rl</a> </li> <li>arXiv技术论文： <a href="https://arxiv.org/pdf/2505.22019" target="_blank" rel="noopener">https://arxiv.org/pdf/2505.22019</a> </li> </ul>

TrackVLA

<p>银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA，一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本（Zero-Shot）泛化能力的具身大模型。</p> <p>TrackVLA 是银河通用推出的产品级导航大模型，纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作，是一个由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, VLA）大模型。它让机器人拥有“听 → 看 → 懂 → 走”的闭环运动能力：一双眼睛看世界、一个智能“大脑”做推理，无需提前建图、不依赖遥操控制，真正实现语言驱动、泛化感知、自主推理、智能交互与运动。</p> <p>TrackVLA 八大核心能力：</p> <p>1. 听得懂你说话，还能换人跟</p> <p>你只需说一句：“跟着妈妈”，它就能立即识别“妈妈”对应的目标位置。如果改口说“换成跟孩子”，它也能瞬间切换对象，并通过语音回复确认。甚至，Ta 还能跟踪你的宠物。这背后，是模型具备的自然语言理解与目标识别能力的协同工作。</p> <p>2. 不怕人多也不跟错人</p> <p>在人流密集的购物中心中，面对复杂的场景、多变的环境中多个相似穿着的人，它能准确识别原始目标并长时自主跟随。通过空间理解和视觉记忆机制，避免“认错人”。</p> <p>3. 丢了目标能找回来</p> <p>如果目标走出视野，它不会原地“发呆”，而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析出”目标的大致位置，并规划轨迹重新找回目标。</p> <p>4. 从没见过的地方也能走</p> <p>TrackVLA 不依赖建图，靠纯视觉输入理解环境。可在不依赖额外采集训练数据的情况下，直接部署在陌生商场、电梯、游乐区等环境，实现长时稳定自主跟随。</p> <p>5. 灵活避障，适应复杂场景</p> <p>在儿童游乐区、狭窄通道等复杂场景中，它能实时识别障碍物（包括儿童、玩具、地面水渍等），分析可通行区域，并可正确认知自身本体能力，自主推理出自身构型支持的合理路线。</p> <p>6. 环境光线变化？不怕</p> <p>从室外阳光到室内昏暗、从电梯镜面反射到超市货架夹缝，TrackVLA 展现出极强鲁棒性，无需专门调参或切换模式。</p> <p>7. 远程可视守护，一目了然</p> <p>通过 App，你可以实时看到机器人眼中的第一视角，掌握家人动态。系统还能主动提醒风险行为（如小朋友奔跑、老人跌倒），提供“移动守护”。</p> <p>8. 技能涌现！</p> <p>TrackVLA 不仅能稳定跟随人类，还可以泛化至任意移动目标。比如视频最后展示了让机器狗跟随一只路上偶遇的动物狗狗，其目标形态、运动方式、遮挡情况都非常不确定。TrackVLA 也表现了同样稳定的跟随能力，而这一能力是训练时从而教过的！</p>

Jodi

<p>Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制，执行联合生成（同时生成图像和多个标签）、可控生成（基于标签组合生成图像）及图像感知（从图像预测多个标签）三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色，展现强大的可扩展性和跨领域一致性。</p> <h2 style="font-size: 20px;">Jodi的主要功能</h2> <ul> <li>联合生成：同时生成图像和多个标签，例如深度图、法线图、边缘图等，生成的图像和标签在语义和空间上保持一致。</li> <li>可控生成：根据给定的标签组合生成图像，用户指定某些标签作为条件输入，控制生成图像的特定属性或特征。</li> <li>图像感知：从给定的图像中同时预测多个标签，实现对图像的多维度理解和分析，例如同时进行深度估计、边缘检测、语义分割等任务。</li> </ul> <h2 style="font-size: 20px;">Jodi的项目地址</h2> <ul> <li>项目官网：<a class="external" href="https://vipl-genun.github.io/Project-Jodi/?utm_source=medsci" target="_blank" rel="noopener">https://vipl-genun.github.io/Project-Jodi/</a></li> <li>GitHub仓库：<a class="external" href="https://github.com/VIPL-GENUN/Jodi" target="_blank" rel="noopener nofollow">https://github.com/VIPL-GENUN/Jodi</a></li> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/VIPL-GENUN/Jodi" target="_blank" rel="noopener nofollow">https://huggingface.co/VIPL-GENUN/Jodi</a></li> <li>arXiv技术论文：<a class="external" href="https://arxiv.org/pdf/2505.19084" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.19084</a></li> </ul>

Ming-Lite-Omni

<p>Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构，融合文本、图像、音频和视频等多种模态的感知能力，具备强大的理解和生成能力。模型在多个模态基准测试中表现出色，在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出，能实现自然流畅的多模态交互，为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性，可广泛用在OCR识别、知识问答、视频分析等多个领域，具有广阔的应用前景。</p> <h2 style="font-size: 20px;">Ming-lite-omni的主要功能</h2> <ul> <li>多模态交互：支持文本、图像、音频、视频等多种输入输出，实现自然流畅的交互体验。</li> <li>理解与生成：具备强大的理解和生成能力，支持处理问答、文本生成、图像识别、视频分析等任务。</li> <li>高效处理：基于MoE架构，优化计算效率，支持大规模数据处理和实时交互。</li> </ul> <h2 style="font-size: 20px;">Ming-lite-omni的项目地址</h2> <ul> <li>HuggingFace模型库：<a class="external" href="https://huggingface.co/inclusionAI/Ming-Lite-Omni" target="_blank" rel="noopener nofollow">https://huggingface.co/inclusionAI/Ming-Lite-Omni</a></li> </ul>

分类导航