银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA,一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本(Zero-Shot)泛化能力的具身大模型。

TrackVLA 是银河通用推出的产品级导航大模型,纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作,是一个由仿真合成动作数据训练的“视觉-语言-动作”(Vision-Language-Action, VLA)大模型。它让机器人拥有“听 → 看 → 懂 → 走”的闭环运动能力:一双眼睛看世界、一个智能“大脑”做推理,无需提前建图、不依赖遥操控制,真正实现语言驱动、泛化感知、自主推理、智能交互与运动。

TrackVLA 八大核心能力:

1. 听得懂你说话,还能换人跟

你只需说一句:“跟着妈妈”,它就能立即识别“妈妈”对应的目标位置。如果改口说“换成跟孩子”,它也能瞬间切换对象,并通过语音回复确认。甚至,Ta 还能跟踪你的宠物。这背后,是模型具备的自然语言理解与目标识别能力的协同工作。

2. 不怕人多也不跟错人

在人流密集的购物中心中,面对复杂的场景、多变的环境中多个相似穿着的人,它能准确识别原始目标并长时自主跟随。通过空间理解和视觉记忆机制,避免“认错人”。

3. 丢了目标能找回来

如果目标走出视野,它不会原地“发呆”,而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析出”目标的大致位置,并规划轨迹重新找回目标。

4. 从没见过的地方也能走

TrackVLA 不依赖建图,靠纯视觉输入理解环境。可在不依赖额外采集训练数据的情况下,直接部署在陌生商场、电梯、游乐区等环境,实现长时稳定自主跟随。

5. 灵活避障,适应复杂场景

在儿童游乐区、狭窄通道等复杂场景中,它能实时识别障碍物(包括儿童、玩具、地面水渍等),分析可通行区域,并可正确认知自身本体能力,自主推理出自身构型支持的合理路线。

6. 环境光线变化?不怕

从室外阳光到室内昏暗、从电梯镜面反射到超市货架夹缝,TrackVLA 展现出极强鲁棒性,无需专门调参或切换模式。

7. 远程可视守护,一目了然

通过 App,你可以实时看到机器人眼中的第一视角,掌握家人动态。系统还能主动提醒风险行为(如小朋友奔跑、老人跌倒),提供“移动守护”。

8. 技能涌现!

TrackVLA 不仅能稳定跟随人类,还可以泛化至任意移动目标。比如视频最后展示了让机器狗跟随一只路上偶遇的动物狗狗,其目标形态、运动方式、遮挡情况都非常不确定。TrackVLA 也表现了同样稳定的跟随能力,而这一能力是训练时从而教过的!

相关推荐

VRAG-RL

VRAG-RL

<p>VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视觉丰富信息理解领域的强大潜力。</p> <h2 style="font-size: 20px;">VRAG-RL的项目地址</h2> <ul> <li>GitHub仓库: <a href="https://github.com/Alibaba-NLP/VRAG" target="_blank" rel="noopener">https://github.com/Alibaba-NLP/VRAG</a> </li> <li>HuggingFace模型库: <a href="https://huggingface.co/collections/autumncc/vrag-rl" target="_blank" rel="noopener">https://huggingface.co/collections/autumncc/vrag-rl</a> </li> <li>arXiv技术论文: <a href="https://arxiv.org/pdf/2505.22019" target="_blank" rel="noopener">https://arxiv.org/pdf/2505.22019</a> </li> </ul>

Jodi

Jodi

<p>Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。</p> <h2 style="font-size: 20px;">Jodi的主要功能</h2> <ul> <li>联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。</li> <li>可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。</li> <li>图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。</li> </ul> <h2 style="font-size: 20px;">Jodi的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://vipl-genun.github.io/Project-Jodi/?utm_source=medsci" target="_blank" rel="noopener">https://vipl-genun.github.io/Project-Jodi/</a></li> <li>GitHub仓库:<a class="external" href="https://github.com/VIPL-GENUN/Jodi" target="_blank" rel="noopener nofollow">https://github.com/VIPL-GENUN/Jodi</a></li> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/VIPL-GENUN/Jodi" target="_blank" rel="noopener nofollow">https://huggingface.co/VIPL-GENUN/Jodi</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2505.19084" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.19084</a></li> </ul>

Ming-Lite-Omni

Ming-Lite-Omni

<p>Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问答、视频分析等多个领域,具有广阔的应用前景。</p> <h2 style="font-size: 20px;">Ming-lite-omni的主要功能</h2> <ul> <li>多模态交互:支持文本、图像、音频、视频等多种输入输出,实现自然流畅的交互体验。</li> <li>理解与生成:具备强大的理解和生成能力,支持处理问答、文本生成、图像识别、视频分析等任务。</li> <li>高效处理:基于MoE架构,优化计算效率,支持大规模数据处理和实时交互。</li> </ul> <h2 style="font-size: 20px;">Ming-lite-omni的项目地址</h2> <ul> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/inclusionAI/Ming-Lite-Omni" target="_blank" rel="noopener nofollow">https://huggingface.co/inclusionAI/Ming-Lite-Omni</a></li> </ul>

LLaDA-V

LLaDA-V

<p>LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。</p> <h2 style="font-size: 20px;">LLaDA-V的主要功能</h2> <ul> <li>图像描述生成:根据输入的图像生成详细的描述文本。</li> <li>视觉问答:回答与图像内容相关的问题。</li> <li>多轮多模态对话:在给定图像的上下文中进行多轮对话,理解生成与图像和对话历史相关的回答。</li> <li>复杂推理任务:在涉及图像和文本的复合任务中进行推理,例如解决与图像相关的数学问题或逻辑问题。</li> </ul> <h2 style="font-size: 20px;">LLaDA-V的项目地址</h2> <ul> <li>GitHub仓库:<a class="external" href="https://github.com/ML-GSAI/LLaDA-V" target="_blank" rel="noopener nofollow">https://github.com/ML-GSAI/LLaDA-V</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2505.16933" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.16933</a></li> </ul>

Vid2World

Vid2World

<p>Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。</p> <h2 style="font-size: 20px;">Vid2World的主要功能</h2> <ul> <li>高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。</li> <li>动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。</li> <li>自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。</li> <li>因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。</li> <li>支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。</li> </ul> <h2 style="font-size: 20px;">Vid2World的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://knightnemo.github.io/vid2world/?utm_source=medsci" target="_blank" rel="noopener">https://knightnemo.github.io/vid2world/</a></li> <li>HuggingFace模型库:<a class="external" href="https://huggingface.co/papers/2505.14357" target="_blank" rel="noopener nofollow">https://huggingface.co/papers/2505.14357</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2505.14357" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2505.14357</a></li> </ul>

mPLUG-Owl3

mPLUG-Owl3

<p>mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。</p> <p><img src="https://img.medsci.cn/aisite/img//iEhSXzLXn2kG7Pt2fThzKUdzKKAKqil8Jo7zneze.png"></p> <h2 style="font-size: 20px;">mPLUG-Owl3的主要功能</h2> <ul> <li>多图和长视频理解:能快速处理和理解多张图片和长时间视频内容。</li> <li>高推理效率:在极短时间内完成对大量视觉信息的分析,如4秒内处理2小时电影。</li> <li>保持准确性:在提升效率的同时,不牺牲对内容理解的准确性。</li> <li>多模态信息融合:通过Hyper Attention模块,有效整合视觉和语言信息。</li> <li>跨模态对齐:模型训练包括跨模态对齐,提升对图文信息的理解和交互能力。</li> </ul> <h2 style="font-size: 20px;">mPLUG-Owl3的技术原理</h2> <ul> <li>多模态融合:模型通过将视觉信息(图片)和语言信息(文本)融合,以理解多图和视频内容。通过自注意力(self-attention)和跨模态注意力(cross-attention)机制实现的。</li> <li>Hyper Attention模块:一个创新的模块,用于高效整合视觉和语言特征。通过共享LayerNorm、模态专属的Key-Value映射和自适应门控设计,优化了信息的并行处理和融合。</li> <li>视觉编码器:使用如SigLIP-400M这样的视觉编码器来提取图像特征,并通过线性层映射到与语言模型相同的维度,以便进行有效的特征融合。</li> <li>语言模型:例如Qwen2,用于处理和理解文本信息,并通过融合视觉特征来增强语言表示。</li> <li>位置编码:引入多模态交错的旋转位置编码(MI-Rope),保留图文的位置信息,确保模型能理解图像和文本在序列中的相对位置。</li> </ul> <h2 style="font-size: 20px;">mPLUG-Owl3的项目地址</h2> <ul> <li>GitHub仓库:<a class="external" href="https://github.com/X-PLUG/mPLUG-Owl/" target="_blank" rel="noopener nofollow">https://github.com/X-PLUG/mPLUG-Owl/</a></li> <li>HuggingFace链接:<a class="external" href="https://huggingface.co/spaces/mPLUG/mPLUG-Owl3" target="_blank" rel="noopener nofollow">https://huggingface.co/spaces/mPLUG/mPLUG-Owl3</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2408.04840" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2408.04840</a></li> <li>官网: <a href="https://www.modelscope.cn/studios/iic/mPLUG-Owl" target="_blank" rel="noopener">https://www.modelscope.cn/studios/iic/mPLUG-Owl</a>  </li> </ul>