RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色,适用机器人操作、导航和多智能体协作等任务,助力具身智能从实验室走向真实场景。
RoboBrain 2.0的主要功能
- 空间理解:根据复杂指令进行精确点定位、边界框预测和空间关系推理,支持三维空间内的复杂任务。
- 时间建模:具备长期规划、闭环交互和多智能体协作能力,应对动态环境中的连续决策任务。
- 复杂推理:支持多步推理、因果逻辑分析,能生成推理过程的详细解释,提升决策透明性。
- 多模态输入处理:支持高分辨率图像、多视图输入、视频帧、语言指令和场景图等多种输入形式。
- 实时场景适应:快速适应新场景,实时更新环境信息,支持动态任务执行。
RoboBrain 2.0的项目地址
- 项目官网: https://superrobobrain.github.io/
- GitHub仓库: https://github.com/FlagOpen/RoboBrain2.0
- HuggingFace模型库: https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036
- arXiv技术论文: https://arxiv.org/pdf/2507.02029