Meta 又有新的动作,推出基于视频训练的世界模型 V-JEPA 2(全称 Video Joint Embedding Predictive Architecture 2)。其能够实现最先进的环境理解与预测能力,并在新环境中完成零样本规划与机器人控制。
Meta 表示,他们在追求高级机器智能(AMI)的目标过程中,关键在于开发出能像人类一样认知世界、规划陌生任务执行方案,并高效适应不断变化环境的 AI 系统。
这次,Meta 首席 AI 科学家 Yann LeCun 亲自出镜,介绍世界模型与其他 AI 模型的不同。
他说,世界模型是一种现实的抽象数字孪生,AI 可以参考它来理解世界并预测其行为的后果。与理解语言不同,世界模型使机器能够理解物理世界,并能够规划行动路线以完成任务,而无需进行数百万次的试验,因为世界模型提供了对世界运行方式的基本理解。能够使用世界模型进行推理和规划的 AI 将产生广泛影响。例如,它可以用于帮助视障人士的辅助技术、在混合现实中为复杂任务提供指导、使教育更加个性化,甚至可以理解代码对程序状态和外部世界的影响。
此外,世界模型对于自动驾驶汽车和机器人等自主系统至关重要,它将开启机器人技术的新纪元,使现实世界中的 AI 智能体能够在不需要大量机器人训练数据的情况下帮助完成家务和体力任务。
V-JEPA 2 拥有 12 亿参数,基于联合嵌入预测架构(JEPA)构建。在此之前,Meta 已经证明,JEPA 架构在处理图像和 3D 点云等模态方面出色的表现。
此次发布的 V-JEPA 2 是在去年首个基于视频训练模型 V-JEPA 的基础上,进一步提升了动作预测和世界建模能力,使机器人能够通过与陌生物体及环境交互来完成任务。