分类导航
Marble--李飞飞创立的空间智能模型
探索空间智能前沿的最新进展,并创建持久、可导航且可控制的 3D 世界。此外,还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版,用户可以在此查看和创建 3D 世界。给定一个图像或文本提示,我们的模型就能生成一个 3D 世界,让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比,我们生成的世界更大、风格更加多样,并且拥有
ImageBind
ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能,为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址 项目官网:imagebind
mPLUG-Owl3
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
UnifoLM-WMA-0
项目主页:https://unigen-x.github.io/unifolm-world-model-action.github.io/开源代码网址:https://github.com/unitreerobotics/unifolm-world-model-action
TesserAct – AI 4D具身世界模型
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传统的 2D 模型,能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性,支持新视角合成,显著提升了策略学习的性能。TesserAct的主要功能4D 场景生成:TesserAct 能生成包含
只显示前20页数据