3D 世界 - 梅斯AI导航站

DreamGen

DreamGen是英伟达推出的创新的机器人学习技术，基于AI视频世界模型生成合成数据，让机器人能在梦境中学习新技能。DreamGen仅需少量现实视频数据，能生成大规模逼真的训练数据，实现机器人在新环境中的行为泛化和环境泛化。DreamGen的四步流程包括微调视频世界模型、生成虚拟数据、提取虚拟动作以及训练下游策略。DreamGen让机器人在没有真实世界数据支持的情况下，凭文本指令完成复杂任务，显著

BAGEL

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，其中70亿为活跃参数。采用混合变换器专家架构（MoT），通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练，使用海量多模态标记数据进行预训练，包括语言、图像、视频和网络数据。在性能方面，BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型

mPLUG-Owl3

mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型，专为理解和处理多图及长视频设计。在保持准确性的同时，显著提升了推理效率，能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块，优化视觉与语言信息的融合，支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平，其论文、代码和资源已开源，供研究和应用。 mPLUG-Owl3的主要功能多

TradingAgents

TradingAgents是加利福尼亚大学洛杉矶分校和麻省理工学院推出的多代理LLM金融交易框架，能模拟现实世界的交易公司环境。TradingAgents整合多个具有不同角色和风险偏好的LLM代理，如基本面分析师、情绪分析师、技术分析师、交易员和风险经理等，实现对复杂金融数据的全面分析与处理。代理基于代理辩论和对话进行交易决策，结合结构化输出与自然语言对话，提高决策的精确性和灵活性。实验结果表明，

Aurora

Aurora是微软研究院推出的13亿参数的大气基础模型，基于从海量大气数据中提取有价值信息，用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构，处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色，包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测，计算速度比传统数值天气模型快约5000倍。模型提高了预测精度，降低计算成本，为应对气候变化和极端天气事件提

HRAvatar

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术，支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术，基于精准的表情编码器减少追踪误差，提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性，结合物理渲染模型，实现真实的重光照效果。HRAvatar在多个指标上优于现有方法，支持实时渲染（约155 FPS），为数

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型，支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑，支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对，结合真实视频和3D渲染数据，在预训练的图像照明编辑扩散框架（IC-Light）基础上，插入可

Google Beam

Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像，将2D视频流转换为逼真的3D效果，让远程通话更自然、更直观。用户能像面对面一样进行眼神交流和读懂细微表情，增强沟通效果。Google Beam支持实时语音翻译，打破语言障碍，让全球用户无缝交流。平台基于Google Cloud的强大支持，具备企业级可靠性，支持无缝集成到现有工作流程中。 Google Be

通义万相

通义万相AI视频是阿里推出的一款完全免费的AI视频生成工具，支持文生视频和图生视频两种方式，可以根据用户提供的文字提示词或图片，自动创作出具有影视级画面质感的高清视频（最长6秒）。通义万相AI视频支持多种艺术风格，包括但不限于古风、科幻、动画等，并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入，支持“灵感扩写”功能，一键帮用户完善提示词，还自带“音频生成”功能，视频生成自带音

3DTown

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术，将输入图像分解为重叠区域，基于预训练的3D对象生成器分别生成每个区域的3D内容，基于掩码修正流修复过程填补缺失的几何结构，同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景，在多种风格的场景生成中表现出色，优于现有的先进方法。

Hedra

Hedra是由原斯坦福大学的研究团队成立的数字创作实验室推出的AI对口型视频生成工具，专注于将人工智能技术应用于人物角色视频的生成。用户可以上传任意人物的照片和语音，Hedra会根据这些输入生成动态视频，其中人物的唇形、表情和姿态都能与语音内容完美同步。Hedra支持文本和图片生成视频，目前在免费公测中，提供无限时长的视频生成能力，单个视频最长可达30秒（开放预览版），并且每60秒的输入可以生成9

有言

有言是由魔珐科技推出的一个一站式AIGC视频创作和3D数字人生成平台，通过提供海量超写实3D虚拟人角色，帮助用户无需真人出镜即可制作视频。该平台基于魔珐自研的AIGC技术，支持用户输入文字快速生成3D内容，并提供自定义编辑、字幕、动效、背景音乐等后期包装功能，简化视频制作流程，让创作变得高效而有趣。有言的主要功能一站式服务：有言整合了从内容生成到后期制作的全套流程，为用户提供了从开始到

墨狐AI

墨狐AI是北京云泥科技推出的AI小说写作助手，专为网文小说作者设计。通过自动生成大纲、快速续写、剧情树分析和小说转剧本等功能，帮助作者解决创作难题，提高写作效率。用户只需简单输入灵感或现有文本，墨狐AI便能提供创意丰富的写作辅助，适合需要提升创作速度和质量的网文作者和爱好者。墨狐AI的主要功能生成大纲：用户输入简单的故事灵感，墨狐AI能自动生成包含世界观、角

蛙蛙写作

蛙蛙写作是杭州引力智航科技推出的AI小说和内容写作助手，帮助作者提高写作效率和创作质量。蛙蛙写作利用先进的AI技术，为用户提供了一系列写作辅助功能，让创作过程更加便捷和高效。蛙蛙写作的目标是让内容创作变得更加简单，无论是专业作家、自媒体运营者还是普通爱好者，都能通过蛙蛙写作快速产出高质量的作品。蛙蛙写作的主要功能蛙蛙写作工具版 AI生成内容：用户只需提供故事的基本元素（如书名

Vid2World

Vid2World是清华大学联合重庆大学推出的创新框架，支持将全序列、非因果的被动视频扩散模型（VDM）转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术，解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色，支持生成高保真、动态一致的视频序列，支持基于动作的交互式预测。Vid2World为提升世界模

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型（MLLM），基于纯扩散模型架构，专注于视觉指令微调。模型在LLaDA的基础上，引入视觉编码器和MLP连接器，将视觉特征映射到语言嵌入空间，实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平，超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能图像描述生成：根据输入的图像生成详细的描述

Cartwheel

Cartwheel 是 AI 3D 动画生成平台，基于文本到动画（Text-to-Motion）技术，让用户仅需输入文本描述，快速生成高质量的 3D 角色动画。平台结合深度学习模型与传统动画技术，支持动作捕捉、自动化运动合成，与主流 3D 软件无缝集成。Cartwheel 的目标是简化 3D 动画制作流程，帮助动画师和艺术家节省时间，专注于创造性工作。 Cartwheel的主要功能文本驱

Ming-Lite-Omni

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构，融合文本、图像、音频和视频等多种模态的感知能力，具备强大的理解和生成能力。模型在多个模态基准测试中表现出色，在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出，能实现自然流畅的多模态交互，为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性，可广泛用在OCR识别、知识问

Jodi

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架，基于联合建模图像域和多个标签域，将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制，执行联合生成（同时生成图像和多个标签）、可控生成（基于标签组合生成图像）及图像感知（从图像预测多个标签）三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集，实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色，生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能

Clark

Superblocks 专为全球大型企业打造，旨在以极低的时间和成本构建现代化、安全的软件。世界各地的团队都依赖 Superblocks 来构建关键任务内部应用程序，这些应用程序是其运营的支柱。此次Superblocks推出首个用于构建企业内部应用的 AI 智能体——Clark。借助 IT 和工程防护，赋能每位员工安全构建。执行企业标准：使用您的设计系统、集成、权限等进行构建。三种

TrackVLA

银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA，一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本（Zero-Shot）泛化能力的具身大模型。 TrackVLA 是银河通用推出的产品级导航大模型，纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作，是一个由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, V

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制，结合检索效率和基于模型的结果奖励，优化模型的检索和生成能力。在多个基准测试中，VRAG-RL显著优于现有方法，展现在视

National Gallery Mixtape

National Gallery Mixtape 是伦敦国家美术馆联合 Google Arts & Culture 推出的 AI 音乐实验工具。汇集了伦敦国家美术馆精选的200幅世界名画，涵盖从文艺复兴时期到现代的各种风格和主题。用户可从这些画作中最多选择6幅，拖放到指定区域，AI会分析画作的色彩、主题、情感和历史背景等元素，生成与之匹配的音乐片段。能通过调整音乐片段的音量、顺序和叠加方式

搜索结果