多模态 - 梅斯AI导航站

OmniHuman– 字节推出的数字人动画生成模型

OmniHuman-1.5 字节推出的先进的AI模型，能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论，融合多模态大语言模型和扩散变换器，模拟人类的深思熟虑和直觉反应。模型能生成动态的多角色动画，支持通过文本提示进行细化，实现更精准的动画效果。OmniHuman-1.5 的动画具有复杂的角色互动和丰富的情感表现，为动画制作和数字内容创作带来全新的可能性，大大提升创作效率和

Seed GR-3 – 字节跳动推出通用机器人模型

Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型，具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法（机器人数据、VR 人类轨迹数据、公开图文数据）及定制的灵活“身体”ByteMini，实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色，是迈向通用

Seedream-完美支持中文的强大图像生成模型

字节跳动开源的图像生成大模型，目前是第4版Seedream 4, 这是字节跳动最新发布的豆包图像创作模型。该模型集成了文生图、图像编辑、多图融合、组图生成等多种能力，最高支持4K分辨率图像生成主要亮点多模态玩法拓展：灵活支持文本、图像的组合输入，允许文生图、图生图、图像编辑、多图编辑、组图生成等创作模式，玩法创意多样。风格化美感提升：支持高度自由的艺术风格迁移，从巴洛克到赛博朋克风，风格百变，更可

MarkItDown--一键把各种格式的文件转化为结构化 Markdown格式

微软开源的一个项目 MarkItDown，这么小的一个工具获得了 7w+ star。但它干的事儿特别朴素，把各种格式的文件（Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包）一键变成结构化 Markdown。是的，保留标题、列表、表格、链接结构的那种 Markdown。为什么我会觉得这个工具值得讲讲？因为这其实解决了一个我们常常下意识忽略的问题：在做

HuMo AI--通过协作多模态调节生成以人为中心的视频

HuMo 是一个统一的、以人为本的视频生成框架，旨在通过多模态输入（包括文本、图像和音频）生成高质量、细粒度且可控的真人视频。它支持强大的文本提示跟随功能、一致的主体保留以及同步的音频驱动动作。来自文本图像的 VideoGen - 使用文本提示结合参考图像自定义角色外观、服装、化妆、道具和场景。VideoGen from Text-Audio - 仅通过文本和音频输入即可生成音频同步的视频

Marble--李飞飞创立的空间智能模型

探索空间智能前沿的最新进展，并创建持久、可导航且可控制的 3D 世界。此外，还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版，用户可以在此查看和创建 3D 世界。给定一个图像或文本提示，我们的模型就能生成一个 3D 世界，让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比，我们生成的世界更大、风格更加多样，并且拥有

UnifoLM-WMA-0

项目主页：https://unigen-x.github.io/unifolm-world-model-action.github.io/开源代码网址：https://github.com/unitreerobotics/unifolm-world-model-action

GPT-5-Codex – OpenAI推出的Agent编程优化模型

GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型，基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务，如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间，简单任务秒回，复杂任务深度思考，支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色，能精准发现关键缺陷，减少无效评论。GPT-5-Codex 支持多模态输入，能在云端查看图

Evoker – 一站式AI创作平台，支持文本、图像和视频生成

Evoker 是一站式 AI 创作平台，激发创意灵感并加速创作过程。支持文本、图像和视频生成，提供多模态创作体验。用户可以在一个聊天框中轻松创作和完善作品，平台提供灵感市场，帮助用户发现新想法和创意触发点。Evoker 集成了多种先进的 AI 模型和工具，支持多模型共享上下文，使创作过程更加连贯。提供 Figma 插件，让用户在熟悉的工作环境中完成设计咨询或创作。Evoker的主要功能多模态创作：

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功

CWM – Meta开源的代码世界模型

CWM（Code World Model）是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地

Qianfan-VL – 百度开源的视觉理解模型

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸，不仅具备出色的通用能力，还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型，并在百度自研的昆仑芯 P800 上完成了全流程计算任务，展现出卓越的性能和效率。核心功能多尺寸模型：提供从轻量级到大规模的三种版本，满足不同企业和开发者的需求，适用于各种场景，从端上实

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

WonderPlay - 从单张图片生成动态 3D 世界

WonderPlay：WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架，它能将一张静态图片和用户自定义的动作，转化为一个动态的 3D 场景。该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态，然后驱动视频生成器合成更逼真的视频，最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环，确保了最终效果既符合物理规律，又具备极高的视

PaddleOCR-VL – 百度飞桨开源的多模态文档解析模型

PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型，参数量仅0.9B，专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一，超越GPT-4o等主流模型。模型采用双阶段架构：PP-DocLayoutV2负责版面分析，PaddleOCR-VL-0.9B完成内容识别，支持109种语言，能精准处理表格、公式、图表等复杂元素，输出结构化Markdown/

RTFM – 李飞飞团队的实时生成式世界模型

RTFM（Real-Time Frame Model）是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行，实时生成3D场景，支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系，将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标，用“上下文腾挪”技术，只关注附近帧生成新画面，实现高效且持久的世界构建。RTFM展示了未来世界模型的潜力，为实

TesserAct – AI 4D具身世界模型

TesserAct 是创新的 4D 具身世界模型，能预测 3D 场景随时间的动态演变，响应具身代理的动作。通过训练 RGB-DN（RGB、深度和法线）视频数据来学习，超越了传统的 2D 模型，能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性，支持新视角合成，显著提升了策略学习的性能。TesserAct的主要功能4D 场景生成：TesserAct 能生成包含

搜索结果