3D 建模 - 梅斯AI导航站

Marble--李飞飞创立的空间智能模型

探索空间智能前沿的最新进展，并创建持久、可导航且可控制的 3D 世界。此外，还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版，用户可以在此查看和创建 3D 世界。给定一个图像或文本提示，我们的模型就能生成一个 3D 世界，让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比，我们生成的世界更大、风格更加多样，并且拥有

MiniMax Music--新一代音乐生成模型

MiniMax发布新一代音乐生成模型Music 1.5，拓宽AI音乐创作新边界。Music 1.5 开启了“一人即乐队”的新时代，生成时长升至4分钟，并具备四大新突破：强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。Music 1.5 支持长达4分钟的音乐创作，出品即成品，不再仅是demo小样，并可对歌曲的风格、情绪和场景进行自定义和强控制。只需给出一句简单的自然语言描述，Music 1.5

ZipVoice-零样本单说话人语音合成模型

小米集团AI实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成（TTS）模型——ZipVoice（零样本单说话人语音合成模型）与ZipVoice-Dialog（零样本对话语音合成模型）。作为 zipformer 在语音生成任务上的应用和探索，ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了

YuLan-OneSim – 玉兰-万象，人大高瓴AI团队推出的社会模拟器

YuLan-OneSim（玉兰-万象）是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型（LLM）Agents 模拟人类社会行为，无需编程构建模拟场景，基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景，支持高达10万Agents的大规模模拟，基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功

LLaSO – 大型语言和语音模型中可重复研究的基础框架

LLaSO：大型语言和语音模型中可重复研究的基础框架完全开放的语料库+基准+参考模型，用于组合语音语言理解。LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。???? LLaSO 是什么？LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈，在一个框架中统一数据、评估和建模。LLaSO-Align (12.0M)：基于 ASR 的对

CWM – Meta开源的代码世界模型

CWM（Code World Model）是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域，让模型能够通过模拟代码执行过程，更深层次地理解和生成代码，而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色，例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开，旨在推动代码生成和理解领域的研究，并帮助开发者更高效地

LatticeWorld – 开创性的多模态 3D 世界生成框架

LatticeWorld 是一个开创性的多模态 3D 世界生成框架，由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5（UE5）相结合，能通过简单的文本描述和视觉指令，快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比，LatticeWorld 的效率提升超过 90 倍，且

WonderPlay - 从单张图片生成动态 3D 世界

WonderPlay：WonderPlay 是由斯坦福大学和犹他大学共同推出的一款创新型框架，它能将一张静态图片和用户自定义的动作，转化为一个动态的 3D 场景。该框架的核心在于其独特的物理模拟与视频生成闭环技术。它首先利用物理求解器模拟粗略的 3D 动态，然后驱动视频生成器合成更逼真的视频，最后用生成的视频来更新 3D 场景。这种“模拟与生成”的循环，确保了最终效果既符合物理规律，又具备极高的视

bodyvisualizer - 3D人体模型

BodyVisualizer.org is a fitness - focused platform centered on body visualization, boasting advanced 3D technology. Function - wise, it offers real - time 3D body modeling for instant accurate body mo

Lynx - 一张照片就能生成逼真个人视频

lynx 是由字节跳动研发的高保真个性化视频生成模型，仅需输入一张人像照片，即可生成身份高度一致的动态视频。该模型基于扩散 transformer（dit）架构构建，并创新性地引入了 id-adapter 和 ref-adapter 两个轻量级适配模块，分别用于精准控制人物身份和精细保留面部细节。lynx 配备专用人脸编码器提取面部特征，结合 x-nemo 技术增强表情表现力，通过 lbm 算法模

RTFM – 李飞飞团队的实时生成式世界模型

RTFM（Real-Time Frame Model）是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行，实时生成3D场景，支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系，将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标，用“上下文腾挪”技术，只关注附近帧生成新画面，实现高效且持久的世界构建。RTFM展示了未来世界模型的潜力，为实

Percify – AI数字人生成平台

Percify 是强大的 AI 数字人生成平台，专注于创建逼真的虚拟形象（avatar）视频内容。用户上传一张人脸图片和音频，通过简单的文字描述，能生成具有自然表情、精准口型同步和高质量语音的无限时长视频。平台能满足从初学者到专业创作者的需求，支持高清视频导出和语音克隆等功能。Percify 适用艺术家、品牌、游戏开发者等，帮助用户快速生成高质量的虚拟形象和视频内容，提升创作效率。Percify的

TesserAct – AI 4D具身世界模型

TesserAct 是创新的 4D 具身世界模型，能预测 3D 场景随时间的动态演变，响应具身代理的动作。通过训练 RGB-DN（RGB、深度和法线）视频数据来学习，超越了传统的 2D 模型，能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性，支持新视角合成，显著提升了策略学习的性能。TesserAct的主要功能4D 场景生成：TesserAct 能生成包含

Hitem3D – AI 3D模型生成工具

Hitem3D 是 AI 驱动的 3D 模型生成工具。工具结合 ULTRA3D 的高效性和 Sparc3D 的高精度，能将用户上传的图片快速转化为高质量的 3D 模型，适用游戏开发、电商展示、工业设计、教育研究等多种场景。基于先进的技术，Hitem3D 实现了从 2D 到 3D 的无缝转换，为创作者、设计师和开发者提供一个高效、低成本的解决方案，助力快速实现创意和项目落地。Hitem3D的官网地址

Seed3D

Seed3D 1.0 turns images into high-fidelity, physics-ready 3D assets in minutes. DiT-based generation, PBR materials, 6K textures, Omniverse/Unity/USDZ compatibility.

搜索结果