3D modeling - 梅斯AI导航站

Lovart

Lovart 全球首个设计 Agent 体验 Lovart 的三个特点：一、全链路设计和执行，一句话搞定以前的文生图工具，它们所提供的任务是“生成图片”这一环。而设计 Agent，则像一位“设计执行官”，覆盖从创意拆解到专业交付的整个视觉流程。从意图拆解 → 任务链 → 最后成品，一句话全搞定。单次可以执行上

Matrix-Game

昆仑万维正式开源（17B+）Matrix-Game大模型，即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地，也是工业界首个开源的10B+空间智能大模型，它是一个面向游戏世界建模的交互式世界基础模型，专为开放式环境中的高质量生成与精确控制而设计。空间智能作为AI时代的重要前沿技术，正在重塑我们与虚拟世界的

Step1X-3D

Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程，从超过 500 万个 3D 资产中筛选出 200 万个高质量数据，创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入，如文本和语义标签，基于低秩自适应（LoRA）微调实现灵活的几何控制。Step1X-3D 推动了 3

WorldMem

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制，解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中，智能体在多样化场景中自由探索，生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模，模拟动态变化（如物体对环境的影响）。模型在 Minecraft 数据集上进行大规模训练，在真实

MSQA

MSQA（Multi-modal Situated Question Answering）是大规模多模态情境推理数据集，提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对，覆盖9个问题类别，基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入，减少单模态输入的歧义。引入MSNN（Multi-modal Next-step Navi

Sketch2Anim

Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架，能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术，用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块，多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画，支持交互式编辑，极大地提高动画制作的效率和灵活性。 Sketch2Anim

Scenethesis

Scenethesis 是 NVIDIA 推出的创新框架，用在从文本生成交互式 3D 场景。框架结合大型语言模型（LLM）和视觉感知技术，基于多阶段流程实现高效生成，用 LLM 进行粗略布局规划，基于视觉模块细化布局生成图像指导，用优化模块调整物体姿态确保物理合理性，基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景，具有高度的真实感和物理合理性，广泛应用在虚拟内容

Model Medicines

Model Medicines 拥有人工智能药物研发公司中公开研发管线规模最大的公司之一。该公司拥有 192 种化合物，针对 26 个治疗靶点。所有化合物均通过该公司的 GALILEO 平台发现，该平台旨在研究 3D 蛋白质结构中相互作用的原子“群”。今年4月，Model及其合作伙伴的研究团队发布了一份预印本，确定了RdRp Thumb-1位点，该位点代表了正义单链RNA病毒中一个潜在的可用药

AnimeGamer

AnimeGamer 是基于多模态大型语言模型（MLLM）构建的，可以生成动态动画镜头和角色状态更新，为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动，创建独特的冒险故事。该产品的主要优点包括：动态生成与角色交互的动画，能够在不同动漫之间创建交互，丰富的游戏状态预测等。快速入门 🔮 环境设置要设置推理环境，您

Aurora

Aurora是微软研究院推出的13亿参数的大气基础模型，基于从海量大气数据中提取有价值信息，用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构，处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色，包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测，计算速度比传统数值天气模型快约5000倍。模型提高了预测精度，降低计算成本，为应对气候变化和极端天气事件提

HRAvatar

HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术，支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术，基于精准的表情编码器减少追踪误差，提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性，结合物理渲染模型，实现真实的重光照效果。HRAvatar在多个指标上优于现有方法，支持实时渲染（约155 FPS），为数

RelightVid

RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型，支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑，支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对，结合真实视频和3D渲染数据，在预训练的图像照明编辑扩散框架（IC-Light）基础上，插入可

Google Beam

Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像，将2D视频流转换为逼真的3D效果，让远程通话更自然、更直观。用户能像面对面一样进行眼神交流和读懂细微表情，增强沟通效果。Google Beam支持实时语音翻译，打破语言障碍，让全球用户无缝交流。平台基于Google Cloud的强大支持，具备企业级可靠性，支持无缝集成到现有工作流程中。 Google Be

通义万相

通义万相AI视频是阿里推出的一款完全免费的AI视频生成工具，支持文生视频和图生视频两种方式，可以根据用户提供的文字提示词或图片，自动创作出具有影视级画面质感的高清视频（最长6秒）。通义万相AI视频支持多种艺术风格，包括但不限于古风、科幻、动画等，并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入，支持“灵感扩写”功能，一键帮用户完善提示词，还自带“音频生成”功能，视频生成自带音

3DTown

3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术，将输入图像分解为重叠区域，基于预训练的3D对象生成器分别生成每个区域的3D内容，基于掩码修正流修复过程填补缺失的几何结构，同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景，在多种风格的场景生成中表现出色，优于现有的先进方法。

有言

有言是由魔珐科技推出的一个一站式AIGC视频创作和3D数字人生成平台，通过提供海量超写实3D虚拟人角色，帮助用户无需真人出镜即可制作视频。该平台基于魔珐自研的AIGC技术，支持用户输入文字快速生成3D内容，并提供自定义编辑、字幕、动效、背景音乐等后期包装功能，简化视频制作流程，让创作变得高效而有趣。有言的主要功能一站式服务：有言整合了从内容生成到后期制作的全套流程，为用户提供了从开始到

FinRobot

FinRobot是一个超越 FinGPT 范畴的 AI 代理平台，是专为金融应用精心设计的综合解决方案。它集成了多种 AI 技术，超越了单纯的语言模型。这种广阔的视野凸显了平台的多功能性和适应性，能够满足金融行业的多方面需求。 AI代理的概念：AI代理是一种智能体，它使用大型语言模型作为大脑来感知环境、做出决策并执行动作。与传统的人工智能不同，AI代理具有独立思考和利用工具逐步实现既定目标的能力

Cartwheel

Cartwheel 是 AI 3D 动画生成平台，基于文本到动画（Text-to-Motion）技术，让用户仅需输入文本描述，快速生成高质量的 3D 角色动画。平台结合深度学习模型与传统动画技术，支持动作捕捉、自动化运动合成，与主流 3D 软件无缝集成。Cartwheel 的目标是简化 3D 动画制作流程，帮助动画师和艺术家节省时间，专注于创造性工作。 Cartwheel的主要功能文本驱

TripoSG

TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流（Rectified Flow, RF）模型的高保真 3D 形状合成技术，通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集，实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色，生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能

Playmate

Playmate是广州趣丸科技团队推出的人脸动画生成框架。框架基于3D隐式空间引导扩散模型，用双阶段训练框架，根据音频和指令精准控制人物的表情和头部姿态，生成高质量的动态肖像视频。Playmate基于运动解耦模块和情感控制模块，实现对生成视频的精细控制，显著提升视频质量和情感表达的灵活性。Playmate在音频驱动肖像动画领域取得重大进展，提供对情感和姿态的精细控制，能生成多种风格的动态肖像，具有

V-JEPA 2

Meta 又有新的动作，推出基于视频训练的世界模型 V-JEPA 2（全称 Video Joint Embedding Predictive Architecture 2）。其能够实现最先进的环境理解与预测能力，并在新环境中完成零样本规划与机器人控制。 Meta 表示，他们在追求高级机器智能（AMI）的目标过程中，关键在于开发出能像人类一样认知世界、规划陌生任务执行方案，并高效适应不断变化环境的

ChatPs

ChatPs 是创新的 Photoshop 插件，通过自然语言交互简化图像编辑流程。无需掌握复杂的 Photoshop 操作技巧或快捷键，只需用日常语言下达指令，ChatPs 可精准识别执行任务，例如选中图层、翻译文本、抠图、调整图像等。针对设计场景进行了专门训练，能满足从新手到资深设计师的多元需求，大幅减少重复性操作，提升设计效率。ChatPs 覆盖了 Photoshop 的核心功能，结合 AI

Seaweed APT2

Seaweed APT2是字节跳动推出的创新的AI视频生成模型，通过自回归对抗后训练（AAPT）技术，将双向扩散模型转化为单向自回归生成器，实现高效、高质量的视频生成。模型能在单次网络前向评估（1NFE）中生成包含多帧视频的潜空间帧，显著降低了计算复杂性，通过输入回收机制和键值缓存（KV Cache）技术，支持长时间视频生成，解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU

EmbodiedGen

EmbodiedGen 是用于具身智能（Embodied AI）应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境，帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块，如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等，支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和

搜索结果