MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性与一致性,适用内容创作、广告制作等多种场景,展现极强的生成能力和可控性。

MAGREF的主要功能

  • 多主体视频生成:支持单人、多人互动以及人物与物体、背景的复杂场景生成,保持身份特征高度一致,多人同框不串脸。
  • 高一致性与可控性:基于一张参考图像和文本提示,生成身份稳定、动作自然、背景协调的视频,支持精确控制人物动作、表情、环境和光影效果。
  • 复杂场景处理:支持人物与物体交互(如人与宠物互动、人物操作物体)及人物置于复杂背景中(如城市街景、自然环境等),生成语义清晰、风格协调的视频。
  • 高效性和通用性:无需为不同任务单独设计模型,基于最小架构改动和统一训练流程,适配多种参考图配置。

MAGREF的项目地址

相关推荐

VFX8

VFX8

<p>VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。</p> <h2 style="font-size: 20px;">VFX8的主要功能</h2> <ul> <li> <div class="paragraph">智能分镜制作:能批量生成电影级分镜头脚本,确保角色在不同镜头中的形象和动作一致性。</div> </li> <li> <div class="paragraph">角色形象设计:提供全风格的影视角色设计,满足从写实到卡通等不同风格的视觉创作需求。</div> </li> <li> <div class="paragraph">剧集管理:具备长篇连载剧集的视觉资产管理系统,方便创作者高效管理剧集的视觉元素,确保风格统一。</div> </li> <li> <div class="paragraph">团队协作:支持多人协作,提升制作团队的沟通和任务分配效率,适合团队项目。</div> </li> <li> <div class="paragraph">智能剧本:基于强大的文字大模型,辅助剧本创作,生成分镜头脚本,帮助创作者快速梳理剧本结构和镜头语言。</div> </li> <li> <div class="paragraph">视频生成:整合多种先进的视频生成模型,支持从脚本到视频的快速生成,满足不同场景的制作需求。</div> </li> </ul> <h2 style="font-size: 20px;">VFX8的官网地址</h2> <ul> <li>官网地址: <a href="http://www.vfx8.com.cn/" target="_blank" rel="noopener">http://www.vfx8.com.cn/</a> </li> </ul>

Seaweed APT2

Seaweed APT2

<p>Seaweed APT2是字节跳动推出的创新的AI视频生成模型,通过自回归对抗后训练(AAPT)技术,将双向扩散模型转化为单向自回归生成器,实现高效、高质量的视频生成。模型能在单次网络前向评估(1NFE)中生成包含多帧视频的潜空间帧,显著降低了计算复杂性,通过输入回收机制和键值缓存(KV Cache)技术,支持长时间视频生成,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU上实现24帧/秒的流畅视频流生成,支持实时3D世界探索、互动虚拟人类生成等强大功能,广泛应用于影视特效、游戏开发、虚拟现实和广告创意等领域。</p> <h2 style="font-size: 20px;">Seaweed APT2的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://seaweed-apt.com/2?utm_source=medsci" target="_blank" rel="noopener">https://seaweed-apt.com/2</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2506.09350" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2506.09350</a></li> </ul>

Seedance 1.0 lite

Seedance 1.0 lite

<p>Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。具备影视级视频生成质量,能精细控制人物外貌、衣着、表情动作等细节,支持360度环绕、航拍、变焦等多种运镜技术,生成的视频画质细腻、美感十足。模型广泛用在电商广告、娱乐特效、影视创作、动态壁纸等领域,能有效降低制作成本和周期。</p> <h2 style="font-size: 20px;">Seedance 1.0 lite的主要功能</h2> <ul> <li>视频生成方式多样:支持文生视频和图生视频,根据文本描述或首帧图片生成视频。</li> <li>视频参数灵活:提供480p和720p分辨率,帧率24fps,视频时长可选5秒或10秒。</li> <li>语义理解与运镜控制:具备深度语义理解能力,能精细控制人物外貌、动作等细节,支持多种影视级运镜技术,如环绕、航拍、变焦等。</li> <li>风格与画质出色:生成的视频风格丰富,涵盖国漫、水墨、水彩等,画质细腻,提供超清视觉体验。</li> </ul> <h2 style="font-size: 20px;">Seedance 1.0 lite的技术原理</h2> <ul> <li>生成对抗网络(GAN):生成器(Generator)负责生成视频内容。从随机噪声或输入的文本/图像中提取特征,逐步生成视频帧。生成器通过学习大量的视频数据,生成逼真的视频内容。判别器负责区分生成的视频与真实视频。对比生成的视频和真实视频的特征,提供反馈,帮助生成器不断优化生成的视频质量。</li> <li>Transformer架构:编码器对输入的文本或图像进行编码,提取语义特征。编码器能理解输入内容的语义信息,为生成器提供详细的指导。解码器根据编码器提取的语义特征,逐步生成视频帧。解码器基于自注意力机制(Self-Attention)和多头注意力机制(Multi-Head Attention),更好地处理长序列数据,生成连贯的视频内容。</li> <li>深度语义理解:基于自然语言处理(NLP)技术,模型能理解输入文本的语义,包括人物的外貌气质、衣着风格、表情动作等细节。让生成的视频精准地反映文本描述的内容。对于图生视频,模型基于计算机视觉(CV)技术,理解输入图像的视觉特征,生成与输入图像风格一致的视频内容。</li> </ul> <h2 style="font-size: 20px;">Seedance 1.0 lite的项目地址</h2> <ul> <li>项目官网: <a href="https://www.volcengine.com/docs/82379/1553576" target="_blank" rel="noopener">https://www.volcengine.com/docs/82379/1553576</a>  </li> </ul>

tripo3d

tripo3d

这款3D模型生成工具,不仅同样支持文本生成高精度的3D模型,更进一步实现了通过上传图片即可生成3D模型的功能。这一发展与绘画类AI工具的演进路径颇为相似,从最初的文本到图像的转化,到现在的图像到3D模型的转化。

Hunyuan3D

Hunyuan3D

腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型,迎来了五款产品(Turbo、Pro、Standard、Lite、Vision)的全系列开源,构建起完整的工具链体系,标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架,到覆盖文本、图像、视频的全模态开源体系,腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。 这一突破得益于腾讯自主研发的3D生成加速框架FlashVDM,它打破了传统3D生成模型的效率瓶颈,将大规模3D模型的生成时间压缩至秒级,为开源社区与工业界的应用部署提供了可能。 Hunyuan3D-2.0推出了多种模型版本,以适应不同应用需求。例如,多视图版本Hunyuan3D-2-MV能够结合2—4张标准视角图片,捕捉丰富的细节,优化3D生成模型产生的效果。与此同时,mini系列模型通过架构优化与算力提升,降低了硬件要求,可在NVIDIA 4080显卡甚至苹果M1 Pro芯片上运行,使3D模型的应用更为广泛。 腾讯自2024年11月发布第一代3D生成大模型以来,持续推动行业创新。如今Hunyuan3D-2.0在文本一致性、几何精度和画面质量等多项评测中超越业内顶级大模型。

Wan2.1

Wan2.1

Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等优化技术)。其性能甚至可与一些闭源型号相媲美。 👍多任务:Wan2.1在文本转视频、图像转视频、视频编辑、文本转图像和视频转音频方面表现出色,推动了视频生成领域的发展。 👍视觉文本生成:Wan2.1是第一个能够生成中文和英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。 👍强大的视频 VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。

SAND AI

SAND AI

sand.ai是清华大学曹越教授团队创立的视频生成AI平台,目前刚刚开源了全球首个自回归扩散视频生成模型 Magi-1 ,生成长视频效果在行业领先。 马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1,该模型权重和代码完全开源,支持无限生成,能将生成时长精确控制到每一秒,在基准测试中更是吊打 Sora,领先了 5 倍。

Caricaturer.io

Caricaturer.io

Convert photos into exaggerated caricatures with Caricaturer.io, an AI-powered online photo maker.

Focal

Focal

Focal is a platform where you can create your own TV shows and movies with AI.

Domo AI

Domo AI

AI-Powered Art Generator

ClipZap AI

ClipZap AI

<p>ClipZap provides the best AI video models and tools for Clipping, Editing and Translating. makes video creation more easier, and Pro-Level.</p> <p>ClipZap AI 是AI视频创作与编辑平台,专为创作者和企业设计,通过强大的 AI 技术简化视频制作流程。支持视频剪辑、翻译、换脸、生成和增强等多种功能,能快速从素材中剪辑出精彩片段,支持多语言翻译,方便制作面向国际观众的内容。ClipZap 提供一键生成视频、自动添加字幕等功能,提升了视频创作的效率。</p> <p><img src="https://img.medsci.cn/aisite/img//SZR7blxZD5rdm2RPcfW2oJLC7gz33NjxHpCp1cqo.png"></p> <h2 style="font-size: 20px;">ClipZap AI的主要功能</h2> <ul> <li>视频剪辑与编辑:ClipZap 能快速从大量素材中剪辑出精彩片段,支持多种视频编辑功能,如裁剪、拼接、添加特效等。</li> <li>视频翻译:支持将视频翻译成多种语言,包括英语、日语、德语、西班牙语、阿拉伯语和中文等,方便制作面向国际观众的内容。</li> <li>AI 换脸:基于 AI 技术实现视频中的人物换脸,为视频创作增添趣味性和独特性。</li> <li>视频生成:用户可以一键使用强大的 AI 视频生成模型,快速生成所需的视频内容。</li> <li>视频增强:通过 AI 技术提升视频质量,优化视觉效果。</li> <li>字幕生成:自动为视频添加字幕,提高视频的可访问性和参与度。</li> </ul> <h2 style="font-size: 20px;">ClipZap AI的官网地址</h2> <ul> <li>官网地址:<a href="https://www.clipzap.ai?utm_source=medsci" target="_blank" rel="noopener">clipzap.ai</a></li> </ul>

JanitorAI

JanitorAI

Create NSFW fictional chatbot characters with different personalities using Janitor AI.