MAGREF(Masked Guidance for Any‑Reference Video Generation)是字节跳动推出的多主体视频生成框架。MAGREF仅需一张参考图像和文本提示,能生成高质量、主体一致的视频,支持单人、多人及人物与物体、背景的复杂交互场景。基于区域感知动态掩码和像素级通道拼接机制,MAGREF能精准复刻身份特征,保持视频中人物、物体和背景的协调性与一致性,适用内容创作、广告制作等多种场景,展现极强的生成能力和可控性。
MAGREF的主要功能
- 多主体视频生成:支持单人、多人互动以及人物与物体、背景的复杂场景生成,保持身份特征高度一致,多人同框不串脸。
- 高一致性与可控性:基于一张参考图像和文本提示,生成身份稳定、动作自然、背景协调的视频,支持精确控制人物动作、表情、环境和光影效果。
- 复杂场景处理:支持人物与物体交互(如人与宠物互动、人物操作物体)及人物置于复杂背景中(如城市街景、自然环境等),生成语义清晰、风格协调的视频。
- 高效性和通用性:无需为不同任务单独设计模型,基于最小架构改动和统一训练流程,适配多种参考图配置。