字节开源DreamO,统一图像定制框架,把图像换装、换脸、换造型、换风格以及组合操作装在了一起 支持ID、IP、Try-On等组合,支持16GB/24GB显卡运行,用于虚拟试穿、商品广告、营销广告什么的比较实用 四个能力: IP,处理角色形象,支持人物、物体、动物等输入 ID,人脸身份处理 Try-On,虚拟试穿,可以同时换多件衣服 Style,风格迁移,目前还不能和其他任务组合
DreamO正式实现:统一的图像定制框架
- 2025.05.12:🔥🔥 现在支持消费级 GPU(16GB 或 24GB),请参阅此处了解说明
- 2025.05.11:🔥🔥我们更新了模型,以缓解过饱和和面部塑形的问题。新版本相比上一版本有了持续的改进。敬请关注!
- 2025.05.08:发布代码和模型
- 2025.04.24:发布DreamO技术报告。
# clone DreamO repo
git clone https://github.com/bytedance/DreamO.git
cd DreamO
# create conda env
conda create --name dreamo python=3.10
# activate env
conda activate dreamo
# install dependent packages
pip install -r requirements.txt
python app.py
我们观察到 DreamO 与加速 FLUX LoRA 变体 ( FLUX-turbo ) 之间具有高度兼容性,因此默认启用 Turbo LoRA,将推理步骤减少至 12 步(默认为 25 步以上)。您可以通过 禁用 Turbo --no_turbo
,但我们的评估结果好坏参半;因此我们建议保持 Turbo 启用状态。
提示:如果观察到肢体扭曲或文本生成不佳,请尝试增加指导比例;如果图像显得过于光泽或过度饱和,请考虑降低指导比例。
我们添加了对 8 位量化和 CPU 卸载的支持,以便在消费级 GPU 上执行。这需要optimum-quanto
库的支持,因此 PyTorch 版本requirements.txt
已升级到 2.6.0。如果您使用的是旧版本的 PyTorch,则可能需要重新配置环境。
-
对于拥有 24GB GPU 的用户,运行
python app.py --int8
以启用 int8-quantized 模型。 -
对于拥有 16GB GPU 的用户,请运行
python app.py --int8 --offload
以启用 CPU 卸载和 int8 量化。请注意,CPU 卸载会显著降低推理速度,因此应仅在必要时启用。
此任务与 IP-Adapter 类似,支持多种输入,包括角色、物体和动物。通过利用基于 VAE 的特征编码,DreamO 实现了比以往适配器方法更高的保真度,并在保留角色身份方面具有显著优势。
这里,ID 特指面部身份。与同时考虑人脸和衣着特征的 IP 任务不同,ID 任务仅关注面部特征。该任务与 InstantID 和 PuLID 类似。与之前的方法相比,DreamO 实现了更高的面部保真度,但比 SOTA 方法 PuLID 引入了更多的模型污染。
提示:如果您发现脸部显得过于有光泽,请尝试降低指导尺度。
此任务支持上衣、下装、眼镜和帽子等输入,并支持多件服装的虚拟试穿。值得注意的是,我们的训练集不包含多件服装或 ID+服装数据,但该模型对这些未见过的组合表现出良好的泛化能力。
此任务与 Style-Adapter 和 InstantStyle 类似。请注意,样式一致性目前与其他任务相比不太稳定,并且在当前版本中,样式无法与其他条件组合使用。我们正在努力改进未来版本,敬请期待。
您可以使用多种条件(ID、IP、试穿)来生成更具创意的图像。得益于论文中提出的特征路由约束,DreamO 有效地缓解了多个实体之间的冲突和纠缠。
您可以在HuggingFace上尝试 DreamO 演示。