Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。
Jodi的主要功能
- 联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。
- 可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。
- 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。
Jodi的项目地址
- 项目官网:https://vipl-genun.github.io/Project-Jodi/
- GitHub仓库:https://github.com/VIPL-GENUN/Jodi
- HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
- arXiv技术论文:https://arxiv.org/pdf/2505.19084