OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。
OmniGen2的项目地址
- 项目官网:https://vectorspacelab.github.io/OmniGen2/
- Github仓库:https://github.com/VectorSpaceLab/OmniGen2
- arXiv技术论文:https://arxiv.org/pdf/2506.18871