LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。
LLaDA-V的主要功能
- 图像描述生成:根据输入的图像生成详细的描述文本。
- 视觉问答:回答与图像内容相关的问题。
- 多轮多模态对话:在给定图像的上下文中进行多轮对话,理解生成与图像和对话历史相关的回答。
- 复杂推理任务:在涉及图像和文本的复合任务中进行推理,例如解决与图像相关的数学问题或逻辑问题。
LLaDA-V的项目地址
- GitHub仓库:https://github.com/ML-GSAI/LLaDA-V
- arXiv技术论文:https://arxiv.org/pdf/2505.16933