关键词 "多模态对话" 的搜索结果, 共 2 条, 只显示前 480 条
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能 图像描述生成:根据输入的图像生成详细的描述
只显示前20页数据,更多请搜索