视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。
Pixel Reasoner的主要功能
- 直接视觉操作:直接对视觉输入(如图像和视频)进行操作,例如放大图像区域(zoom-in)、选择视频帧(select-frame)等,更细致地捕捉视觉细节。
- 增强视觉理解:识别和理解图像中的细小物体、微妙的空间关系、嵌入的小文本及视频中的细微动作。
- 多模态推理:更全面地处理复杂的视觉语言任务,如视觉问答(VQA)、视频理解等。
- 自适应推理:根据任务需求自适应地决定是否使用视觉操作,在不同类型的视觉任务中实现更优的推理效果。