Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。
核心功能
- 多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实时处理到复杂的推理计算都能胜任。
- 强化 OCR 与文档理解:模型具备强大的全场景 OCR 识别能力,能精准识别手写体、数学公式和自然场景文字,并能对卡证票据信息进行结构化提取。其复杂文档版面理解能力突出,可自动分析版面元素,精准解析表格和图表,支持智能问答与结构化解析。
- 思考与推理能力:8B 和 70B 模型能通过特殊 token 激活思维链能力,处理复杂的图表理解、视觉推理和数学解题任务。它能结合视觉信息和外部知识进行组合推理,并提供清晰的解题思路和步骤。
- 通用能力:在物体识别、图像描述和视觉问答等通用多模态任务中表现出色,支持中英文混合理解,具备良好的跨模态对齐能力,为多样化的智能应用提供有力支持。
技术原理
Qianfan-VL 的强大能力源于其先进的技术架构和训练策略:
- 多模态架构:3B 模型基于 Qwen2.5 架构,8B 和 70B 模型则基于 Llama 3.1 架构。通过 3T 中英文语料扩展词表,并利用 MLP 适配器实现视觉与语言模态的无缝连接。模型还基于 InternViT 初始化,支持动态分块处理最高 4K 分辨率的图像。
- 能力增强训练管线:采用四阶段训练策略,通过跨模态对齐、通用知识注入、领域增强和后训练,逐步提升模型性能。同时,借助高精度数据合成技术,规模化地生产高质量训练数据,涵盖文档识别、数学解题和图表理解等核心任务。
- 大规模并行训练:结合数据并行、张量并行和流水线并行的三维并行组合,优化梯度同步和状态分片,显著提升训练效率。在百度自研的昆仑芯 P800 芯片上,通过通信与计算的并行设计,进一步提升了硬件利用率。
- 高效推理优化:模型在昆仑芯和 GPU 等多种芯片上进行了高效推理优化,支持单任务 5000 卡规模的并行计算,确保在实际应用中的高效处理能力。
应用场景
Qianfan-VL 的视觉理解能力使其在多个企业级应用中大放异彩:
- OCR 识别:精准识别各类文档、票据和手写笔记中的文字信息,为企业文档处理和数据录入提供高效解决方案。
- 数学解题:通过视觉识别数学题目并进行推理计算,支持多种题型,为教育领域提供智能辅导工具。
- 文档理解:自动解析文档结构并提取关键信息,支持复杂表格和图表的分析,提升企业文档管理和知识管理的效率。
- 图表分析:从各类图表中提取数据并进行分析,支持趋势预测和关联推理,为数据分析和商业决策提供有力支持。
项目地址
- 项目官网:https://baidubce.github.io/Qianfan-VL/
- GitHub 仓库:https://github.com/baidubce/Qianfan-VL
- HuggingFace 模型库:https://huggingface.co/collections/baidu/qianfan-vl-68d0b9b0be8575c17267c85c
- 技术论文:https://github.com/baidubce/Qianfan-VL/blob/main/docs/qianfan_vl_report_comp.pdf