PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/JSON数据。轻量化设计使其适合本地部署,尤其适合医疗报告、古籍识别等对隐私要求高的场景。
PaddleOCR-VL的项目地址
- 项目官网:https://ernie.baidu.com/blog/zh/posts/paddleocr-vl/
- HuggingFace模型库:https://huggingface.co/PaddlePaddle/PaddleOCR-VL
- arXiv技术论文:https://arxiv.org/pdf/2510.14528
- 在线体验Demo:https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo
- 官方体验地址:https://aistudio.baidu.com/application/detail/98365