dots.ocr 是小红书 hi lab 开源的多语言文档布局解析模型。模型基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。模型规模虽小,但性能达到业界领先水平(SOTA),在 OmniDocBench 等基准测试中表现优异,公式识别效果能与Doubao-1.5和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著。dots.ocr 提供简洁高效的架构,任务切换仅需更改输入提示词,推理速度快,适用多种文档解析场景。
dots.ocr的项目地址
- GitHub仓库:https://github.com/rednote-hilab/dots.ocr
- HuggingFace模型库:https://huggingface.co/rednote-hilab/dots.ocr
- 在线体验Demo:https://dotsocr.xiaohongshu.com/