分类导航
OCRmyPDF 为扫描的 PDF 文件添加光学字符识别 (OCR) 文本层,以便于搜索。
PDF 是存储和交换扫描文档的最佳格式。遗憾的是,PDF 格式的修改可能比较困难。OCRmyPDF 可以轻松地将图像处理和 OCR(可识别、可搜索的文本)应用于现有 PDF。
OCRmyPDF 是一款 Python 应用程序和库,它为 PDF 中的图像添加文本“图层”,使扫描的图像 PDF 可搜索。它使用 OCR 来猜测图像中包含的文本。OCRmyPDF 还支持插件,可以自定义其处理步骤,并且对包含扫描图像和无需文本识别的“原生数字”内容的 PDF 具有高度的兼容性。
相关推荐

stirling PDF
Stirling-PDF是一款基于 Docker 的本地托管、功能强大的 Web PDF 处理工具。它支持您对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等等。这款本地托管的 Web 应用程序功能强大,功能全面,可满足您所有的 PDF 需求。 所有文件和 PDF 要么仅存在于客户端,要么仅在任务执行期间驻留在服务器内存中,要么仅在任务执行期间临时驻留在某个文件中。此时,用户下载的任何文件都已从服务器中删除。 广泛的 PDF 功能:访问 50 多种工具,包括签名、转换、合并等。

PDFMathTranslate
PDF scientific paper translation with preserved formats - 基于 AI 完整保留排版的 PDF 文档全文双语翻译,支持 Google/DeepL/Ollama/OpenAI 等服务,提供 CLI/GUI/MCP/Docker/Zotero