OCRmyPDF 为扫描的 PDF 文件添加光学字符识别 (OCR) 文本层,以便于搜索。 PDF 是存储和交换扫描文档的最佳格式。遗憾的是,PDF 格式的修改可能比较困难。OCRmyPDF 可以轻松地将图像处理和 OCR(可识别、可搜索的文本)应用于现有 PDF。 OCRmyPDF 是一款 Python 应用程序和库,它为 PDF 中的图像添加文本“图层”,使扫描的图像 PDF 可搜索。它使用 OCR 来猜测图像中包含的文本。OCRmyPDF 还支持插件,可以自定义其处理步骤,并且对包含扫描图像和无需文本识别的“原生数字”内容的 PDF 具有高度的兼容性。