文档OCR | Notion

zerox 效果更好，测试PDF BPMN2.0 规范

OCRmyPDF

https://github.com/ocrmypdf/OCRmyPDF

zerox

OCR & Document Extraction using vision models

https://github.com/getomni-ai/zerox

olmOCR

olmOCR – Open-Source OCR for Accurate Document Conversion

飞桨

文档场景信息抽取v4（PP-ChatOCRv4）是飞桨特色的文档和图像智能分析解决方案，结合了 LLM、MLLM 和 OCR 技术，一站式解决版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题，结合文心大模型将海量数据和知识相融合，准确率高且应用广泛。本产线同时提供了灵活的服务化部署方式，支持在多种硬件上部署。不仅如此，本产线也提供了二次开发的能力，您可以基于本产线在您自己的数据集上训练调优，训练后的模型也可以无缝集成。

文档场景信息抽取v4产线 - PaddleX 文档

魔搭

ModelScope 魔搭社区

MinerU: PDF 文档提取 Demo

MinerU (PDF转Markdown/JSON)