zerox 效果更好,测试PDF BPMN2.0 规范

OCRmyPDF

https://github.com/ocrmypdf/OCRmyPDF

zerox

OCR & Document Extraction using vision models

https://github.com/getomni-ai/zerox

olmOCR

olmOCR – Open-Source OCR for Accurate Document Conversion

飞桨

文档场景信息抽取v4(PP-ChatOCRv4)是飞桨特色的文档和图像智能分析解决方案,结合了 LLM、MLLM 和 OCR 技术,一站式解决版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题,结合文心大模型将海量数据和知识相融合,准确率高且应用广泛。本产线同时提供了灵活的服务化部署方式,支持在多种硬件上部署。不仅如此,本产线也提供了二次开发的能力,您可以基于本产线在您自己的数据集上训练调优,训练后的模型也可以无缝集成。

image.png

文档场景信息抽取v4产线 - PaddleX 文档

魔搭

ModelScope 魔搭社区

MinerU: PDF 文档提取 Demo

MinerU (PDF转Markdown/JSON)