PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务

AI快讯 2025-04-27 20:58更新网络

PDF Document Layout Analysis是什么?

PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。

PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务.webp

PDF Document Layout Analysis功能特征

1. OCR 功能

多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。

文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。

2. 页面分割和分类

识别多种元素:能够识别和分类 PDF 页面中的多种元素:

文本:普通文本内容。

标题:文档的标题和小标题。

图片:页面中的图像。

表格:表格内容。

公式:数学公式,支持 LaTeX 格式输出。

列表项:有序或无序的列表。

页眉和页脚:页面的页眉和页脚。

脚注:文档中的脚注。

其他:如图片说明、表格标题等。

精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。

3. 元素排序

逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。

自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。

4. 可视化输出

可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。

标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。

5. 表格和公式提取

表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。

公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。

PDF Document Layout Analysis功能特征.webp

PDF Document Layout Analysis应用场景

学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析。

法律文档分析:分析和结构化法律文件、合同和案例文件。

商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。

档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。

出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。

快速开始

运行服务:支持 GPU 和非 GPU 模式。

OCR 功能:支持多种语言,通过 curl 命令调用。

获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。

停止服务:提供停止服务器的命令。

依赖和要求

Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。

GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。

硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。

模型

视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。

LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。

数据

训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。

使用方法

基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。

可视化输出:支持将分析结果可视化为 PDF 文件。

表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。

输出顺序

排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。

性能和速度

性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。

速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。

相关链接

GitHub:https://github.com/huridocs/pdf-document-layout-analysis

DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis

相关文章