PDF Document Layout Analysis:基于Docker的PDF文档布局分析和PDF OCR服务
PDF Document Layout Analysis是什么?
PDF Document Layout Analysis 是一个基于 Docker 的服务,用于分析 PDF 文档的布局。它能够对 PDF 页面的不同部分进行分割和分类,能准确自动识别 PDF 页面中的文本、标题、图片、表格等元素,并确定这些元素的正确顺序。
PDF Document Layout Analysis功能特征
1. OCR 功能
多语言支持:支持多种语言的 OCR 功能,用户可以通过指定语言参数来处理不同语言的 PDF 文档。
文本提取:将 PDF 中的图像或不可搜索的文本转换为可搜索的文本格式,便于后续处理和分析。
2. 页面分割和分类
识别多种元素:能够识别和分类 PDF 页面中的多种元素:
文本:普通文本内容。
标题:文档的标题和小标题。
图片:页面中的图像。
表格:表格内容。
公式:数学公式,支持 LaTeX 格式输出。
列表项:有序或无序的列表。
页眉和页脚:页面的页眉和页脚。
脚注:文档中的脚注。
其他:如图片说明、表格标题等。
精确分类:使用先进的视觉模型(如 Vision Grid Transformer - VGT)和机器学习模型(如 LightGBM),确保高精度的分类结果。
3. 元素排序
逻辑顺序:根据页面布局和元素类型,自动确定元素的逻辑顺序,确保输出结果符合文档的阅读顺序。
自定义排序规则:结合 Poppler 的初始阅读顺序和段落类型,对元素进行排序,确保输出的逻辑性和连贯性。
4. 可视化输出
可视化 PDF:支持将分析结果可视化为新的 PDF 文件,用户可以直观地查看分割和分类的结果。
标注功能:在可视化输出中,不同类型的元素会以不同的颜色或样式进行标注,便于区分。
5. 表格和公式提取
表格提取:支持将表格提取为多种格式,如 Markdown、LaTeX 或 HTML,便于进一步处理和分析。
公式提取:公式以 LaTeX 格式输出,方便在学术和工程文档中使用。
PDF Document Layout Analysis应用场景
学术研究:从研究论文中提取和组织文本、图表、表格和参考文献,便于文献综述和数据分析。
法律文档分析:分析和结构化法律文件、合同和案例文件。
商业报告:自动化提取财务数据、图表和关键指标,便于生成见解和摘要。
档案和数字化:数字化和分类历史文档、手稿和档案,以易于搜索的格式保存。
出版和媒体:组织和格式化手稿、文章和报告的内容,确保一致性和质量。
快速开始
运行服务:支持 GPU 和非 GPU 模式。
OCR 功能:支持多种语言,通过 curl 命令调用。
获取分割结果:通过 curl 命令发送 PDF 文件,获取分割后的结果。
停止服务:提供停止服务器的命令。
依赖和要求
Docker Desktop:需要安装 Docker Desktop 4.25.0 或更高版本。
GPU 支持:如果需要 GPU 加速,需要安装相应的 GPU 支持软件。
硬件要求:至少需要 2 GB 内存,如果使用 GPU,需要 5 GB GPU 内存。
模型
视觉模型(Vision Grid Transformer - VGT):默认模型,由阿里巴巴研究团队训练,支持更复杂的布局分析,但需要更多资源。
LightGBM 模型:非视觉模型,使用 Poppler 提取的 XML 信息进行分类和分割,速度更快,资源占用更少。
数据
训练数据:使用 DocLayNet 数据集,包含 11 种类别,如标题、脚注、公式、列表项等。
使用方法
基本命令:通过 curl 命令发送 PDF 文件,选择使用视觉模型或非视觉模型。
可视化输出:支持将分析结果可视化为 PDF 文件。
表格和公式提取:支持将表格和公式以不同格式(如 LaTeX、Markdown)提取。
输出顺序
排序规则:基于 Poppler 的初始阅读顺序和段落类型进行排序,确保输出的逻辑顺序。
性能和速度
性能:VGT 模型在 PubLayNet 数据集上的表现优异,平均准确率超过 96%。
速度:非视觉模型在 CPU 上每页处理速度为 0.42 秒,视觉模型在 GPU 上为 1.75 秒,在 CPU 上为 13.5 秒。
相关链接
GitHub:https://github.com/huridocs/pdf-document-layout-analysis
DockerHub:https://hub.docker.com/r/huridocs/pdf-document-layout-analysis