一种非结构化PDF文档智能解析方法、装置、设备及介质制造方法及图纸

技术编号：46589306 阅读：1 留言：0更新日期：2025-10-10 21:23

本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质，涉及文档解析领域，该方法包括：获取待解析的PDF文档，并解析PDF文档中的页面元素，生成文档元数据字典；若PDF文档中未包含可提取文本，则将PDF文档转换为图像并进行光学字符识别，生成第一结构化数据；若PDF文档中包含可提取文本，则判断PDF文档中是否包含表格；若PDF文档中不包含表格，则采用PDFMiner提取文本，生成第二结构化数据；若PDF文档中包含表格，则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合，得到多模态融合特征，并根据多模态融合特征生成第三结构化数据；本申请提高了PDF文档的解析精度及效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文档解析领域，特别是涉及一种非结构化pdf文档智能解析方法、装置、设备及介质。

技术介绍

1、目前常见的可移植文件格式（portabledocument format，pdf）文档的解析方法主要包括：（1）文本提取技术：基于pdfminer的纯文本解析，适用于文本可直接提取的pdf，但对于扫描件或图像化文本则无能为力；（2）光学字符识别（optical characterrecognition，ocr）技术：基于tesseract的光学字符识别，适用于扫描件，但在复杂布局的文本块分割和语义理解方面存在不足；（3）布局分析技术：基于深度学习模型（如yolox）的文档布局检测，能够识别文本框、图像、表格等区域，但缺乏多模态决策融合机制。

2、除了上述问题，现有技术还存在以下缺陷：（1）单模态处理局限性：传统pdf解析方法仅依赖文本提取或单一ocr技术，面对复杂布局（如图表、公式、图像嵌入文本）时，常常出现信息遗漏或结构错乱的问题；（2）策略单一性：现有系统缺乏动态决策机制，无法根据文档特性（如文本可提取性、图像复杂度）...

【技术保护点】

1.一种非结构化PDF文档智能解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的非结构化PDF文档智能解析方法，其特征在于，解析所述PDF文档中的页面元素，生成文档元数据字典，具体包括：

3.根据权利要求1所述的非结构化PDF文档智能解析方法，其特征在于，基于所述文档元数据字典，判断所述PDF文档中是否包含可提取文本，具体包括：

4.根据权利要求1所述的非结构化PDF文档智能解析方法，其特征在于，根据所述文档元数据字典，对所述PDF文档进行多模态特征提取及特征融合，得到多模态融合特征，具体包括：

5.根据权利要求4所述的非结构化...

【技术特征摘要】

1.一种非结构化pdf文档智能解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的非结构化pdf文档智能解析方法，其特征在于，解析所述pdf文档中的页面元素，生成文档元数据字典，具体包括：

3.根据权利要求1所述的非结构化pdf文档智能解析方法，其特征在于，基于所述文档元数据字典，判断所述pdf文档中是否包含可提取文本，具体包括：

4.根据权利要求1所述的非结构化pdf文档智能解析方法，其特征在于，根据所述文档元数据字典，对所述pdf文档进行多模态特征提取及特征融合，得到多模态融合特征，具体包括：

5.根据权利要求4所述的非结构化pdf文档智能解析方法，其特征在于，分别对所述预处理文本语义数据、所述预处理图像数据及所述预处理坐标数据进行特征提取，得到...

【专利技术属性】
技术研发人员：杨玉麟，杨守威，刘向东，
申请(专利权)人：陆泽科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人