一种非结构化PDF文档智能解析方法、装置、设备及介质制造方法及图纸

技术编号:46589306 阅读:1 留言:0更新日期:2025-10-10 21:23
本申请公开了一种非结构化PDF文档智能解析方法、装置、设备及介质,涉及文档解析领域,该方法包括:获取待解析的PDF文档,并解析PDF文档中的页面元素,生成文档元数据字典;若PDF文档中未包含可提取文本,则将PDF文档转换为图像并进行光学字符识别,生成第一结构化数据;若PDF文档中包含可提取文本,则判断PDF文档中是否包含表格;若PDF文档中不包含表格,则采用PDFMiner提取文本,生成第二结构化数据;若PDF文档中包含表格,则根据文档元数据字典对PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,并根据多模态融合特征生成第三结构化数据;本申请提高了PDF文档的解析精度及效率。

【技术实现步骤摘要】

本申请涉及文档解析领域,特别是涉及一种非结构化pdf文档智能解析方法、装置、设备及介质。


技术介绍

1、目前常见的可移植文件格式(portabledocument format,pdf)文档的解析方法主要包括:(1)文本提取技术:基于pdfminer的纯文本解析,适用于文本可直接提取的pdf,但对于扫描件或图像化文本则无能为力;(2)光学字符识别(optical characterrecognition,ocr)技术:基于tesseract的光学字符识别,适用于扫描件,但在复杂布局的文本块分割和语义理解方面存在不足;(3)布局分析技术:基于深度学习模型(如yolox)的文档布局检测,能够识别文本框、图像、表格等区域,但缺乏多模态决策融合机制。

2、除了上述问题,现有技术还存在以下缺陷:(1)单模态处理局限性:传统pdf解析方法仅依赖文本提取或单一ocr技术,面对复杂布局(如图表、公式、图像嵌入文本)时,常常出现信息遗漏或结构错乱的问题;(2)策略单一性:现有系统缺乏动态决策机制,无法根据文档特性(如文本可提取性、图像复杂度)自动选择最优解析策略本文档来自技高网...

【技术保护点】

1.一种非结构化PDF文档智能解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,解析所述PDF文档中的页面元素,生成文档元数据字典,具体包括:

3.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,基于所述文档元数据字典,判断所述PDF文档中是否包含可提取文本,具体包括:

4.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,根据所述文档元数据字典,对所述PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,具体包括:

5.根据权利要求4所述的非结构化...

【技术特征摘要】

1.一种非结构化pdf文档智能解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,解析所述pdf文档中的页面元素,生成文档元数据字典,具体包括:

3.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,基于所述文档元数据字典,判断所述pdf文档中是否包含可提取文本,具体包括:

4.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,根据所述文档元数据字典,对所述pdf文档进行多模态特征提取及特征融合,得到多模态融合特征,具体包括:

5.根据权利要求4所述的非结构化pdf文档智能解析方法,其特征在于,分别对所述预处理文本语义数据、所述预处理图像数据及所述预处理坐标数据进行特征提取,得到...

【专利技术属性】
技术研发人员:杨玉麟杨守威刘向东
申请(专利权)人:陆泽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1