【技术实现步骤摘要】
本申请涉及文档解析领域,特别是涉及一种非结构化pdf文档智能解析方法、装置、设备及介质。
技术介绍
1、目前常见的可移植文件格式(portabledocument format,pdf)文档的解析方法主要包括:(1)文本提取技术:基于pdfminer的纯文本解析,适用于文本可直接提取的pdf,但对于扫描件或图像化文本则无能为力;(2)光学字符识别(optical characterrecognition,ocr)技术:基于tesseract的光学字符识别,适用于扫描件,但在复杂布局的文本块分割和语义理解方面存在不足;(3)布局分析技术:基于深度学习模型(如yolox)的文档布局检测,能够识别文本框、图像、表格等区域,但缺乏多模态决策融合机制。
2、除了上述问题,现有技术还存在以下缺陷:(1)单模态处理局限性:传统pdf解析方法仅依赖文本提取或单一ocr技术,面对复杂布局(如图表、公式、图像嵌入文本)时,常常出现信息遗漏或结构错乱的问题;(2)策略单一性:现有系统缺乏动态决策机制,无法根据文档特性(如文本可提取性、图像复杂度)
...【技术保护点】
1.一种非结构化PDF文档智能解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,解析所述PDF文档中的页面元素,生成文档元数据字典,具体包括:
3.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,基于所述文档元数据字典,判断所述PDF文档中是否包含可提取文本,具体包括:
4.根据权利要求1所述的非结构化PDF文档智能解析方法,其特征在于,根据所述文档元数据字典,对所述PDF文档进行多模态特征提取及特征融合,得到多模态融合特征,具体包括:
5.根据权利
...【技术特征摘要】
1.一种非结构化pdf文档智能解析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,解析所述pdf文档中的页面元素,生成文档元数据字典,具体包括:
3.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,基于所述文档元数据字典,判断所述pdf文档中是否包含可提取文本,具体包括:
4.根据权利要求1所述的非结构化pdf文档智能解析方法,其特征在于,根据所述文档元数据字典,对所述pdf文档进行多模态特征提取及特征融合,得到多模态融合特征,具体包括:
5.根据权利要求4所述的非结构化pdf文档智能解析方法,其特征在于,分别对所述预处理文本语义数据、所述预处理图像数据及所述预处理坐标数据进行特征提取,得到...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。