一种PDF高级元素提取方法及相关装置制造方法及图纸

技术编号:25398113 阅读:61 留言:0更新日期:2020-08-25 23:02
本申请公开了一种PDF高级元素提取方法,包括:采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;对所述PDF进行低级元素解析,得到多个低级元素;根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。通过目标检测算法对PDF的高级元素进行识别,当PDF的元素更加复杂时可以更加准确的从PDF中分离出高级元素,提高了PDF高级元素识别精度。本申请还公开了一种PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,具有以上有益效果。

【技术实现步骤摘要】
一种PDF高级元素提取方法及相关装置
本申请涉及计算机
,特别涉及一种PDF高级元素提取方法、PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质。
技术介绍
在计算机处理数据文档中,常用PDF(PortableDocumentFormat可移植文档格式)作为打印显示的文档格式,PDF文档主要是通过引用、坐标等形式来组织数据。但是PDF文档的数据不是结构化数据,当一些组织通过PDF发布公告数据时,需要获取其中的数据进行PDF高级元素提取,得到结构化数据,以便从公告中读取到公告数据。现有技术中,对PDF进行高级元素提取处理,得到其中的低级元素,例如单个文字、线条、色块等,通过预先建立的规则将这些低级元素聚合在一起,也就是聚合得到各个结构化数据,例如哪些低级元素构成了文段,哪些低级元素构成了表格,哪些低级元素构成了扇形图。但是,当PDF内容复杂时,每个PDF中的结构化数据之间的界限并不清楚,通过建立规则的方式会降低聚合的准确率,得不到正确的PDF高级元素提取结果,无法对PDF中的结构化数据进行还原。因此,如何提高PDF高级元素提取的准确率是本领域技术人员关注的重点问题。
技术实现思路
本申请的目的是提供一种PDF高级元素提取方法、PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,通过目标检测算法对PDF的高级元素进行识别,当PDF的元素更加复杂时可以更加准确的从PDF中分离出高级元素,提高了PDF高级元素识别精度。为解决上述技术问题,本申请提供一种PDF高级元素提取方法,包括:采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;对所述PDF进行低级元素解析,得到多个低级元素;根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。可选的,采用目标检测算法对PDF进行区域标注,得到多个初级区域,包括:对所述PDF进行图片渲染,得到PDF图片;通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。可选的,所述目标检测算法为DSSD算法或YOLO算法或RetinaNet算法。可选的,根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域,包括:判断与每个所述初级区域连接的低级元素是否属于该初级区域;若是,则根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。本申请还提供一种PDF高级元素提取系统,包括:算法标注模块,用于采用目标检测算法对PDF进行区域标注,得到多个初级区域;低级元素解析模块,用于对所述PDF进行低级元素解析,得到多个低级元素;区域范围修正模块,用于根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。可选的,所述算法标注模块,包括:图片渲染单元,用于对所述PDF进行图片渲染,得到PDF图片;区域标注单元,用于通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。可选的,所述区域范围修正模块,包括:低级元素归属判断单元,用于判断与每个所述初级区域连接的低级元素是否属于该初级区域;范围修改单元,用于当所述低级元素属于该初级区域时,根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。本申请还提供一种PDF高级元素提取装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的PDF高级元素提取方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的PDF高级元素提取方法的步骤。本申请所提供的一种PDF高级元素提取方法,包括:采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;对所述PDF进行低级元素解析,得到多个低级元素;根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。通过目标检测算法将PDF中的高级元素进行初级检测,得到对应的初级区域,也就是采用目标检测算法以图片内容识别的方式对PDF中的高级元素进行区分,即在宏观的层面对PDF的内容进行识别,由于PDF中的高级元素之间的区别通过视觉层面的识别可以更加准确,并且在进行初级识别之后再对初级识别的初级区域进行修正,进一步提高了准确率,避免出现现有技术中通过规则识别而得不到正确结果的现象,提高PDF中结构化数据还原的正确率。本申请还提供一种PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,具有以上有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种PDF高级元素提取方法的流程图;图2为本申请实施例所提供的一种PDF高级元素提取系统的结构示意图。具体实施方式本申请的核心是提供一种PDF高级元素提取方法、PDF高级元素提取系统、PDF高级元素提取装置以及计算机可读存储介质,通过目标检测算法对PDF的高级元素进行识别,当PDF的元素更加复杂时可以更加准确的从PDF中分离出高级元素,提高了PDF高级元素识别精度。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。现有技术中,对PDF进行高级元素提取处理,得到其中的低级元素,例如单个文字、线条、色块等,通过预先建立的规则将这些低级元素聚合在一起,也就是聚合得到各个结构化数据,例如哪些低级元素构成了文段,哪些低级元素构成了表格,哪些元素构成了扇形图。但是,当PDF内容复杂时,每个PDF中的结构化数据之间的界限并不清楚,通过建立规则的方式会降低聚合的准确率,得不到正确的PDF高级元素提取结果,无法对PDF中的结构化数据进行还原。因此,本申请提供一种PDF高级元素提取方法,通过目标检测算法将PDF中的高级元素进行初级检测,得到对应的初级区域,也就是采用目标检测算法以图片内容识别的方式对PDF中的高级元素进行区分,即在宏观的层面对PDF的内容进行识别,由于PDF中的高级元素之间的区别通过视觉层面的识别可以更加准确本文档来自技高网...

【技术保护点】
1.一种PDF高级元素提取方法,其特征在于,包括:/n采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;/n对所述PDF进行低级元素解析,得到多个低级元素;/n根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。/n

【技术特征摘要】
1.一种PDF高级元素提取方法,其特征在于,包括:
采用目标检测算法对PDF进行区域标注,得到多个初级区域;其中,所述目标检测算法是通过结构化的PDF训练数据进行深度学习训练得到的;
对所述PDF进行低级元素解析,得到多个低级元素;
根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域。


2.根据权利要求1所述的PDF高级元素提取方法,其特征在于,采用目标检测算法对PDF进行区域标注,得到多个初级区域,包括:
对所述PDF进行图片渲染,得到PDF图片;
通过所述目标检测算法对所述PDF图片进行区域标注,得到所述多个初级区域。


3.根据权利要求1所述的PDF高级元素提取方法,其特征在于,所述目标检测算法为DSSD算法或YOLO算法或RetinaNet算法。


4.根据权利要求1所述的PDF高级元素提取方法,其特征在于,根据与每个所述初级区域连接的低级元素对该低级区域的范围进行修正,得到多个高级元素区域,包括:
判断与每个所述初级区域连接的低级元素是否属于该初级区域;
若是,则根据所述低级元素的范围对对应的初级区域的范围进行修改,得到所述多个高级元素区域。


5.一种PDF高级元素提取系统,其特征在于,包括:
算法标注模块,用于采用目标检测算法对PDF进行区域标...

【专利技术属性】
技术研发人员:敖初杰夏伦张果陶志伟
申请(专利权)人:浙江核新同花顺网络信息股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1