一种表格提取方法、装置、设备及存储介质制造方法及图纸

技术编号:36393765 阅读:20 留言:0更新日期:2023-01-18 09:58
本发明专利技术公开了一种表格提取方法、装置、设备及存储介质。该方法包括:获取目标PDF文件;对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合;根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格,通过本发明专利技术的技术方案,能够在相邻页面中的后一页面中的表格不具备表头的情况下,对前一页面中的表格和后一页面中的表格进行拼接,提取PDF文件中的表格。提取PDF文件中的表格。提取PDF文件中的表格。

【技术实现步骤摘要】
一种表格提取方法、装置、设备及存储介质


[0001]本专利技术实施例涉及计算机
,尤其涉及一种表格提取方法、装置、设备及存储介质。

技术介绍

[0002]可移植文档格式(Portable Document Format,PDF)文件由于其跨平台特性,己广泛运用于当前主流的操作系统中,越来越多的电子书籍、产品使用说明书、公司公告财报、网络资料、科学文献、电子邮件等都开始使用PDF文件形式,并己经成为电子文档发行和数字化信息传播的理想文档形式。
[0003]由于PDF文件自身的格式并未对表格进行结构化,因此表格线条的检测以及表格的还原都有不小的挑战。目前,可采用配置关键字方式确认表头位置,根据表头位置提取PDF文件中的表格,也可以采用表头识别模型,提取PDF文件中的表格。
[0004]基于上述方式进行PDF文件中的表格提取均需要保证相邻页面中的相邻表格均具备表头,才能够对表格进行提取,若不满足上述情况,则无法提取PDF文件中的表格。

技术实现思路

[0005]本专利技术实施例提供一种表格提取方法、装置、设备及存储介质,能够在相邻页面中的后一页面中的表格不具备表头的情况下,提取PDF文件中的表格。
[0006]根据本专利技术的一方面,提供了一种表格提取方法,包括:
[0007]获取目标PDF文件;
[0008]对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合;
[0009]根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格。
[0010]根据本专利技术的另一方面,提供了一种表格提取装置,该表格提取装置包括:
[0011]文件获取模块,用于获取目标PDF文件;
[0012]解析模块,用于对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合;
[0013]拼接模块,用于根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格。
[0014]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的表格提取方法。
[0018]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的表格提取方法。
[0019]本专利技术实施例通过获取目标PDF文件;对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合;根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格,能够在相邻页面中的后一页面中的表格不具备表头的情况下,提取PDF文件中的表格。
[0020]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0022]图1是本专利技术实施例中的一种表格提取方法的流程图;
[0023]图2是本专利技术实施例中的页面A中的表格的外框线完整,页面B中的表格的外框线不完整的示意图;
[0024]图3是本专利技术实施例中的页面A中的表格的外框线完整,页面B中的表格的外框线完整的示意图;
[0025]图4是本专利技术实施例中的页面A中的表格的外框线不完整,页面B中的表格的外框线完整的示意图;
[0026]图5是本专利技术实施例中的页面A中的表格缺少底部线段,页面B中的表格缺少顶部线段的示意图;
[0027]图6是本专利技术实施例中的一种表格提取装置的结构示意图;
[0028]图7是本专利技术实施例中的一种电子设备的结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
[0031]实施例一
[0032]图1为本专利技术实施例提供的一种表格提取方法的流程图,本实施例可适用于表格提取的情况,该方法可以由本专利技术实施例中的表格提取装置来执行,该装置可采用软件和/或硬件的方式实现,如图1所示,该方法具体包括如下步骤:
[0033]S110,获取目标PDF文件。
[0034]具体的,获取目标PDF文件的方式可以为:获取用户输入的目标PDF文件。
[0035]S120,对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合。
[0036]具体的,对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合的方式可以为:对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的第一线段元素集合、字符元素集合以及第一框元素集合;对所述页面中的第一框元素集合中的框元素进行拆分,得到第二线段元素集合;根据所述第一线段元素集合和所述第二线段元素集合确定目标框元素集合;根据所述目标框元素集合和所述字符元素集合生成所述目标PDF文件的每个页面中的表格。
[0037]S130,根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格。
[0038]具体的,根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格的方式可以为:若根据字符元素集合确定相邻页面中的后一页面中的表格中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格提取方法,其特征在于,包括:获取目标PDF文件;对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合;根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格。2.根据权利要求1所述的方法,其特征在于,根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格,包括:若根据字符元素集合确定相邻页面中的后一页面中的表格中的字符元素均非表头信息对应的字符元素,且根据所述目标框元素集合确定相邻表格中至少一个表格的外框线完整,则拼接所述相邻表格,得到目标表格。3.根据权利要求1所述的方法,其特征在于,根据目标框元素集合和字符元素集合对相邻页面中的相邻表格进行拼接,得到目标表格,包括:若根据字符元素集合确定相邻页面中的后一页面中的表格中的字符元素均非表头信息对应的字符元素,且根据所述目标框元素集合确定相邻表格的列数相同,前一页面中的表格缺少底部线段,后一页面中的表格缺少顶部线段,则根据前一页面中的表格的最后一行的各单元格中的字符元素、后一页面中的表格的第一行的各单元格中的字符元素、前一页面中的表格的最后一行的各单元格宽度、后一页面中的表格的第一行的各单元格宽度以及各单元格的长度生成目标单元格;将所述前一页面中的表格的最后一行的单元格以及单元格中的字符元素删除,得到第一待拼接表格;将所述后一页面中的表格的第一行的单元格以及单元格中的字符元素删除,得到第二待拼接表格;将所述第一待拼接表格、所述目标单元格以及所述第二待拼接表格进行拼接,得到目标表格。4.根据权利要求1所述的方法,其特征在于,对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的表格、目标框元素集合以及字符元素集合,包括:对所述目标PDF文件进行解析,得到所述目标PDF文件的每个页面中的第一线段元素集合、字符元素集合以及第一框元素集合;对所述页面中的第一框元素集合中的框元素进行拆分,得到第二线段元素集合;根据所述第一线段元素集合和所述第二线段元素集合确定目标框元素集合;根据所述目标框元素集合和所述字符元素集合生成所述目标PDF文件的每个页面中的表格。5.根据权利要求4所述的方法,其特征在于,根据所述第一...

【专利技术属性】
技术研发人员:区正辉
申请(专利权)人:上海浦东发展银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1