表格重构方法、装置、非易失性存储介质及电子设备制造方法及图纸

技术编号:37493512 阅读:15 留言:0更新日期:2023-05-07 09:31
本发明专利技术公开了一种表格重构方法、装置、非易失性存储介质及电子设备。其中,该方法包括:获取表格图像;对表格图像进行识别,得到表格图像中的格对应的行范围识别结果、列范围识别结果;基于表格图像中的格对应的行范围识别结果、列范围识别结果,得到表格图像对应的重构表格。本发明专利技术解决了相关技术中存在对表格识别率局限性高,导致重构表格的准确性不理想的技术问题。术问题。术问题。

【技术实现步骤摘要】
表格重构方法、装置、非易失性存储介质及电子设备


[0001]本专利技术涉及表格识别
,具体而言,涉及一种表格重构方法、装置、非易失性存储介质及电子设备。

技术介绍

[0002]表格数据在很多领域都提供了十分重要的信息,表格经常出现在文献或专利中,起到汇总分析的作用。为了获取表格内容相关技术中需要对表格进行解析,常常采用对表格线进行识别的方式,以边界线作为表格中每一个格子的分界,导致对于文献中常出现的半无线表格的识别能力不足。并且表格中还存在着合并格的情况,常常出现于表格的表头中,相关技术中对于一个格子跨行(跨列)的处理能力不足,容易导致重构出的表格错位,造成获取到的表格信息对应错误。
[0003]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种表格重构方法、装置、非易失性存储介质及电子设备,以至少解决相关技术中存在对表格识别率局限性高,导致重构表格的准确性不理想的技术问题。
[0005]根据本专利技术实施例的一个方面,提供了一种表格重构方法,包括:获取表格图像;对所述表格图像进行识别,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果;基于所述表格图像中的格对应的行范围识别结果、列范围识别结果,得到所述表格图像对应的重构表格。
[0006]根据本专利技术实施例的另一方面,提供了一种表格重构装置,包括:获取模块,用于获取表格图像;识别模块,用于对所述表格图像进行识别,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果;重构模块,用于基于所述表格图像中的格对应的行范围识别结果、列范围识别结果,得到所述表格图像对应的重构表格。
[0007]根据本专利技术实施例的另一方面,提供了一种非易失性存储介质,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行任意一项所述的表格重构方法。
[0008]根据本专利技术实施例的另一方面,提供了一种电子设备,包括:一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现任意一项所述的表格重构方法。
[0009]在本专利技术实施例中,通过获取表格图像;对所述表格图像进行识别,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果;基于所述表格图像中的格对应的行范围识别结果、列范围识别结果,得到所述表格图像对应的重构表格。达到了提高对跨行跨列表格,以及无线表(或是半无线表)的识别能力和重构效果的目的,实现了提高表格重构准确性,减少表格识别局限性的技术效果,进而解决了相关技术中存在对表格识别率局限
性高,导致重构表格的准确性不理想的技术问题。
附图说明
[0010]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0011]图1是根据本专利技术实施例提供的一种可选的表格重构方法的流程图;
[0012]图2是根据本专利技术实施例提供的一种可选的表格重构方法的表格示意图;
[0013]图3是根据本专利技术实施例提供的另一种可选的表格重构方法的表格示意图;
[0014]图4是根据本专利技术实施例提供的一种可选的表格重构装置的示意图。
具体实施方式
[0015]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0016]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0017]根据本专利技术实施例,提供了一种表格重构的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0018]图1是根据本专利技术实施例的表格重构方法的流程图,如图1所示,该方法包括如下步骤:
[0019]步骤S102,获取表格图像。
[0020]可以理解,对表格的识别是基于表格图像进行的。
[0021]可选地,采用目标检测算法获取表格图像,上述目标检测算法可以为多种,例如:DETR算法(Detection Transformer算法)是一种由大到小,由整体到局部的目标检测算法。还可以采用YOLO算法(You Only Look Once算法),是一种应用广泛的单阶段目标检测算法。
[0022]在一种可选的实施例中,上述获取表格图像,包括:对页面图像进行识别,确定表格位置信息;基于上述表格位置信息,在上述页面图像中选取上述表格图像。
[0023]可以理解,在获取表格图像时,需要对整体页面图像进行识别,在页面图像中对表格进行定位,得到表格位置信息。根据表格位置信息在页面图像中进行选取,得到表格图
像。
[0024]可选地,采用目标检测算法对页面进行识别,选取得到表格图像,上述目标检测算法可以为多种,例如:DETR算法,YOLO算法等等。
[0025]步骤S104,对上述表格图像进行识别,得到上述表格图像中的格对应的行范围识别结果、列范围识别结果。
[0026]可以理解,为了获取表格内容,对表格图像进行识别,为了提高对跨行跨列类型格的处理能力,得到表格图像中的格对应的行范围识别结果、列范围识别结果。通过上述处理,可以减少表格识别与重建对表格线的依赖性,提高了表格处理的灵活性。
[0027]在一种可选的实施例中,上述对上述表格图像进行识别,得到上述表格图像中的格对应的行范围识别结果、列范围识别结果,包括:对上述表格图像进行识别,确定上述表格图像中的格识别结果;根据上述格识别结果,得到上述表格图像中的格对应的行范围识别结果、列范围识别结果。
[0028]可以理解,对于表格图像中的内容,在得到格识别结果之前,并不能确定哪些表格内容属于同一个格子中的,尤其对于无线表(或是半无线表),没有表格线这类明显的界限,需要进行识别得到格识别结果。根据格识别结果,可以确定表格图像中的格对应的行范围识别结果、列范围识别结果,换言之,除了得到表格图像中的格的定位,还可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格重构方法,其特征在于,包括:获取表格图像;对所述表格图像进行识别,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果;基于所述表格图像中的格对应的行范围识别结果、列范围识别结果,得到所述表格图像对应的重构表格。2.根据权利要求1所述的方法,其特征在于,所述对所述表格图像进行识别,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果,包括:对所述表格图像进行识别,确定所述表格图像中的格识别结果;根据所述格识别结果,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果。3.根据权利要求2所述的方法,其特征在于,所述对所述表格图像进行识别,确定所述表格图像中的格识别结果,包括:对所述表格图像进行识别,得到所述表格图像中包括的多个表格内容,所述多个表格内容中的任意相邻两个表格内容之间的边距值,以及所述多个表格内容分别对应的字体信息;基于所述任意相邻两个表格内容之间的边距值,以及所述多个表格内容分别对应的字体信息,确定所述表格图像中的所述格识别结果。4.根据权利要求3所述的方法,其特征在于,所述基于所述任意相邻两个表格内容之间的边距值,以及所述多个表格内容分别对应的字体信息,确定所述表格图像中的所述格识别结果,包括:在所述字体信息包括字体类型,字体大小,字体粗细的情况下,基于所述多个表格内容分别对应的所述字体类型,所述字体大小,所述字体粗细,确定所述任意相邻两个表格内容之间的字体差异识别结果;基于所述任意相邻两个表格内容之间的边距值、字体差异识别结果,确定所述格识别结果。5.根据权利要求2所述的方法,其特征在于,所述根据所述格识别结果,得到所述表格图像中的格对应的行范围识别结果、列范围识别结果,包括:根据所述格识别结果,确定所述表格图像中的格对应的起始行序号、终止行序号、起始列序号、终止列序号,其中,所述表格图像中的格对应的起始行序号为所述表格图像中对应格包括的第一行的序号,所述表格图像中的格对应的终止行序号为所述表格图像中对应格...

【专利技术属性】
技术研发人员:于翠楠
申请(专利权)人:南京燧坤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1