一种表格数据增强方法、表格识别方法、装置及存储介质制造方法及图纸

技术编号:35641213 阅读:19 留言:0更新日期:2022-11-19 16:32
本发明专利技术公开了一种表格数据增强方法、表格识别方法、装置及存储介质,其中表格数据增强方法包括:获取表格图片数据,对表格图片数据进行标注,获得标注信息;根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵;根据生成的标识矩阵获取表格的可切割位置,根据可切割位置对表格图片进行切割;将切割出来的每个表格图片的特征进行更正,获得增强的表格图片数据。本发明专利技术可以从一张表格上获取多个表格数据,不会破坏表格本身的结构,实现高质量的数据增强,对于现存的稀缺但又难以扩充的表格数据具有重大的意义;且适用于各种类型的表格,尤其是具有跨行跨列单元格的复杂表格。本发明专利技术可广泛应用于计算机视觉领域和表格识别领域。领域。领域。

【技术实现步骤摘要】
一种表格数据增强方法、表格识别方法、装置及存储介质


[0001]本专利技术涉及计算机视觉领域和表格识别领域,尤其涉及一种表格数据增强方法、表格识别方法、装置及存储介质。

技术介绍

[0002]表格是信息整理以及信息可视化的一种重要形式,极大地方便了使用者对信息的获取和分析。在当今的数字化时代,电子表格成为最主流的表格呈现方式,人们将表格以电子文档、图片或网页的形式进行传播共享。
[0003]由于表格具有丰富的信息,为了提高表格信息的获取效率,减少人工整理的成本,自动化的表格识别和信息抽取被广泛使用,其中基于计算机视觉和深度学习的方法在最近几年尤其流行。深度学习技术需要标注好的表格图片数据以供模型学习,但某些特定类型的复杂表格图片数据集规模很小,如拍照型表格图片(原因包括表格图片标注难度很大等等),严重阻碍了通用的自动化表格信息提取技术的发展。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一,本专利技术的目的在于提供一种表格数据增强方法、表格识别方法、装置及存储介质。
[0005]本专利技术所采用的技术方案是:
[0006]一种表格数据增强方法,包括以下步骤:
[0007]获取表格图片数据,对表格图片数据进行标注,获得标注信息;
[0008]根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵;
[0009]根据生成的标识矩阵获取表格的可切割位置,根据可切割位置对表格图片进行切割;
[0010]将切割出来的每个表格图片的特征进行更正,获得增强的表格图片数据。
[0011]进一步地,所述表格图片数据中的表格图片包括拍照型图片和电子版导出型图片,所述标注信息为.html格式文件、.xml格式文件或.json格式文件。
[0012]进一步地,所述根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵,包括:
[0013]从所述标注信息中获取当前表格的总行数M和总列数N,分别建立M行N列的行标识矩阵M
r
和列标识矩阵M
c

[0014]根据单元格是否出现跨行,对行标识矩阵M
r
上的每个单元进行赋值,遍历表格的所有行,获得最终的行标识矩阵M
r

[0015]根据单元格是否出现跨列,对列标识矩阵M
c
上的每个单元进行赋值,遍历表格的所有列,获得最终的列标识矩阵M
c

[0016]进一步地,所述根据单元格是否出现跨行,对行标识矩阵M
r
上的每个单元进行赋值,遍历表格的所有行,获得最终的行标识矩阵M
r
,包括:
[0017]对于第i行j列的单元格,如果该单元格没有跨越多行,则将该单元格在M
r
中置1,即M
r
[i][j]=1;
[0018]如果该单元格跨越n行,则M
r
[i][j]=n,且M
r
[i:i+n][j]=0,i:i+n表示区间[i,i+n),即将该单元格在M
r
的该单元格所属列的第一行的位置中填入数字n,该单元格所属列的其他行填入0。
[0019]进一步地,所述根据生成的标识矩阵获取表格的可切割位置,根据可切割位置对表格图片进行切割,包括:
[0020]获取行标识矩阵M
r
和列标识矩阵M
c
中标识不为0的位置作为可切割位置;
[0021]在表格的行和列两个方向上,获取出所有的可切割位置,对获得的可切割位置进行组合,获得组合切割位置;
[0022]根据组合切割位置和标注信息获取图片坐标,根据图片坐标对表格图片进行切割。
[0023]进一步地,所述对获得的可切割位置进行组合,包括:
[0024]采用随机组合方式或迭代组合方式对获得的可切割位置进行组合。
[0025]进一步地,所述将切割出来的每个表格图片的特征进行更正,包括:
[0026]在对行标识矩阵和列标识矩阵切割后,出现全行为0的行标识矩阵,或者全列为0的列标识矩阵;
[0027]在行标识矩阵中,删除全行为0的行,并对应地修正行标识矩阵的数值;
[0028]在列标识矩阵中,删除全列为0的列,并对应地修正列标识矩阵的数值;
[0029]根据修正获得的标识矩阵获取新的标注信息。
[0030]本专利技术所采用的另一技术方案是:
[0031]一种表格识别方法,包括以下步骤:
[0032]获取训练集,采用如上所述的一种表格数据增强方法对训练集进行数据增强;
[0033]采用数据增强后的训练集对表格识别模型进行训练;
[0034]获取待识别图片,将待识别图片输入训练后的表格识别模型,输出识别结果。
[0035]本专利技术所采用的另一技术方案是:
[0036]一种装置,包括:
[0037]至少一个处理器;
[0038]至少一个存储器,用于存储至少一个程序;
[0039]当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
[0040]本专利技术所采用的另一技术方案是:
[0041]一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
[0042]本专利技术的有益效果是:本专利技术可以从一张表格上获取多个表格数据,不会破坏表格本身的结构,实现高质量的数据增强,对于现存的稀缺但又难以扩充(如标注成本过高)的表格数据具有重大的意义;且适用于各种类型的表格,尤其是具有跨行跨列单元格的复杂表格。
附图说明
[0043]为了更清楚地说明本专利技术实施例或者现有技术中的技术方案,下面对本专利技术实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本专利技术的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
[0044]图1是本专利技术实施例中标识矩阵生成示意图;
[0045]图2是本专利技术实施例中可切割位置的示意图;
[0046]图3是本专利技术实施例中切割后的表格图片及标识矩阵示例的示意图;
[0047]图4是本专利技术实施例中切割下来的子表格相对原表格的位置关系的示意图;
[0048]图5是本专利技术实施例中切割后表格图片的特征错误示例的示意图;
[0049]图6是本专利技术实施例中标识矩阵更新过程的示意图;
[0050]图7是本专利技术实施例中数据增强结果示例的示意图;
[0051]图8是本专利技术实施例中一种表格数据增强方法的步骤流程图。
具体实施方式
[0052]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格数据增强方法,其特征在于,包括以下步骤:获取表格图片数据,对表格图片数据进行标注,获得标注信息;根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵;根据生成的标识矩阵获取表格的可切割位置,根据可切割位置对表格图片进行切割;将切割出来的每个表格图片的特征进行更正,获得增强的表格图片数据。2.根据权利要求1所述的一种表格数据增强方法,其特征在于,所述表格图片数据中的表格图片包括拍照型图片和电子版导出型图片,所述标注信息为.html格式文件、.xml格式文件或.json格式文件。3.根据权利要求1所述的一种表格数据增强方法,其特征在于,所述根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵,包括:从所述标注信息中获取当前表格的总行数M和总列数N,分别建立M行N列的行标识矩阵M
r
和列标识矩阵M
c
;根据单元格是否出现跨行,对行标识矩阵M
r
上的每个单元进行赋值,遍历表格的所有行,获得最终的行标识矩阵M
r
;根据单元格是否出现跨列,对列标识矩阵M
c
上的每个单元进行赋值,遍历表格的所有列,获得最终的列标识矩阵M
c
。4.根据权利要求3所述的一种表格数据增强方法,其特征在于,所述根据单元格是否出现跨行,对行标识矩阵M
r
上的每个单元进行赋值,遍历表格的所有行,获得最终的行标识矩阵M
r
,包括:对于第i行j列的单元格,如果该单元格没有跨越多行,则将该单元格在M
r
中置1,即M
r
[i][j]=1;如果该单元格跨越n行,则M
r
[i][j]=n,且M
r
[i:i+n][j]=0,i:i+n表示区间[i,i+n),即将该单元格在M
r
的该单元格...

【专利技术属性】
技术研发人员:金连文陈邦栋张沛荣张家鑫任峪瑾
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1