一种表格数据增强方法、表格识别方法、装置及存储介质制造方法及图纸

技术编号：35641213 阅读：19 留言：0更新日期：2022-11-19 16:32

本发明专利技术公开了一种表格数据增强方法、表格识别方法、装置及存储介质，其中表格数据增强方法包括：获取表格图片数据，对表格图片数据进行标注，获得标注信息；根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵；根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割；将切割出来的每个表格图片的特征进行更正，获得增强的表格图片数据。本发明专利技术可以从一张表格上获取多个表格数据，不会破坏表格本身的结构，实现高质量的数据增强，对于现存的稀缺但又难以扩充的表格数据具有重大的意义；且适用于各种类型的表格，尤其是具有跨行跨列单元格的复杂表格。本发明专利技术可广泛应用于计算机视觉领域和表格识别领域。领域。领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种表格数据增强方法、表格识别方法、装置及存储介质

[0001]本专利技术涉及计算机视觉领域和表格识别领域，尤其涉及一种表格数据增强方法、表格识别方法、装置及存储介质。

技术介绍

[0002]表格是信息整理以及信息可视化的一种重要形式，极大地方便了使用者对信息的获取和分析。在当今的数字化时代，电子表格成为最主流的表格呈现方式，人们将表格以电子文档、图片或网页的形式进行传播共享。
[0003]由于表格具有丰富的信息，为了提高表格信息的获取效率，减少人工整理的成本，自动化的表格识别和信息抽取被广泛使用，其中基于计算机视觉和深度学习的方法在最近几年尤其流行。深度学习技术需要标注好的表格图片数据以供模型学习，但某些特定类型的复杂表格图片数据集规模很小，如拍照型表格图片(原因包括表格图片标注难度很大等等)，严重阻碍了通用的自动化表格信息提取技术的发展。

技术实现思路

[0004]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种表格数据增强方法、表格识别方法、装置及存储介质。
[0005]本专利技术所采用的技术方案是：
[0006]一种表格数据增强方法，包括以下步骤：
[0007]获取表格图片数据，对表格图片数据进行标注，获得标注信息；
[0008]根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵；
[0009]根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割；
[0010]将切割出来的每个表格图片...

【技术保护点】

【技术特征摘要】
1.一种表格数据增强方法，其特征在于，包括以下步骤：获取表格图片数据，对表格图片数据进行标注，获得标注信息；根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵；根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割；将切割出来的每个表格图片的特征进行更正，获得增强的表格图片数据。2.根据权利要求1所述的一种表格数据增强方法，其特征在于，所述表格图片数据中的表格图片包括拍照型图片和电子版导出型图片，所述标注信息为.html格式文件、.xml格式文件或.json格式文件。3.根据权利要求1所述的一种表格数据增强方法，其特征在于，所述根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵，包括：从所述标注信息中获取当前表格的总行数M和总列数N，分别建立M行N列的行标识矩阵M
r
和列标识矩阵M
c
；根据单元格是否出现跨行，对行标识矩阵M
r
上的每个单元进行赋值，遍历表格的所有行，获得最终的行标识矩阵M
r
；根据单元格是否出现跨列，对列标识矩阵M
c
上的每个单元进行赋值，遍历表格的所有列，获得最终的列标识矩阵M
c
。4.根据权利要求3所述的一种表格数据增强方法，其特征在于，所述根据单元格是否出现跨行，对行标识矩阵M
r
上的每个单元进行赋值，遍历表格的所有行，获得最终的行标识矩阵M
r
，包括：对于第i行j列的单元格，如果该单元格没有跨越多行，则将该单元格在M
r
中置1，即M
r
[i][j]＝1；如果该单元格跨越n行，则M
r
[i][j]＝n，且M
r
[i：i+n][j]＝0，i：i+n表示区间[i，i+n)，即将该单元格在M
r
的该单元格...

【专利技术属性】
技术研发人员：金连文，陈邦栋，张沛荣，张家鑫，任峪瑾，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人