表格重建方法和装置、计算机可读存储介质和电子设备制造方法及图纸

技术编号:34635666 阅读:16 留言:0更新日期:2022-08-24 15:09
本申请涉及图像处理技术领域,具体涉及一种表格重建方法和表格重建装置,以及计算机可读存储介质和电子设备,解决了表格重建准确率低的问题。本申请实施例提供的表格重建方法,基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,表格交点的交点类型根据表格交点所连接的线段的数量和方向确定,从而可以根据表格交点的交点类型确定每个表格交点所连接的线段的数量和方向,从而避免盲目的将每个相邻的表格交点都连接起来,提高了表格重建的准确率。提高了表格重建的准确率。提高了表格重建的准确率。

【技术实现步骤摘要】
表格重建方法和装置、计算机可读存储介质和电子设备


[0001]本申请涉及图像处理
,具体涉及一种表格重建方法和表格重建装置,以及计算机可读存储介质和电子设备。

技术介绍

[0002]现有表格重建方法的原理一般是:首先,识别出表格的所有交点,然后,对所有交点进行连线,从而重建表格。然而,很多表格都有合并单元格,一个合并单元格的线框上可能有6个交点,如果直接对6个交点进行连接,会将原本的1个合并单元格重建为2个单元格,导致表格重建的准确率低。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种表格重建方法和表格重建装置,以及计算机可读存储介质和电子设备,解决了表格重建准确率低的问题。
[0004]第一方面,本申请一实施例提供的一种表格重建方法,包括:基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,其中,表格交点由至少两条线段相交形成,表格交点的交点类型根据表格交点所连接的线段的数量和方向确定;基于M个表格交点各自的交点坐标和交点类型,生成待识别表格图像对应的重建表格。
[0005]结合本申请的第一方面,在一些实施例中,基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,包括:利用表格识别模型,基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型。
[0006]结合本申请的第一方面,在一些实施例中,交点类型包括:左上角点、左下角点、右上角点和右下角点;基于M个表格交点各自的交点坐标和交点类型,生成待识别表格图像对应的重建表格,包括:基于M个表格交点各自的交点类型,确定交点类型为左上角点的P个表格交点;基于P个表格交点各自的交点坐标,进行二维排序,得到二维排序结果;基于二维排序结果、M个表格交点各自的交点坐标和交点类型,依次确定P个表格交点各自对应的单元格坐标;基于P个表格交点各自对应的单元格坐标,生成重建表格。
[0007]结合本申请的第一方面,在一些实施例中,基于二维排序结果,依次确定P个表格交点各自对应的单元格坐标,包括:针对P个表格交点中的每个当前表格交点,基于当前表格交点的交点坐标和预设列宽阈值条件,在交点类型为右上角点的表格交点中进行检索;基于当前表格交点的交点坐标和预设行高阈值条件,在交点类型为左下角点的表格交点中进行检索;如果检索到符合预设列宽阈值条件的表格交点,且检索到符合预设行高阈值条件的表格交点,则基于当前表格交点的交点坐标、当前表格交点对应的符合预设列宽阈值条件的表格交点的交点坐标和符合预设行高阈值条件的表格交点的交点坐标,确定当前表格交点对应的单元格坐标。
[0008]结合本申请的第一方面,在一些实施例中,基于二维排序结果,依次确定P个表格
交点各自对应的单元格坐标,还包括:如果检索到符合预设列宽阈值条件的表格交点,未检索到符合预设行高阈值条件的表格交点,则基于符合预设列宽阈值条件的表格交点和预设行高阈值条件,在交点类型为右下角点的表格交点中进行检索;如果在交点类型为右下角点的表格交点中检索到符合预设行高阈值条件的表格交点,则基于当前表格交点的交点坐标、当前表格交点对应的符合预设列宽阈值条件的表格交点的交点坐标、符合预设列宽阈值条件的表格交点对应的符合预设行高阈值条件的表格交点的交点坐标,确定当前表格交点对应的单元格坐标。
[0009]结合本申请的第一方面,在一些实施例中,基于二维排序结果,依次确定P个表格交点各自对应的单元格坐标,还包括:如果未检索到符合预设列宽阈值条件的表格交点,检索到符合预设行高阈值条件的表格交点,则基于符合预设行高阈值条件的表格交点和预设行高阈值条件,在交点类型为右下角点的表格交点中进行检索;如果在交点类型为右下角点的表格交点中检索到符合预设列宽阈值条件的表格交点,则基于当前表格交点的交点坐标、当前表格交点对应的符合预设行高阈值条件的表格交点的交点坐标、符合预设行高阈值条件的表格交点对应的符合预设列宽阈值条件的表格交点的交点坐标,确定当前表格交点对应的单元格坐标。
[0010]结合本申请的第一方面,在一些实施例中,基于二维排序结果,依次确定P个表格交点各自对应的单元格坐标,包括:基于二维排序结果,确定P个表格交点中的交点坐标最小的表格交点;以交点坐标最小的表格交点为起点,基于二维排序结果,依次确定P个表格交点各自对应的单元格坐标。
[0011]结合本申请的第一方面,在一些实施例中,基于P个表格交点各自对应的单元格坐标,生成重建表格,包括:基于P个表格交点各自对应的单元格坐标,确定待识别表格图像包含的P个单元格;基于待识别表格图像,确定P个单元格各自对应的内容字符数据;基于P个单元格以及P个单元格各自对应的内容字符数据,生成重建表格。
[0012]结合本申请的第一方面,在一些实施例中,在利用表格识别模型,基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型之前,还包括:确定训练数据集,其中,训练数据集包括S个表格图像样本以及S表格图像样本各自包含的表格交点的交点坐标标签数据和交点类型标签数据,S为正整数;建立初始网络模型,并基于训练数据集训练初始网络模型,生成表格识别模型。
[0013]结合本申请的第一方面,在一些实施例中,确定训练数据集,包括:生成S个表格,其中,S个表格包括基于随机表格参数生成的表格;基于S个表格,确定S个表格各自对应的表格图像样本;分别对S个表格进行标注,确定S个表格图像样本各自包含的表格交点的交点坐标标签数据和交点类型标签数据。
[0014]结合本申请的第一方面,在一些实施例中,基于S个表格,确定S个表格各自对应的表格图像样本,包括:对S个表格进行渲染,生成S个表格各自对应的基础表格图像样本;对S个表格各自对应的基础表格图像样本进行数据增强操作,生成S个表格各自对应的增强表格图像样本;基于S个表格各自对应的基础表格图像样本和S个表格各自对应的增强表格图像样本,确定S个表格各自对应的表格图像样本。
[0015]第二方面,本申请一实施例提供了一种表格重建装置,包括:确定模块,配置为基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,
其中,表格交点由至少两条线段形成,表格交点的交点类型根据表格交点所连接的线段的数量和方向确定;生成模块,配置为基于M个表格交点各自的交点坐标和交点类型,生成待识别表格图像对应的重建表格。
[0016]第三方面,本申请一实施例提供了一种计算机可读存储介质,存储介质存储有指令,当指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面提及的表格重建方法。
[0017]第四方面,本申请一实施例提供了一种电子设备,电子设备包括:处理器;用于存储计算机可执行指令的存储器;处理器,用于执行计算机可执行指令,以实现上述第一方面提及的表格重建方法。
[0018]本申请实施例提供的一种表格重建方法,基于待识别表格图像,确定待识别表格图像包含的M个表格交点各自的交本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格重建方法,其特征在于,包括:基于待识别表格图像,确定所述待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,其中,所述表格交点由至少两条线段相交形成,所述表格交点的交点类型根据所述表格交点所连接的线段的数量和方向确定;基于所述M个表格交点各自的交点坐标和交点类型,生成所述待识别表格图像对应的重建表格。2.根据权利要求1所述的表格重建方法,其特征在于,所述基于待识别表格图像,确定所述待识别表格图像包含的M个表格交点各自的交点坐标和交点类型,包括:利用表格识别模型,基于所述待识别表格图像,确定所述待识别表格图像包含的M个表格交点各自的交点坐标和交点类型。3.根据权利要求1或2所述的表格重建方法,其特征在于,所述交点类型包括:左上角点、左下角点、右上角点和右下角点;所述基于所述M个表格交点各自的交点坐标和交点类型,生成所述待识别表格图像对应的重建表格,包括:基于所述M个表格交点各自的交点类型,确定交点类型为所述左上角点的P个表格交点;基于所述P个表格交点各自的交点坐标,进行二维排序,得到二维排序结果;基于所述二维排序结果、所述M个表格交点各自的交点坐标和交点类型,依次确定所述P个表格交点各自对应的单元格坐标;基于所述P个表格交点各自对应的单元格坐标,生成所述重建表格。4.根据权利要求3所述的表格重建方法,其特征在于,所述基于所述二维排序结果,依次确定所述P个表格交点各自对应的单元格坐标,包括:针对所述P个表格交点中的每个当前表格交点,基于所述当前表格交点的交点坐标和预设列宽阈值条件,在交点类型为右上角点的表格交点中进行检索;基于所述当前表格交点的交点坐标和预设行高阈值条件,在交点类型为左下角点的表格交点中进行检索;如果检索到符合所述预设列宽阈值条件的表格交点,且检索到符合所述预设行高阈值条件的表格交点,则基于所述当前表格交点的交点坐标、所述当前表格交点对应的符合所述预设列宽阈值条件的表格交点的交点坐标和符合所述预设行高阈值条件的表格交点的交点坐标,确定所述当前表格交点对应的单元格坐标。5.根据权利要求4所述的表格重建方法,其特征在于,所述基于所述二维排序结果,依次确定所述P个表格交点各自对应的单元格坐标,还包括:如果检索到符合所述预设列宽阈值条件的表格交点,未检索到符合所述预设行高阈值条件的表格交点,则基于符合所述预设列宽阈值条件的表格交点和所述预设行高阈值条件,在交点类型为右下角点的表格交点中进行检索;如果在所述交点类型为右下角点的表格交点中检索到符合所述预设行高阈值条件的表格交点,则基于所述当前表格交点的交点坐标、所述当前表格交点对应的符合所述预设列宽阈值条件的表格交点的交点坐标、符合所述预设列宽阈值条件的表格交点对应的符合所述预设行高阈值条件的表格交点的交点坐标,确定所述当前表格交点对应的单元格坐
标。6.根据权利要求4所述的表格重建方法,其特征在于,所述基于所述二维排序结果,依次确定所述P个表格交点各自对应的单元格坐标,还包括:如果未检索到符合所述预设列宽阈值条件的表格交点,检索到符合所述预设行高阈值条件的表格交点,则基于符合所述预设行高阈值条件的表格交点和所述预设行高阈值条件,在交点类型为右下角点的表格交点中进行检索;如果在所述交点类型为右下角点的表格交点中检索到符合所述预设列宽阈...

【专利技术属性】
技术研发人员:王逸馨孟冬伟卞负王为磊屠昶旸张济徽
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1