一种在图像中检测表格线的方法及装置制造方法及图纸

技术编号:31093068 阅读:20 留言:0更新日期:2021-12-01 12:59
本申请公开了一种在图像中检测表格线的方法。步骤S10:将图像输入语义分割网络,获得潜在表格线临近区域像素集合。步骤S20:对表格线临近区域像素集合进行线段拟合以得到表格线。步骤S30:移除虚假表格线,得到真实表格线。步骤S40:将所有表格线分别归入各个行、各个列的组别。步骤S50:得到完整的结构化的电子表格。步骤S60:如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的,则提取该失败场景的典型特征,并以此生成困难样本,重新训练所述语义分割网络。上述方法通过对语义分割网络的反复训练,提高了表格线检测的准确率,有助于提高电子表格结构化的成功率。有助于提高电子表格结构化的成功率。有助于提高电子表格结构化的成功率。

【技术实现步骤摘要】
一种在图像中检测表格线的方法及装置


[0001]本申请涉及一种在图像(图片)中检测表格线的方法。

技术介绍

[0002]表格在日常生活及办公中有广泛的应用,存在大量将图片中表格转化为电子表格的需求,而此类自动转化技术通常严重依赖于表格线的检测。表格线包括用于分隔表格内部与表格外部的外部边框线、以及在表格内部用于区分行、列的内部分隔线。
[0003]因为图像质量、拍摄角度、不均匀的光线、纸张弯曲褶皱、文字区域错位、图章水印干扰以及表格线本身的色彩、粗细、样式的多样性,会给检测表格线带来极大的挑战,进而影响表格的结构还原的准确性。

技术实现思路

[0004]本申请所要解决的技术问题是提出一种在图像中检测表格线的方法,具有准确率高、能够有效地辅助表格结构还原的特点。
[0005]为解决上述技术问题,本申请提出的在图像中检测表格线的方法包括如下步骤。步骤S10:将图像输入语义分割网络,获得潜在表格线临近区域像素集合;所述潜在表格线临近区域像素集合是指一些可能存在表格线的区域的孤立的像素点。步骤S20:对表格线临近区域像素集合进行线段拟合以得到表格线。步骤S30:根据对图像进行光学字符识别获取的文字行信息,对步骤S20得到的表格线进行过滤,移除虚假表格线,得到真实表格线。步骤S40:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。步骤S50:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存,最终得到完整的结构化的电子表格。步骤S60:如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的,则提取该失败场景的典型特征,并以此生成困难样本,重新训练所述语义分割网络,并利用重新训练后的所述语义分割网络重复步骤S10至步骤S50,直至步骤S50的电子表格结构化成功。上述方法通过对语义分割网络的反复训练,提高了表格线检测的准确率,有助于提高电子表格结构化的成功率。
[0006]进一步地,所述步骤S10中,图像的语义分割是对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分;所述语义分割网络基于深度学习算法,包括卷积神经网络、深度卷积神经网络、全卷积网络的任意一种或多种。这是对步骤S10的详细说明。
[0007]进一步地,所述步骤S30中,所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度的任一种或多种。
[0008]进一步地,所述步骤S40中,对于水平线,按起始端点排序后进行循环处理,遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重,如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线;最终,每一表格行的水平线归为一组,组内根据是否有单元格合并情况包含一根或多根水平线;对竖直线的处理采用类似方法。这是对步骤S40的具体说明。
[0009]可选地,所述步骤S40中,处理过程使用并查集算法进行加速。
[0010]进一步地,所述步骤S60进一步包括如下子步骤。步骤S61:准备通用样本合成工具,所述困难样本合成工具具有多个可调整的参数,通过调整这些参数可生成各种特征的样本及标注。步骤S62:收集并分析由于表格线检测错误造成的电子表格结构化失败的场景下的典型特征。步骤S63:根据步骤S62得到的失败场景的典型特征,调整通用样本合成工具中的参数以生成具有相同特征的困难样本及标注。步骤S64:利用所生成的困难样本重新训练用于在图像中获得潜在表格线临近区域像素集合的所述语义分割网络。这是对步骤S60的具体说明。
[0011]进一步地,所述步骤S61中,所述困难样本合成工具将样本生成过程抽象为基础背景纹理、表格结构、正文内容与样式、表格线位置与样式、图章水印合成这五个部分;基础背景纹理部分的参数包括背景图片、背景颜色、纹理图案、纹理颜色的任一种或多种;表格结构部分的参数包括表格数目、大小、位置、行列数、合并单元格情况的任一种或多种;正文内容与样式部分的参数包括字号、字体、颜色、位置、对齐方式的任一种或多种;表格线位置与样式部分的参数包括表格线的类型风格、粗细、像素区域的任一种或多种;图章水印合成部分的参数包含图章水印的数目、位置、角度、色彩的任一种或多种。
[0012]进一步地,所述步骤S62中,所述失败场景的典型特征包括印刷错位或手写造成的字压线、长笔划汉字纵向重复排列造成的假线、图章遮挡引起的漏线、错误地将图章边缘识别为表格线、强光线拍摄造成表线与背景难区分、复杂纹理样本中通过彩色线或颜色块分隔单元格、使用两根平行线分隔邻接单元格、低矮稠密单元格中很短的表格线识别丢失的任一种或多种。
[0013]进一步地,所述步骤S63中,所述通用样本合成工具先根据基础背景纹理部分的参数生成基础图像,再根据表格结构部分的参数生成表格结构,再根据正文内容与样式部分的参数生成文本内容及样式,再根据表格线位置与样式部分的参数生成框线及样式,再根据图章水印合成部分的参数叠加图章水印,最终将上述各部分的图像、表格结构、正文、表格线、图章水印合成为一张图片,该图片具有标注。
[0014]本申请还提出了一种在图像中检测表格线的装置,包括语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元、重新训练单元。所述语义分割单元用于采用语义分割网络在输入的图像中获得潜在表格线临近区域像素集合。所述线段拟合单元用于对表格线临近区域像素集合进行线段拟合以得到表格线。所述表格线过滤单元用于根据对图像进行光学字符识别获取的文字行信息对表格线进行过滤,移除虚假表格线,得到真实表格线。所述表格线分组单元用于根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别。所述电子表格结构化单元用于根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存,最终得到完整的结构化的电子表格。所述重新训练单元用于当所述电子表格结构化单元执行电子表格结构化失败、并且是由于表格线检测错误导致的,则提取该失败场景的典型特征,并以此生成困难样本,重新训练所述语义分割网络;重新训练后的所述语义分割网络送入所述语义分割单元,由语义分割单元、线段拟合单元、表格线过滤单元、表格线分组单元、电子表格结构化单元重复执行,直至所述电子表格结构化单元执行电子表格结构化成功。上述装置通过对语义分割网络的反复训练,提高了表格线检测的准确率,有助于提高电子
表格结构化的成功率。
[0015]本申请取得的技术效果是:采用语义分割网络和线段拟合相结合的方式得到表格线,有效减少了表格线检测中的假线、漏线问题;针对字压线、重复字假线、图章遮挡、淡线、彩色线、色块、虚线、双线分隔、超短线等困难场景的表格线检测,通过提取失败场景的典型特征,生成困难样本对语义分割网络反复训练,从而提升表格线检测的准确性。
附图说明
[0016]图1是本申请提出的在图像中检测表格线的方法的流程示意图。
[0017]图2是图1中步骤S60的子流程示意图。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在图像中检测表格线的方法,其特征是,包括如下步骤;步骤S10:将图像输入语义分割网络,获得潜在表格线临近区域像素集合;所述潜在表格线临近区域像素集合是指一些可能存在表格线的区域的孤立的像素点;步骤S20:对表格线临近区域像素集合进行线段拟合以得到表格线;步骤S30:根据对图像进行光学字符识别获取的文字行信息,对步骤S20得到的表格线进行过滤,移除虚假表格线,得到真实表格线;步骤S40:根据表格线之间的位置关系,将所有表格线分别归入各个行、各个列的组别;步骤S50:根据表格线所属组别构建单元格,并将每一单元格范围内的光学字符识别结果作为该单元格中的文字信息保存,最终得到完整的结构化的电子表格;步骤S60:如果步骤S50的电子表格结构化失败、并且是由于表格线检测错误导致的,则提取该失败场景的典型特征,并以此生成困难样本,重新训练所述语义分割网络,并利用重新训练后的所述语义分割网络重复步骤S10至步骤S50,直至步骤S50的电子表格结构化成功。2.根据权利要求1所述的在图像中检测表格线的方法,其特征是,所述步骤S10中,图像的语义分割是对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分;所述语义分割网络基于深度学习算法,包括卷积神经网络、深度卷积神经网络、全卷积网络的任意一种或多种。3.根据权利要求1所述的在图像中检测表格线的方法,其特征是,所述步骤S30中,所述文字行信息包括文字行的高度、单个文字的宽度、文字行的角度的任一种或多种。4.根据权利要求1所述的在图像中检测表格线的方法,其特征是,所述步骤S40中,对于水平线,按起始端点排序后进行循环处理,遇到垂直距离接近且水平部分有重叠的水平线就进行合并去重,如此将逻辑上属于上同一条水平线但实际被检测为多条的水平线组装为一条水平线;最终,每一表格行的水平线归为一组,组内根据是否有单元格合并情况包含一根或多根水平线;对竖直线的处理采用类似方法。5.根据权利要求4所述的在图像中检测表格线的方法,其特征是,所述步骤S40中,处理过程使用并查集算法进行加速。6.根据权利要求1所述的在图像中检测表格线的方法,其特征是,所述步骤S60进一步包括如下子步骤;步骤S61:准备通用样本合成工具,所述困难样本合成工具具有多个可调整的参数,通过调整这些参数可生成各种特征的样本及标注;步骤S62:收集并分析由于表格线检测错误造成的电子表格结构化失败的场景下的典型特征;步骤S63:根据步骤S62得到的失败场景的典型特征,调整通用样本合成工具中的参数以生成具有相同特征的困难样本及标注;步骤S64:利用所生成的困难样本重新训练用于在图像中获得潜在表格线临近区域像素集合的所述语义分割网络。7.根据权利要求6所述的在图像中检测表格线的方法,其特征是,所述步骤S61中,...

【专利技术属性】
技术研发人员:龙伟郭丰俊丁凯龙腾
申请(专利权)人:上海临冠数据科技有限公司上海生腾数据科技有限公司上海盈五蓄数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1