一种表格检测方法和装置制造方法及图纸

技术编号:21300255 阅读:21 留言:0更新日期:2019-06-12 08:06
本发明专利技术提供了一种表格检测方法和装置,所述方法包括:获取待测图像;提取所述待测图像中的表格线条元素,得到预处理表格线条图像;基于预设的检测核,提取所述预处理表格线条图像中的交叉点;基于所述交叉点,重构表格线条,得到目标表格线条图像。所述装置包括:待测图像获取模块、预处理表格线条图像提取模块、交叉点提取模块、目标表格线条图像获取模块。本发明专利技术实施例通过检测表格中的交叉点,并基于所述交叉点对表格线条进行重构,从而实现了表格的检测以及提取。基于交叉点检测表格,可以有效避免表格中非表格线段的干扰,并通过交叉点区分了表格中的短线段和手写字符中的笔画,避免了表格中文字的干扰,表格检测的准确性高。

A Form Detection Method and Device

The invention provides a table detection method and device, which includes: acquiring the image to be tested; extracting the table line elements in the image to be tested to obtain the preprocessed table line image; extracting the intersection points of the preprocessed table line image based on the preset detection core; reconstructing the table line based on the intersection points to obtain the target table line image. The device comprises an image acquisition module to be tested, a pre-processing table line image extraction module, a cross point extraction module and a target table line image acquisition module. The embodiment of the invention realizes the detection and extraction of tables by detecting the intersections in tables and reconstructing the lines of tables based on the intersections. Based on the cross-point detection table, the interference of non-table line segments in the table can be effectively avoided, and the short line segments in the table and strokes in handwritten characters can be distinguished by the cross-points, thus avoiding the interference of the characters in the table and the accuracy of the table detection is high.

【技术实现步骤摘要】
一种表格检测方法和装置
本专利技术涉及图像处理领域,特别是涉及一种表格检测方法和装置。
技术介绍
随着近年来AI技术的不断升温,图像理解是机器视觉的核心技术之一,其中,文档图像中的表格不仅是文档图像中核心要素,更是一种可视化的交流模式。表格结构简单,分隔明确,可保证信息可读性,易于用户快速扫描浏览并获取所需;数据经过归纳整理和合理布局后,更易于用户感知分辨其中的差异与变化、关联与区别,并进行对比分析;交互层面,用户可以对数据信息进行排序、搜索、筛选、以及相关业务处理等复杂操作。在科学研究、数据分析、信息登记等方面表格发挥着重要作用。因此,表格的检测是图像理解中不可缺乏的技术之一。现有技术中,在具有多个元素的图像中提取表格的主要方法为:先检测表格中的直线,然后利用直线计算交叉点,最后利用直线和交叉点绘制出表格。对于复杂表格而言,直线是否正确检测并提取直接影响着最终表格的回复质量。现有较成熟的直线检测方案包括以下几种:一种为基于霍夫变换的直线检测,该方法对线段的连通性没有要求,有利于检测虚线和断裂的直线,但由于难以确定直线的起点和重点,运算量过大,导致它在具体的工程实践中的应用受到了限制;一种为应用较广的矢量化算法,该方法直接对光栅图像的各个像素进行处理,导致存储量大,而且因为不能利用像素间的位置关系,很不方便;一种为基于矢量化方法的改进,例如选择一些容易提取,大小合适,反映待检目标的最本质特性的矢量单元,然后采用合并和滤除的方式,得到最终的直线,如单连通链的表格检测技术。然而,现有技术都是从直线检测出发,对检测的直线进行修补,使其重新构成网格,得到最终的表格信息,其仍然会受到手写字、非表格直线等影响,导致对短小直线的提取稳定性地,从而出现漏检、多检的问题,使表格无法正确识别。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种表格检测方法和装置。一种表格检测方法,包括:获取待测图像;提取所述待测图像中的表格线条元素,得到预处理表格线条图像;基于预设的检测核,提取所述预处理表格线条图像中的交叉点;基于所述交叉点,重构表格线条,得到目标表格线条图像。优选地,所述基于预设的检测核,提取所述预处理表格线条图像中的交叉点的步骤具体包括:将预设的检测核对所述预处理表格线条图像进行卷积,得到卷积响应图;对所述卷积响应图进行自适应二值化,得到交叉点响应图像;在所述交叉点响应图像中定位出交叉点。优选地,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:对每一个所述交叉点,确定以所述交叉点为基准的至少一个预设方向上是否存在其他交叉点;当在预设方向上存在其他交叉点时,确定所述预设方向为所述交叉点的连通方向;连接每一个所述交叉点在每一个所述连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。优选地,所述预设的检测核为矩阵,所述矩阵中包括有权元素以及无权元素;所述有权元素为所述矩阵中具有权重的元素,所述无权元素为所述矩阵中不具有权重的元素。优选地,所述有权元素中包括中心元素以及至少一个第一有权元素;所述中心元素与第一有权元素连接,构成左上、左下、右上、右下中任意一个或多个方向的直角形状,所述直角形状中两条直线的交点为所述中心元素。优选地,所述第一有权元素以及所述中心元素的权重服从高斯分布;所述中心元素的权重在所述有权元素中最高;所述第一有权元素的权重基于与所述中心元素之间的距离,由近至远依次降低。优选地,所述有权元素还包括至少一个第二有权元素,所述至少一个第二有权元素位于所述直角形状中任意一条或两条直线顺时针,和/或,逆时针旋转预设角度覆盖的区域中。优选地,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:基于所述预设的检测核,确定每一个所述交叉点的类型;基于所述交叉点的类型,确定所述交叉点的连通方向;连接每一个所述交叉点在连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。优选地,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:基于所述预设的检测核,确定每一个所述交叉点的类型;基于所述交叉点的类型,确定每一个所述交叉点的预判连通方向;对每一个所述交叉点,确定以所述交叉点为基准的预设方向上是否存在其他交叉点;当在预设方向上存在其他交叉点时,对比所述预设方向与所述预判连通方向是否相同;当所述预设方向与所述预判连通方向相同时,确定所述预设方向为所述交叉点的连通方向;连接每一个所述交叉点在每一个所述连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。优选地,在所述基于所述交叉点,重构表格线条,得到目标表格线条图像之后,还包括:当所述表格线条之间存在相互交叉时,将所述表格线条之间相互交叉的位置确定为交叉点;继续执行所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤。一种表格检测装置,包括:待测图像获取模块,用于获取待测图像;预处理表格线条图像提取模块,用于提取所述待测图像中的表格线条元素,得到预处理表格线条图像;交叉点提取模块,用于基于预设的检测核,提取所述预处理表格线条图像中的交叉点;目标表格线条图像获取模块,用于基于所述交叉点,重构表格线条,得到目标表格线条图像。优选地,所述交叉点提取模块具体包括:卷积响应图获取子模块,用于将预设的检测核对所述预处理表格线条图像进行卷积,得到卷积响应图;交叉点响应图像获取子模块,用于对所述卷积响应图进行自适应二值化,得到交叉点响应图像;交叉点定位子模块,用于在所述交叉点响应图像中定位出交叉点。优选地,所述目标表格线条图像获取模块具体包括:第一交叉点确定子模块,用于对每一个所述交叉点,确定以所述交叉点为基准的至少一个预设方向上是否存在其他交叉点;第一连通方向确定子模块,用于当在预设方向上存在其他交叉点时,确定所述预设方向为所述交叉点的连通方向第一目标表格线条图像获取子模块,用于连接每一个所述交叉点在每一个所述连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。优选地,所述预设的检测核为矩阵,所述矩阵中包括有权元素以及无权元素;所述有权元素为所述矩阵中具有权重的元素,所述无权元素为所述矩阵中不具有权重的元素。优选地,所述有权元素中包括中心元素以及至少一个第一有权元素;所述中心元素与第一有权元素连接,构成左上、左下、右上、右下中任意一个或多个方向的直角形状,所述直角形状中两条直线的交点为所述中心元素。本专利技术实施例包括以下优点:本专利技术实施例通过检测表格中的交叉点,并基于所述交叉点对表格线条进行重构,从而实现了表格的检测以及提取。基于交叉点检测表格,可以有效避免表格中非表格线段的干扰,并通过交叉点区分了表格中的短线段和手写字符中的笔画,避免了表格中文字的干扰,表格检测的准确性高。附图说明图1是本专利技术实施例的一种表格检测方法实施例的步骤流程图;图2是本专利技术实施例的待测图像的示意图;图3是本专利技术实施例的二值图像的示意图图4是本专利技术实施例的预处理表格线条图像的示意图;图5是本专利技术实施例的检测核A的示意图;图6为本专利技术实施例的检测核A的直线形状的示意图;图7为本专利技术实施例的检测核B的示意图;图8为本专利技术实施例的检测核B的直线形本文档来自技高网
...

【技术保护点】
1.一种表格检测方法,其特征在于,所述方法包括:获取待测图像;提取所述待测图像中的表格线条元素,得到预处理表格线条图像;基于预设的检测核,提取所述预处理表格线条图像中的交叉点;基于所述交叉点,重构表格线条,得到目标表格线条图像。

【技术特征摘要】
1.一种表格检测方法,其特征在于,所述方法包括:获取待测图像;提取所述待测图像中的表格线条元素,得到预处理表格线条图像;基于预设的检测核,提取所述预处理表格线条图像中的交叉点;基于所述交叉点,重构表格线条,得到目标表格线条图像。2.根据权利要求1所述的表格检测方法,其特征在于,所述基于预设的检测核,提取所述预处理表格线条图像中的交叉点的步骤具体包括:将预设的检测核对所述预处理表格线条图像进行卷积,得到卷积响应图;对所述卷积响应图进行自适应二值化,得到交叉点响应图像;在所述交叉点响应图像中定位出交叉点。3.如权利要求1所述的表格检测方法,其特征在于,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:对每一个所述交叉点,确定以所述交叉点为基准的至少一个预设方向上是否存在其他交叉点;当在预设方向上存在其他交叉点时,确定所述预设方向为所述交叉点的连通方向;连接每一个所述交叉点在每一个所述连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。4.如权利要求1或2所述的表格检测方法,其特征在于,所述预设的检测核为矩阵,所述矩阵中包括有权元素以及无权元素;所述有权元素为所述矩阵中具有权重的元素,所述无权元素为所述矩阵中不具有权重的元素。5.如权利要求4所述的表格检测方法,其特征在于,所述有权元素中包括中心元素以及至少一个第一有权元素;所述中心元素与第一有权元素连接,构成左上、左下、右上、右下中任意一个或多个方向的直角形状,所述直角形状中两条直线的交点为所述中心元素。6.如权利要求5所述的表格检测方法,其特征在于,所述第一有权元素以及所述中心元素的权重服从高斯分布;所述中心元素的权重在所述有权元素中最高;所述第一有权元素的权重基于与所述中心元素之间的距离,由近至远依次降低。7.如权利要求5或6所述的表格检测方法,其特征在于,所述有权元素还包括至少一个第二有权元素,所述至少一个第二有权元素位于所述直角形状中任意一条或两条直线顺时针,和/或,逆时针旋转预设角度覆盖的区域中。8.如权利要求1所述的表格检测方法,其特征在于,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:基于所述预设的检测核,确定每一个所述交叉点的类型;基于所述交叉点的类型,确定所述交叉点的连通方向;连接每一个所述交叉点在连通方向上距离最短的其他交叉点,重构表格线条,得到目标表格线条图像。9.如权利要求1所述的表格检测方法,其特征在于,所述基于所述交叉点,重构表格线条,得到目标表格线条图像的步骤具体包括:基于所述预设的检测核,确定每一个所述交叉点的类型;...

【专利技术属性】
技术研发人员:吴爱红胡雨隆殷兵胡金水
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1