表格线检测方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:20285411 阅读:21 留言:0更新日期:2019-02-10 17:54
本发明专利技术实施例一种表格线检测方法、装置、设备及计算机可读介质,所述表格线检测方法包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。本发明专利技术实施例的技术方案可以提高表格线检测速度,提升检测效果。

Table Line Detection Method, Device, Equipment and Computer Readable Media

The embodiment of the present invention provides a form line detection method, device, device and computer readable medium. The form line detection method includes: acquiring an image with a form line; extracting multiple straight line segments from the image to obtain a straight line graph including the multiple straight line segments; determining the maximum connected area in the straight line graph as a straight line area; and projecting the straight line area according to the projection of the straight line area. The curve determines the position of the table line. The technical scheme of the embodiment of the present invention can improve the speed of table line detection and the detection effect.

【技术实现步骤摘要】
表格线检测方法、装置、设备及计算机可读介质
本专利技术涉及信息处理
,尤其涉及一种表格线检测方法、装置、设备及计算机可读介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。表格是一种重要的信息载体,能够简洁直观地保存并呈现复杂数据,便于人们分析问题。考虑到保密性和稳定性,当前大部分表格为纸质文档。但为了方便海量数据的管理,很多情况下需要将纸质文档通过光学字符识别(OCR,OpticalCharacterRecognition)技术结构化输出为Excel等电子文档。常见的M×N型表格具有齐全的表格线,因此表格线检测定位是整个M×N型表格识别的前提条件和关键技术之一。常用的表格线检测方法包括:采用霍夫(Hough)变换提取二值图像中的所有直线,再将检测到的直线分为水平线和竖直线,然后通过一系列的线段修整算法例如剔除小线段、合并连接相邻线、剔除表格外部线等,得到最终表格线检测结果。通过Hough变换检测直线耗时较长,同时密集文字堆积到一起时容易在各个方向上都产生直线响应,使得最后检测结果中存在大量噪声线段干扰,影响最终检测结果。另外,在后续线段修整环节中采用了较多算法,算法执行中一个环节出错都会导致最终结果产生较大偏差,整体鲁棒性很差。
技术实现思路
本专利技术实施例提供一种表格线检测方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种表格线检测方法,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。结合第一方面,本专利技术实施例在第一方面的第一种实施方式中,将所述直线图中的最大连通域确定为直线区域,包括:对于所述直线图中的每一个连通域,如果所述连通域的面积小于面积设定值并且所述连通域的长宽比不符合设定区间,则删除所述连通域。结合第一方面,本专利技术实施例在第一方面的第二种实施方式中,根据所述直线区域的投影曲线确定所述表格线的位置,包括:将所述直线区域中的每个像素在水平方向和竖直方向分别做投影,以获得水平投影曲线和竖直投影曲线;基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,以及基于所述竖直投影曲线的波峰位置确定所述表格线的水平线的位置。结合第一方面的第二种实施方式,本专利技术实施例在第一方面的第三种实施方式中,基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,包括:设置若干个等间隔的第一波峰高度阈值;使用多个第一波峰高度阈值分割所述水平投影曲线;分别记录所述水平投影曲线中高于每个第一波峰高度阈值的像素的数量,以得到第一波峰高度变化曲线;基于所述第一波峰高度变化曲线获取第一波峰高度梯度曲线;根据所述第一波峰高度梯度曲线获得第一自适应波峰高度阈值;使用所述第一自适应波峰高度阈值分割所述水平投影曲线,以获得所述水平投影曲线的波峰位置。结合第一方面的第二种实施方式,本专利技术实施例在第一方面的第四种实施方式中,包括:设置若干个等间隔的第二波峰高度阈值;使用多个第二波峰高度阈值分割所述垂直投影曲线;分别记录所述垂直投影曲线中高于每个第二波峰高度阈值的像素的数量,以得到第二波峰高度变化曲线;基于所述第二波峰高度变化曲线获取第二波峰高度梯度曲线;根据所述第二波峰高度梯度曲线获得第二自适应波峰高度阈值;使用所述第二自适应波峰高度阈值分割所述垂直投影曲线,以获得所述垂直投影曲线的波峰位置。结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式或第一方面的第四种实施方式,本专利技术实施例在第一方面的第五种实施方式中,所述表格线检测方法还包括:对于所述直线区域中的每个像素,如果所述像素所在行以及所述像素所在行的第一相邻行具有的非直线像素的数量超过第一设定值,且所述像素所在行的第二相邻行具有的直线像素的数量超过第二设定值,则从所述直线区域中删除所述像素。结合第一方面、第一方面的第一种实施方式、第一方面的第二种实施方式、第一方面的第三种实施方式或第一方面的第四种实施方式,本专利技术实施例在第一方面的第六种实施方式中,从所述图像中提取多个直线段,包括以下方式中的至少一种:基于直线段检测器算法提取所述直线段;基于整体嵌套边缘检测网络深度学习算法提取所述直线段。第二方面,本专利技术实施例提供了一种表格线检测装置,包括:获取模块,用于获取具有表格线的图像;提取模块,用于从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;第一确定模块,用于将所述直线图中的最大连通域确定为直线区域;第二确定模块,用于根据所述直线区域的投影曲线确定所述表格线的位置。结合第二方面,本专利技术实施例在第二方面的第一种实施方式中,所述第一确定模块包括:删除子模块,用于对于所述直线图中的每一个连通域,如果所述连通域的面积小于面积设定值并且所述连通域的长宽比不符合设定区间,则删除所述连通域。结合第二方面,本专利技术实施例在第二方面的第二种实施方式中,所述第二确定模块包括:投影子模块,用于将所述直线区域中的每个像素在水平方向和竖直方向分别做投影,以获得水平投影曲线和竖直投影曲线;确定子模块,用于基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,以及基于所述竖直投影曲线的波峰位置确定所述表格线的水平线的位置。结合第二方面、第二方面的第一种实施方式或第二方面的第二种实施方式,本专利技术实施例在第二方面的第三种实施方式中,所述表格线检测装置还包括:删除模块,用于对于所述直线区域中的每个像素,如果所述像素所在行以及所述像素所在行的第一相邻行具有的非直线像素的数量超过第一设定值,且所述像素所在行的第二相邻行具有的直线像素的数量超过第二设定值,则从所述直线区域中删除所述像素。结合第二方面、第二方面的第一种实施方式或第二方面的第二种实施方式,本专利技术实施例在第二方面的第四种实施方式中,所述提取模块用于实现以下方式中的至少一种:基于直线段检测器算法提取所述直线段;基于整体嵌套边缘检测网络深度学习算法提取所述直线段。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。第三方面,本专利技术实施例提供一种表格线检测设备,包括处理器和存储器,所述存储器用于存储支持表格线检测设备执行上述第一方面中表格线检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述表格线检测设备还可以包括通信接口,用于表格线检测设备与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储表格线检测装置所用的计算机软件指令,其包括用于执行上述第一方面中表格线检测方法所涉及的程序。本专利技术实施例的技术方案通过将表格线检测问题转换为确定最大连通域和投影曲线分割问题,可以简化表格线检测过程,提高检测速度,提升检测效果。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定本文档来自技高网...

【技术保护点】
1.一种表格线检测方法,其特征在于,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。

【技术特征摘要】
1.一种表格线检测方法,其特征在于,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。2.根据权利要求1所述的方法,其特征在于,将所述直线图中的最大连通域确定为直线区域,包括:对于所述直线图中的每一个连通域,如果所述连通域的面积小于面积设定值并且所述连通域的长宽比不符合设定区间,则删除所述连通域。3.根据权利要求1所述的方法,其特征在于,根据所述直线区域的投影曲线确定所述表格线的位置,包括:将所述直线区域中的每个像素在水平方向和竖直方向分别做投影,以获得水平投影曲线和竖直投影曲线;基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,以及基于所述竖直投影曲线的波峰位置确定所述表格线的水平线的位置。4.根据权利要求3所述的方法,其特征在于,基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,包括:设置若干个等间隔的第一波峰高度阈值;使用多个第一波峰高度阈值分割所述水平投影曲线;分别记录所述水平投影曲线中高于每个第一波峰高度阈值的像素的数量,以得到第一波峰高度变化曲线;基于所述第一波峰高度变化曲线获取第一波峰高度梯度曲线;根据所述第一波峰高度梯度曲线获得第一自适应波峰高度阈值;使用所述第一自适应波峰高度阈值分割所述水平投影曲线,以获得所述水平投影曲线的波峰位置。5.根据权利要求3所述的方法,其特征在于,基于所述垂直投影曲线的波峰位置确定所述表格线的水平线的位置,包括:设置若干个等间隔的第二波峰高度阈值;使用多个第二波峰高度阈值分割所述垂直投影曲线;分别记录所述垂直投影曲线中高于每个第二波峰高度阈值的像素的数量,以得到第二波峰高度变化曲线;基于所述第二波峰高度变化曲线获取第二波峰高度梯度曲线;根据所述第二波峰高度梯度曲线获得第二自适应波峰高度阈值;使用所述第二自适应波峰高度阈值分割所述垂直投影曲线,以获得所述垂直投影曲线的波峰位置。6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:对于所述直线区域中的每个像素,如果所述像素所在行以及所述像素所在行的第一相邻行具有的非直线像素的数量超过第一设定值,且所述像素所...

【专利技术属性】
技术研发人员:杨静远毕研广韩钧宇
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1