The embodiment of the present invention provides a form line detection method, device, device and computer readable medium. The form line detection method includes: acquiring an image with a form line; extracting multiple straight line segments from the image to obtain a straight line graph including the multiple straight line segments; determining the maximum connected area in the straight line graph as a straight line area; and projecting the straight line area according to the projection of the straight line area. The curve determines the position of the table line. The technical scheme of the embodiment of the present invention can improve the speed of table line detection and the detection effect.
【技术实现步骤摘要】
表格线检测方法、装置、设备及计算机可读介质
本专利技术涉及信息处理
,尤其涉及一种表格线检测方法、装置、设备及计算机可读介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。表格是一种重要的信息载体,能够简洁直观地保存并呈现复杂数据,便于人们分析问题。考虑到保密性和稳定性,当前大部分表格为纸质文档。但为了方便海量数据的管理,很多情况下需要将纸质文档通过光学字符识别(OCR,OpticalCharacterRecognition)技术结构化输出为Excel等电子文档。常见的M×N型表格具有齐全的表格线,因此表格线检测定位是整个M×N型表格识别的前提条件和关键技术之一。常用的表格线检测方法包括:采用霍夫(Hough)变换提取二值图像中的所有直线,再将检测到的直线分为水平线和竖直线,然后通过一系列的线段修整算法例如剔除小线段、合并连接相邻线、剔除表格外部线等,得到最终表格线检测结果。通过Hough变换检测直线耗时较长,同时密集文字堆积到一起时容易在各个方向上都产生直线响应,使得最后检测结果中存在大量噪声线段干扰,影响最终检测结果。另外,在后续线段修整环节中采用了较多算法,算法执行中一个环节出错都会导致最终结果产生较大偏差,整体鲁棒性很差。
技术实现思路
本专利技术实施例提供一种表格线检测方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种表格线检测方法,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多 ...
【技术保护点】
1.一种表格线检测方法,其特征在于,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。
【技术特征摘要】
1.一种表格线检测方法,其特征在于,包括:获取具有表格线的图像;从所述图像中提取多个直线段,以获得包括所述多个直线段的直线图;将所述直线图中的最大连通域确定为直线区域;根据所述直线区域的投影曲线确定所述表格线的位置。2.根据权利要求1所述的方法,其特征在于,将所述直线图中的最大连通域确定为直线区域,包括:对于所述直线图中的每一个连通域,如果所述连通域的面积小于面积设定值并且所述连通域的长宽比不符合设定区间,则删除所述连通域。3.根据权利要求1所述的方法,其特征在于,根据所述直线区域的投影曲线确定所述表格线的位置,包括:将所述直线区域中的每个像素在水平方向和竖直方向分别做投影,以获得水平投影曲线和竖直投影曲线;基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,以及基于所述竖直投影曲线的波峰位置确定所述表格线的水平线的位置。4.根据权利要求3所述的方法,其特征在于,基于所述水平投影曲线的波峰位置确定所述表格线的竖直线的位置,包括:设置若干个等间隔的第一波峰高度阈值;使用多个第一波峰高度阈值分割所述水平投影曲线;分别记录所述水平投影曲线中高于每个第一波峰高度阈值的像素的数量,以得到第一波峰高度变化曲线;基于所述第一波峰高度变化曲线获取第一波峰高度梯度曲线;根据所述第一波峰高度梯度曲线获得第一自适应波峰高度阈值;使用所述第一自适应波峰高度阈值分割所述水平投影曲线,以获得所述水平投影曲线的波峰位置。5.根据权利要求3所述的方法,其特征在于,基于所述垂直投影曲线的波峰位置确定所述表格线的水平线的位置,包括:设置若干个等间隔的第二波峰高度阈值;使用多个第二波峰高度阈值分割所述垂直投影曲线;分别记录所述垂直投影曲线中高于每个第二波峰高度阈值的像素的数量,以得到第二波峰高度变化曲线;基于所述第二波峰高度变化曲线获取第二波峰高度梯度曲线;根据所述第二波峰高度梯度曲线获得第二自适应波峰高度阈值;使用所述第二自适应波峰高度阈值分割所述垂直投影曲线,以获得所述垂直投影曲线的波峰位置。6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:对于所述直线区域中的每个像素,如果所述像素所在行以及所述像素所在行的第一相邻行具有的非直线像素的数量超过第一设定值,且所述像素所...
【专利技术属性】
技术研发人员:杨静远,毕研广,韩钧宇,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。