【技术实现步骤摘要】
一种表格干扰线去除算法
本专利技术属于文档图像表格识别
,具体涉及一种表格干扰线去除算法。
技术介绍
表格作为直观精简的信息统计方式,被广泛地应用在学习、生活、工作等各个领域中。在信息量愈发庞大、同时对效率要求更高的今天,自动地读取文档中所包含的表格数据具有极高的实用价值。表格数据读取是智能化信息提取及分析的关键技术,其中,表格识别是表格数据读取的基础。然而在实际情况中,表格识别会受到诸多因素干扰。文档中通常会包含不规则线段、残留印章边界以及页眉页脚横线等诸多种类干扰线,这些干扰线会对表格结构的正确识别产生影响。例如,当通过算法提取表格结构线段并计算单元格信息时,可能会出现单元格被干扰线切分的错误情况。因此,需要对这些表格干扰线进行去除。为检测出表格中的干扰线,目前常用的方法是利用干扰线与文字字符之间某些特征间的差异来提取干扰线。如名称为“一种文本图像的长干扰线去除方法”(公开号为CN108805126A)的专利文献公开了一种检测文本图像中干扰线的方法,该方法首先获取文本图像中各线段的信息,然后将所获取到的线段 ...
【技术保护点】
1.一种表格干扰线去除算法,其特征是该方法包括下述步骤:/n(1)二值化处理;/n对文档灰度图像I进行局部自适应二值化处理,以去除图像I中的背景噪声干扰,同时将有效的表格线段以及文字信息提取出来,得到第一二值图像I
【技术特征摘要】
1.一种表格干扰线去除算法,其特征是该方法包括下述步骤:
(1)二值化处理;
对文档灰度图像I进行局部自适应二值化处理,以去除图像I中的背景噪声干扰,同时将有效的表格线段以及文字信息提取出来,得到第一二值图像IB1;
(2)腐蚀、膨胀操作;
设置一个大小为Nvertical×Nhorizontal的横向腐蚀及膨胀参数矩阵Ghorizontal,Nvertical、Nhorizontal分别表示矩阵的行数和列数,1≤Nvertical<Nhorizontal≤k×w,0<k<1,w表示图像的宽度,k表示缩放系数;利用该矩阵对第一二值图像IB1进行横向腐蚀操作,得到第二二值图像IB2;再对第二二值图像IB2进行横向膨胀操作,得到第三二值图像IB3;
设置一个大小为Mvertica×lMhorizont的纵向腐蚀及膨胀参数矩阵Gvertica,Mvertical、Mhorizontal分别表示矩阵的行数和列数,1≤Mhorizontal<Mvertical≤k×w,0<k<1,w表示图像的宽度,k表示缩放系数;利用该矩阵对第一二值图像IB1分别进行纵向腐蚀操作,得到第四二值图像IB4;再对第四二值图像IB4进行纵向膨胀操作,得到第五二值图像IB5;
(3)直线检测;
对第三二值图像IB3进行直线检测,得到第六二值图像IB6,对第五二值图像IB5进行直线检测,得到第七二值图像IB7;将第六二值图像IB6和第七二值图像IB7中的线段进行合并,得到第八二值图像IB8;
(4)干扰线检测;
根据以下三种干扰线特征判断第八二值图像IB8中的每一条横向线段hi是否属于干扰线,其中,i=1,…,m,m是第八二值图像IB8中横向线段的数目:
a)横向线段hi端点衔接处发生断裂;
b)横向线段hi的长度与第八二值图像IB8中所有横向线段的平均长度的偏差较大;
c)横向线段hi的倾斜角度与第八二值图像IB8中所有横向线段的平均倾斜角度偏差较大;
当横向线段hi满足上述两种及以上特征时,则认为横向线段hi为干扰线;
根据以下三种干扰线特征判断第八二值图像IB8中的每一条纵向线段gj是否属于干扰线,其中,j=1,…,n,n是第八二值图像IB8中纵向线段的数目:
a)纵向线段gj端点衔接处发生断裂;
b)纵向线段gj的长度与第八二值图像IB8中所有纵向线段的平均长度的偏差较大;
c)纵向线段gj的倾斜角度与第八二值图像IB8中所有纵向线段的平均倾斜角度偏差较大;
当纵向线段gj满足上述两种及以上特征时,则认为纵向线段gj为干扰线;
(5)干扰线去除;将第八二值图像IB8中的干扰线去除,得到表格结构线段结果图像Ir。
2.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(1)中局部自适应二值化处理的方法是:
对于文档灰度图像I中位置为(x,y)的像素,以其为中心选取宽为p、高为q的区域块D,2<p≤w,2<q≤h,w和h分别是文档灰度图像I的宽和高;对区域D中所有像素依据其与(x,y)位置像素的距离进行高斯加权和计算,得到(x,y)位置像素的二值化阈值TD:
其中,ID(u,v)表示区域块D中(u,v)位置像素的灰度值,fD(u,v)表示区域块D中(u,v)位置像素对应的权重,权重fD(u,v)通过以下公式计算:
对于文档灰度图像I中位置为(x,y)的像素,其二值化之后的值B(x,y)按以下公式计算:
其中,I(x,y)表示文档灰度图像I中(x,y)位置像素的灰度值,TD(x,y)表示文档灰度图像I中(x,y)位置像素对应的二值化阈值。
3.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(2)中对第一二值图像IB1进行横向腐蚀操作的具体方法是:
对于第一二值图像IB1中的每一个像素p,将矩阵Ghorizontal的中心点对准像素p,并计算矩阵Ghorizontal所覆盖的所有像素中的最小值,将其作为像素p的像素值。
4.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(2)中对第二二值图像IB2进行横向膨胀的具体方法是:
对于第二二值图像IB2中的每一个像素p,将矩阵Ghorizontal的中心点对准像素p,并计算矩阵Ghorizontal所覆盖的所有像素中的最大值,将其作为像素p的像素值。
5.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(2)中对第一二值图像IB1进行纵向腐蚀操作的具体方法是:
对于第一二值图像IB1中的每一个像素p,将矩阵Gvertical的中心点对准像素p,并计算矩阵Gvertical所覆盖的所有像素中的最小值,将其作为像素p的像素值。
6.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(2)中对第四二值图像IB4进行纵向膨胀的具体方法是:
对于第四二值图像IB4中的每一个像素p,将矩阵Gvertical的中心点对准像素p,并计算矩阵Gvertical所覆盖的所有像素中的最大值,将其作为像素p的像素值。
7.根据权利要求1所述的一种表格干扰线去除算法,其特征是:所述步骤(4)中根据三种干扰线特征判断第八二值图像IB8中的每一条横向线段hi是否属于干扰线的计算方法如下:
第一步:判断横向...
【专利技术属性】
技术研发人员:张云锦,谌青云,李华盛,汪胜,杨词慧,
申请(专利权)人:上海致宇信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。