一种已知表格的版面自动定向和定位方法技术

技术编号:2932384 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机信息处理领域的模式识别技术,具体涉及一种已知表格的版面自动定向和定位方法。现有技术中,通过计算机系统对表格和票据扫描录入,需要人工干预进行版面的定向,而计算机系统无法进行自动的批量处理,效率非常低;同时由于扫描过程的扫描分辨率的不稳定性、存在污点等情况而影响表格和票据的自动录入效果。本发明专利技术所述的方法通过计算机自动提取表格线,与已知的表格线进行匹配从而判定表格的方向,并使用最小二乘法准确定位表格并计算出伸缩比例。采用本发明专利技术所述的方法,可以大大提高表格类文档以及票据的录入效率和精度。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理领域的模式识别技术,具体涉及。
技术介绍
OCR技术的一个重要应用是表格的输入和处理。目前存在大量的专用表格,如各种票据、报表等,其显著的特点是表格的样式事先知道(即已知表格),而录入关注的是其中的文字和数据信息。现有技术中,对于这类专用表格,通过计算机系统进行录入过程包括扫描过程、二值化和纠斜等预处理过程、版面分析和切割、识别、校对等步骤。其中扫描、校对等步骤需要人工干预。当对大量表格进行录入时,必须在扫描之前人工保证所有表格同向放置,或者在扫描完成后通过人工操作计算机对图像逐个检查并旋转版面方向,才能进行后面的步骤。因而无法进行自动的批量处理,效率非常低。另外,在进行表格识别前,往往要先去除表格线,以减少对版面分析和识别的干扰,提高准确率。现有技术中,去除表格线有两种方式1)在印制表格和填写表格的内容时使用不同的颜色,在扫描环节或预处理环节对颜色进行过滤,保留表格内容部分,去除印刷部分。该方法的缺点是,表格内容和印刷必须使用不同的颜色,需要事先准备和特殊的印刷技术,对色差的要求比较高,因而在价格和应用方面有很大的限制。2)使用填入表格信息抽出方法(FormOut),与本专利技术最为接近的现有技术是文献“自动抽出填入表格信息的改进算法”所述,该方法通过把预先登录空白表格与填入表格对准后消去表格线。对准的方法是,抽取预先登录表格和填入表格的左上角特征点计算偏移量,抽取两个表格的右下角特征点来计算表格的伸缩比例。其缺点是,当图像存在干扰往往导致特征点抽取效果不佳,或由于扫描过程的扫描分辨率的不稳定性导致表格偏移量或伸缩比例计算存在较大误差,从而影响去线的效果;在自动进纸方式(ADF)的扫描中,由于光头不动纸动,当光头与纸之间存在脏点是会在扫描得到的图像中出现直线干扰,严重影响表格定位和去线的效果;另外,当定位使用的表格特征点存在干扰,或由于某种原因无法抽取该特征点时,定位和伸缩比例计算将无法进行。
技术实现思路
针对现有技术中表格和票据计算机录入过程中的不足,本专利技术的目的是提出,该方法使表格或票据类文档在进行计算机录入时减少人工操作或干预,提高录入效率。本专利技术的另外一个目的在于能够精确确定表格图像的位置以及图像的伸缩比例,抗干扰能力强,从而能大大提升去线的效果,提高自动录入的准确度。为实现以上目的,本专利技术采用的技术方案是一种已知表格版面的自动定向和定位方法,包括以下步骤(1)首先通过数字化设备对待识别的表格进行数字化得到待识别表格的图像,然后通过计算机系统进行预处理,并从待识别表格图像中提取竖直线和水平线的位置信息,分别得到待识别表格线的位置集合{xi}和{yi};(2)设已知表格正向放置状态下的竖直和水平表格线的位置为{Xi}和{Yi},把待识别表格的两个坐标方向的线系列与已知表格两个坐标方向的线系列按0度、90度、180度、270度四个旋转方向进行匹配,具体来说,就是a)不旋转{Xi}和{Yi}分别与{xi}和{yi}进行正向匹配;b)顺时针90度或逆时针270度对待识别表格线{xi}和{yi}进行变换,即待识别表格线的水平线系列{yi}与已知表格线的竖直线系列{Xi}进行正向匹配,待识别表格线的竖直线系列{xi}与已知表格线的水平线系列{Yi}进行反向匹配;c)顺时针180度或逆时针180度对待识别表格线{xi}和{yi}进行变换,即待识别表格线的水平线系列{yi}与已知表格线的水平线系列{Yi}进行反向匹配,待识别表格线的竖直线系列{xi}与已知表格线的竖直线系列{Xi}进行反向匹配;d)顺时针270度或逆时针90度对待识别表格线{xi}和{yi}进行变换,即待识别表格线的水平线系列{yi}与已知表格线的竖直线系列{Xi}进行反向匹配,待识别表格线的竖直线系列{xi}与已知表格线的水平线系列{Yi}进行正向匹配;(3)在步骤2中的四组匹配结果中,挑选最佳匹配的方向作为最终的表格的版面方向,对应竖直线和水平线的位置偏移(dx,dy)就是表格原点的在图中的位置,从而完成待识别表格版面的自动定向和定位;在步骤2中,反向匹配与正向匹配的差别在于在进行反向匹配前需要对其中的一个表格线系列进行变换x’=W-x.W为任意常数。一般可以取表格图像在该方向的宽度,这种情况下,反向变换后的坐标含义变成从图像的对边开始计算的线的坐标位置。变换完成后,直接使用正向匹配。步骤3中所述的最佳匹配是指两个坐标方向的匹配线数最多,同时满足最低匹配线数的域值的匹配。为使本专利技术具有更好的效果,步骤2中的正向匹配采用容错匹配方法,该方法可以排除干扰线、缺线的影响,同时能计算出整体偏移量d,具体包括以下步骤设待匹配的线系列为{x1}和{x2},线的条数分别为n1和n2,{x1}和{x2}分别从小到大排列(1)构建一个n1*n2的矩阵M,矩阵元素M(i,j)的值为x1(i)减去x2(j)所得的差,其中i=1,2,…n1,j=1,2,…n2,可知矩阵元素的最大值为Mmax为x1(n1)减去x2(1)所得的差,最小值为Mmin为x1(1)减去x2(n1)所得的差;(2)构建一个一维数组V,项数为(Mmax-Mmin)/c,初值全部设为0,下标以0开始计,其中c为允许匹配的线的最大距离;(3)遍历矩阵M,每项元素按以下公式计算索引值k,k=/d,然后把V(k)增加计数值1;(4)查找V中的最大值Vmax及其下标值kmax,则Vmax就是匹配线的条数,匹配时,偏移量d为kmax*c与Mmin的和。再进一步,步骤2中的正向匹配采用考虑伸缩的容错匹配方法,该方法可以在图像存在整体拉伸或缩小时进行有效匹配,同时能计算出具体的伸缩比例s以及整体偏移量d,具体包括以下步骤设待匹配的线系列为{x1},{x2}(1)在设定的最大搜索伸缩比例范围区间内,从smin开始,按预先设定的增量Δs依次对{x1}或{x2}中的元素x进行伸缩运算,伸缩后数组{x’}的元素x’等于(1+s)*x,伸缩变换只要对{x1}或{x2}中的一个进行变换,另外一个不需要变换,下面假设对{x2}进行变换,变化后的线系列为{x2’};(2)对线系列{x1}和{x2’}按不考虑伸缩的容错匹配算法进行匹配,只要其中一次匹配成功,就可以看作伸缩容错匹配成功,记下此时的伸缩比例s和偏移值d;(3)根据s和d对{x1}和{x2}进行挑选,对于一个{x2}中的每一个元素x2,计算其对应的x1’值x1’为x2*(1+s)与d的和,在{x1}中查找落在区间中的元素,其中c为容错匹配的允许匹配的线的最大距离,如果不存在这样的元素,则忽略该x2,否则把对应的x1和x2选出;最后得到两个系列{x1}’,{x2}’分别为原{x1},{x2}的子集,且其中的元素一一匹配,集合的大小为最终的匹配线的条数;(4)把{x1}’,{x2}’作为最小二乘法的两组输入参数,可以得到拟合方程x2=x1*(1+s’)+d’,从而得到最终的伸缩率s’和偏移量d’。本专利技术的效果在于采用本专利技术所述的方法,可以在对表格或票据类文档进行计算机扫描录入时实现自动定向和定位,减少了人工作操,大大提高表格和票据类文档的录入精度和效率。附图说明图1是本专利技术所述方法的流程图;图2是本专利技术所述容错匹配方法的流程图;图本文档来自技高网
...

【技术保护点】
一种已知表格的版面自动定向和定位方法,包括以下步骤:    (1)  首先通过数字化设备对待识别的表格进行数字化得到待识别表格的图像,然后通过计算机系统进行预处理,并从待识别表格图像中提取竖直线和水平线的位置信息,分别得到待识别表格线的位置集合{x↓[i]}和{y↓[i]};    (2)  设已知表格正向放置状态下的竖直和水平表格线的位置为{X↓[i]}和{Y↓[i]},把待识别表格的两个坐标方向的线系列与已知表格两个坐标方向的线系列按0度、90度、180度、270度四个旋转方向进行匹配,具体来说,就是:    a)不旋转:{X↓[i]}和{Y↓[i]}分别与{x↓[i]}和{y↓[i]}进行正向匹配;    b)顺时针90度或逆时针270度:对待识别表格线{x↓[i]}和{y↓[i]}进行变换,即待识别表格线的水平线系列{y↓[i]}与已知表格线的竖直线系列{X↓[i]}进行正向匹配,待识别表格线的竖直线系列{x↓[i]}与已知表格线的水平线系列{Y↓[i]}进行反向匹配;    c)顺时针180度或逆时针180度:对待识别表格线{x↓[i]}和{y↓[i]}进行变换,即待识别表格线的水平线系列{y↓[i]}与已知表格线的水平线系列{Y↓[i]}进行反向匹配,待识别表格线的竖直线系列{x↓[i]}与已知表格线的竖直线系列{X↓[i]}进行反向匹配;    d)顺时针270度或逆时针90度:对待识别表格线{x↓[i]}和{y↓[i]}进行变换,即待识别表格线的水平线系列{y↓[i]}与已知表格线的竖直线系列{X↓[i]}进行反向匹配,待识别表格线的竖直线系列{x↓[i]}与已知表格线的水平线系列{Y↓[i]}进行正向匹配;    (3)  在步骤2中的四组匹配结果中,挑选最佳匹配的方向作为最终的表格的版面方向,对应竖直线和水平线的位置偏移(d↓[x],d↓[y])就是表格原点的在图中的位置,从而完成待识别表格版面的自动定向和定位;    步骤3中所述的最佳匹配是指两个坐标方向的匹配线数最多,同时满足最低匹配线数的域值的匹配。...

【技术特征摘要】

【专利技术属性】
技术研发人员:徐剑波
申请(专利权)人:北京大学计算机科学技术研究所北京北大方正技术研究院有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利