一种自动高精度表格校正方法和系统技术方案

技术编号:34437224 阅读:60 留言:0更新日期:2022-08-06 16:22
本发明专利技术提出一种自动高精度表格校正方法和系统。其中,方法包括:使用精确找线的方式,定位到表格格线所产生的交点,将其定义为角点。并以此为参考点做投影变换,矫正表格形变。本发明专利技术提出的方案,在进行较大表格识别时,表格的轻微形变即可导致单元格识别错位,对后面的信息整理和分析造成不良影响。本发明专利技术可以自动且像素级地矫正表格形变,且耗时很少,4000*4000的图片可以控制在200ms以内。同时如果格线存在轻微的弯曲也可以正常识别并矫正。同时针对不完整的表格也具备良好的效果。针对不完整的表格也具备良好的效果。针对不完整的表格也具备良好的效果。

【技术实现步骤摘要】
一种自动高精度表格校正方法和系统


[0001]本专利技术属于图片表格识别领域,尤其涉及一种自动高精度表格校正方法和系统。

技术介绍

[0002]表格矫正是图片表格识别的过程之一。
[0003]图片表格识别指将一张存在表格图像图片输入到识别系统,识别系统自动识别出其单元格信息和单元格内的文字信息,并将识别到的信息结构化输出。其工作流程为:
[0004]1)读取图片
[0005]2)提取格线
[0006]3)图片根据格线切割,并分别使用文字识别技术识别文本
[0007]4)将格线数据和文本数据组合,形成结构化表格数据
[0008]在提取格线之前,需要对图片进行处理,将图片拉伸为表格内容横平竖直的状态,以消除表格图像倾斜或形变带来的负面影响。这个过程称之为表格矫正。对图片所做的拉伸处理称之为图片变换。
[0009]现有技术中,采用的技术:
[0010]1)手动框选矫正:
[0011]在产品应用层面,添加用户手动框选表格的功能,用户将4个拖拽点防止到画面中表格的4个角点上,随后图片矫正模块根据4个拖拽点信息进行变换。
[0012]2)轮廓线提取校正:
[0013]在图片中提取轮廓线,并判断最大的轮廓线是否符合矩形特征,如果是,则提取轮廓的4个角点为参考点。进行变换操作,达到矫正目的。
[0014]3)霍夫线旋转矫正:
[0015]在图片中适用霍夫变换算法提取横线,并计算所有横线的平均角度。再根据平均角度做二维旋转矫正。r/>[0016]现有技术的缺陷:
[0017]1)手动框选矫正:
[0018]用户的操作无法达到较高精度,无法适用于较大表格。且操作费时费力,无法批量处理。
[0019]2)轮廓线提取校正:
[0020]轮廓线提取的是画面中表格的边线最外沿,容易受到线粗细、线是否完整等情况影响。而且多数表格存在表头、页码等信息,如果这些信息与表格贴近,则它们也会被包含在轮廓线中,导致无法提取角点或角点位置错误。同时这种方式无法识别表格局部,只能识别完整表格,应用场景较有限。
[0021]3)霍夫线旋转矫正:
[0022]抗干扰能力差,霍夫线的提取有赖于画面像素的集中分布,如果画面中存在较多元素,则会造成干扰,导致平均角度与实际表格角度存在偏差。
[0023]无法矫正透视形变。仅通过霍夫变换无法找到表格角点,故只能做旋转矫正,无法修复透视形变。

技术实现思路

[0024]为解决上述技术问题,本专利技术提出一种自动高精度表格校正方法和系统的技术方案,以解决上述技术问题。
[0025]本专利技术第一方面公开了一种自动高精度表格校正方法,所述方法包括:
[0026]步骤S1、将表格的原始图片转换为二值图;
[0027]步骤S2、应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图;
[0028]步骤S3、使用特征提取方法提取所述矩形框二值图中的最外侧竖线;
[0029]步骤S4、使用特征提取方法提取所述矩形框二值图中的最外侧横线;
[0030]步骤S5、计算所述最外侧的横线与最外侧的竖线的交点,两两相交得到4个交点,认为是表格的角点;
[0031]步骤S6、循环比较所述4个交点,计算当前点与上一个点的x坐标或y坐标差值是否大于第一预设值,若大于第一预设值,则认为需要进行矫正;
[0032]步骤S7、应用投影变换方法对需要校正的交点进行矫正。
[0033]根据本专利技术第一方面的方法,在所述步骤S2中,所述应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图的具体方法包括:
[0034]步骤S2.1、应用投影变换方法提取所述二值图中的边框信息,并得出其中最大的一个,将其视为表格主体的边框;
[0035]步骤S2.2、此时的所述边框信息为一组点的坐标,将其拟合为矩形框。
[0036]根据本专利技术第一方面的方法,在所述步骤S2中,所述应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图的具体方法还包括:
[0037]步骤S2.3、如果所述矩形框角度大于第二预设值,则先进行旋转操作,纠正其旋转角度。
[0038]根据本专利技术第一方面的方法,在所述步骤S3中,所述使用特征提取方法提取所述矩形框二值图中的最外侧竖线的具体方法包括:
[0039]步骤S3.1、通过横向的腐蚀和膨胀操作,将所述矩形框二值图中的横线去除;
[0040]步骤S3.2、使用概率霍夫线检测方法,找到去除横线的矩形框二值图中存在的竖线;
[0041]步骤S3.3、合并竖线。
[0042]根据本专利技术第一方面的方法在所述步骤S4中,所述使用特征提取方法提取所述矩形框二值图中的最外侧横线的具体方法包括:
[0043]步骤S4.1、通过纵向的腐蚀和膨胀操作,将所述矩形框二值图中的竖线去除;
[0044]步骤S4.2、使用概率霍夫线检测方法,找到去除竖线的矩形框二值图中存在的横线;
[0045]步骤S4.3、合并横线。
[0046]根据本专利技术第一方面的方法在所述步骤S4中,所述使用概率霍夫线检测方法,找
到去除竖线的矩形框二值图中存在的横线之前,所述使用特征提取方法提取所述矩形框二值图中的最外侧横线的具体方法还包括:
[0047]对所述去除竖线的矩形框二值图循环切出高度为第三预设值的切片,切片循环要进行两组,一组是自上至下,另一组是自下至上。
[0048]根据本专利技术第一方面的方法,在所述步骤S7中,所述应用投影变换方法对需要校正的交点进行矫正的具体方法包括:
[0049]步骤S7.1、根据需要校正的4个交点的坐标和期望矫正后的交点的坐标,获取映射关系矩阵;
[0050]步骤S7.2、根据所述映射关系矩阵对需要校正的4个交点进行矫正。
[0051]本专利技术第二方面公开了一种自动高精度表格校正系统,所述系统包括:
[0052]第一处理模块,被配置为,将表格的原始图片转换为二值图;
[0053]第二处理模块,被配置为,应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图;
[0054]第三处理模块,被配置为,使用特征提取方法提取所述矩形框二值图中的最外侧竖线;
[0055]第四处理模块,被配置为,使用特征提取方法提取所述矩形框二值图中的最外侧横线;
[0056]第五处理模块,被配置为,计算所述最外侧的横线与最外侧的竖线的交点,两两相交得到4个交点;
[0057]第六处理模块,被配置为,循环比较4个交点,计算当前点与上一个点的x坐标或y坐标差值是否大于第一预设值,若大于第一预设值,则认为需要进行矫正;
[0058]第七处理模块,被配置为,应用投影变换方法对需要校正的交点进行矫正本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自动高精度表格校正方法,其特征在于,所述方法包括:步骤S1、将表格的原始图片转换为二值图;步骤S2、应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图;步骤S3、使用特征提取方法提取所述矩形框二值图中的最外侧竖线;步骤S4、使用特征提取方法提取所述矩形框二值图中的最外侧横线;步骤S5、计算所述最外侧的横线与最外侧的竖线的交点,两两相交得到4个交点,认为是表格的角点;步骤S6、循环比较所述4个交点,计算当前点与上一个点的x坐标或y坐标差值是否大于第一预设值,若大于第一预设值,则认为需要进行矫正;步骤S7、应用投影变换方法对需要校正的交点进行矫正。2.根据权利要求1所述的一种自动高精度表格校正方法,其特征在于,在所述步骤S2中,所述应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图的具体方法包括:步骤S2.1、应用投影变换方法提取所述二值图中的边框信息,并得出其中最大的一个,将其视为表格主体的边框;步骤S2.2、此时的所述边框信息为一组点的坐标,将其拟合为矩形框。3.根据权利要求2所述的一种自动高精度表格校正方法,其特征在于,在所述步骤S2中,所述应用投影变换方法提取所述二值图中的边框信息,并将边框拟合为矩形框,得到矩形框二值图的具体方法还包括:步骤S2.3、如果所述矩形框角度大于第二预设值,则先进行旋转操作,纠正其旋转角度。4.根据权利要求1所述的一种自动高精度表格校正方法,其特征在于,在所述步骤S3中,所述使用特征提取方法提取所述矩形框二值图中的最外侧竖线的具体方法包括:步骤S3.1、通过横向的腐蚀和膨胀操作,将所述矩形框二值图中的横线去除;步骤S3.2、使用概率霍夫线检测方法,找到去除横线的矩形框二值图中存在的竖线;步骤S3.3、合并竖线。5.根据权利要求1所述的一种自动高精度表格校正方法,其特征在于,在所述步骤S4中,所述使用特征提取方法提取所述矩形框二值图中的最外侧横线的具体方法包括:步骤S4.1、通过纵向的腐蚀和膨胀操作,将所述矩形框二值图中的竖线去除;步骤S4.2、使用概...

【专利技术属性】
技术研发人员:杨万勇杨耀庭华健李达畅
申请(专利权)人:北京梦诚科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1