一种纸质表格中表格框检测方法技术

技术编号:34729756 阅读:50 留言:0更新日期:2022-08-31 18:18
本发明专利技术提出了一种纸质表格中表格框检测方法,所述方法包括:S1,获取拍摄的纸质表格图像;S2,对图像表格进行倾斜矫正,使得图像中的表格处于水平状态;S3,获取倾斜矫正后图像表格的二值化横纵表格框线图;S4,对图像表格进行从原图像到标准图像的映射转换;S5,将各个表格框从标准图像表格中裁剪出来并标号。本发明专利技术能够解决人工拍摄纸质表格过程中存在图像表格倾斜问题和拍摄的图片由于纸张不平整的原因导致图像中表格线的表格线扭曲问题,从而实现将图像中的表格框进行有效裁剪,为图像表格下一步的表格框内容识别提供基础。格下一步的表格框内容识别提供基础。格下一步的表格框内容识别提供基础。

【技术实现步骤摘要】
一种纸质表格中表格框检测方法


[0001]本专利技术属于图像处理领域,尤其涉及一种纸质表格中表格框检测方法。

技术介绍

[0002]表格文档作为文本文档的重要形式之一,广泛应用于工业生产、工作学习和生活中并起着重要的作用。传统纸质表格存储为电子表格大多采用人工录入,存在工作量大、繁琐和准确率低等问题。伴随着人工智能和大数据的快速发展,就需要加快文档识别技术的发展以实现信息的数字化管理。
[0003]纸质表格在图像处理技术和深度学习网络实现数字化的过程中,面对纸质表格中表格框检测研究至少存在以下缺点:1、人工拍摄纸质表格的过程中存在图像倾斜问题;2、拍摄的图片由于纸张不平整原因导致图像中表格线发生扭曲问题;3、在检测图像表格框的端点坐标中,因图片中噪点等问题,无法提取到表格框的有效坐标,从而无法进一步分割表格框。

技术实现思路

[0004]本专利技术提出一种纸质表格中表格框检测方法,通过图像处理技术,解决纸质表格中表格框检测存在的图片表格倾斜、图片表格框线扭曲和表格框坐标的有效提取问题,为图像表格下一步的表格框内容识别提供基础。
[0005]为实现上述目的,本专利技术采用以下技术方案来实现,具体包括以下步骤:
[0006]步骤S1:获取拍摄的纸质表格图像;
[0007]步骤S2:对图像表格进行倾斜矫正,使得图像中的表格处于水平状态;
[0008]步骤S3:获取倾斜矫正后图像表格的二值化横纵表格框线图;
[0009]步骤S4:对图像表格进行从原图像到标准图像的映射转换;
[0010]步骤S5:将各个表格框从标准图像表格中裁剪出来并标号。
[0011]进一步地,所述步骤S2具体包括:
[0012]步骤S21:将获取的纸质表格彩色图像转换为灰度图像;
[0013]步骤S22:使用高斯模糊算法对表格的灰度图进行降噪,使用自动阈值得到二值化图像;
[0014]步骤S23:将二值化图像进行开运算和闭运算操作。开运算对图像进行先腐蚀后膨胀,能够消除小物体,同时不明显改变其面积。闭运算对图像进行先膨胀后腐蚀,能够排除小型空洞,同时也能够填补断裂的轮廓线;
[0015]步骤S24:在二值化图像中检索矩形轮廓,获取二值化图像中最大轮廓矩形表格框,并得到最大轮廓矩形表格框的四个顶点坐标值;
[0016]步骤S25:通过计算最大轮廓矩形表格框的四个顶点坐标值,对图像表格进行倾斜矫正工作。
[0017]进一步地,所述步骤S3具体包括:
[0018]步骤S31:将倾斜矫正都图像表格的彩色图像转换为灰度图像;
[0019]步骤S32:对图像表格灰度图的基础上运用了adaptiveThreshold来达成自动阈值的二值化,从而获得图像表格的二值化图像;
[0020]步骤S33:对获取的二值化图像进行先腐蚀后膨胀,设置腐蚀和膨胀的操作区域为一个比较大的横向直条,从而得到图像表格水平方向腐蚀膨胀图;
[0021]步骤S34:对获取的二值化图像进行先腐蚀后膨胀,设置腐蚀和膨胀的操作区域为一个宽为1的竖向直条,从而得到图像表格竖直方向腐蚀膨胀图;
[0022]步骤S35:将二值化图像上获得横线图和竖线图组合在一起,成为图像表格格水平方向与竖直方向的腐蚀膨胀叠加图。
[0023]进一步地,所述步骤S4具体包括:
[0024]步骤S41:将图像表格的二值化线图,通过十字模板匹配,获取图像表格框端点;
[0025]步骤S42:使用hough霍夫变换找出二值化线图中行与列的相对位置并过滤掉不符合的交点;
[0026]步骤S43:将获得的有效端点按横纵坐标大小进行排序;
[0027]步骤S44:计算表格框线的每一行与每一列的均值,对表格框单元进行从原图像到标准图像的映射转换。
[0028]总结上述步骤;本专利技术纸质表格中表格框检测研究中,通过高拍仪拍摄纸张表格,获得图像表格的原图像。针对图像表格中存在的表格倾斜问题,通过获取图像表格最大轮廓矩形表格框的四个顶点坐标值,从而图像表格进行倾斜矫正,使得图像中的表格处于水平状态。将图像倾斜矫正后,利用OpenCV的形态学函数,获取图像表格二值化的横纵表格框线图。在二值化的表格框线图中,针对纸张不平整的原因导致的图像中表格线的表格扭曲问题,通过十字模板去匹配图像表格交点并利用hough霍夫变换找出图像表格框的横纵直线的相对位置,从而过滤到不符合的交点,计算交点的均值,映射出标准表格框的交点排布位置。将获取标准图像表格框的端点,按行遍历各个端点,判断这些顶点是否是目标表格框的端点,并将目标表格框从标准图像表格中裁剪出来并标号
[0029]根据本专利技术提供的表格单据中表格框线检测方法,具有本专利技术具有以下优势:
[0030]1、本专利技术针对人工拍摄纸质表格的过程中存在图像倾斜问题,通过获取图像表格最大轮廓矩形表格框的四个顶点坐标值,从而图像表格进行倾斜矫正,使得图像中的表格处于水平状态。
[0031]2、本专利技术通过十字模板去匹配图像表格交点并利用hough霍夫变换找出图像表格框的横纵直线的相对位置,从而过滤到不符合的交点,并计算交点的均值,映射出标准表格框的交点排布位置,解决拍摄图片带来的纸张不平整的原因导致图像中表格线扭曲问题。
[0032]3、本专利技术通过图像表格进行从原图像到标准图像的映射转换的过程中,将获取标准图像表格框的端点,按行遍历各个端点,判断这些顶点是否是目标表格框的端点,并将目标表格框从标准图像表格中裁剪出来并标号,为图像表格下一步的表格框内容识别提供基础。
附图说明
[0033]图1为本专利技术的整体流程图;
[0034]图2为本专利技术的图像表格最大轮廓包围框图;
[0035]图3为本专利技术的图像表格倾斜矫正图;
[0036]图4为本专利技术的图像表格水平方向腐蚀膨胀图;
[0037]图5为本专利技术的图像表格竖直方向腐蚀膨胀图;
[0038]图6为本专利技术的图像表格水平方向与竖直方向的腐蚀膨胀叠加图;
[0039]图7为本专利技术的表格线扭曲矫正标准图。
具体实施方式
[0040]下面结合附图和具体的实施例对本专利技术做进一步的阐述。
[0041]如图1所示,本专利技术提出一种纸质表格中表格框检测方法,包括以下步骤。
[0042]步骤S1:获取拍摄的纸质表格图像:
[0043]其中,可以通过高拍仪等设备,以俯冲的角度来拍摄纸质表格图像,避免获取的图像表格存在倾斜透视现象。
[0044]步骤S2:对图像表格进行倾斜矫正,使得图像中的表格处于水平状态:
[0045]其中对图像表格进行倾斜矫正具体包括:
[0046]步骤S21:将获取的纸质表格彩色图像转换为灰度图像;
[0047]步骤S22:使用高斯模糊算法对表格的灰度图进行降噪,使用自动阈值得到二值化图像;
[0048]步骤S23:将二值化图像进行开运算和闭运本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纸质表格中表格框检测方法,其特征在于,包括以下步骤:S1:获取拍摄的纸质表格图像;S2:对图像表格进行倾斜矫正,使得图像中的表格处于水平状态;S3:获取倾斜矫正后图像表格的二值化横纵表格框线图;S4:对图像表格进行从原图像到标准图像的映射转换;S5:将各个表格框从标准图像表格中裁剪出来并标号。2.根据权利1中所述的纸质表格中表格框检测方法,其特征在于,步骤S2具体包括:步骤S21:将获取的纸质表格彩色图像转换为灰度图像;步骤S22:使用高斯模糊算法对表格的灰度图进行降噪,使用自动阈值得到二值化图像;步骤S23:将二值化图像进行开运算和闭运算操作。开运算对图像进行先腐蚀后膨胀,能够消除小物体,同时不明显改变其面积。闭运算对图像进行先膨胀后腐蚀,能够排除小型空洞,同时也能够填补断裂的轮廓线;步骤S24:在二值化图像中检索矩形轮廓,获取二值化图像中最大轮廓矩形表格框,并得到最大轮廓矩形表格框的四个顶点坐标值;步骤S25:通过计算最大轮廓矩形表格框的四个顶点坐标值,对图像表格进行倾斜矫正工作。3.根据权利1中所述的纸质表格中表格框检测方法,其特...

【专利技术属性】
技术研发人员:张新娜翁佳成项雄标
申请(专利权)人:中国计量大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1