表格图像的处理方法、系统、设备、介质和程序产品技术方案

技术编号:32133456 阅读:20 留言:0更新日期:2022-01-29 19:37
本申请提供了一种表格图像的处理方法,可以应用于图像处理技术领域。该处理方法包括以下步骤:获取表格图像;对所述表格图像进行预处理;提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像;检验所述直线的可用性;去除不可用的直线,以获得具有规定格式的表格图像。根据本申请的表格图像的处理方法,采用图像处理方法对表格进行检测和分析,能快速有效地提取图片中的表格,可适用于所有样式的表格,便于后期通过具有规定格式的表格图像辅助图像识别应用等其他操作。式的表格图像辅助图像识别应用等其他操作。式的表格图像辅助图像识别应用等其他操作。

【技术实现步骤摘要】
表格图像的处理方法、系统、设备、介质和程序产品


[0001]本申请涉及图像处理
,具体涉及一种表格图像的处理方法、系统、设备、介质和程序产品。

技术介绍

[0002]目前日常工作中的表格文件占据大多数,而由于各类表格文件没有固定格式,导致识别表格中的文字变得较为复杂,现有技术中通常采用深度学习的方式学习各类表格,但需要收集大量的表格数据进行训练,这无形中增加了大量的工作。

技术实现思路

[0003]本申请旨在至少解决现有技术中存在的技术问题之一。
[0004]例如,本申请提供了一种表格图像的处理方法,利用图像直接处理表格,通过对直线的提取,从而得到无进行无纸化的数据存储可以极大地方便各类数据的存储与访问。
[0005]本申请的第一个方面提供了表格图像的处理方法,包括以下步骤:
[0006]获取表格图像;
[0007]对所述表格图像进行预处理;
[0008]提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像;
[0009]检验所述直线的可用性;
[0010]去除不可用的直线,以获得具有规定格式的表格图像。
[0011]根据本申请的表格图像的处理方法,采用图像处理方法对表格进行检测和分析,能快速有效地提取图片中的表格,可适用于所有样式的表格,便于后期通过具有规定格式的表格图像辅助图像识别应用等其他操作。
[0012]进一步地,对所述表格图像进行预处理包括:
[0013]对所述表格图像进行二值化处理;<br/>[0014]对所述表格图像进行孔洞填充。
[0015]进一步地,对所述表格图像进行二值化处理包括:
[0016]获取所述表格图像中各个像素的灰度值;
[0017]比较所述各个像素的灰度值与灰度阈值的大小,以将所述各个像素分类为背景像素和字迹像素,其中,灰度值小于灰度阈值的像素为背景像素,灰度值大于灰度阈值的像素为字迹像素。
[0018]进一步地,对所述表格图像进行二值化处理还包括:将所述背景像素的灰度值置为0,将所述字迹像素的灰度值置为255。
[0019]进一步地,对所述表格图像进行孔洞填充,包括:
[0020]获取所述表格图像中的孔洞;
[0021]捕获距离所述孔洞最近的像素点;
[0022]查看所述像素点的灰度值,并以所述像素点的灰度值填充所述孔洞。
[0023]进一步地,提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像,包括:
[0024]提取所述表格图像内的所有的直线,并对所述直线归类为横线或竖线中的至少一种;
[0025]在所述表格图像上标注水平辅助线和竖直辅助线;
[0026]计算每条横线与所述水平辅助线的倾斜角度α
m

[0027]计算每条竖线与所述竖直辅助线的倾斜角度β
n

[0028]采用最小二乘法算法计算所述表格图像在水平方向的倾斜角度θ
水平

[0029]采用最小二乘法算法计算所述表格图像在竖直方向的倾斜角度θ
竖直

[0030]其中,m代表横线数量,n代表竖线数量,m和n均为正整数;
[0031]根据倾斜角度θ
水平
和倾斜角度θ
竖直
矫正所述表格图像。
[0032]进一步地,计算每条横线与所述水平辅助线的倾斜角度α
m
、计算每条竖线与所述竖直辅助线的倾斜角度β
n
,包括:
[0033]随意获取每条横线上的两个坐标值(x
横线1
,y
横线1
),(x
横线2
,y
横线2
);
[0034]根据两个横线坐标值得到倾斜角度α
m
;以及
[0035]随意获取每条竖线上的两个坐标值(x
竖线1
,y
竖线1
),(x
竖线2
,y
竖线2
);
[0036]根据两个竖线坐标值得到倾斜角度β
n

[0037]进一步地,所述倾斜角度α
m
和所述倾斜角度β
n
通过第一公式计算获得,
[0038]其中,所述第一公式为:
[0039][0040][0041]进一步地,采用最小二乘法算法计算所述表格图像在水平方向的倾斜角度θ
水平
、采用最小二乘法算法计算所述表格图像在竖直方向的倾斜角度θ
竖直
,包括:
[0042]将所有倾斜角度α
m
从小到大排列;
[0043]获取倾斜角度α
m
的最大值和最小值;
[0044]根据倾斜角度α
m
的最大值和最小值计算横线角度平均值;
[0045]取所述横线角度平均值的0.001浮点型作为所述表格图像在水平方向的倾斜角度θ
水平
;以及
[0046]将所有倾斜角度β
n
从小到大排列;
[0047]获取倾斜角度β
n
的最大值和最小值;
[0048]根据倾斜角度β
n
的最大值和最小值计算竖线角度平均值;
[0049]取所述竖线角度平均值的0.001浮点型作为所述表格图像在竖直方向的倾斜角度θ
竖直

[0050]进一步地,根据倾斜角度θ
水平
和倾斜角度θ
竖直
矫正所述表格图像,包括:
[0051]将倾斜角度θ
水平
和倾斜角度θ
竖直
输入旋转矩阵函数,得到旋转矩阵;
[0052]根据所述旋转矩阵,对所述表格图像进行仿射变换,得到矫正后的表格图像。
[0053]进一步地,在根据倾斜角度θ
水平
和倾斜角度θ
竖直
矫正所述表格图像之前,先判断所述表格图像是否需要矫正,
[0054]当倾斜角度θ
水平
和倾斜角度θ
竖直
中的至少一个大于倾斜阈值时,所述表格图像需要矫正。
[0055]进一步地,检验所述直线的可用性,包括:
[0056]检查每条横线与竖线的交叉点;
[0057]当横线上的交叉点的个数小于2时,所述横线不可用;
[0058]检查每条竖线与横线的交叉点;
[0059]当竖线上的交叉点的个数小于2时,所述竖线不可用。
[0060]本申请第二方面提供了一种表格处理系统,包括:获取模块,所述获取模块用于获取表格图像;处理模块,所述处理模块用于对所述表格图像进行预处理;矫正模块,所述矫正模块用于:提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像;检验模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格图像的处理方法,其特征在于,包括以下步骤:获取表格图像;对所述表格图像进行预处理;提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像;检验所述直线的可用性;去除不可用的直线,以获得具有规定格式的表格图像。2.根据权利要求1所述的处理方法,其特征在于,对所述表格图像进行预处理包括:对所述表格图像进行二值化处理;对所述表格图像进行孔洞填充。3.根据权利要求2所述的处理方法,其特征在于,对所述表格图像进行二值化处理包括:获取所述表格图像中各个像素的灰度值;比较所述各个像素的灰度值与灰度阈值的大小,以将所述各个像素分类为背景像素和字迹像素,其中,灰度值小于灰度阈值的像素为背景像素,灰度值大于灰度阈值的像素为字迹像素。4.根据权利要求3所述的处理方法,其特征在于,对所述表格图像进行二值化处理还包括将所述背景像素的灰度值置为0,将所述字迹像素的灰度值置为255。5.根据权利要求2所述的处理方法,其特征在于,对所述表格图像进行孔洞填充,包括:获取所述表格图像中的孔洞;捕获距离所述孔洞最近的像素点;查看所述像素点的灰度值,并以所述像素点的灰度值填充所述孔洞。6.根据权利要求1所述的处理方法,其特征在于,提取所述表格图像内的所有的直线,根据所述直线的倾斜角度矫正所述表格图像,包括:提取所述表格图像内的所有的直线,并对所述直线归类为横线或竖线中的至少一种;在所述表格图像上标注水平辅助线和竖直辅助线;计算每条横线与所述水平辅助线的倾斜角度α
m
;计算每条竖线与所述竖直辅助线的倾斜角度β
n
;采用最小二乘法算法计算所述表格图像在水平方向的倾斜角度θ
水平
;采用最小二乘法算法计算所述表格图像在竖直方向的倾斜角度θ
竖直
,其中,m代表横线数量,n代表竖线数量,m和n均为正整数;根据倾斜角度θ
水平
和倾斜角度θ
竖直
矫正所述表格图像。7.根据权利要求6所述的处理方法,其特征在于,计算每条横线与所述水平辅助线的倾斜角度α
m
、计算每条竖线与所述竖直辅助线的倾斜角度β
n
,包括:随意获取每条横线上的两个坐标值(x
横线1
,y
横线1
),(x
横线2
,y
横线2
);根据两个横线坐标值得到倾斜角度α
m
;以及随意获取每条竖线上的两个坐标值(x
竖线1
,y
竖线1
),(x
竖线2
,y
竖线2
);根据两个竖线坐标值得到倾斜角度β
n
。8.根据权利要求7所述的处理方法,其特征在于,所述倾斜角度α
m
和所述倾斜角度β
n
通过第一公式计算获得,
其中,所述第一公式为:其中,...

【专利技术属性】
技术研发人员:胡翔郑邦东熊博颖程林鹏李虎
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1