一种表格识别套打方法、计算机设备及计算机可读存储介质技术

技术编号:26971282 阅读:19 留言:0更新日期:2021-01-06 00:02
本发明专利技术涉及一种表格识别套打方法、计算机设备及计算机可读存储介质,包括步骤:获取待识别的表格图像,并对采集到的表格图像进行预处理,得到预处理后的第一目标图像;对预处理后的第一目标图像进行校正处理以获得第二目标图像;提取第二目标图像的表格轮廓并进行细化处理获得第三目标图像;根据第三目标图像分析表格横纵结构,获得表格行列结构信息;通过角点检测识别第三目标图像的角点位置,结合表格行列结构信息,确定表格中单元格位置信息;输出表格中单元格位置信息;其能够实现了对表格的识别,并进行套打且剔除表格中的数据信息,实现利用计算机自动对表格进行套打来提高人们的办公效率,达到只需表格图片,即可打印所需表格的目的。

【技术实现步骤摘要】
一种表格识别套打方法、计算机设备及计算机可读存储介质
本专利技术涉及表格套打
,特别是涉及一种表格识别套打方法、计算机设备及计算机可读存储介质。
技术介绍
现代社会中,很多行业对各种表单、票据等有着十分严格的规范、限定条件,其格式是无法擅自更改的,一旦更改则会失效,所以通常情况下,需要先人工对各种表格进行设计,再进行使用,这种做法不仅效率低,而且耗时,人工成本较大。现有技术中也存在对于表格图像识别的方法,比如使用表格线交叉点分析方法提取表格线的方法过于耗时且稳定性较差,如中国专利技术专利申请说明书CN109948135A公开的一种基于表格特征归一化图像的方法及设备,其采用表格线交叉点分析法进行表格识别,从所述待识别图和模板图中选取至少一个位置相对应的单元格,并分别从选取的单元格中至少确认四个位于外边框上的顶点,所述待识别图中确认的顶点与所述模板图中确认的顶点位置相对应,形成至少四组相对应的顶点坐标等等,识别过程较为复杂且稳定性较差。因而,亟需专利技术一种表格识别套打方法、计算机设备及计算机可读存储介质,其能够实现了对表格的识别,并进行套打且剔除表格中的数据信息,利用计算机自动对表格进行套打来提高人们的办公效率,达到只需表格图片,即可打印所需表格的目的。
技术实现思路
为解决上述问题,本专利技术提供一种表格识别套打方法、计算机设备及计算机可读存储介质,其能够实现了对表格的识别,并进行套打且剔除表格中的数据信息,实现利用计算机自动对表格进行套打来提高人们的办公效率,达到只需表格图片,即可打印所需表格的目的。为解决上述目的,本专利技术采用的如下技术方案。一种表格识别套打方法,包括:获取待识别的表格图像,并对采集到的表格图像进行预处理,得到预处理后的第一目标图像;对预处理后的第一目标图像进行校正处理以获得第二目标图像;提取第二目标图像的表格轮廓并进行细化处理获得第三目标图像;根据第三目标图像分析表格横纵结构,以获得表格行列结构信息;通过角点检测识别第三目标图像的角点位置,并结合表格行列结构信息,确定表格中单元格位置信息;输出表格中单元格位置信息,以绘制表格实现表格套打。进一步地,对预处理后的第一目标图像进行校正处理以获得第二目标图像之前,还包括检测第一目标图像的表格图像是否采集完整,具体如下:检测第一目标的表格图像的外轮廓边界是否接触到图像的边缘;检测第一目标的表格图像的外轮廓的轮廓端点数是否等于4个;若判定表格外轮廓接触到图像边界或表格外轮廓端点数不是4个,则判断为表格拍摄不完整,返回重拍。进一步地,对预处理后的第一目标图像进行校正处理以获得第二目标图像,步骤包括:识别第一目标图像所有边框,进行凸包拟合,筛选出最大的边框为A4纸的边框,得到A4纸的顶点坐标信息,通过透视变换矩阵进行透视变换校正,以获得第二目标图像;其中,识别第一目标图像所有边框的步骤包括:寻找第一目标图像中的物体轮廓,再查找出图像中物体的凸包,将检测出来的轮廓连续光滑的曲线折线化,并对图像轮廓点进行多边形拟合,筛选出所有的四边形边框。进一步地,通过透视变换矩阵进行透视变换校正,包括:变换公式为其中,u、v是原始图片坐标,通过该变换公式,可以得到变换后对应的图片坐标变换矩阵可拆分为几部分:表示线性变换,包含缩放、旋转、错切等;[a31a32]代表平移;[a13a23]T产生透视变换;可得从而将定位得到的A4纸的四个顶点坐标、结合原始坐标代入变换公式中,以实现透视校正。进一步地,对采集到的表格图像进行预处理,步骤包括:灰度化处理,将采集到的表格图像转变为单通道的灰度图像;二值化处理,对灰度化处理后的灰度图像使用局部自适应阈值法以动态形式确定二值化阈值,实现表格图像的二值化处理;高斯滤波处理,使用图像滤波减小图片噪声的干扰,使用高斯滤波降噪,使用掩膜扫描图像,利用掩膜中心像素领域的像素加权平均代替掩膜中心像素的像素值,遍历整张表格图像实现高斯滤波处理;边缘检测处理,使用边缘检测算法获得完整的边缘信息、一定程度凸显有效区域,使用Canny边缘检测算法,该算法遵循最优边缘准则,使用双阈值筛选、非极大值抑制使算法准确识别表格图像边缘;膨胀处理,使用膨胀操作对表格图像求局部最大值,使目标边界与背景合并,使边界向外扩,增强表格图像质量,填补边界区域中存在的一些孔洞,消除噪声干扰,得到完整的表格线,使边界线闭合变粗。进一步地,提取第二目标图像的表格轮廓并进行细化处理获得第三目标图像,包括:使用开操作方法去除第二目标图像中表格图像的文字部分及细小横纵线等冗余信息;使用该开操作方法包括先对表格图像进行腐蚀操作,再对表格图像进行膨胀操作,以消除表格图像中的小毛刺和突出物,使表格图像中轮廓光滑,去除文字部分及细小横纵线等冗余信息;识别提取表格图像的水平框线、垂直框线及两者的交点,并合并形成表格轮廓图;将所述表格轮廓图根据细化规则操作获得表格骨架,以形成第三目标图像;其中,所述细化规则操作包括:通过选取定义一个像素点P,检测识别该像素点P的八领域点信息,判断该像素点P是否被删除。进一步地,根据第三目标图像分析表格横纵结构,以获得表格行列结构信息,包括:根据第三目标图像进行水平方向投影,以获得水平投影图;根据第三目标图像进行垂直方向投影,以获得垂直投影图;分析水平投影图和垂直投影图的周期性尖峰情况以获得表格行列结构信息。进一步地,通过角点检测识别第三目标图像的角点位置,包括:对第三目标图像使用Harris角点检测算法进行检测,对角点进行判断,以获得第三目标图像的角点位置信息。进一步地,Harris角点检测算法为通过权值窗口平移来检测该像素点在各个方向上的变化强度,来对角点位置进行判断,角点检测的计算矩阵M以及像素值R如下:R=Det(M)-k*trace(M)2其中Ix和Iy分别表示表格图像中像素点沿x和y方向的梯度情况,k为常数;通过根据表格行列结构信息对提取角点进行行列分类,将角点位置情况与表格行列结构信息结合,确定表格中每个单元格的情况,以套打时对单元格进行合并。本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述表格识别套打方法的步骤。本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述表格识别套打方法的步骤。本专利技术的有益效果如下:本专利技术提供的一种表格识别套打方法、计算机设备及计算机可读存储介质,能够实现了对表格的识别,并进行套打且剔除表格中的数据信息,实现利用计算机自动对表格进行套打来提高人们的办公效率,达到只需表格图片,即可打印所需表格的目的;同时相比现有技术中使用的识别方法,步骤更为优化,识别反应速度更快,效率及准确率更高,稳定性更好。<本文档来自技高网...

【技术保护点】
1.一种表格识别套打方法,其特征在于,包括:/n获取待识别的表格图像,并对采集到的表格图像进行预处理,得到预处理后的第一目标图像;/n对预处理后的第一目标图像进行校正处理以获得第二目标图像;/n提取第二目标图像的表格轮廓并进行细化处理获得第三目标图像;/n根据第三目标图像分析表格横纵结构,以获得表格行列结构信息;/n通过角点检测识别第三目标图像的角点位置,并结合表格行列结构信息,确定表格中单元格位置信息;/n输出表格中单元格位置信息,以绘制表格实现表格套打。/n

【技术特征摘要】
1.一种表格识别套打方法,其特征在于,包括:
获取待识别的表格图像,并对采集到的表格图像进行预处理,得到预处理后的第一目标图像;
对预处理后的第一目标图像进行校正处理以获得第二目标图像;
提取第二目标图像的表格轮廓并进行细化处理获得第三目标图像;
根据第三目标图像分析表格横纵结构,以获得表格行列结构信息;
通过角点检测识别第三目标图像的角点位置,并结合表格行列结构信息,确定表格中单元格位置信息;
输出表格中单元格位置信息,以绘制表格实现表格套打。


2.根据权利要求1所述的一种表格识别套打方法,其特征在于,对预处理后的第一目标图像进行校正处理以获得第二目标图像之前,还包括检测第一目标图像的表格图像是否采集完整,具体如下:
检测第一目标的表格图像的外轮廓边界是否接触到图像的边缘;
检测第一目标的表格图像的外轮廓的轮廓端点数是否等于4个;
若判定表格外轮廓接触到图像边界或表格外轮廓端点数不是4个,则判断为表格拍摄不完整,返回重拍。


3.根据权利要求1所述的一种表格识别套打方法,其特征在于,对预处理后的第一目标图像进行校正处理以获得第二目标图像,步骤包括:识别第一目标图像所有边框,进行凸包拟合,筛选出最大的边框为A4纸的边框,得到A4纸的顶点坐标信息,通过透视变换矩阵进行透视变换校正,以获得第二目标图像;其中,识别第一目标图像所有边框的步骤包括:寻找第一目标图像中的物体轮廓,再查找出图像中物体的凸包,将检测出来的轮廓连续光滑的曲线折线化,并对图像轮廓点进行多边形拟合,筛选出所有的四边形边框。


4.根据权利要求3所述的一种表格识别套打方法,其特征在于,通过透视变换矩阵进行透视变换校正,包括:变换公式为



其中,u、v是原始图片坐标,通过该变换公式,可以得到变换后对应的图片坐标变换矩阵可拆分为几部分:表示线性变换,包含缩放、旋转、错切等;[a31a32]代表平移;[a13a23]T产生透视变换;可得






从而将定位得到的A4纸的四个顶点坐标、结合原始坐标代入变换公式中,以实现透视校正。


5.根据权利要求1所述的一种表格识别套打方法,其特征在于,对采集到的表格图像进行预处理,步骤包括:
灰度化处理,将采集到的表格图像转变为单通道的灰度图像;
二值化处理,对灰度化处理后的灰度图像使用局部自适应阈值法以动态形式确定二值化阈值,实现表格图像的二值化处理;
高斯滤波处理,使用图像滤波减小图片噪声的干扰,使用高斯滤波降噪,使用掩膜扫描图像,利用掩膜中心像素领域的像素加权平均代替掩膜中心像素的像素值,遍历整张表格图像实现高斯滤波处理;
边...

【专利技术属性】
技术研发人员:张志李建军黄涛詹皇源杜启亮杨湖广
申请(专利权)人:国信智能系统广东有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1