表格识别方法、识别系统及计算机装置制造方法及图纸

技术编号:19904289 阅读:27 留言:0更新日期:2018-12-26 03:10
本发明专利技术提供了一种表格识别方法和系统,属于表格识别技术领域,利用基于加权RC阈值迭代的非线性对比增强及高斯拉普拉斯LoG算子对符合格式的表格图像进行二值化处理,利用基于透视变化的倾斜校正算法进行倾斜校正;利用图像形态学处理方法提取表格框线,对单元格进行分割,获取最小单元格;建立最小单元格的字符数据库,进行神经网络训练,建立表格识别模型,对表格进行识别。本发明专利技术计算简、速度快,可精确识别对比度较弱、图像明暗分布不均且背景模糊的表格图像;倾斜校正速度快、效果好,建立专有的高频字符,训练专有的神经网络,进行模板匹配,提高了识别速度和精度,同时定制化神经网络结构简单,减少了训练和调优的时间和工作量。

【技术实现步骤摘要】
表格识别方法、识别系统及计算机装置
本专利技术涉及表格图像识别处理
,具体涉及一种计算简单,运算快,时间、空间成本低,对对比度较弱、图像明暗分布不均且背景模糊的表格识别精确的表格识别方法、识别系统及计算机装置。
技术介绍
现有的利用OCR技术进行表格识别时,在对图像进行二值化处理时,主要采用的技术手段一般包括:全局阈值法、局部阈值法、区域增长的方法、水线算法、最小描述长度法、基于马尔科夫随机场的方法等。上述图像二值化处理方法存在种种缺陷。如,全局阈值法仅仅考虑了图像的灰度信息,而忽略了图像中的空间信息,对所有像素采用同一灰度阈值,只适合亮度处处均匀并且图像直方图具有较明显双峰的理想情况,当图像中不存在明显的灰度差异或各物体的灰度值范围有较大重叠时,通常难以获得令人满意的效果;局部阈值法虽能克服全局阈值法中存在的亮度分布不均的缺陷,但却在存在窗口大小设定的问题,即过小的窗口容易导致线条断裂,过大的窗口又容易使图像失去应有的局部细节。对于其它的图像二值化方法如最佳熵值分割二值化法,虽分割精度高,受目标大小影响小,但对噪声敏感。矩不变阈值分割二值化法运算速度较快,可以满足实时性的要求,但其受目标影响较大,目标大小的变化会影响分割的准确性。现有的图像倾斜校正技术手段一般包括基于投影图的方法、基于Hough变换的方法、最近邻簇方法以及矢量化方法等。上述方法存在一些不足,如,投影法需要计算每个倾斜角度的投影形状,要使倾斜估计精度较高的话,这种方法的计算量将非常大,且该方法一般适用于文字文档的倾斜校正,对于具有复杂结构的表格校正,该方法的效果较差;最近邻簇方法对于具有较多相互邻近的组成部分时,该方法十分费时,总体性能不理想;矢量化算法需要直接对光栅图像的各个像素进行处理,存储量大,而且其校正结果的好坏、算法的性能及图像处理的时间、空间成本均极大的依赖于矢量基元的选择;Hough变换计算量大,十分费时,且难以确定直线的起点和终点,只是对纯文本文档比较有效,而对带有图表的复杂结构的文档图像,由于图和表的干扰,无法得到满意的结果,因此在具体的工程实践中的应用却受到了限制。现有的表格识别技术方案在对表格中各个单元格分割并提取出单个字符后,一般是通过调用现有的字符识别工具或通过训练通用的神经网络分类器进行字符识别。该方法对于质量较差的图像或存在噪声的扫描文件其识别准确率一般较差,而且较为费时。此外,若通过训练神经网络来识别中文字符,由于中文字符数目较多且结构复杂,该方案将需要投入大量的人力、物力、财力和时间。
技术实现思路
本专利技术的目的在于提供一种计算简单,运算快,时间、空间成本低,对对比度较弱、图像明暗分布不均且背景模糊的表格识别精确的表格识别方法、识别系统及计算机装置,以解决上述
技术介绍
中存在的技术问题。为了实现上述目的,本专利技术采取了如下技术方案:第一方面,本专利技术提供了一种表格识别方法,该方法包括如下步骤:首先对待识别表格图像的格式进行判别,将不符合格式的待识别表格图像转换为符合格式的表格图像,还包括如下步骤:步骤S110:利用基于加权RC阈值迭代的非线性对比增强及高斯拉普拉斯LoG算子对所述符合格式的表格图像进行二值化处理,获取二值化表格图像;步骤S120:利用基于透视变化的倾斜校正算法,对所述二值化表格图像进行倾斜校正;步骤S130:利用图像形态学处理方法提取出校正后的二值化表格图像的表格框线,对单元格进行分割,获取最小单元格;步骤S140:建立所述最小单元格的字符数据库,根据所述字符数据库进行神经网络训练,建立表格识别模型,对表格进行识别。进一步的,所述步骤S110具体包括:步骤S111:通过非线性对比度增强分离所述符合格式的表格图像的前景字符和背景字符;具体的,定义拉伸率R,其中,x为原始像素灰度值,y为原始像素灰度值x经过映射拉伸后的灰度值,Min为原始像素最小灰度值,AVE为平均像素灰度值;确定“S型”灰度值映射函数y∈[0,255],η>0,使得灰度值在(Min,TbMin]内满足R<1以突出前景像素,同时,灰度值在[Tbmin,AVE]内满足R>1以抑制背景象素,实现增强图像前景像素和背景像素对比度;其中,x*为经过标准化处理后的原始像素灰度值、η为修正系数,TbMin为背景像素的最小灰度值,TbMax为背景像素的最大灰度值;其中,利用均值-方差归一化方法对原始像素灰度值x进行标准化,其中,xi为第i个像素点的灰度值,n为像素点总数目,σx为像素灰度值方差。步骤S112:利用LOG算子模板对所述前景字符及所述背景字符的边缘进行定位,确定前景像素和背景像素;步骤S113:根据所述前景像素和所述背景像素,进行加权RC迭代阈值选取,获取所述二值化表格图像;具体的,对所述前景像素和所述背景像素的灰度值均值加权平均求阈值Tn,包括:步骤3.1:令:n=0T0=wf×gmin+wb×gmax,wf+wb=1其中,gmin和gmax分别为所有象素点中的最小灰度值和最大灰度值,wf和wb分别为前景像素权值和背景像素权值;步骤3.2:令:Tn=wfmf(Tn)+wbmb(Tn)其中,Tn为第n次迭代灰度阈值,g为像素点的灰度值(取值范围为从0到G),p(g)为灰度值为g的像素点数目,mf(Tn),mb(Tn)分别为图像第n次迭代后前景像素灰度值均值和背景像素的灰度值均值;步骤3.3:重复步骤3.2,直到|Tn-Tn-1|<ε,算法结束。进一步的,所述步骤S120具体包括:步骤S121:对所述二值化表格图像进行平滑滤波和形态学处理,确定最小外接矩形,裁剪,获取最小外接矩形图像;步骤S122:分别计算与所述最小外接矩形图像的四个角点距离最近的像素坐标,作为表格角点坐标;步骤S123:检验所述表格角点坐标的对应直线的斜率之差是否满足要求,若满足要求,则利用透视变换法对二值化表格图像进行倾斜校正;若不满足要求,则遍历所述二值化表格图像,确定表格角点坐标;步骤S124:检验所述步骤S123确定的所述表格角点坐标的对应直线的斜率之差是否满足要求,若满足要求,则利用透视变换法对二值化表格图像进行倾斜校正;若不满足要求,则调用表格角点人机交互模块,确定表格角点,再利用透视变换法对二值化表格图像进行倾斜校正。进一步的,所述利用透视变化法对二值化表格图像进行倾斜校正包括:根据所述表格角点确定两个灭点,对所述两个灭点依次进行透视变换,实现二值化表格图像的倾斜校正。进一步的,所述步骤S130具体包括:分别选择水平结构元素和竖直结构元素对所述校正后的二值化表格图像进行开运算,获取表格横线图像和表格竖线图像;对所述表格横线图像和所述表格竖线图像进行与运算,获取表格框架图;对所述表格框架图进行细化处理,提取表格框线骨架;具体的,由线条边缘开始一层一层向里腐蚀,直到线条剩下一个像素时为止,其中,细化运算由图像击中或击不中变换定义,集合A用结构元素B进行细化的表达式为对提取的表格框线骨架利用最小二乘法运算进行断裂合并,获取完整的表格框线;根据完整的表格框线对对所述校正后的二值化表格图像进行分割处理,得到最小单元格。进一步的,所述步骤S140具体包括:根据所需识别的表格确定其对应的专有领域,统计所述专有领域的相关高频字符,建立对应的字符数据库;依本文档来自技高网
...

【技术保护点】
1.一种表格识别方法,首先对待识别表格图像的格式进行判别,将不符合格式的待识别表格图像转换为符合格式的表格图像,其特征在于,还包括如下步骤:步骤S110:利用基于加权RC阈值迭代的非线性对比增强及高斯拉普拉斯LoG算子对所述符合格式的表格图像进行二值化处理,获取二值化表格图像;步骤S120:利用基于透视变化的倾斜校正算法,对所述二值化表格图像进行倾斜校正;步骤S130:利用图像形态学处理方法提取出校正后的二值化表格图像的表格框线,对单元格进行分割,提取单元格字符特征;步骤S140:根据预先建立的字符数据库,针对所述单元格字符特征进行神经网络训练,识别表格。

【技术特征摘要】
1.一种表格识别方法,首先对待识别表格图像的格式进行判别,将不符合格式的待识别表格图像转换为符合格式的表格图像,其特征在于,还包括如下步骤:步骤S110:利用基于加权RC阈值迭代的非线性对比增强及高斯拉普拉斯LoG算子对所述符合格式的表格图像进行二值化处理,获取二值化表格图像;步骤S120:利用基于透视变化的倾斜校正算法,对所述二值化表格图像进行倾斜校正;步骤S130:利用图像形态学处理方法提取出校正后的二值化表格图像的表格框线,对单元格进行分割,提取单元格字符特征;步骤S140:根据预先建立的字符数据库,针对所述单元格字符特征进行神经网络训练,识别表格。2.根据权利要求2所述的表格识别方法,其特征在于,所述步骤S110具体包括:步骤S111:通过非线性对比度增强分离所述符合格式的表格图像的前景字符和背景字符;具体的,定义拉伸率R,其中,x为原始像素灰度值,y为原始像素灰度值x经过映射拉伸后的灰度值,Min为原始像素最小灰度值,AVE为平均像素灰度值;确定“S型”灰度值映射函数y∈[0,255],η>0,使得灰度值在(Min,TbMin]内满足R<1以突出前景像素,同时,灰度值在[Tbmin,AVE]内满足R>1以抑制背景象素,实现增强图像前景像素和背景像素对比度;其中,x*为经过标准化处理后的原始像素灰度值、η为修正系数,TbMin为背景像素的最小灰度值,TbMax为背景像素的最大灰度值;其中,利用均值-方差归一化方法对原始像素灰度值x进行标准化,其中,xi为第i个像素点的灰度值,n为像素点总数目,σx为像素灰度值方差。步骤S112:利用LOG算子模板对所述前景字符及所述背景字符的边缘进行定位,确定前景像素和背景像素;步骤S113:根据所述前景像素和所述背景像素,进行加权RC迭代阈值选取,获取所述二值化表格图像;具体的,对所述前景像素和所述背景像素的灰度值均值加权平均求阈值Tn,包括:步骤3.1:令:其中,gmin和gmax分别为所有象素点中的最小灰度值和最大灰度值,wf和wb分别为前景像素权值和背景像素权值;步骤3.2:令:Tn=wfmf(Tn)+wbmb(Tn)其中,Tn为第n次迭代灰度阈值,g为像素点的灰度值(取值范围为从0到G),p(g)为灰度值为g的像素点数目,mf(Tn),mb(Tn)分别为图像第n次迭代后前景像素灰度值均值和背景像素的灰度值均值;步骤3.3:重复步骤3.2,直到|Tn-Tn-1|<ε,算法结束。3.根据权利要求2所述的表格识别方法,其特征在于,所述步骤S120具体包括:步骤S121:对所述二值化表格图像进行平滑滤波和形态学处理,确定最小外接矩形,裁剪,获取最小外接矩形图像;步骤S122:分别计算与所述最小外接矩形图像的四个角点距离最近的像素坐标,作为表格角点坐标;步骤S123:检验所述表格角点坐标的对应直线的斜率之差是否满足要求,若满足要求,则利用透视变换法对二值化表格图像进行倾斜校正;若不满足要求,则遍历所述二值化表格图像,确定表格角点坐标;步骤S124:检验所述步骤S123确定的所述表格角点坐标的对应直线的斜率之差是否满足要求,若满足要求,则利用透视变换法对二值化表格图像进行倾斜校正;若不满足要求,则调用表格角点人机交互模块,确定表格角点,再利用透视变换法对二值化表格图像进行倾斜校正。4.根据权...

【专利技术属性】
技术研发人员:李自豪
申请(专利权)人:国科赛思北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1