一种OCR图像字符识别和字符校正的方法及系统技术方案

技术编号:25272007 阅读:33 留言:0更新日期:2020-08-14 23:04
本发明专利技术公开了一种OCR图像字符识别和字符校正的方法,在字符识别模块中:采用多级神经网络构造并拟合了汉字变形度Pr函数,该网络以图像CNN数据以及横竖撇捺四个额外特征作为为变量,以不同程度的GAN识别度作为“变形度”的训练值,反映目标汉字的变形度Pr;在字符校正模块中:增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行高精度的相似字区分,二级网络的设置可以降低第一级网络的复杂度提高网络整体的泛化能力。本方法和系统主要针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。

【技术实现步骤摘要】
一种OCR图像字符识别和字符校正的方法及系统
本专利技术涉及汉字识别
,具体而言,为一种OCR图像字符识别和字符校正的方法及系统。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。随着图像传感器的不断发展,尤其是各种手机和专业(如安防)摄像头数目的指数增加,计算机图像数据在飞速增加;但图像质量则相对传统扫描仪或各种专业相机又相对降低;传统汉字OCR技术面临源图像数据质量不高,污染严重时,识别率会剧烈下降的问题。计算机图像的汉字内容识别(汉字OCR)是图像识别中的难点问题,相对于英文字符识别,汉字数量众多,基本字符相似度高,易受干扰,分辨困难。对于票据,还会受到各种票据底纹、打印位置、打印清晰程度、覆盖污染物(章)的剧烈影响。根据2018年的相关市场调查,针对手机拍照的各种票据,市场上多家传统OCR厂商的测试效果均不理想,虽然新一代以深度神经网络为基础的端到端的OCR的方案在西方字符OCR领域取得了较好效果,但汉字由于基数庞大,需要的训练数据集要超过西方字符集的上千倍(保守估算),因此至今开放AI平台上的汉字OCR在较差的图像上表现相当不理想,并且,端到端的深度神经网络存在天然的误识别,易受到攻击。有鉴于此,特提出本专利技术。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种OCR图像字符识别和字符校正的方法及系统,以提高OCR的准确率。为实现上述目的,本专利技术的技术方案如下:一种OCR图像字符识别和字符校正的方法,包括通过训练网络对待识别图像进行字符识别,获得字符识别信息;预设校正规则对所述字符识别信息进行检验,获得字符校正结果;其中所述通过训练网络对待识别图像进行字符识别包括:通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。进一步的,上述的OCR图像字符识别和字符校正的方法中,所述通过训练网络对待识别图像进行字符识别,获得字符识别信息,包括:S11.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目;S12.通过不同程度的GAN构造训练网络,计算汉字变形度。进一步的,上述的OCR图像字符识别和字符校正的方法中,所述构造训练网络,计算汉字变形度,包括构造包括所述神经网络和标准CNN神经网络的训练网络,通过训练网络获取待识别图像、待检测的汉字及训练获得的该目标汉字中横竖撇捺的数目,计算定量化误差函数Pr。进一步的,上述的OCR图像字符识别和字符校正的方法中,所述训练网络的训练数据从原始标准汉字图片数据加工得到;首先设置五个层次不同的GAN网络,五个GAN网络的数据集对应于形近字广度扩散的五重数据,则GAN1数据源于该汉字的形近字增强得到;GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到;以此类推,获得五种类型的GAN网络:GAN1~GAN5。则,Pr值定义为:0.0:原始图像;0.1:5种均不可区分;0.2:4种不可区分,1种可区分;0.4:3种不可区分,2种可区分;0.6:2种不可区分,3种可区分;0.8:1种不可区分,4种可区分;0.9:均可区分;1.0:无关噪点图像或者其他动植物图像;确定Pr值后,使用所述训练网络结构训练每个目标汉字的Pr值的网络,构成数据库。进一步的,上述的OCR图像字符识别和字符校正的方法中,所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区分,包括训练网络第一次确定的最佳识别结果,调取该字所在相似字库进行匹配对比,如果匹配到相似字,调用预先训练好的所述第二级相似字区分网络,对匹配的相似字进行区分。进一步的,上述的OCR图像字符识别和字符校正的方法中,所述预设校正规则对所述字符识别信息进行检验,获得字符校正结果,包括预置校正规则,对所述字符识别信息进行验证;构造反馈模型,用于根据所述校正规则验证的符合程度,向上反馈可靠程度信息并给出进一步处理建议信息。一种OCR图像识别的系统中,包括文字识别模块以及文字校正模块;其中图像校正模块,用于通过训练网络对待识别图像进行字符识别,获得字符识别信息;其中通过训练网络对待识别图像进行字符识别包括:通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分;文字校正模块,用于预设校正规则对所述字符识别信息进行检验,获得字符校正结果。进一步的,上述的OCR图像识别的系统中,文字识别模块的执行步骤包括:设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目;还包括通过不同程度的GAN构造训练网络,计算汉字变形度;其包括:构造包括所述神经网络和标准CNN神经网络的训练网络,通过训练网络获取待识别图像、待检测的汉字及训练获得的该目标汉字中横竖撇捺的数目,计算定量化误差函数Pr。进一步的,上述的OCR图像识别的系统中,文字识别模块执行所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分,包括训练网络第一次确定的最佳识别结果,调取该字所在相似字库进行匹配对比,如果匹配到相似字,调用预先训练好的所述第二级相似字区分网络,对匹配的相似字进行区分。进一步的,上述的OCR图像识别的系统中,所述文字校正模块的执行步骤包括预置校正规则,对所述字符识别模块输出的字符识别信息进行验证;构造反馈模型,用于根据所述校正规则验证的符合程度,向上反馈可靠程度信息并给出进一步处理建议信息。与现有技术相比,本专利技术的有益效果体现在:本专利技术通过构造和拟合Pr函数的方式确定识别准确度,其基于横竖撇捺变量计算标准汉字的变形程度,经过训练网络处理,便于之后的识别中,每次只需要输入待识别图像、待检测的汉字及训练获得该目标汉字中横竖撇捺四种基础笔画的数目,即可以通过这个网络计算出识别为该目标汉字的可靠程度Pr,确认当前次识别效果的优劣,对于判断异常图片和攻击性图片处理也非常有效;并且基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。尤其适用于针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单本文档来自技高网...

【技术保护点】
1.一种OCR图像字符识别和字符校正的方法,其特征在于:包括/n通过训练网络对待识别图像进行字符识别,获得字符识别信息;/n预设校正规则对所述字符识别信息进行检验,获得字符校正结果;/n其中所述通过训练网络对待识别图像进行字符识别包括:/n通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;/n并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。/n

【技术特征摘要】
1.一种OCR图像字符识别和字符校正的方法,其特征在于:包括
通过训练网络对待识别图像进行字符识别,获得字符识别信息;
预设校正规则对所述字符识别信息进行检验,获得字符校正结果;
其中所述通过训练网络对待识别图像进行字符识别包括:
通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;
并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。


2.根据权利要求1所述的OCR图像字符识别和字符校正的方法,其特征在于:所述通过训练网络对待识别图像进行字符识别,获得字符识别信息,包括:
S11.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目;
S12.通过不同程度的GAN构造训练网络,计算汉字变形度。


3.根据权利要求2所述的OCR图像字符识别和字符校正的方法,其特征在于:所述构造训练网络,计算汉字变形度,包括
构造包括所述神经网络和标准CNN神经网络的训练网络,通过训练网络获取待识别图像、待检测的汉字及训练获得的该目标汉字中横竖撇捺的数目,计算定量化误差函数Pr。


4.根据权利要求3所述的OCR图像字符识别和字符校正的方法,其特征在于:所述训练网络的训练数据从原始标准汉字图片数据加工得到;首先设置五个层次不同的GAN网络,五个GAN网络的数据集对应于形近字广度扩散的五重数据,则GAN1数据源于该汉字的形近字增强得到;GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到;以此类推,获得五种类型的GAN网络:GAN1~GAN5;
则,Pr值定义为:
0.0:原始图像;
0.1:5种均不可区分;
0.2:4种不可区分,1种可区分;
0.4:3种不可区分,2种可区分;
0.6:2种不可区分,3种可区分;
0.8:1种不可区分,4种可区分;
0.9:均可区分;
1.0:无关噪点图像或者其他动植物图像;
确定Pr值后,使用所述训练网络结构训练每个目标汉字的Pr值的网络,构成训练数据库。


5.根据权利要求3所述的OCR图像字符识别和字符校正的方法,其特征在于:所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区...

【专利技术属性】
技术研发人员:宋国梁颜长华
申请(专利权)人:梁华智能科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1