一种OCR图像字符识别和字符校正的方法及系统技术方案

技术编号:25272007 阅读:49 留言:0更新日期:2020-08-14 23:04
本发明专利技术公开了一种OCR图像字符识别和字符校正的方法,在字符识别模块中:采用多级神经网络构造并拟合了汉字变形度Pr函数,该网络以图像CNN数据以及横竖撇捺四个额外特征作为为变量,以不同程度的GAN识别度作为“变形度”的训练值,反映目标汉字的变形度Pr;在字符校正模块中:增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行高精度的相似字区分,二级网络的设置可以降低第一级网络的复杂度提高网络整体的泛化能力。本方法和系统主要针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。

【技术实现步骤摘要】
一种OCR图像字符识别和字符校正的方法及系统
本专利技术涉及汉字识别
,具体而言,为一种OCR图像字符识别和字符校正的方法及系统。
技术介绍
OCR(OpticalCharacterRecognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。随着图像传感器的不断发展,尤其是各种手机和专业(如安防)摄像头数目的指数增加,计算机图像数据在飞速增加;但图像质量则相对传统扫描仪或各种专业相机又相对降低;传统汉字OCR技术面临源图像数据质量不高,污染严重时,识别率会剧烈下降的问题。计算机图像的汉字内容识别(汉字OCR)是图像识别中的难点问题,相对于英文字符识别,汉字数量众多,基本字符相似度高,易受干扰,分辨困难。对于票据,还会受到各种票据底纹、打印位置、打印清晰程度、覆盖污染物(章)的剧烈影响。根据2018年的相关市场调查,针对手机拍照的各种票据,市场上多家传统OCR厂商的测试效果均不理想,虽然新一代以深度本文档来自技高网...

【技术保护点】
1.一种OCR图像字符识别和字符校正的方法,其特征在于:包括/n通过训练网络对待识别图像进行字符识别,获得字符识别信息;/n预设校正规则对所述字符识别信息进行检验,获得字符校正结果;/n其中所述通过训练网络对待识别图像进行字符识别包括:/n通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;/n并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。/n

【技术特征摘要】
1.一种OCR图像字符识别和字符校正的方法,其特征在于:包括
通过训练网络对待识别图像进行字符识别,获得字符识别信息;
预设校正规则对所述字符识别信息进行检验,获得字符校正结果;
其中所述通过训练网络对待识别图像进行字符识别包括:
通过构造和拟合Pr函数,以横竖撇捺四个特征为变量,构造训练网络,计算汉字变形度;
并增设第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字区分。


2.根据权利要求1所述的OCR图像字符识别和字符校正的方法,其特征在于:所述通过训练网络对待识别图像进行字符识别,获得字符识别信息,包括:
S11.设置神经网络训练已知的汉字图像库及其对应的汉字的横竖撇捺的数目;
S12.通过不同程度的GAN构造训练网络,计算汉字变形度。


3.根据权利要求2所述的OCR图像字符识别和字符校正的方法,其特征在于:所述构造训练网络,计算汉字变形度,包括
构造包括所述神经网络和标准CNN神经网络的训练网络,通过训练网络获取待识别图像、待检测的汉字及训练获得的该目标汉字中横竖撇捺的数目,计算定量化误差函数Pr。


4.根据权利要求3所述的OCR图像字符识别和字符校正的方法,其特征在于:所述训练网络的训练数据从原始标准汉字图片数据加工得到;首先设置五个层次不同的GAN网络,五个GAN网络的数据集对应于形近字广度扩散的五重数据,则GAN1数据源于该汉字的形近字增强得到;GAN2的数据源于该汉字及其形近字以及其形近字的形近字的数据集增强得到;以此类推,获得五种类型的GAN网络:GAN1~GAN5;
则,Pr值定义为:
0.0:原始图像;
0.1:5种均不可区分;
0.2:4种不可区分,1种可区分;
0.4:3种不可区分,2种可区分;
0.6:2种不可区分,3种可区分;
0.8:1种不可区分,4种可区分;
0.9:均可区分;
1.0:无关噪点图像或者其他动植物图像;
确定Pr值后,使用所述训练网络结构训练每个目标汉字的Pr值的网络,构成训练数据库。


5.根据权利要求3所述的OCR图像字符识别和字符校正的方法,其特征在于:所述第二级相似字区分网络用于对训练网络第一次确定的最佳识别结果进行相似字精确区...

【专利技术属性】
技术研发人员:宋国梁颜长华
申请(专利权)人:梁华智能科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1