一种具有在线自动优化功能的OCR识别方法及系统技术方案

技术编号:36550696 阅读:25 留言:0更新日期:2023-02-04 17:04
本发明专利技术涉及一种具有在线自动优化功能的OCR识别方法及系统,该方法包括:S1、获取待识别OCR识别训练图像集,预处理得到初始训练数据集;S2、采用目标检测算法和文本识别算法,对初始训练数据集依次进行文本定位和文本识别,训练得到初始OCR识别模型;S3、将初始OCR识别模型部署到实际生产中,每隔设定时间进行识别结果和校对结果的比对,并收集识别错误的原始图像样本;触发优化信号阈值时,转S4;S4、进行异常要素统计,构建优化数据集;S5、基于优化数据集,对初始OCR识别模型进行优化训练,得到优化后的OCR识别模型,并将其作为S3中的初始OCR模型部署至实际生产中,进行OCR识别。与现有技术相比,本发明专利技术可实现对图像的在线自动优化OCR识别。OCR识别。OCR识别。

【技术实现步骤摘要】
一种具有在线自动优化功能的OCR识别方法及系统


[0001]本专利技术涉及OCR识别
,尤其是涉及一种具有在线自动优化功能的OCR识别方法及系统。

技术介绍

[0002]现代社会生活特别是金融行业中使用到了大量的纸质凭证、表单等,用于各类申请、管理等业务。随着社会信息化程度的进一步加深,有越来越多的场景需要将实际生活中的纸质材料信息录入到计算机中。传统的方式是人工进行录入,录入过程重复且繁琐。随着扫描技术和深度学习技术的发展,用于替代人工录入方式的OCR识别技术也得到了进一步发展。OCR文字识别,即光学字符识别,是指将纸面上的文字灰度变换成电信号,输入到计算机中去,文字识别技术大大降低了重复的工作量,可以为人们提供便利的将图片转为文字的方法。
[0003]现在的OCR识别技术基本多以深度学习技术为基础,基本流程为根据已有数据训练文字定位和识别模型,将训练好的模型部署到实际生产环境中。这里会出现的问题是训练使用的数据可能无法完全满足生产的实际需求,部分实际场景中的凭证不符合训练拟合的标准,或者由于实际情况的变化,例如凭证的版面、录入设别环境等因素发生了变化影响了模型的识别过程,造成识别错误。通常的解决方案是收集错误样本积累到一定规模之后优化训练模型,优化周期较长,人工干预较多,且可能出现生产数据泄露等风险。
[0004]针对上述缺陷,继续设计一种能够在线自动优化的OCR识别方法及系统。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种具有在线自动优化功能的OCR识别方法及系统。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]根据本专利技术的第一方面,提供了一种具有在线自动优化功能的OCR识别方法,该方法包括以下步骤:
[0008]步骤S1、获取待识别的OCR识别训练图像集并进行标注,得到初始训练数据集;
[0009]步骤S2、采用目标检测算法和文本识别算法,对初始训练数据集依次进行文本定位和文本识别,训练得到初始OCR识别模型;
[0010]步骤S3、将初始OCR识别模型部署到实际生产中,每隔设定时间进行识别结果和校对结果的比对,并收集识别错误的原始图像样本;当触发设定的优化信号阈值时,转步骤S4,启动模型优化进程;
[0011]步骤S4、进行异常要素统计,并按照设定的概率合成图像样本,与错误样本和异常时间段区间样本合并构成优化数据集;
[0012]步骤S5、基于优化数据集,对初始OCR识别模型进行优化训练,得到优化后的OCR识别模型,并将其作为步骤S3中的初始OCR模型部署至实际生产中,进行OCR识别。
[0013]优选地,所述步骤S1中的标注包括对识别要素的文本区域和每个文本区域对应的文本内容信息进行标注。
[0014]优选地,所述文本区域为完整覆盖文本在图像中位置的矩形区域;所述文本区域的标注结果为四个坐标的形式,分别对应矩形区域四个边角的坐标。
[0015]优选地,所述步骤S2中的目标检测算法包括YOLO v3、YOLO v4和Mask RCNN算法。
[0016]优选地,所述步骤S2中的文本识别算法包括CRNN、SRN和RARE算法。
[0017]优选地,所述步骤S3中的优化信号为识别准确率。
[0018]优选地,所述步骤S4中的异常要素统计包括异常字统计、错误语料统计、相似语料搜索、文本位置区间统计、字体背景分离、相似字体收集以及相似背景收集,分别为:
[0019]1)异常字统计:对出现识别错误图片对应的校验结果逐个统计,筛选出训练样本中未出现或出现频次低于设定值的字符,进行重点标记,在后续的合成过程中提高该部分异常字出现在优化数据集中的频率;
[0020]2)错误语料统计:逐个记录出现识别错误图片对应的校验结果语料,生成错误语料库,并统计语料字数范围;
[0021]3)相似语料搜索:根据统计出的错误语料在构建的语料数据库中通过相似度检索算法进行检索;
[0022]4)文本位置区间统计:统计文本识别错误位于图像中的位置;
[0023]5)字体背景分离:从识别错误的图像分离出识别背景和识别字体;
[0024]6)相似字体收集:采用生成对抗神经网络将分离得到的字体图像在预先设置的字体图像数据库通过相似字体图像检索网络进行检索,得到最相似的字体;
[0025]7)相似背景收集:将分离得到的背景图像在预先设置的背景图像数据库通过相似背景图像检索网络进行检索,得到最相似的背景图像。
[0026]优选地,所述文本位置区间统计具体包括以下子步骤:
[0027]41)使用基于卷积神经网络的图像校正方法将原图像校正到正常的水平区域;
[0028]42)计算识别结果与校验结果的文本编辑距离;当编辑距离小于设定阈值时,转43),否则转44);
[0029]43)当编辑距离小于设定阈值时,视为文本内容识别错误,直接将文本的定位信息记录到文本位置区域集中,同时记录对应的错误文本所属的原始图像;
[0030]44)当编辑距离大于等于设定阈值时,视为文本定位错误造成的文本识别错误,采用训练后的通用定位模型在相对位置附近寻找指定的文本目标区域,根据文本长度因素综合判断文本位置区间的准确性,当符合一般的规则时,则将该目标区域记录到文本位置区域集合中,同时记录对应的错误文本所属的原图像;
[0031]45)根据目标识别区域对每一张包含识别错误文本的图像进行裁剪,得到错误文本识别子图。
[0032]优选地,所述字体背景分离具体为:使用生成对抗神经网络从识别错误的图像分离出识别背景和识别字体。
[0033]根据本专利技术的第二方面,提供了一种具有在线自动优化功能的OCR识别系统,采用任一项所述的方法,所述系统包括:
[0034]OCR识别训练集采集及标注模块,用于获取待识别的OCR识别训练图像集并进行标
注,得到初始训练数据集;
[0035]初始OCR识别模型部署模块,用于构建基于深度学习的初始OCR识别模型,并训练后部署至实际生产环境中;
[0036]识别率监测和错误样本收集模块,用于每隔一定时间进行识别结果和正确结果的比对,计算出识别率并进行基于阈值的监测,并同时收集识别错误的原始图像样本;
[0037]异常要素统计收集模块,用于收集异常要素统计信息;
[0038]优化数据集合成模块,用于将提取到异常要素按照设定概率合成图像样本,与错误样本和异常时间段区间样本合并组成优化数据集;
[0039]优化模型训练部署模块,用于使用优化数据集对初始OCR识别模型进行优化训练,得到优化后的OCR识别模型并替换部署到实际生产环境中。
[0040]与现有技术相比,本专利技术具有以下优点:
[0041]1)本专利技术通过每隔一定的识别统计该时间段内的识别率,当识别率低于设定阈值时在线自动进行样本分析、语料检索、样本合成、模型优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具有在线自动优化功能的OCR识别方法,其特征在于,该方法包括以下步骤:步骤S1、获取待识别的OCR识别训练图像集并进行标注,得到初始训练数据集;步骤S2、采用目标检测算法和文本识别算法,对初始训练数据集依次进行文本定位和文本识别,训练得到初始OCR识别模型;步骤S3、将初始OCR识别模型部署到实际生产中,每隔设定时间进行识别结果和校对结果的比对,并收集识别错误的原始图像样本;当触发设定的优化信号阈值时,转步骤S4,启动模型优化进程;步骤S4、进行异常要素统计,并按照设定的概率合成图像样本,与错误样本和异常时间段区间样本合并构成优化数据集;步骤S5、基于优化数据集,对初始OCR识别模型进行优化训练,得到优化后的OCR识别模型,并将其作为步骤S3中的初始OCR模型部署至实际生产中,进行OCR识别。2.根据权利要求1所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述步骤S1中的标注包括对识别要素的文本区域和每个文本区域对应的文本内容信息进行标注。3.根据权利要求2所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述文本区域为完整覆盖文本在图像中位置的矩形区域;所述文本区域的标注结果为四个坐标的形式,分别对应矩形区域四个边角的坐标。4.根据权利要求1所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述步骤S2中的目标检测算法包括YOLO v3、YOLO v4和Mask RCNN算法。5.根据权利要求1所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述步骤S2中的文本识别算法包括CRNN、SRN和RARE算法。6.根据权利要求1所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述步骤S3中的优化信号为识别准确率。7.根据权利要求1所述的一种具有在线自动优化功能的OCR识别方法,其特征在于,所述步骤S4中的异常要素统计包括异常字统计、错误语料统计、相似语料搜索、文本位置区间统计、字体背景分离、相似字体收集以及相似背景收集,分别为:1)异常字统计:对出现识别错误图片对应的校验结果逐个统计,筛选出训练样本中未出现或出现频次低于设定值的字符,进行重点标记,在后续的合成过程中提高异常字出现在优化数据集中的频率;2)错误语料统计:逐个记录出现识别错误图片对应的校验结果语料,生成错误语料库,并统计语料字数范围;3)相似语料搜索:根据统计出的错误语料在构建的语料数据库中通过相似度检索算法进行检索;4...

【专利技术属性】
技术研发人员:郭宇轩
申请(专利权)人:交通银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1