一种增强OCR识别鲁棒性的方法、系统、设备及存储介质技术方案

技术编号:37415971 阅读:10 留言:0更新日期:2023-04-30 09:40
本发明专利技术公开了一种增强OCR识别鲁棒性的方法,属于OCR识别技术领域,解决现有OCR识别模型在识别复杂的现实生活中的图片数据容易出现误判和漏判的技术问题,方法包括获取OCR模型训练时的原始训练数据集和原始模型;设定数据增强系数,将数据增强分为多个等级;对原始训练数据集进行随机污染获得污染后的数据集;对原始训练数据集和原始模型进行PGD对抗攻击获得对抗样本数据集;对原始训练数据集进行卡通化处理获得卡通化数据集;将原始训练数据集、污染后的数据集、对抗样本数据集、卡通化数据集合并作为最终数据集;使用最终数据集重新训练原始模型,获得增强鲁棒性的OCR模型。本发明专利技术还公开了一种增强OCR识别鲁棒性的系统、设备及存储介质。备及存储介质。备及存储介质。

【技术实现步骤摘要】
一种增强OCR识别鲁棒性的方法、系统、设备及存储介质


[0001]本专利技术涉及OCR识别
,更具体地说,它涉及一种增强OCR识别鲁棒性的方法、系统、设备及存储介质。

技术介绍

[0002]随着算力硬件发展和大数据的普及,人工智能相关技术在人们的日常生活中拥有越来越多的应用场景。人工智能四大领域中的计算机视觉在近些年得到了人们的肯定,而计算机视觉中的OCR识别技术在现实生活中落地在多种应用场景下,其方便、快捷、精准和覆盖面广的特点,为非结构化数据快速转换结构化数据提供智能辅助。与以往人工将非结构化数据快速转换结构化数据相比,其具有速度更快、准确率更高、大量节省人力资源等优点,可以在图片、票据、文件、证件等多种应用场景下快速达到文字提取目的。
[0003]但是,现有OCR识别模型在识别复杂的现实生活中的图片数据容易出现误判和漏判的问题。

技术实现思路

[0004]本专利技术要解决的技术问题是针对现有技术的上述不足,本专利技术的目的一是提供一种增强OCR识别鲁棒性的方法。
[0005]本专利技术的目的二是提供一种增强OCR识别鲁棒性的系统。
[0006]本专利技术的目的三是提供一种计算机设备。
[0007]本专利技术的目的四是提供一种计算机可读存储介质。
[0008]为了实现上述目的一,本专利技术提供一种增强OCR识别鲁棒性的方法,包括以下步骤:
[0009]步骤S1.获取OCR模型训练时的原始训练数据集和原始模型;
[0010]步骤S2.设定数据增强系数,将数据增强分为多个等级;
[0011]步骤S3.对步骤S1中的原始训练数据集进行随机污染,获得一个污染后的数据集,数据污染包括色彩变换、增加噪声、模糊处理、形变、增加天气效果五个大类中的至少一种类别,数据集的每张图片随机选择至少一种数据污染类别,根据数据污染类别配置相应的增强系数范围;
[0012]步骤S4.对步骤S1中的原始训练数据集和原始模型进行PGD对抗攻击,获得一个对抗样本数据集;
[0013]步骤S5.对步骤S1中的原始训练数据集进行卡通化处理,获得一个卡通化数据集;
[0014]步骤S6.将步骤S1中的原始训练数据集、步骤S3中污染后的数据集、步骤S4中的对抗样本数据集、步骤S5的卡通化数据集合并,获得一个以数据为中心增强后的数据集作为最终数据集;
[0015]步骤S7.使用步骤S6中的最终数据集重新训练所述原始模型,获得一个增强鲁棒性的OCR模型。
[0016]作为进一步地改进,在步骤S2中,数据增强分为5个等级,用系数1到5表示,其中1代表最弱影响原始图片,5代表最强影响原始图片。
[0017]进一步地,在步骤S3中,
[0018]色彩变换包括Brightness、CLAHE、Contrast、Grayscle、Saturation中的至少一种方法;
[0019]增加噪声包括GaussianNoise、ImpulseNoise、LaplaceNoise、PoissonNoise、SaltAndPepper、ShotNoise、SpeckleNoise中的至少一种方法;
[0020]模糊处理包括DefocusBlur、GaussianBlur、GlassBlur、MediaBlur、MotionBlur、Spatter、ZoomBlur中的至少一种方法;
[0021]形变包括Superpixels、JPEG_Compression、Pixelation、ElasticTransform中的至少一种方法;
[0022]增加天气效果包括Snowflakes、Snow、Frost、Rain、Fog、Clouds、FastSnowyLandscape中的至少一种方法。
[0023]进一步地,在步骤S3中,污染规则具体为,每张图片随机选择1或2种污染大类,在污染大类中随机选择1种方法;
[0024]色彩变换随机选择的增强系数范围为系数1至系数5;
[0025]增加噪声随机选择的增强系数范围为系数2至系数5;
[0026]模糊处理随机选择的增强系数范围为系数2至系数4;
[0027]形变随机选择的增强系数范围为系数1至系数3;
[0028]增加天气效果随机选择的增强系数范围为系数1至系数3。
[0029]进一步地,对步骤S3获得的污染后的数据集重复进行随机污染,得到一个新的污染数据集;
[0030]在步骤S6中,将步骤S1中的原始训练数据集、步骤S3中污染后的数据集、步骤S4中的对抗样本数据集、步骤S5的卡通化数据集以及新的污染数据集合并,获得一个以数据为中心增强后的数据集作为最终数据集。
[0031]进一步地,在步骤S4中,增强系数范围为系数2至系数5,每个数据生成对抗样本时在增强系数范围内随机选择一个系数;
[0032]在步骤S5中,增强系数范围为系数1至系数5,每个数据卡通化处理时在增强系数范围内随机选择一个系数。
[0033]进一步地,在步骤S7中,在训练过程中每个数据输入时,以30%概率对图片数据进行仿射变换,对分类标签加入参数为0.1的标签平滑,训练收敛完成后获得一个鲁棒性增强的OCR模型。
[0034]为了实现上述目的二,本专利技术提供一种增强OCR识别鲁棒性的系统,包括:
[0035]获取模块,用于获取OCR模型训练时的原始训练数据集和原始模型;
[0036]增强系数模块,用于设定数据增强系数,将数据增强分为多个等级;
[0037]污染模块,用于对所述原始训练数据集进行随机污染,获得一个污染后的数据集;
[0038]对抗模块,用于对所述原始训练数据集和原始模型进行PGD对抗攻击,获得一个对抗样本数据集;
[0039]卡通化模块,用于对所述原始训练数据集进行卡通化处理,获得一个卡通化数据
集;
[0040]合并模块,用于将所述原始训练数据集、污染后的数据集、对抗样本数据集、卡通化数据集合并,获得一个以数据为中心增强后的数据集作为最终数据集;
[0041]训练模块,用于使用所述最终数据集重新训练所述原始模型,获得一个增强鲁棒性的OCR模型。
[0042]为了实现上述目的三,本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的一种增强OCR识别鲁棒性的方法。
[0043]为了实现上述目的四,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的一种增强OCR识别鲁棒性的方法。
[0044]有益效果
[0045]本专利技术与现有技术相比,具有的优点为:
[0046]本专利技术基于数据为中心的思路,随机搭配五种图片污染策略和一种图片卡通化处理策略,融合对抗样本,将原始训练数据扩大至原始的五倍,重新训练模型,在不改变模型结构的情况下,得到一个更加鲁棒的OCR模型。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强OCR识别鲁棒性的方法,其特征在于,包括以下步骤:步骤S1.获取OCR模型训练时的原始训练数据集和原始模型;步骤S2.设定数据增强系数,将数据增强分为多个等级;步骤S3.对步骤S1中的原始训练数据集进行随机污染,获得一个污染后的数据集,数据污染包括色彩变换、增加噪声、模糊处理、形变、增加天气效果五个大类中的至少一种类别,数据集的每张图片随机选择至少一种数据污染类别,根据数据污染类别配置相应的增强系数范围;步骤S4.对步骤S1中的原始训练数据集和原始模型进行PGD对抗攻击,获得一个对抗样本数据集;步骤S5.对步骤S1中的原始训练数据集进行卡通化处理,获得一个卡通化数据集;步骤S6.将步骤S1中的原始训练数据集、步骤S3中污染后的数据集、步骤S4中的对抗样本数据集、步骤S5的卡通化数据集合并,获得一个以数据为中心增强后的数据集作为最终数据集;步骤S7.使用步骤S6中的最终数据集重新训练所述原始模型,获得一个增强鲁棒性的OCR模型。2.根据权利要求1所述的一种增强OCR识别鲁棒性的方法,其特征在于,在步骤S2中,数据增强分为5个等级,用系数1到5表示,其中1代表最弱影响原始图片,5代表最强影响原始图片。3.根据权利要求2所述的一种增强OCR识别鲁棒性的方法,其特征在于,在步骤S3中,色彩变换包括Brightness、CLAHE、Contrast、Grayscle、Saturation中的至少一种方法;增加噪声包括GaussianNoise、ImpulseNoise、LaplaceNoise、PoissonNoise、SaltAndPepper、ShotNoise、SpeckleNoise中的至少一种方法;模糊处理包括DefocusBlur、GaussianBlur、GlassBlur、MediaBlur、MotionBlur、Spatter、ZoomBlur中的至少一种方法;形变包括Superpixels、JPEG_Compression、Pixelation、ElasticTransform中的至少一种方法;增加天气效果包括Snowflakes、Snow、Frost、Rain、Fog、Clouds、FastSnowyLandscape中的至少一种方法。4.根据权利要求3所述的一种增强OCR识别鲁棒性的方法,其特征在于,在步骤S3中,污染规则具体为,每张图片随机选择1或2种污染大类,在污染大类中随机选择1种方法;色...

【专利技术属性】
技术研发人员:高健
申请(专利权)人:中国—东盟信息港股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1