【技术实现步骤摘要】
一种OCR识别对抗样本攻击的方法和装置
本专利技术涉及计算机
,尤其涉及一种OCR识别对抗样本攻击的方法和装置。
技术介绍
对抗样本是对输入样本故意添加一些人无法察觉的细微的干扰,导致模型以高置信度给出一个错误的输出。举例如下:可以针对一张已经有正确分类的图像,对其进行细微的像素修改,于是该图像在深度神经网络(DNN)下被错分为其他标签。对抗样本可以用来制造用于骗过光学字符识别(OCR)模型的样本,某个字符经过对抗样本改造后,可以被识别成另一个字符。例如图1中,最左边的图是一个正常字符“7”的图像,没有经过处理,经过OCR识别,识别为7的概率为1.0;中间经过某种对抗样本改造后,被识别为字符“3”的概率为0.865,最右边字符经过另一种对抗样本改造后,被识别为字符“3”的概率为0.976。对抗样本攻击就是利用对抗样本愚弄图像识别模型的方法,进而达到某些特定目的的攻击模式。比如,对于网络图像鉴黄来说,现在许多网站都有自己的自动图像鉴黄模型,但是通过对黄色图像进行对抗样本处理,可以成功了的让某些鉴黄模型将黄 ...
【技术保护点】
1.一种OCR识别对抗样本攻击的方法,其特征在于,包括:/n对真实图像预处理以生成标准字符训练数据;/n使用所生成的标准字符训练数据训练免疫对抗模型;/n经由所述免疫对抗模型生成免疫对抗样本;/n使用所述免疫对抗样本训练OCR模型以强化所述OCR模型;/n使用所述经强化的OCR模型识别对抗样本攻击。/n
【技术特征摘要】
1.一种OCR识别对抗样本攻击的方法,其特征在于,包括:
对真实图像预处理以生成标准字符训练数据;
使用所生成的标准字符训练数据训练免疫对抗模型;
经由所述免疫对抗模型生成免疫对抗样本;
使用所述免疫对抗样本训练OCR模型以强化所述OCR模型;
使用所述经强化的OCR模型识别对抗样本攻击。
2.根据权利要求1所述的方法,其特征在于,所述对图像预处理以生成标准字符训练数据包括:
对所述真实图像进行切片;
使用图像处理技术,生成与所述真实图像中的字符相对应的生成图像;
将所述真实图像与所述生成图像组合,生成标准字符样本。
3.根据权利要求2所述的方法,其特征在于,所述真实图像是银行卡卡号图像。
4.根据权利要求2所述的方法,其特征在于,将所述真实图像与所述生成图像组合,生成标准字符样本包括:
保持所述真实图像和所述生成图像中的字符一致。
5.根据权利要求1所述的方法,其特征在于,所述训练免疫对抗模型使用GAN模型进行训练。
6.根据权利要求1所述的方法,其特征在于,所述使用所述免疫对抗样本训练OCR模型以强化所述OCR模型包括:
将所述免疫对抗样本数据与真实数据混淆,用所述经混淆的训练数据来训练OCR模型。
7.一种OCR识别对抗样本攻击的装置,其特征在于,包括:
图像预处理模块,用于对真实图像预处理以生成标准字符训练数据;
免疫对抗样本模块,用于:
使用所生成的标准字符训练数据训练免疫对抗模型;...
【专利技术属性】
技术研发人员:李靖,郑邦东,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。