【技术实现步骤摘要】
一种针对场景文字识别的非定向式白盒对抗攻击方法
本专利技术属于计算机视觉
,更具体地,涉及一种针对场景文字识别的非定向式白盒对抗攻击方法。
技术介绍
在计算机视觉领域,因为文本外观的多样性和自然场景的复杂性,场景文本识别是一项具有挑战性的任务。得益于深度学习的发展和大量的训练数据,近年来,场景文本识别取得了令人印象深刻的发展。但是,最近的对抗性研究表明,深度学习模型容易受到输入数据微小扰动的干扰,而导致模型输出发生巨大变化。作为在计算机视觉中最落地的任务之一,场景文本识别依然面临着巨大的安全风险。但是目前一直没有针对注意力机制的场景文本识别器进行对抗性攻击的工作。为此,对该方面的研究迫在眉睫。区别于一般图像图片,场景文本图片的内容是字符序列,所以虽然近年来有不少一般图像的对抗性研究,但是不能直接被应用到场景文本识别中。此外,目前主流的对抗攻击方法可以分为两大类,第一种是基于梯度的方法,该方法的优点是攻击效率高,但是缺点是对抗样本的扰动较大;第二种是基于优化的方法,该方法的优点是可以生成扰动较小的对抗样本,但是缺 ...
【技术保护点】
1.一种针对场景文字识别的非定向式白盒对抗攻击方法,其特征在于,所述方法包括下述步骤:/n(1)训练任意一种端到端的场景文字识别网络模型;/n(2)利用上述训练好的场景文字识别网络模型生成对抗攻击样本,包括如下子步骤:/n(2.1)生成随机噪声,原始图片叠加该随机噪声之后,生成初始的对抗攻击样本;设计针对序列文字识别的对抗攻击目标函数,来对对抗攻击样本进行迭代优化,最终得到符合预期的对抗攻击样本;/n(2.2)为了加快生成对抗攻击样本的速度和减小噪声的大小,利用字符的识别概率分布和字符串的识别得分,进一步改进目标函数。/n
【技术特征摘要】
1.一种针对场景文字识别的非定向式白盒对抗攻击方法,其特征在于,所述方法包括下述步骤:
(1)训练任意一种端到端的场景文字识别网络模型;
(2)利用上述训练好的场景文字识别网络模型生成对抗攻击样本,包括如下子步骤:
(2.1)生成随机噪声,原始图片叠加该随机噪声之后,生成初始的对抗攻击样本;设计针对序列文字识别的对抗攻击目标函数,来对对抗攻击样本进行迭代优化,最终得到符合预期的对抗攻击样本;
(2.2)为了加快生成对抗攻击样本的速度和减小噪声的大小,利用字符的识别概率分布和字符串的识别得分,进一步改进目标函数。
2.根据权利要求1所述的一种针对场景文字识别的非定向式白盒对抗攻击方法,其特征在于,所述场景文字识别网络模型是:
基于注意力机制的场景文字识别网络模型,或者是基于时序连接序列的场景文字识别网络模型。
3.根据权利要求2所述的一种针对场景文字识别的非定向式白盒对抗攻击方法,其特征在于,所述场景文字识别网络模型是基于注意力机制的场景文字识别网络模型,所述步骤(1)包括如下子步骤:
(1.1)对原始数据集中所有图片的任意形状文本进行单词级别的标注,标签为图片中所含文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)构建基于注意力机制的端到端文字识别网络模型,所述识别网络模型中,残差网络作为特征编码器、基于注意力机制的序列识别网络作为序列解码器;
(1.3)文字识别网络模型输出每个字符的概率分布,和该图片的标签计算每个字符的交叉熵,并将所有字符的交叉熵之和作为该场景文字识别网络模型的目标损失函数。
4.根据权利要求3所述的一种针对场景文字识别的非定向式白盒对抗攻击方法,其特征在于,所述步骤(1.2)中的端到端文字识别网络模型具体为:
所述端到端文字识别网络模型由残差网络、双向长短期记忆层和基于注意力机制的序列识别网络组成;其中,残差网络Resnet以残差块为基础网络,通过修改不同层之间的池化大小,将三维的输入图片I表示成长度为n的二维特征向量序列{v1,v2...vn},其中v表示每一帧的图像特征向量;为了表征序列中,帧与帧之间的上下文关系,使用两层双向长短期记忆层BiLSTM对其进行建模,最终得到特征序列{h1,h2...hn},其中h表示具有上下文信息的每一帧特征向量;基于注意力机制的序列识别网络由一个单向的门控循环单元GRU构成,注意力模型的每一步会输出目标字符yt的概率分布p(yt)=softmax(qt),其中qt=Wost+bo,st是门控循环单元在t时刻的隐藏层特征,Wo、bo分别是该全连接层的权重和偏移量,st=GRU(st-1,(gt,f(yt-1))),f(·)表示yt-1的字符编码,gt是特征序列的加权求和表示,αt是一个注意力权重的向量,通过以下公式计算得到:et...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。