一种图像分类对抗样本防御方法、系统及数据处理终端技术方案

技术编号:30521435 阅读:17 留言:0更新日期:2021-10-27 23:05
本发明专利技术属于人工智能技术领域,公开了一种图像分类对抗样本防御方法、系统及数据处理终端,所述图像分类对抗样本防御方法包括:利用对抗降噪网络对输入图像进行降噪预处理,获取重建图像;利用目标分类模型获取重建图像的预测类别概率分布;利用目标分类模型获取原始输入图像的预测类别概率分布;计算输入图像的对抗性评分,并根据阈值确定输入图像为对抗样本或良性样本;如果输入图像被判定为对抗样本,则输出重建图像的类别预测结果;反之,如果输入图像被判定为良性样本,则输出原始图像的类别预测结果。本发明专利技术提供的图像分类对抗样本防御方法,能够有效提高基于深度学习方法的人工智能系统的安全性。智能系统的安全性。智能系统的安全性。

【技术实现步骤摘要】
一种图像分类对抗样本防御方法、系统及数据处理终端


[0001]本专利技术属于人工智能
,尤其涉及一种图像分类对抗样本防御方法、系统及数据处理终端。

技术介绍

[0002]近年来,以深度神经网络模型为基础的深度学习技术快速发展,在现实世界的许多领域中都得到了广泛的应用,例如:计算机视觉、自然语言处理、自动驾驶等。在这些传统方法难以建模和处理的任务中,深度神经网络模型都展现出了十分卓越的性能。
[0003]然而,随着深度学习技术的广泛应用,智能系统的安全性逐渐开始引起人们的关注。最近的研究表明,深度神经网络模型容易受到来自对抗样本的攻击而输出错误的预测结果。Szegedy等人于2014年首先发现了可以通过在输入中添加极其微小的扰动,误导神经网络分类模型以极高的置信度输出错误的预测结果,这激发了针对深度学习对抗性攻击和防御的广泛研究。在此基础上,Carlini和Wagner提出了一种攻击性能非常强的对抗样本生成方法,能够以较小的代价和较高的成功率欺骗深度神经网络模型,在其基础上进行改进,增加新的约束,还可以成功绕过许多种对抗样本防御装置。后来,Moosavi

Dezfooli等人发现,可以制作一个“通用扰动”,使用一次性生成的对抗性噪声就可以作用于多张图片成功欺骗深度神经网络分类模型。更进一步地,Athalye等人证明,3D打印的真实世界物体可以在现实世界中欺骗基于深度神经网络的目标检测系统。对抗样本的存在给基于深度学习技术设计的人工智能系统带来了巨大的隐患,特别是在对安全性要求较高的领域,如:智能驾驶、辅助医疗等,攻击者可以在系统输入中添加肉眼难以察觉的轻微扰动,欺骗智能系统做出错误的决策,这可能导致系统失灵甚至奔溃,将可能带来灾难性的后果。
[0004]为了应对层出不穷的针对深度神经网络的对抗样本攻击,解决其给基于深度学习技术的人工智能系统所带来的巨大的安全隐患,目前已经提出了许多种对抗样本的防御方法。这些方法主要从鲁棒性防御和检测性防御两个方面考虑,其中鲁棒性防御旨在通过修改模型的训练过程或网络结构、预处理输入数据等方式,使神经网络分类模型在遭受到对抗样本攻击时仍能将其分类正确,例如:对抗训练、防御性蒸馏、图像总体方差最小化等;检测性防御则侧重于寻找对抗样本和良性样本之间的差异,利用其设置检测器,将对抗样本从输入数据中准确识别,并拒绝将其输入至分类模型之中。这些方法在对抗样本的早期防御中取得了一定成效。然而,现有方法仍存在着一些局限性,在处理效率和通用性等方面存在诸多不足,或是在训练过程中严重依赖已有对抗攻击,导致对相应攻击的过高的“专属性”;或是预处理效率过低,难以在大尺寸的图像上进行有效扩展和应用;或是仅对一小部分攻击有效果,缺乏对不同类型和强度攻击的普适性;或是容易受到二次攻击的影响而完全失效。
[0005]通过调查分析,现有技术存在的问题及缺陷主要包括:
[0006](1)鲁棒性防御策略方面:首先,对抗训练类方法依赖使用对抗样本参与训练,这将导致训练得到的分类模型对训练时所使用的对抗样本具有一定“专属性”,即使用某一种
对抗样本训练得到的模型往往仅对该类型对抗样本具有防御能力,而无法成功抵御其他类型和强度的对抗样本攻击;其次,以温度计编码、总体方差最小化等为代表的预处理输入类方法,通常会较大地降低模型在良性样本上的分类准确率,而且部分预处理方法计算开销大,预处理时间慢,运行效率较低,难以在复杂的图像数据集上进行有效扩展和应用;此外,以蒸馏防御、修改训练惩罚项等为代表的,调整分类模型和训练过程的方法往往需要重新训练分类模型,这无疑在大规模工程实践应用中增加了较大的额外开销,而且仍难以抵御C&W等强力的对抗攻击。
[0007](2)检测性防御方面:首先,对抗检测网络类方法旨在使用对抗样本和良性样本直接训练一个神经网络检测器,以实现对二者的区分,其训练阶段依赖对抗样本,这不可避免地导致了对固定攻击的“专属性”;其次,基于主成分方差、重建误差、SoftMax输出等设置的阈值检测器,往往仅对简单的数据集有效,而对复杂的数据集无效,并且部分方法仅对弱攻击有效,而对强攻击无效;此外,基于样本分布的检验,如:Feinman等人的工作,不仅需要维护良性样本库,而且还需要大量的计算以判断输入图像是否属于相应类别的真实数据分布,实用性较差。更重要的是,现有的对抗样本检测器普遍容易遭受二次攻击的影响,假定攻击者足够了解防御措施,那么就可以针对性地调整生成对抗样本时的约束函数,以绕过检测装置。
[0008]综上所述,对抗样本的存在给基于深度学习的智能系统带来了极大的安全隐患,而现有方法难以在真实应用场景下取得行之有效的防御效果。因此,设计更加高效且通用性强的对抗样本防御方法具有极其重要的理论和实践意义。
[0009]通过上述分析,现有技术存在的问题及缺陷为:
[0010](1)现有对抗训练类方法依赖使用对抗样本参与训练,将导致训练得到的分类模型对训练时所使用的对抗样本具有一定“专属性”,即使用某一种对抗样本训练得到的模型往往仅对该类型对抗样本具有防御能力,而无法成功抵御其他类型和强度的对抗样本攻击。
[0011](2)以温度计编码、总体方差最小化为代表的预处理输入类方法,会较大地降低模型在良性样本上的分类准确率,而且部分预处理方法计算开销大,预处理时间慢,运行效率较低,难以在复杂的图像数据集上进行有效扩展和应用。
[0012](3)现有以蒸馏防御、修改训练惩罚项等为代表的,调整分类模型和训练过程的方法往往需要重新训练分类模型,这无疑在大规模工程实践应用中增加了较大的额外开销,而且仍难以抵御C&W等强力的对抗攻击。
[0013](4)现有对抗检测网络类方法会不可避免地导致了对固定攻击的“专属性”;基于主成分方差、重建误差、SoftMax输出等设置的阈值检测器,往往仅对简单的数据集有效,而对复杂的数据集无效,并且部分方法仅对弱攻击有效,而对强攻击无效。
[0014](5)基于样本分布的检验不仅需要维护良性样本库,而且需要大量的计算以判断输入图像是否属于相应类别的真实数据分布,实用性较差;现有的对抗样本检测器普遍容易遭受二次攻击的影响,假定攻击者足够解防御措施,那么就可以针对性地调整生成对抗样本时的约束函数,以绕过检测装置。
[0015]解决以上问题及缺陷的难度为:首先,现实应用中,防御者在训练时所能得到的对抗样本的数量和种类有限,在训练防御方法时较难考虑到所有已知对抗样本的情况,并且
使用特定对抗样本训练得到的防御装置难以应对未来可能出现的未知类型的对抗样本攻击,因此需要使用对抗样本参与训练的防御方法的鲁棒性和可扩展性及其有限;其次,在实际生活中,输入的自然样本的内容构成往往更加复杂,现有的许多对抗防御技术的有效性会随着输入的自然样本的复杂性提升而明显下降。因此,现有的许多防御方案在实践中应用的通用性严重受限。
[0016]解决以上问题及缺陷的意义为:首先,本专利技术使用基于边缘特征增强模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类对抗样本防御方法,其特征在于,所述图像分类对抗样本防御方法包括:利用对抗降噪网络对输入图像进行降噪预处理,获取重建图像;利用目标分类模型获取重建图像的预测类别概率分布;利用目标分类模型获取原始输入图像的预测类别概率分布;计算输入图像的对抗性评分,并根据阈值确定输入图像为对抗样本或良性样本;如果输入图像被判定为对抗样本,则输出重建图像的类别预测结果;反之,如果输入图像被判定为良性样本,则输出原始图像的类别预测结果。2.如权利要求1所述图像分类对抗样本防御方法,其特征在于,所述图像分类对抗样本防御方法包括以下步骤:步骤一,利用对抗降噪网络对输入图像进行预处理,得到重建图像;步骤二,将重建图像输入至目标分类模型,获取分类模型关于重建图像的预测类别概率分布;步骤三,将未经对抗降噪网络预处理的原始图像输入至目标分类模型,获取分类模型关于原始输入图像的预测类别概率分布;步骤四,利用重建图像与原始图像之间的视觉重建误差和类别重建误差,计算输入图像的对抗性评分;步骤五,根据输入图像的对抗性检测结果,输出其分类结果。3.如权利要求2所述图像分类对抗样本防御方法,其特征在于,步骤一中,所述对抗降噪网络,使用基于边缘特征增强的降噪网络作为主干,使用视觉和类别双引导的对抗损失函数作为训练目标,优化降噪网络的参数,使用在干净的良性样本图片上添加高斯白噪声得到的噪声图像训练得到;其中,所述基于边缘特征增强的降噪网络,使用边缘特征增强模块EFE

Block和多尺度特征提取模块MSF

Block为基础,在编码阶段结合使用降采样操作,在解码阶段结合使用上采样操作,在网络中间层之间使用长跳跃连接,构建形成降噪自编

解码网络。4.如权利要求3所述图像分类对抗样本防御方法,其特征在于,所述边缘特征增强模块EFE

Block,包括:将输入张量分为三个计算流处理,包括高斯平滑流、边缘特征增强流和卷积流;在高斯平滑流中,输入张量依次经Gaussian Blur操作、Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出;在边缘特征增强流中,输入张量依次经过Edge Detection操作、Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出;在卷积流中,输入张量经过Convolution操作、Batch Norm操作和Leaky ReLU激活单元后输出;使用Concatenate操作将三个张量计算流的输出结果拼接,使用Convolution操作压缩通道数量,输出计算结果;所述多尺度特征提取模块MSF

Block,包括:将输入张量划分为多个计算流进行处理;在每个张量计算流中,分别依次包括Convolution操作、Batch Norm操作和Leaky ReLU激活单元,而在不同的张量计算流中,适当地选用不同尺寸的卷积核,提取不同尺度的特征信息;使用Concatenate操作,将多个张量计算流得到的多通道特征进行拼接,使用1
×
1的卷积核进行Convolution操作,利用自适应提取和保留多通道特征图中有用的特征信息。5.如权利要求2所述图像分类对抗样本防御方法,其特征在于,步骤一中,所述对抗降
噪网络,使用视觉和类别特征双引导的损失函数作为优化目标进行训练;其中,基于视觉和类别特征双引导的损失函数包括视觉特征相似度损失项和类别特征相似度损失项;其中,所述视觉特征相似度损失项为:||x

D(x

)||
p
;其中,x表示干净的训练样本;x

=x+n
σ
表示添加噪声后的噪声图像,n
σ
表示强度为σ的加性高斯白噪声;D(
·
)表示降噪网络;||x

D(x

)||
p
使用p

范数衡量降噪后的图像与原始无噪声图像之间的视觉相似度,该惩罚项指导降噪网络去除视觉域中的不良噪声;所述类别特征相似度损失项为:KL(C(x)||C(D(x

));其中,C(
·
)表示目标分类模型,用于获取降噪后的重建图像D(x

)和原始图像x的预测类别概率分布,即SoftMax层的输出向量;KL(p||q)表示两个分布p和q之间的Kullback

Leibler散度,衡量两个分布之间的差异,KL(C(x)||C(D(x
...

【专利技术属性】
技术研发人员:裴庆祺闫成家肖阳
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1