【技术实现步骤摘要】
一种基于对抗样本增强模型抗攻击能力的方法和系统
本申请涉及计算机
,特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术介绍
对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法,通过构造对抗样本输入目标模型,使得目标模型做出误判,达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息,可以为开发人员改进目标模型提供参考。对抗攻击包括白盒攻击和黑盒攻击,若攻击者能够获知目标模型所使用的算法以及算法所使用的参数,则相应的攻击为白盒攻击,若攻击者不知道目标模型所使用的算法和参数,则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击,攻击者均可以通过传入任意输入观察输出。通过攻击可以找出被攻击的模型的漏洞,进而对模型的抗攻击能力进行增强,基于此,本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术实现思路
本说明书实施例的一个方面提供一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:获取第一样本和第二样本,其中,所述第一样本与所述第二样本的相似度大于 ...
【技术保护点】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:/n获取第一样本和第二样本,其中,所述第一样本与所述第二样本的相似度大于相似度阈值;/n将所述第一样本和所述第二样本输入第一模型,得到与所述第一样本对应的第一输出,以及与所述第二样本对应的第二输出;/n基于所述第一输出与所述第二输出的差异程度,调整所述第二样本,以增大所述差异程度,并在所述差异程度满足预设条件时,将调整后的所述第二样本作为对抗样本;/n基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;/n其中,所述第二模型和第一模型是相同的模型;或者,所述第二模型是所述第一模型经过微调后得到的模型。/n
【技术特征摘要】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:
获取第一样本和第二样本,其中,所述第一样本与所述第二样本的相似度大于相似度阈值;
将所述第一样本和所述第二样本输入第一模型,得到与所述第一样本对应的第一输出,以及与所述第二样本对应的第二输出;
基于所述第一输出与所述第二输出的差异程度,调整所述第二样本,以增大所述差异程度,并在所述差异程度满足预设条件时,将调整后的所述第二样本作为对抗样本;
基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;
其中,所述第二模型和第一模型是相同的模型;或者,所述第二模型是所述第一模型经过微调后得到的模型。
2.如权利要求1所述的方法,其中,所述第一样本和所述第二样本为图像样本;所述调整所述第二样本包括:调整所述第二样本中若干像素的值,其中被调整的每个像素的值的变化范围小于像素阈值。
3.如权利要求1所述的方法,其中,所述第一输出和所述第二输出均为所述第一模型的logits层的输出。
4.如权利要求1所述的方法,其中,所述基于所述第一输出与所述第二输出的差异程度,调整所述第二样本,包括:
基于所述第一输出与所述第二输出计算目标函数的函数值,所述目标函数用于表征所述第一输出与所述第二输出的所述差异程度;
若所述函数值不满足所述预设条件,调整所述第二样本,并将调整后的所述第二样本输入所述第一模型;
所述方法还包括:
重复执行将所述第二样本输入所述第一模型的步骤,至调整所述第二样本的步骤,直至所述函数值满足所述预设条件,并将当前得到的所述第二样本作为所述对抗样本。
5.如权利要求4所述的方法,其中,在所述函数值大于或等于函数值阈值,或者,所述重复执行所述步骤的次数大于或等于次数阈值时,所述函数值满足所述预设条件。
6.如权利要求4所述的方法,其中,所述调整所述第二样本,包括:
沿所述第一模型的梯度的方向调整所述第二样本。
7.如权利要求4所述的方法,其中,所述目标函数如下所示:
其中,l为所述目标函数的函数值,logitclean是所述第一输出,logitadv是所述第二输出,|logitclean|是对向量形式的所述第一输出中的每个元素分别求绝对值,是对的向量形式的计算结果中的每个元素进行求和。
8.如权利要求1所述的方法,其中,所述基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力,包括:
将所述对抗样本输入所述第二模型,得到与所述对抗样本对应的输出,该输出用于表征所述对抗样本属于该输出对应类别的概率;
针对同一所述对抗样本,若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同,则判定该对抗样本对所述第二模型攻击成功;
针对多个所述对抗样本,统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例,并基于该比例调整所述第二模型,以增强所述第二模型的抗攻击能力。
9.如权利要求1所述的方法,其中,所述第一模型和所述第二模型为用于对图片进行识别的模型。
10.一种基于对抗样本增强模型抗攻击能力的系统,其中,所述系统包括:
获取模...
【专利技术属性】
技术研发人员:郇兆鑫,张晓露,简伟健,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。