【技术实现步骤摘要】
一种基于对抗样本增强模型抗攻击能力的方法和系统
本说明书实施例涉及计算机
,特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术介绍
对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法,通过构造对抗样本输入目标模型,使得目标模型做出误判,达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息,可以为开发人员改进目标模型提供参考。对抗攻击包括白盒攻击和黑盒攻击,若攻击者能够获知目标模型所使用的算法以及算法所使用的参数,则相应的攻击为白盒攻击,若攻击者不知道目标模型所使用的算法和参数,则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击,攻击者均可以通过传入任意输入观察输出。通过攻击可以找出被攻击的模型的漏洞,进而对模型的抗攻击能力进行增强,基于此,本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术实现思路
本说明书实施例的一个方面提供一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:获取目标样本的集合;将所述集合中的每一所述目标样本输入目标模 ...
【技术保护点】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:/n获取目标样本的集合;/n将所述集合中的每一所述目标样本输入目标模型,得到与所述目标样本对应的第一输出,所述第一输出用于表征该第一输出对应的标签的置信度;/n在所述第一输出大于或等于输出阈值时,将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签;/n利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型;/n将候选样本输入所述替代模型,得到对应于所述候选样本的第二输出,并基于该第二输出调整所述候选样本以得到对抗样本;/n基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力。/n
【技术特征摘要】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:
获取目标样本的集合;
将所述集合中的每一所述目标样本输入目标模型,得到与所述目标样本对应的第一输出,所述第一输出用于表征该第一输出对应的标签的置信度;
在所述第一输出大于或等于输出阈值时,将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签;
利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型;
将候选样本输入所述替代模型,得到对应于所述候选样本的第二输出,并基于该第二输出调整所述候选样本以得到对抗样本;
基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力。
2.如权利要求1所述的方法,其中,所述将所述集合中的每一所述目标样本输入所述目标模型之后,所述方法还包括:
在所述第一输出小于所述输出阈值时,从所述集合中删除该第一输出对应的所述目标样本。
3.如权利要求1所述的方法,其中,所述第一输出为所述目标模型的logits层的输出,或所述目标模型的激活层的输出,其中,所述激活层的输出与所述激活层的输入正相关。
4.如权利要求1所述的方法,其中,所述将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签,包括:
在同一所述目标样本对应的所有所述第一输出中,将所述置信度最大的所述第一输出作为目标输出;
将所述目标输出对应的标签作为所述目标样本的所述目标标签。
5.如权利要求1所述的方法,其中,所述基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力,包括:
将所述对抗样本输入所述目标模型,得到与所述对抗样本对应的输出,该输出用于表征所述对抗样本属于该输出对应类别的概率;
针对同一所述对抗样本,若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同,则判定该对抗样本对所述目标模型攻击成功;
针对多个所述对抗样本,统计对应于该多个所述目标样本的所述攻击的成功次数在所述攻击的总次数中的比例,并基于该比例调整所述目标模型,以增强所述目标模型的抗攻击能力。
6.如权利要求1所述的方法,其中,所述候选样本为图像样本;所述调整所述候选样本包括:调整所述候选样本中若干像素的值,其中被调整的每个像素的值的变化范围小于像素阈值。
7.如权利要求1所述的方法,其中,所述目标模型为用于对图片进行识别的模型,所述目标样本为图片。
8.一种基于对抗样本增强模型抗攻击能力的系统,其中,所述系统包括:
获...
【专利技术属性】
技术研发人员:郇兆鑫,张晓露,简伟健,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。