一种基于对抗样本增强模型抗攻击能力的方法和系统技术方案

技术编号:23891229 阅读:24 留言:0更新日期:2020-04-22 06:33
本申请实施例公开了一种基于对抗样本增强模型抗攻击能力的方法和系统。所述方法包括:获取目标样本;将所述目标样本输入第一模型,得到对应于所述目标样本的输出;调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率;在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本;基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力。其中,第二模型可以为用于对理赔证据图片进行识别的神经网络模型,理赔证据图片包括理赔者的个人信息图片以及理赔商品的图片。

A method and system of anti attack capability based on anti sample enhancement model

【技术实现步骤摘要】
一种基于对抗样本增强模型抗攻击能力的方法和系统
本申请涉及计算机
,特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术介绍
对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法,通过构造对抗样本输入目标模型,使得目标模型做出误判,达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息,可以为开发人员改进目标模型提供参考。对抗攻击包括白盒攻击和黑盒攻击,若攻击者能够获知目标模型所使用的算法以及算法所使用的参数,则相应的攻击为白盒攻击,若攻击者不知道目标模型所使用的算法和参数,则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击,攻击者均可以通过传入任意输入观察输出。通过攻击可以找出被攻击的模型的漏洞,进而对模型的抗攻击能力进行增强,基于此,本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术实现思路
本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的方法。所述基于对抗样本增强模型抗攻击能力的方法包括:获取目标样本;将所述目标样本输入第一模型,得到对应于所述目标样本的输出;调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率;在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本;基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;其中,所述第二模型与所述第一模型相同,或者,所述第二模型是基于对所述第一模型微调得到的。本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的系统。所述基于对抗样本增强模型抗攻击能力的系统包括:获取模块,用于获取目标样本;输入模块,用于将所述目标样本输入第一模型,得到对应于所述目标样本的输出;调整模块,用于调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率;对抗样本生成模块,用于在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本;增强模块,用于基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;其中,所述第二模型与所述第一模型相同,或者,所述第一模型为预训练模型,所述第二模型是基于对所述预训练模型微调得到的。本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的装置,包括处理器,所述处理器用于执行所述的基于对抗样本增强模型抗攻击能力的方法。本申请实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行所述的基于对抗样本增强模型抗攻击能力的方法。附图说明本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的系统的模块图;图2是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的方法的示例性流程图;图3是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的方法所包括的步骤基于对抗样本调整第二模型的示例性流程图。具体实施方式为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本申请一些实施例所示的基于对抗样本增强模型抗攻击能力的系统的模块图。如图1所示,该基于对抗样本增强模型抗攻击能力的系统100可以包括获取模块102、输入模块104、调整模块106、对抗样本生成模块108和增强模块110。获取模块102可以用于获取目标样本。输入模块104可以用于将所述目标样本输入第一模型,得到对应于所述目标样本的输出。调整模块106可以用于调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率。对抗样本生成模块108可以用于在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本。增强模块110可以用于基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;其中,所述第二模型与所述第一模型相同,或者,所述第一模型为预训练模型,所述第二模型是基于对所述预训练模型微调得到的。在一些实施例中,所述目标样本为图像样本;所述调整模块106用于:调整所述目标样本中若干像素的值,其中被调整的每个像素的值的变化范围小于像素阈值。在一些实施例中,所述输出为所述第一模型的logits层的输出。在一些实施例中,所述调整模块106,包括:目标样本调整单元,用于沿所述第一模型的梯度的方向调整所述目标样本,并将调整后的所述目标样本输入所述第一模型;判断单元,用于判断所述输出是否满足所述预设条件,并在所述输出满足所述预设条件时,所述目标样本调整单元停止调整所述目标样本,在所述输出不满足所述预设条件时,所述目标样本调整单元继续调整所述目标样本。在一些实施例中,在所述输出值小于或等于该输出值对应的输出阈值,或者,所述目标样本调整单元重复调整所述目标样本的次数大于或等于次数阈值时,所述输出满足所述预设条件。在一些实施例中,所述增强模块110用于:将所述对抗样本输入所述第二模型,得到与所述对抗样本对应的输出,该输出用于表征所述对抗样本属于该输出对应类别的概率;针对同一所述对抗样本,若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同,则判定该对抗样本对所述第二模型攻击成功;针对多个所述对抗样本,统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例,并基于该比例调整所述第二模型,以增强所述第二模型的抗攻击能力。在本文档来自技高网...

【技术保护点】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:/n获取目标样本;/n将所述目标样本输入第一模型,得到对应于所述目标样本的输出;/n调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率;/n在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本;/n基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;/n其中,所述第二模型与所述第一模型相同,或者,所述第二模型是基于对所述第一模型微调得到的。/n

【技术特征摘要】
1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:
获取目标样本;
将所述目标样本输入第一模型,得到对应于所述目标样本的输出;
调整所述目标样本,以降低所述目标样本的所述输出中的前N个最大的输出值,其中,所述N是正整数,所述输出值用于表征所述目标样本属于所述输出值对应类别的概率;
在所述输出满足预设条件时,将调整后的所述目标样本作为对抗样本;
基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力;
其中,所述第二模型与所述第一模型相同,或者,所述第二模型是基于对所述第一模型微调得到的。


2.如权利要求1所述的方法,其中,所述目标样本为图像样本;所述调整所述目标样本包括:调整所述目标样本中若干像素的值,其中被调整的每个像素的值的变化范围小于像素阈值。


3.如权利要求1所述的方法,其中,所述输出为所述第一模型的logits层的输出。


4.如权利要求1所述的方法,其中,所述调整所述目标样本,包括:
沿所述第一模型的梯度的方向调整所述目标样本,并将调整后的所述目标样本输入所述第一模型;
所述方法还包括:
重复执行将所述目标样本输入第一模型的步骤,至调整所述目标样本的步骤,直至所述输出满足所述预设条件。


5.如权利要求4所述的方法,其中,在所述输出值小于或等于该输出值对应的输出值阈值,或者,所述重复执行所述步骤的次数大于或等于次数阈值时,所述输出满足所述预设条件。


6.如权利要求1所述的方法,其中,所述基于该对抗样本,调整第二模型,以增强所述第二模型的抗攻击能力,包括:
将所述对抗样本输入所述第二模型,得到与所述对抗样本对应的输出,该输出用于表征所述对抗样本属于该输出对应类别的概率;
针对同一所述对抗样本,若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同,则判定该对抗样本对所述第二模型攻击成功;
针对多个所述对抗样本,统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例,并基于该比例调整所述第二模型,以增强所述第二模型的抗攻击能力。


7.如权利要求1所述的方法,其中,所述第一模型和所述第二模型为用于对图片进行识别的模型。


8.一种基于对抗样本增强模型抗攻击能力的系统,其中,所述系统包括:
获取模块,用于获取目标样本;
输入模块,用于将所述目标样本输入第一模型,得到...

【专利技术属性】
技术研发人员:郇兆鑫张晓露简伟健
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1