一种基于对抗样本增强模型抗攻击能力的方法和系统技术方案

技术编号：23891229 阅读：24 留言：0更新日期：2020-04-22 06:33

本申请实施例公开了一种基于对抗样本增强模型抗攻击能力的方法和系统。所述方法包括：获取目标样本；将所述目标样本输入第一模型，得到对应于所述目标样本的输出；调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力。其中，第二模型可以为用于对理赔证据图片进行识别的神经网络模型，理赔证据图片包括理赔者的个人信息图片以及理赔商品的图片。

A method and system of anti attack capability based on anti sample enhancement model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗样本增强模型抗攻击能力的方法和系统
本申请涉及计算机
，特别涉及一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术介绍
对抗攻击是一种可以用于测试机器学习模型的缺陷的测试方法，通过构造对抗样本输入目标模型，使得目标模型做出误判，达到攻击的效果。通过攻击可以得到关于目标模型的缺陷、性能等信息，可以为开发人员改进目标模型提供参考。对抗攻击包括白盒攻击和黑盒攻击，若攻击者能够获知目标模型所使用的算法以及算法所使用的参数，则相应的攻击为白盒攻击，若攻击者不知道目标模型所使用的算法和参数，则对应的攻击为黑盒攻击。无论白盒攻击还是黑盒攻击，攻击者均可以通过传入任意输入观察输出。通过攻击可以找出被攻击的模型的漏洞，进而对模型的抗攻击能力进行增强，基于此，本申请提供一种基于对抗样本增强模型抗攻击能力的方法和系统。
技术实现思路
本申请实施例之一提供一种基于对抗样本增强模型抗攻击能力的方法。所述基于对抗样本增强模型抗攻击能力的方法包括：获取目标样本；将所述目标样本输入第一模型，得到对应于所述目标样本的输出；调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；其中，所述第二模型与所述第一模型相同，或者，所述第二模型是基于对所述第一模型微调得到的。本申请...

【技术保护点】
1.一种基于对抗样本增强模型抗攻击能力的方法，其中，所述方法包括：/n获取目标样本；/n将所述目标样本输入第一模型，得到对应于所述目标样本的输出；/n调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；/n在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；/n基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；/n其中，所述第二模型与所述第一模型相同，或者，所述第二模型是基于对所述第一模型微调得到的。/n

【技术特征摘要】
1.一种基于对抗样本增强模型抗攻击能力的方法，其中，所述方法包括：
获取目标样本；
将所述目标样本输入第一模型，得到对应于所述目标样本的输出；
调整所述目标样本，以降低所述目标样本的所述输出中的前N个最大的输出值，其中，所述N是正整数，所述输出值用于表征所述目标样本属于所述输出值对应类别的概率；
在所述输出满足预设条件时，将调整后的所述目标样本作为对抗样本；
基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力；
其中，所述第二模型与所述第一模型相同，或者，所述第二模型是基于对所述第一模型微调得到的。

2.如权利要求1所述的方法，其中，所述目标样本为图像样本；所述调整所述目标样本包括：调整所述目标样本中若干像素的值，其中被调整的每个像素的值的变化范围小于像素阈值。

3.如权利要求1所述的方法，其中，所述输出为所述第一模型的logits层的输出。

4.如权利要求1所述的方法，其中，所述调整所述目标样本，包括：
沿所述第一模型的梯度的方向调整所述目标样本，并将调整后的所述目标样本输入所述第一模型；
所述方法还包括：
重复执行将所述目标样本输入第一模型的步骤，至调整所述目标样本的步骤，直至所述输出满足所述预设条件。

5.如权利要求4所述的方法，其中，在所述输出值小于或等于该输出值对应的输出值阈值，或者，所述重复执行所述步骤的次数大于或等于次数阈值时，所述输出满足所述预设条件。

6.如权利要求1所述的方法，其中，所述基于该对抗样本，调整第二模型，以增强所述第二模型的抗攻击能力，包括：
将所述对抗样本输入所述第二模型，得到与所述对抗样本对应的输出，该输出用于表征所述对抗样本属于该输出对应类别的概率；
针对同一所述对抗样本，若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同，则判定该对抗样本对所述第二模型攻击成功；
针对多个所述对抗样本，统计对应于该多个所述对抗样本的所述攻击的成功次数在所述攻击的总次数中的比例，并基于该比例调整所述第二模型，以增强所述第二模型的抗攻击能力。

7.如权利要求1所述的方法，其中，所述第一模型和所述第二模型为用于对图片进行识别的模型。

8.一种基于对抗样本增强模型抗攻击能力的系统，其中，所述系统包括：
获取模块，用于获取目标样本；
输入模块，用于将所述目标样本输入第一模型，得到...

【专利技术属性】
技术研发人员：郇兆鑫，张晓露，简伟健，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人