一种自动化对抗训练方法和装置制造方法及图纸

技术编号:33434186 阅读:71 留言:0更新日期:2022-05-19 00:23
本公开的一方面涉及一种自动化对抗训练方法,包括获取原始训练数据集和经使用所述原始训练数据集训练的模型,所述原始训练数据集包括输入数据及其标签;对所述输入数据自动进行预定步数的扰动,包括对于所述预定步数中的每一步:在预定义的攻击超参数搜索空间中自动搜索对这一步的扰动最优的超参数值;基于所述最优的超参数值自动确定所述这一步的扰动;以及通过纳入所述这一步的扰动来更新所述输入数据;以及使用包括经所述预定步数的扰动之后的经更新输入数据及其标签的对抗训练数据集来进一步优化所述模型以对抗所述扰动。本公开还涉及其他相关方面。还涉及其他相关方面。还涉及其他相关方面。

【技术实现步骤摘要】
一种自动化对抗训练方法和装置


[0001]本申请一般涉及机器学习,尤其涉及对抗训练。

技术介绍

[0002]对抗训练是增强神经网络鲁棒性的重要方式。作为一种防御对抗攻击的方法,在对抗训练的过程中,样本会被混合一些微小的扰动(人类无法感知但易造成神经网络模型误分类的改变)以生成对抗样本并被加入到训练集中去,然后通过训练使神经网络学习并适应这种改变,从而增强神经网络对对抗样本的鲁棒性。
[0003]在客户端(例如,手机端),应用(APP)用户的账号安全十分重要。用户账号可能被亲朋、熟人、黑产等恶意盗用,进行转账支付、盗取数据、破坏数据等操作。这类风险可称为客户端盗用风险。
[0004]为了检测客户端盗用风险,已有神经网络模型可以根据用户行为模式来判别是否发生了客户端盗用行为。为了提升模型的鲁棒性,可以使用对抗训练,来增强模型的鲁棒性。然而,已有对抗样本的构造方法是单一的,导致对抗训练得到的模型仅针对特定攻击鲁棒,无法应对盗用场景下,黑产多样的攻击手段。
[0005]因此,本领域需要改善的对抗训练技术来提升检测客户端盗用风险的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自动化对抗训练方法,包括:获取原始训练数据集和经使用所述原始训练数据集训练的模型,所述原始训练数据集包括输入数据及其标签;对所述输入数据自动进行预定步数的扰动,包括对于所述预定步数中的每一步:在预定义的攻击超参数搜索空间中自动搜索对这一步的扰动最优的超参数值;基于所述最优的超参数值自动确定所述这一步的扰动;以及通过纳入所述这一步的扰动来更新所述输入数据;以及使用包括经所述预定步数的扰动之后的经更新输入数据及其标签的对抗训练数据集来进一步优化所述模型以对抗所述扰动。2.如权利要求1所述的自动化对抗训练方法,其中,所述预定义的攻击超参数搜索空间包括具有候选值的超参数,并且所述超参数至少包括用于每一步的扰动操作和步长。3.如权利要求2所述的自动化对抗训练方法,其中,所述扰动操作的候选值包括以下一种或多种扰动算子或其任何组合:FGM、FGSM、FGMM、高斯噪声、以及恒等变化。4.如权利要求2所述的自动化对抗训练方法,其中,所述步长的候选值包括以下一种或多种步长或其任何组合:0.0001,0.001,0.01,0.1,1。5.如权利要求1所述的自动化对抗训练方法,其中,对所述输入数据自动进行预定步数的扰动包括以所述原始训练数据集的输入数据作为第一步扰动的输入,以纳入每一步扰动后的所述输入数据作为下一步扰动的输入,并以纳入最后一步扰动后的输入数据作为所述对抗训练数据集中的所述经更新输入数据。6.如权利要求2所述的自动化对抗训练方法,其中,在预定义的攻击超参数搜索空间中自动搜索对所述这一步的扰动最优的超参数值包括使用注意力机制来确定超参数在每个候选值上的得分并基于所述得分确定对所述这一步的扰动最优的超参数值。7.如权利要求6所述的自动化对抗训练方法,其中,使用注意力机制来确定所述超参数在每个候选值上的得分包括:基于所述这一步的输入数据确定查询;将每个候选值嵌入为对应的键;以及使用注意力机制获得所述查询在每个键上的注意力分布值作为所述超参数在对应候选值上的得分。8.如权利要求7所述的自动化对抗训练方法,其中,使用注意力机制来确定超参数在每个候选值上的得分进一步包括,对扰动操作和步长分别使用相应的注意力机制来计算其在各自候选值上的得分;并且其中基于所述得分确定对所述这一步的扰动最优的超参数值包括使用Gumbel Softmax作为扰动操作在其候选值上的得分的归一化采样单元、以及使用Softmax作为步长在其候选值上的得分的归一化单元。9.如权利要求8所述的自动化对抗训练方法,其中,基于所述最优的超参数值自动确定所述这一步的扰动包括:基于最优的扰动操作值和最优的步长值以及所述模型的损失函数在所述这一步的输入数据上的梯度来确定所述这一步的扰动。10.如权利要求7所述的自动化对抗训练方法,其中,基于所述这一步的输入数据确定
查询包括:确定所述模型的损失函数在所述这一步的输入数据上的梯度;以及将所述梯度线性投影为所述查询。11.如权利要求1所述的自动化对抗训练方法,其中,使用包括经所述预定步数的扰动之后的经更新输入数据及其标签的所述对抗训练数据集来进一步优化所述模型包括:基于所述模型在所述对抗训练数据集上的损失函数的梯度来更新所述模型。12.如权利要求1所述的自动化对抗训练方法,其中,所述输入数据包括用户在客户端的APP上的行为模式,并且所述模型用于判别是否发生了客户端盗用行为。13.一种自动化对抗训练装置,包括:用于获取原始训练数据集和经使用所述原始训练数据集训练的模型的模块,所述原始训练数据集包括输入数据及其标签;用于对所述输入数据自动进行预定步数的扰动的模块,包括对于所述预定步数中的每一步:在预定义的攻击超参数搜索空间中自动搜索对这一步的扰动最优的超参数值;基于所述最优的超参数值自动确定所述这一步的扰动;以及通过纳入所述这一步的扰动来更新所述输入数据;以及使用用于包括经所述预定步数的扰动之后的经更新输入...

【专利技术属性】
技术研发人员:许卓尔崔世文孟昌华王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1