当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多种对抗样例攻击的智能防御算法推荐方法及系统技术方案

技术编号:18972840 阅读:32 留言:0更新日期:2018-09-19 03:49
本发明专利技术公开了一种基于多种对抗样例攻击的智能防御算法推荐方法,包括以下步骤:对原始数据集进行清洗,得到训练集;利用训练集训练目标识别模型,得到目标攻击模型;选取不同的对抗样例攻击算法,攻击目标攻击模型;量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御;根据防御结果向用户推荐相应的对抗攻击防御算法。本发明专利技术还公开了智能防御算法推荐方法所采用的智能防御算法推荐系统。针对具体的目标模型,本发明专利技术的智能防御算法推荐系统可以智能的推荐有效的防御算法,从而减小对抗样例攻击给目标模型造成的损失。

【技术实现步骤摘要】
基于多种对抗样例攻击的智能防御算法推荐方法及系统
本专利技术涉及机器学习模型安全与隐私问题中存在的对抗样例攻击和防御的安全
,尤其涉及一种基于多种对抗样例攻击的智能防御算法推荐方法及系统。
技术介绍
机器学习是人工智能的核心,近年来机器学习得到了前所未有的发展,其应用遍及人工智能的各个领域。尤其是在数据挖掘、计算机视觉、自然语言处理、语音和手写体识别、无人驾驶等领域,机器学习的应用取得了巨大的成功。现如今,无论是在学术界还是在工业界,机器学习都受到了广泛的关注和深入的研究。机器学习的发展已经进入了一个全新的阶段,各种机器学习算法和模型层出不穷,在很多场景下,当呈现自然发生的输入时,其表现甚至胜过了人类。当然,机器学习还并没有达到人类的真正水平,因为即使面对一个微不足道的攻击,大多数机器学习算法都会失败。然而,大多数的研究者并没有考虑这个问题。通常在设计机器学习系统时,为了保证设计的系统是安全的、可信赖的并且结果能达到预期效果,我们通常会考虑特定的威胁模型,这些模型是对那些企图使我们的机器学习系统出错的攻击者的攻击能力和攻击目标的假设。迄今为止,现有大多数的机器学习模型都是针对一个非常弱的威胁模型设计实现的,没有过多的考虑攻击者。尽管在面对自然的输入时,这些模型能有非常完美的表现,但在现实环境下,这些机器学习模型会遇到大量的恶意用户甚至是攻击者。例如,当模型被训练(学习阶段)或者模型进行预测时(推理阶段)时,攻击者也有不同程度的能力对模型的输入、输出做出恶意的修改或者是通过某种手段访问模型的内部构件,窃取模型的参数,从而破坏模型的保密性、完整性和可用性,这就是机器学习模型中的安全和隐私问题。机器学习模型最容易受到完整性攻击,这种攻击既可以发生在模型的学习阶段,也可以发生在模型的推理预测阶段,如果攻击者破坏了模型的完整性,那么模型的预测结果就会偏离预期。在破坏机器学习模型完整性的攻击中,最常见的就是对抗样例攻击。在模型的学习阶段,干扰机器学习模型的训练过程,体现的攻击策略是当用户于生产时让机器学习模型出现更多的错误,在这一阶段,最常见的攻击就是利用对抗样例进行数据下毒攻击,攻击者可以通过修改现有的训练集或者增加额外的恶意数据,影响模型的训练过程,破坏模型的完整性从而达到降低模型在预测推理阶段准确性的目的。在模型的推理预测阶段,模型的完整性同样容易受到对抗样例攻击。在模型训练完成并用于预测时,攻击者只需要在待预测的样本中添加很小的扰动,这种扰动人眼无法识别但足以让模型分类出错。已有的研究提出了多种针对不同应用场景的对抗样例生成方法,针对不同攻击目标的对抗样例攻击也被广泛的应用到实际中。相对于对抗样例攻击,对抗样例攻击防御相关研究就要困难很多。目前大多数的防御算法都是一种静态的、只针对特定的对抗样例攻击的防御方法,没有一种统一的防御算法推荐和评估系统。
技术实现思路
针对机器学习模型中存在的安全与隐私问题以及对破坏机器学习模型完整性的对抗样例攻击的防御技术的不足,本专利技术提供了一种基于多种对抗样例攻击的智能防御算法推荐方法。本专利技术提供了如下技术方案:一种基于多种对抗样例攻击的智能防御算法推荐方法,包括以下步骤:(1)对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;(2)利用训练集训练目标识别模型,得到目标攻击模型;(3)选取不同的对抗样例攻击算法,根据训练集生成相应的对抗样例;采用所述的对抗样例攻击目标攻击模型,分别统计并记录攻击结果;(4)量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;(5)针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御,分别统计并记录每一对抗防御算法的防御效果分数;(6)根据防御结果向用户推荐相应的对抗攻击防御算法。本专利技术基于多种对抗样例攻击的智能防御算法推荐方法,在特定应用场景下,对针对特定任务(如人脸识别、物体识别、手写体识别等)而训练得到的机器学习模型可能遭受的对抗样例攻击提供一个整体的评估,并根据评估结果智能地向用户推荐防御算法,从而为用户的机器学习模型的安全保驾护航。一般场景下,用户在不同领域中收集的原始数据本身就可能存在噪音,在训练目标识别模型前,需要对噪音数据进行过滤,才能保证训练阶段训练所得模型的准确性。此外,在模型的学习阶段容易受到攻击者下毒攻击,攻击者利用对抗样例对训练数据进行下毒,从而干扰模型的训练过程进而影响模型在推理预测阶段的表现。所以,在训练目标识别模型之前需要对原始数据进行清洗,过滤原始数据集中已存在的对抗样例,为后续训练阶段训练得到高准确率的模型提供保障。优选的,步骤(1)中,对原始数据集中对抗样本的识别方法为:(1-1)利用ground-truth数据集训练生成对抗网络GR,学习ground-truth数据的概率分布;(1-2)利用对抗样例数据集训练生成对抗网络GA,学习对抗样例数据的概率分布;(1-3)将原始数据集中的原始数据样本Xt输入到生成对抗网络GR中,得到概率分布PR(Xt),并将概率转换成对应的似然将同一原始数据样本Xt输入到生成对抗网络GA中,得到概率分布PA(Xt),并将概率转换成对应的似然计算负对数似然比如果则原始数据样本Xt为干净样本,否则原始数据样本Xt为对抗样本。步骤(1-1)中,ground-truth数据集中不包含对抗样例。步骤(1-2)中,对抗样例数据集中的对抗样例可采用现有对抗样例生成方法生成。步骤(3)中,根据训练集生成的对抗样例数量与训练集中样本的数量相同。优选的,步骤(3)包括:(3-1)选取对抗样例攻击算法利用训练集中的训练样本X生成对抗样例X′,(3-2)分别利用对抗样例X′攻击目标攻击模型,得到对抗样例X′的分类结果如果与训练集的分类结果不同,则对抗样例X′对目标攻击模型攻击成功;(3-3)记录对目标攻击模型攻击成功的对抗样例X′的数量。步骤(3)中所述的对抗样例攻击算法为梯度下降法、牛顿法、BFGS算法、L-BFGS算法,快速梯度符号法(FastGradientSignMethod,FGSM法)、改进的速梯度符号法、雅可比显著图攻击方法(JacobianSaliencyMapAttack)、DeepFool或万能扰动法(UniversalPerturbations)。步骤(4)中,量化评估每种对抗样例攻击算法的攻击成功率的方法为:采用对抗样例攻击算法攻击目标攻击模型时,对抗数据集中对抗样例的数量为N,满足的对抗样例的数量为n,则对抗样例攻击算法的攻击成功率为步骤(4)中,用户根据对抗样例攻击算法的攻击成功率选择需要防御的目标攻击算法。步骤(5)中,所述的防御效果分数的计算方法为:计算应用对抗攻击防御算法进行防御后对抗样例攻击算法的攻击成功率tA′,则防御效果分数根据防御效果分数的高低,向用户推荐适用于目标攻击算法的最佳对抗攻击防御算法即可。步骤(5)中,所述的对抗攻击防御算法为防御蒸馏法(DefensiveDistillation)、对抗训练法(AdversarialTraining)、PCA美白法(PCAWhitening)、特征压缩法(Featuresqueezing)或生成对抗网络法(GenerativeAdversarialNetworks)。本专利技术还本文档来自技高网
...

【技术保护点】
1.一种基于多种对抗样例攻击的智能防御算法推荐方法,其特征在于,包括以下步骤:(1)对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;(2)利用训练集训练目标识别模型,得到目标攻击模型;(3)选取不同的对抗样例攻击算法,根据训练集生成相应的对抗样例;采用所述的对抗样例攻击目标攻击模型,分别统计并记录攻击结果;(4)量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;(5)针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御,分别统计并记录每一对抗防御算法的防御效果分数;(6)根据防御结果向用户推荐相应的对抗攻击防御算法。

【技术特征摘要】
1.一种基于多种对抗样例攻击的智能防御算法推荐方法,其特征在于,包括以下步骤:(1)对原始数据集进行清洗,剔除其中的对抗样本,得到训练集;(2)利用训练集训练目标识别模型,得到目标攻击模型;(3)选取不同的对抗样例攻击算法,根据训练集生成相应的对抗样例;采用所述的对抗样例攻击目标攻击模型,分别统计并记录攻击结果;(4)量化评估每种对抗样例攻击算法的攻击成功率,根据攻击成功率选择目标攻击算法;(5)针对每种目标攻击算法,逐一应用对抗攻击防御算法进行防御,分别统计并记录每一对抗防御算法的防御效果分数;(6)根据防御结果向用户推荐相应的对抗攻击防御算法。2.根据权利要求1所述的智能防御算法推荐方法,其特征在于,步骤(1)中,对原始数据集中对抗样本的识别方法为:(1-1)利用ground-tmth数据集训练生成对抗网络GR,学习ground-truth数据的概率分布;(1-2)利用对抗样例数据集训练生成对抗网络GA,学习对抗样例数据的概率分布;(1-3)将原始数据集中的原始数据样本Xt输入到生成对抗网络GR中,得到概率分布PR(Xt),并将概率转换成对应的似然将同一原始数据样本Xt输入到生成对抗网络GA中,得到概率分布PA(Xt),并将概率转换成对应的似然计算负对数似然比如果则原始数据样本Xt为干净样本,否则原始数据样本Xt为对抗样本。3.根据权利要求1或2所述的智能防御算法推荐方法,其特征在于,步骤(3)包括:(3-1)选取对抗样例攻击算法利用训练集中的训练样本X生成对抗样例X′,(3-2)分别利用对抗样例X′攻击目标攻击模型,得到对抗样例X′的分类结果如果与训练集的分类结果不同,则对抗样例X′对目标攻击模型攻击成功;(3-3)记录对目标攻击...

【专利技术属性】
技术研发人员:纪守领李进锋陈建海
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1