基于多种对抗样例攻击的智能防御算法推荐方法及系统技术方案

技术编号：18972840 阅读：32 留言：0更新日期：2018-09-19 03:49

本发明专利技术公开了一种基于多种对抗样例攻击的智能防御算法推荐方法，包括以下步骤：对原始数据集进行清洗，得到训练集；利用训练集训练目标识别模型，得到目标攻击模型；选取不同的对抗样例攻击算法，攻击目标攻击模型；量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；针对每种目标攻击算法，逐一应用对抗攻击防御算法进行防御；根据防御结果向用户推荐相应的对抗攻击防御算法。本发明专利技术还公开了智能防御算法推荐方法所采用的智能防御算法推荐系统。针对具体的目标模型，本发明专利技术的智能防御算法推荐系统可以智能的推荐有效的防御算法，从而减小对抗样例攻击给目标模型造成的损失。

全部详细技术资料下载

【技术实现步骤摘要】
基于多种对抗样例攻击的智能防御算法推荐方法及系统
本专利技术涉及机器学习模型安全与隐私问题中存在的对抗样例攻击和防御的安全
，尤其涉及一种基于多种对抗样例攻击的智能防御算法推荐方法及系统。
技术介绍
机器学习是人工智能的核心，近年来机器学习得到了前所未有的发展，其应用遍及人工智能的各个领域。尤其是在数据挖掘、计算机视觉、自然语言处理、语音和手写体识别、无人驾驶等领域，机器学习的应用取得了巨大的成功。现如今，无论是在学术界还是在工业界，机器学习都受到了广泛的关注和深入的研究。机器学习的发展已经进入了一个全新的阶段，各种机器学习算法和模型层出不穷，在很多场景下，当呈现自然发生的输入时，其表现甚至胜过了人类。当然，机器学习还并没有达到人类的真正水平，因为即使面对一个微不足道的攻击，大多数机器学习算法都会失败。然而，大多数的研究者并没有考虑这个问题。通常在设计机器学习系统时，为了保证设计的系统是安全的、可信赖的并且结果能达到预期效果，我们通常会考虑特定的威胁模型，这些模型是对那些企图使我们的机器学习系统出错的攻击者的攻击能力和攻击目标的假设。迄今为止，现有大多数的机器学习模型都是针对一个非常弱的威胁模型设计实现的，没有过多的考虑攻击者。尽管在面对自然的输入时，这些模型能有非常完美的表现，但在现实环境下，这些机器学习模型会遇到大量的恶意用户甚至是攻击者。例如，当模型被训练(学习阶段)或者模型进行预测时(推理阶段)时，攻击者也有不同程度的能力对模型的输入、输出做出恶意的修改或者是通过某种手段访问模型的内部构件，窃取模型的参数，从而破坏模型的保密性、完整性和可用性...

【技术保护点】
1.一种基于多种对抗样例攻击的智能防御算法推荐方法，其特征在于，包括以下步骤：(1)对原始数据集进行清洗，剔除其中的对抗样本，得到训练集；(2)利用训练集训练目标识别模型，得到目标攻击模型；(3)选取不同的对抗样例攻击算法，根据训练集生成相应的对抗样例；采用所述的对抗样例攻击目标攻击模型，分别统计并记录攻击结果；(4)量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；(5)针对每种目标攻击算法，逐一应用对抗攻击防御算法进行防御，分别统计并记录每一对抗防御算法的防御效果分数；(6)根据防御结果向用户推荐相应的对抗攻击防御算法。

【技术特征摘要】
1.一种基于多种对抗样例攻击的智能防御算法推荐方法，其特征在于，包括以下步骤：(1)对原始数据集进行清洗，剔除其中的对抗样本，得到训练集；(2)利用训练集训练目标识别模型，得到目标攻击模型；(3)选取不同的对抗样例攻击算法，根据训练集生成相应的对抗样例；采用所述的对抗样例攻击目标攻击模型，分别统计并记录攻击结果；(4)量化评估每种对抗样例攻击算法的攻击成功率，根据攻击成功率选择目标攻击算法；(5)针对每种目标攻击算法，逐一应用对抗攻击防御算法进行防御，分别统计并记录每一对抗防御算法的防御效果分数；(6)根据防御结果向用户推荐相应的对抗攻击防御算法。2.根据权利要求1所述的智能防御算法推荐方法，其特征在于，步骤(1)中，对原始数据集中对抗样本的识别方法为：(1-1)利用ground-tmth数据集训练生成对抗网络GR，学习ground-truth数据的概率分布；(1-2)利用对抗样例数据集训练生成对抗网络GA，学习对抗样例数据的概率分布；(1-3)将原始数据集中的原始数据样本Xt输入到生成对抗网络GR中，得到概率分布PR(Xt)，并将概率转换成对应的似然将同一原始数据样本Xt输入到生成对抗网络GA中，得到概率分布PA(Xt)，并将概率转换成对应的似然计算负对数似然比如果则原始数据样本Xt为干净样本，否则原始数据样本Xt为对抗样本。3.根据权利要求1或2所述的智能防御算法推荐方法，其特征在于，步骤(3)包括：(3-1)选取对抗样例攻击算法利用训练集中的训练样本X生成对抗样例X′，(3-2)分别利用对抗样例X′攻击目标攻击模型，得到对抗样例X′的分类结果如果与训练集的分类结果不同，则对抗样例X′对目标攻击模型攻击成功；(3-3)记录对目标攻击...

【专利技术属性】
技术研发人员：纪守领，李进锋，陈建海，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人