【技术实现步骤摘要】
深度神经网络鲁棒性评估方法和调优方法
[0001]本公开涉及一种深度学习领域,尤其涉及一种深度神经网络鲁棒性评估方法和调优方法。
技术介绍
[0002]近年来,深度神经网络(DNN)业已取得重大进展,成为诸多行业的核心技术。但许多研究表明,深度神经网络对于对抗攻击十分脆弱。具体来说,对抗性攻击可以通过使用在普通样本上增加轻微的精心设计的敌对噪声而制作的对抗样本来欺骗深度神经网络,使得深度神经网络产生推测错误。深度神经网络的脆弱性成为其部署在例如自动驾驶、医疗等高安全性要求的场景的主要约束。由于对抗攻击能够暴露深度神经网络的盲点,因此开发一种有效且高效的针对对抗性攻击的DNN鲁棒性方法已成为深度学习安全领域的一项基本任务。
技术实现思路
[0003]本公开要解决的一个技术问题是提供一种对抗攻击评估方法,能够有效且高效地评估DNN对于对抗性攻击的真实鲁棒性。该方法通过在给定的攻击成功率(ASR)下搜索最小扰动,避免了现有技术中为不同的数据集设置不同扰动预算的需要,并且可以通过为一个图片样本获取一个最小扰动值来大幅 ...
【技术保护点】
【技术特征摘要】
1.一种深度神经网络鲁棒性评估方法,包括:确定针对目标深度神经网络进行对抗性攻击的攻击成功率;向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本;获取所述目标图片原始样本与所述目标图片对抗样本之间距离的初始值;调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动;以及基于所述最小扰动,评估所述目标深度神经网络针对对抗性攻击的鲁棒性。2.如权利要求1所述的方法,其中,所述距离包括所述目标图片原始样本与所述目标图片对抗样本之间的人类可感知距离,所述目标图片原始样本和所述目标图片对抗样本被映射至色差空间以求取所述人类可感知距离。3.如权利要求1所述的方法,还包括:使用攻击有效性指标表征所述攻击成功率,所述攻击有效性指标至少包括如下至少一项:基于所述目标图片原始样本的真实标签惩罚所述目标深度神经网络输出的攻击有效性指标;在所述最小扰动搜索过程中隐式调整步长的攻击有效性指标;以及融合所述目标深度神经网络分类信息的攻击有效性指标。4.如权利要求1所述的方法,其中,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第一初始扰动以获取所述目标图片初始对抗样本,其中,所述第一初始扰动使得所述初始的目标图片对抗样本被所述目标神经网络错误分类;并且,调整所述初始扰动以获取满足所述攻击成功率且使得所述距离最小的最小扰动包括:通过迭代计算求取所述最小扰动,其中,每个迭代轮次都使得扰动朝向所述人类可感知距离减小最多的方向移动。5.如权利要求1所述的方法,其中,向目标图片原始样本添加初始扰动以获取初始的目标图片对抗样本包括:向所述目标图片原始样本添加第二初始扰动以获取所述初始的目标图片对抗样本,其中,所述第二初始扰动为全零向量;以及通过迭代计算求取最小扰动,其中,每个迭代轮次都使得扰动值朝向使得所述目标图片对抗样本被所述目标神经网络错误分类的方...
【专利技术属性】
技术研发人员:范洺源,周文猛,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。