一种深度神经网络对抗样本评分方法技术

技术编号:34374750 阅读:12 留言:0更新日期:2022-07-31 12:55
本发明专利技术公开了一种深度神经网络对抗样本评分方法,提出了一种以黑盒方式评估对抗样本攻击效果的新方法,采取模糊综合评价方法,以一个名为对抗样本评分(Adversarial Examples Score,AES)的指数来评估和量化对抗样本攻击效果。具体包括计算对抗样本的可迁移性、不可察觉性、攻击成功率和标签偏移度,确定隶属度子集表,利用层次分析法确定各方面评价权重A,模糊综合评价矩阵,得到对抗样本评分指数。AES指数的输出是衡量对抗样本攻击效果的分数,可以用其来评估对抗样本对深度神经网络的危害性。性。性。

A scoring method of deep neural network against samples

【技术实现步骤摘要】
一种深度神经网络对抗样本评分方法


[0001]本专利技术涉及深度神经网络领域,具体涉及一种深度神经网络对抗样本评分方法。

技术介绍

[0002]全球范围内越来越多的政府和企业组织逐渐认识到人工智能在经济和战略上的重要性。深度神经网络是人工智能的核心研究领域之一。深度学习的应用已遍及人工智能的各个分支,如专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图像识别、故障诊断、自然语言理解、机器人和博弈等方面。深度神经网络技术已经渗透到人们日常生活的各个领域,同时也逐渐融入国家基础设施建设,因此,深度神经网络模型的安全关乎民生安全和国家安全。
[0003]深度神经网络技术在解决复杂任务方面取得了重大突破,然而,深度神经网络技术(尤其是人工神经网络和数据驱动人工智能)在训练或测试时极易受到对抗样本攻击,这些样本很容易颠覆机器学习技术的原定输出。例如,对于图像分类深度神经网络模型,可以通过在给定图像中添加一些扰动来生成对抗样本,这些对抗性图像从人眼中看不出与原图像的差异,但会被已知性能良好的深度神经网络模型错误分类,随着对抗性机器学习技术日趋先进复杂,且更新速度极快,深度神经网络模型面对对抗性攻击表现出极强的脆弱性。因此,有必要针对对抗样本的对抗效果、深度神经网络模型的模型性能、防御能力等方面进行评估,发现对抗样本对深度神经网络模型可能造成的安全隐患。根据对对抗样本的评估结果推荐提高模型安全性的防御策略,从而对提升深度神经网络模型的安全性。
[0004]现有的工作需要根据给定的神经网络是否能够正确分类对抗样本,以白盒方式评估对抗样本对目标神经网络的攻击效果。这种方法不稳定,随机性高。在许多机密性场景中,评估变得不切实际,因为评估者很难掌握深度学习模型的内部结构。
[0005]因此,需要一种评估对抗样本攻击效果的新方法。目前,还没有一个系统的、直观的指标来反映对抗样本对深度神经网络的攻击效果,也没有标准的体系来以黑盒的方式远程评估对抗样本的危害性。因此,本专利技术提出了一种深度神经网络对抗样本评分方法来评估和量化对抗样本的攻击效果。

技术实现思路

[0006]为了克服上述现有技术的存在的问题,本专利技术提出了一种深度神经网络对抗样本评分方法。本专利技术包括对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块、对抗样本评分计算模块。其中对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块分别计算对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度,对抗样本评分计算模块计算最后对抗样本的破坏能力总得分以评估和量化深度神经网络的脆弱性和对抗样本的危害性。
[0007]为了实现上述目的,本专利技术采用的技术方案是:一种深度神经网络对抗样本评分
方法,包括以下步骤:
[0008]步骤一,计算对抗样本的可迁移性、不可察觉性、攻击成功率和标签偏移度,所述对抗样本为图像对抗样本和/或文本对抗样本。
[0009]步骤二,确定隶属度子集表。
[0010]步骤三,利用层次分析法确定各方面评价权重A。
[0011]步骤四,模糊综合评价矩阵,得到对抗样本评分指数。
[0012]本专利技术的优点及有益效果如下:
[0013]本专利技术提出了一个对抗样本评分AES(Adversarial Examples Score)指数来评估针对图像和文本深度学习网络的对抗样本攻击效果。优点如下:
[0014]AES指数提供对抗样本攻击效果评估分数。在计算机视觉方面,图像对抗样本的应用场景存在于图像分类、人脸识别、图像语义分割、目标检测、自动驾驶等,在自然语言处理方面,文本对抗样本的应用场景有文本分类、机器翻译、文本摘要等。由于AES指数是通过整合不同因素(例如样本、对抗生成算法、深度神经网络模型)并分别针对图像样本、文本样本的特点设计的,因此AES指数不仅可以用来通用性地评估图像型对抗样本、文本型对抗样本对深度神经网络的危害性,还可以作为其他指标,例如参考指标评估和衡量目标模型的某一类样本的质量、衡量模型的脆弱性。
[0015]首先,AES指数可以用来量化不同对抗样本生成算法生成的对抗样本的质量以及对神经网络的攻击效果。借助AES指数,在获得不同对抗样本生成算法的特征和攻击效果后,从业者可以根据攻防场景中神经网络模型和样本的实际情况,选择最合适、最高效的对抗样本生成算法。例如在图像分类、人脸识别、机器翻译等应用场景下,借助AES指数,从业者可以更好地攻击和测试神经网络模型,还可以根据对对抗样本的评估结果推荐提高模型安全性的防御策略,从而对提升深度神经网络模型的安全性。
[0016]其次,AES指数可以作为所选训练样本质量的参考。对于目标神经网络,在给定当前训练样本的情况下,如果模型可以正确分类原始训练样本但不能正确分类对抗样本,这可能表明该模型需要进一步训练更多或更好质量的训练样本,以使模型足够健壮。
[0017]最后,AES指数可以用来衡量和评估模型的安全性和脆弱性。传统上,深度学习研究人员和实践者主要关注深度神经网络模型的性能,而忽略了安全性和漏洞。在图像识别、目标检测、自动驾驶、文本分类等领域,存在大量深度神经网络模型,但是缺乏对模型的安全性评估方案,借助AES指数,他们在尝试各种深度神经网络模型的同时,还可以衡量模型的安全性。这将使从业者能够确定要使用的最佳深度神经网络模型,甚至可以通过新的漏洞问题改进模型。
附图说明
[0018]图1为本专利技术提供深度学习模型对抗样本生成示例图;
[0019]图2为本专利技术对抗样本可迁移性算法流程图;
[0020]图3为本专利技术计算LO指数算法流程图;
[0021]图4为本专利技术对抗样本评分AES计算流程图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本专利技术的一部分实施例。
[0023]本专利技术解决上述技术问题的技术方案是:
[0024]参照图1

图4,本专利技术具体实施例中包含对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块、对抗样本评分计算模块。其中对抗样本可迁移性计算模块、对抗样本不可察觉性计算模块、对抗样本攻击成功率计算模块、对抗样本标签偏移度计算模块分别计算对抗样本的可迁移性、不可察觉性、攻击成功率、标签偏移度,对抗样本评分计算模块计算最后对抗样本的破坏能力总得分以评估和量化深度神经网络的脆弱性和对抗样本的危害性。
[0025]1、计算可迁移性
[0026]如图2所示可迁移性代表了一种方法所生成的对抗样本在不同的深度学习模型下保持一定对抗性的能力,它代表着对抗样本的适用范围。对抗样本存在一定的可迁移性主要是由于深度学习模型分类器具有以下特征,称为判别模型。当使用判别模型来解决分类问题时,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度神经网络对抗样本评分方法,其特征在于,包括以下步骤:步骤一,计算对抗样本的可迁移性、不可察觉性、攻击成功率和标签偏移度,所述对抗样本为图像对抗样本和/或文字对抗样本;步骤二,确定隶属度子集表;步骤三,利用层次分析法确定各方面评价权重A;步骤四,模糊综合评价矩阵,得到对抗样本评分指数。2.根据权利要求1所述一种深度神经网络对抗样本评分方法,其特征在于:所述计算对抗样本的可迁移性的步骤包括:步骤1:M
N
是一组用于评价的神经网络模型,基于待评价的对抗样本生成算法a对目标神经网络模型M1生成对抗样本a
c
;步骤2:重新训练目标神经网络模型M1,使用对抗样本a
c
对其进行测试,得到识别准确率AR1;步骤3:训练神经网络模型M
i
(i=2,3,...N),使用对抗样本a
c
对其进行测试,得到AR
i
,直到i>N,N表示测试神经网络模型的数量;步骤4:计算对抗样本的可迁移性Tf,计算公式为3.根据权利要求1所述一种深度神经网络对抗样本评分方法,其特征在于:所述计算不可察觉性包括计算图像对抗样本的不可察觉性和计算文字对抗样本的不可察觉性;所述计算图像对抗样本的不可察觉性为:p范数L
p
计算干净图像x与产生的图像对抗样本x

之间的输入空间的距离||x

x

||
p
,其中p∈{0,1,2,∞},具体距离计算公式如下所示:所述计算文字对抗样本的不可察觉性为:采取语言模型困惑度的得分判断语句扰动大小和语义真实性,困惑度越小,文本对抗样本的不可察觉性越高,文本对抗样本的困惑度PP(w)的计算公式如下:其中,w
i
表示词语序列w1,w2,...,w
i
‑1中的第i个词,N表示词的总数量,p(w
i
|w1,w2,...,w
i
‑1)表示在给定一句话的前i

1个词,语言模型可以预测第i个词可能出现的概率分布,句子概率越大,语言模型越好,迷惑度越小。4.根据权利要求1所述一种深度神经网络对抗样本评分方法,其特征在于:所述计算攻击成功率包括:对于定向攻击,攻击成功率的计算公式为:其中,a表示对抗样本生成算法,f表示目标模型的分类算法,是定向攻击的目标类
型,N表示样本数量,x
i
是第i个原始样本,a(x
i
)表示样本x
i
在算法...

【专利技术属性】
技术研发人员:陈龙艾锐欧阳柳
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1