检测对抗攻击的方法和装置制造方法及图纸

技术编号:36577246 阅读:13 留言:0更新日期:2023-02-04 17:35
本申请涉及人工智能领域,提供了一种检测对抗攻击的方法和装置,利用分类结果判定输入样本是否为对抗样本,从而避免对抗攻击,保证分类结果的准确性。该方法包括:获取分类模型的输入样本、输入样本对应的第一分类结果和分类模型的多种分类标签;根据输入样本和多种分类标签生成多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应;获取多个恢复样本中每个恢复样本与输入样本的距离,与所述输入样本距离最小的恢复样本为第一恢复样本;根据第一恢复样本对应的分类标签和第一分类结果判断输入样本为对抗样本或非对抗样本。抗样本或非对抗样本。抗样本或非对抗样本。

【技术实现步骤摘要】
检测对抗攻击的方法和装置


[0001]本申请涉及人工智能领域,并且更具体地,涉及一种检测对抗攻击的方法和装置。

技术介绍

[0002]深度学习技术在图像识别、自然语言处理、语音处理等领域得到广泛应用,成为自动驾驶、安保监控等视觉领域的主力,然而人工智能系统在面临对抗样本的攻击时存在巨大的安全隐患。对抗样本攻击是指通过对输入的样本(图像等)添加扰动,通常这样的扰动很小而无法被人类察觉,但会导致神经网络模型错误识别和分类,为深度学习的实践造成巨大威胁,例如图1中的(a)图被神经网络模型识别为“大熊猫”,同时置信度为57.7%,在加上(b)图中的一定噪声后得到(c)图,在人类肉眼看来,(c)图和(a)图并没有什么区别,但是神经网络模型则会将(c)图识别为“长臂猿”,且置信度高达99.3%。在实际应用场景中,对抗样本攻击可能带来安全问题,例如在人脸识别中,攻击者可以使用对抗样本绕开验证,从而获得本来无法获得的权限;在无人驾驶系统中,攻击者可以对自动驾驶的车辆前方的图像进行对抗样本攻击,使得无人驾驶系统对于交通指示标志等信息获取有误,从而造成无人驾驶系统失效等灾难性后果。

技术实现思路

[0003]本申请提供一种检测对抗攻击的方法和装置,利用分类结果判定输入样本是否为对抗样本,从而避免对抗攻击,保证分类结果的准确性。
[0004]第一方面,提供了一种检测对抗攻击的方法,包括:获取分类模型的输入样本、输入样本对应的第一分类结果和分类模型的多种分类标签;根据输入样本和多种分类标签生成多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应;获取多个恢复样本中每个恢复样本与输入样本的距离,与所述输入样本距离最小的恢复样本为第一恢复样本;根据第一恢复样本对应的分类标签和第一分类结果判断输入样本为对抗样本或非对抗样本。
[0005]本申请的检测对抗攻击的方法利用分类结果验证分类是否正确,从而判断输入样本是否为对抗样本,以此避免对抗攻击,保证分类结果的准确性。本申请实施例的检测对抗攻击的方法只需针对分类模型的训练集进行训练,而不需要重新训练分类模型,工作量小,且可以适用于各种分类模型。此外,本申请实施例的检测对抗攻击的方法还可以与其他现有的防御对抗攻击的方法联合使用,例如可以使用现有的方法先对输入样本进行降噪处理,然后再利用本申请的方法进行对抗攻击的检测。
[0006]结合第一方面,在第一方面的某些实现方式中,在根据输入样本和多种分类标签生成多个恢复样本之前,该方法还包括:根据输入样本和第一分类结果生成第一分类结果的第二恢复样本;计算输入样本与第二恢复样本的距离;判断输入样本与第二恢复样本的距离小于第一阈值。
[0007]本申请的检测对抗攻击的方法在根据输入样本和多种分类标签生成多个恢复样
本之前,还可以先进行初步的检测。即只根据输入样本的分类结果检测输入样本是否为对抗样本,如果输入样本与第二恢复样本的距离大于或等于第一阈值,则直接判定该输入样本为对抗样本,可以不必再进行后续检测,从而节约计算量;如果输入样本与第二恢复样本的距离小于第一阈值,此时还不足以判定该输入样本是非对抗样本,因此再根据分类模型的多个分类标签生成的恢复样本进行判定。
[0008]结合第一方面,在第一方面的某些实现方式中,该方法还包括:当输入样本与第二恢复样本的距离大于或等于第一阈值时,判断输入样本为对抗样本,。
[0009]结合第一方面,在第一方面的某些实现方式中,根据输入样本和多种分类标签生成多个恢复样本,包括:将输入样本和多种分类标签中的每种分类标签输入条件编码器,以得到潜空间向量;将潜空间向量和多种分类标签中的每种分类标签输入条件解码器,以得到多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应。
[0010]本申请中生成恢复样本的方法可以通过现有的任何具有条件编码器和条件解码器的结构来实现,例如条件变分自动编码器(conditional auto encoder,CVAE)中的条件编码器和条件解码器部分,或者条件生成对抗网络(CVAE

generative adversarial networks,CVAE

GAN)中的条件编码器和条件解码器部分,无需对条件编码器和条件解码器进行额外的训练,容易实现。
[0011]结合第一方面,在第一方面的某些实现方式中,根据第一恢复样本对应的分类标签和第一分类结果判定输入样本为对抗样本或非对抗样本,包括:第一恢复样本对应的分类标签和第一分类结果相同,则输入样本为非对抗样本;第一恢复样本对应的分类标签和第一分类结果不相同,则输入样本为对抗样本。
[0012]结合第一方面,在第一方面的某些实现方式中,输入样本为对抗样本时,方法还包括:判断第一恢复样本与输入样本的距离小于第二阈值;将第一恢复样本对应的分类标签作为输入样本的正确分类结果。
[0013]在判定输入样本为对抗样本时,本申请的方法还可以将第一恢复样本对应的分类标签作为输入样本的正确分类结果,但在此之前,还需要判断第一恢复样本与输入样本的距离小于第二阈值,这是因为第一恢复样本只是多个恢复样本中与输入样本距离最小的恢复样本,并不一定是与输入样本相同的样本,只有当第一恢复样本与输入样本的距离足够小时(小于预设第二阈值),才能确定第一恢复样本为与输入样本相同的样本,从而将第一恢复样本对应的标签作为输入样本的正确分类结果。
[0014]第二方面,提供了一种检测对抗攻击的装置,包括:获取单元,获取分类模型的输入样本、输入样本对应的第一分类结果和分类模型的多种分类标签;处理单元,用于根据输入样本和多种分类标签生成多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应;处理单元还用于,获取多个恢复样本中每个恢复样本与输入样本的距离,与所述输入样本距离最小的恢复样本为第一恢复样本;处理单元还用于,根据第一恢复样本对应的分类标签和第一分类结果判断输入样本为对抗样本或非对抗样本。
[0015]结合第二方面,在第二方面的某些实现方式中,处理单元根据输入样本和多种分类标签生成多个恢复样本之前,处理单元还用于:根据输入样本和第一分类结果生成第一分类结果的第二恢复样本;计算输入样本与第二恢复样本的距离;判断输入样本与第二恢
复样本的距离小于第一阈值。
[0016]结合第二方面,在第二方面的某些实现方式中,处理单元还用于:当输入样本与第二恢复样本的距离大于或等于第一阈值时,判断输入样本为对抗样本。
[0017]结合第二方面,在第二方面的某些实现方式中,处理单元根据输入样本和多种分类标签生成多个恢复样本,包括:将输入样本和多种分类标签中的每种分类标签输入条件编码器,以得到潜空间向量;将潜空间向量和多种分类标签中的每种分类标签输入条件解码器,以得到多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应。
[0018]结合第二方面,在第二方面的某些实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测对抗攻击的方法,其特征在于,包括:获取分类模型的输入样本、所述输入样本对应的第一分类结果和所述分类模型的多种分类标签;根据所述输入样本和所述多种分类标签生成多个恢复样本,所述多种分类标签中的每种分类标签与所述多个恢复样本中的每个恢复样本一一对应;获取所述多个恢复样本中每个恢复样本与所述输入样本的距离,与所述输入样本距离最小的恢复样本为第一恢复样本;根据所述第一恢复样本对应的分类标签和所述第一分类结果判断所述输入样本为对抗样本或非对抗样本。2.根据权利要求1所述的方法,其特征在于,所述根据所述输入样本和所述多种分类标签生成多个恢复样本之前,所述方法还包括:根据所述输入样本和所述第一分类结果生成所述第一分类结果的第二恢复样本;计算所述输入样本与所述第二恢复样本的距离;判断所述输入样本与所述第二恢复样本的距离小于第一阈值。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述输入样本与所述第二恢复样本的距离大于或等于第一阈值时,判断所述输入样本为对抗样本。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述输入样本和所述多种分类标签生成多个恢复样本,包括:将所述输入样本和所述多种分类标签中的每种分类标签输入条件编码器,以得到潜空间向量;将所述潜空间向量和所述多种分类标签中的每种分类标签输入条件解码器,以得到多个恢复样本,所述多种分类标签中的每种分类标签与所述多个恢复样本中的每个恢复样本一一对应。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第一恢复样本对应的分类标签和所述第一分类结果判定所述输入样本为对抗样本或非对抗样本,包括:所述第一恢复样本对应的分类标签和所述第一分类结果相同,则所述输入样本为非对抗样本;所述第一恢复样本对应的分类标签和所述第一分类结果不相同,则所述输入样本为对抗样本。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述输入样本为对抗样本时,所述方法还包括:判断所述第一恢复样本与所述输入样本的距离小于第二阈值;将所述第一恢复样本对应的分类标签作为所述输入样本的正确分类结果。7.一种检测对抗攻击的装置,其特征在于,包括:获取单元,获取分类模型的输入样本、所述输入样本对应的第一分类结果和所述分类模型的多种分类标签;处理单元,用于根据所述输入样本和所述多种分类标签生成多个恢复样本,所述多种分类标签中的每种分类标签与所述多个恢复样本中的每...

【专利技术属性】
技术研发人员:艾超吴瑾
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1