人工智能行为体安全攻击方法和系统技术方案

技术编号:38351413 阅读:10 留言:0更新日期:2023-08-05 17:24
本申请涉及一种人工智能行为体安全攻击方法和系统,其中方法包括:获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定输入的正常样本集合,所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果;对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,并将所述有毒样本添加至所述正常样本集合中,得到真实样本集合;获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练。本申请具有使人工智能行为体的攻击训练效果较好的效果。练效果较好的效果。练效果较好的效果。

【技术实现步骤摘要】
人工智能行为体安全攻击方法和系统


[0001]本申请涉及计算机
,具体涉及人工智能行为体安全攻击方法和系统。

技术介绍

[0002]随着人工智能技术的日益普及,人工智能行为体中的深度学习模型的安全性和可靠性问题也在逐步暴露,引起了学术界和工业界的广泛关注。对于深度学习模型,最不可忽略的安全性问题就是对抗样本,对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本。
[0003]对抗样本的攻击使深度学习模型的性能下降,导致深度学习模型以高置信度给出的一个错误的输出。攻击者往往利用对抗攻击以诱导各场景下部署的人工智能行为体,威胁其安全的运行。因此通过对抗样本对深度学习模型进行攻击训练,有助于提高深度学习模型的鲁棒性、提升深度学习模型的安全系数以及减少深度学习模型的错误输出。
[0004]目前,攻击训练强度的限制上仅约束扰动的数量,远远不能达到攻击不被察觉的效果,导致对抗样本的攻击能轻易被目前的防御手段检测出来,而丧失攻击训练的效果。

技术实现思路

[0005]为了使人工智能行为体的攻击训练效果较好,本申请提供一种人工智能行为体安全攻击方法和系统。
[0006]在本申请的第一方面提供了一种人工智能行为体安全攻击方法,具体包括:获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定输入的正常样本集合,所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果;对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,并将所述有毒样本添加至所述正常样本集合中,得到真实样本集合,所述有毒样本为所述待攻击样本的细微干扰;获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练。
[0007]通过采用上述技术方案,确定待攻击样本后,为了使得输入待攻击样本后,人工智能行为体会输出对应的攻击指定输出结果,因此以此攻击指定输出结果为结果导向,确定输入后人工智能行为体同样输出攻击指定输出结果的正常样本集合,即没有受到攻击干扰的样本。接着从正常样本集合中任意选取一个正常样本做出微小修改,得到不同于正常样本的有毒样本,同时将有毒样本混入至正常样本集合中,得到真实样本集合,使得真实样本集合对待攻击样本造成干扰。最后再将真实样本集合中添加高斯噪声对应的干扰后,对人为智能行为体中的目标模型进行攻击训练,使得人工智能行为体的攻击训练效果较好。
[0008]可选的,所述获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定正常样本集合,具体包括:获取人工智能行为体中目标模型的攻击指定输出结果,确定所述攻击指定输出结果对应的输入样本;
从所述输入样本中筛选所述攻击指定输出结果对应的正常样本集合。
[0009]通过采用上述技术方案,确定攻击指定输出结果后,根据攻击指定输出结果溯源查找出人工智能行为体对应的输入样本,由于输入样本中可能存在误判的不正常样本,因此从输入样本中筛选出正常样本集合,即输入正常样本集合中的正常样本到人工智能行为体中正常输出攻击指定输出结果,从而方便后续人工智能行为体不能区分待攻击样本和正常样本,达到输入待攻击样本人工智能行为体误判输出攻击指定输出结果。
[0010]可选的,所述对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,具体包括:根据预设的第一公式对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,其中,第一公式为:式中,p表示有毒样本,t表示待攻击样本,α表示系数因子,b表示正常样本,f()表示目标函数,x表示目标函数进行最小化的参数,argmin表示使目标函数取最小值时的变量值。
[0011]通过采用上述技术方案,确定正常样本集合后,从中选取一个正常样本进行修改,将目标函数f()进行最小化的参数x、待攻击样本t和正常样本集合中的正常样本b输入至第一公式中,得到使目标函数取最小值的变量值,即有毒样本p,从而使得输入有毒样本p至人工智能行为体中的输出结果与输入待攻击样本的输出结果尽可能一致,进一步对待攻击样本造成干扰。
[0012]可选的,所述对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,具体包括:在所述人工智能行为体存在数据预处理的情况下,根据预设的第二公式对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,其中,第二公式为:式中,表示人工智能行为体的数据预处理,p表示有毒样本,t表示待攻击样本,α表示系数因子,b表示正常样本,f()表示目标函数,x表示目标函数进行最小化的参数,argmin表示使目标函数取最小值时的变量值。
[0013]通过采用上述技术方案,正常样本集合确定后,从中选取一个正常样本进行修改得到有毒样本,由于样本数据输入至人工智能行为体之前存在样本数据预处理的环节,因此在确定有毒样本时需将此情况考虑在内,主要是将目标函数进行最小化的参数先输入至数据预处理对应的函数中,得到的结果再输入至目标函数f()中,最终通过第二公式确定有毒样本,避免数据预处理对有毒样本制作造成影响。
[0014]可选的,所述获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练,具体包括:获取高斯噪声,将所述高斯噪声输入至生成器,并通过第一损失函数进行约束,得到触发器;将所述触发器添加至所述真实样本集合,得到混合样本;将所述混合样本和所述真实样本集合分别输入至判别器,并通过第二损失函数进行约束,得到对应的输出结果,所述判别器用于判别输入的样本是否为真实样本;
根据各所述输出结果和所述生成器,确定目标生成器;将所述高斯噪声输入至所述目标生成器,得到目标触发器,所述判别器无法区分所述目标触发器和所述真实样本集合;将所述目标触发器和所述真实样本集合输入至所述目标模型,并采用第三损失函数进行约束,以对所述目标模型进行攻击训练。
[0015]通过采用上述技术方案,真实样本集合中确定后,输入高斯噪声至生成器,生成器生成触发器,即真实样本集合对应的细微干扰,并将触发器和真实样本集合混合得到混合样本。接着将混合样本和真实样本集合分别输入至判别器,由判别器判别是否为真实样本,得到输出结果,根据输出结果对生成器进行调整得到目标生成器,从而使得目标生成器生成的目标触发器与真实样本集合无法被判别器区分,说明此时目标触发器与真实样本集合中的真实样本无限接近。最后将目标触发器和真实样本集合输入至人工智能行为体中的目标模型,实现区分难度较大的目标触发器和真实样本集合对目标模型进行攻击训练,进而使人工智能行为体的攻击训练效果较好。
[0016]可选的,所述根据各所述输出结果和所述生成器,确定目标生成器,具体包括:根据各输出结果确定所述判别器是否区分所述触发器和所述真实样本集合,若是,则对所述生成器进行调整,直到所述判别器未区分所述触发器和所述真实样本集合,将调整后的生成器确定为目标生成器;若否,则将所述生成器确定为目标生成器。
[0017]通过采用上述技术方案,真实样本集合和混合样本对应的输出结果确定后,如果输出结果表明真实样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人工智能行为体安全攻击方法,其特征在于,所述方法包括:获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定输入的正常样本集合,所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果;对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,并将所述有毒样本添加至所述正常样本集合中,得到真实样本集合,所述有毒样本为所述待攻击样本的细微干扰;获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练。2.根据权利要求1所述的人工智能行为体安全攻击方法,其特征在于,所述获取人工智能行为体中目标模型的攻击指定输出结果,根据所述攻击指定输出结果,确定正常样本集合,具体包括:获取人工智能行为体中目标模型的攻击指定输出结果,确定所述攻击指定输出结果对应的输入样本;从所述输入样本中筛选所述攻击指定输出结果对应的正常样本集合。3.根据权利要求1所述的人工智能行为体安全攻击方法,其特征在于,所述对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,具体包括:根据预设的第一公式对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,其中,第一公式为:式中,p表示有毒样本,t表示待攻击样本,α表示系数因子,b表示正常样本,f()表示目标函数,x表示目标函数进行最小化的参数,argmin表示使目标函数取最小值时的变量值。4.根据权利要求1所述的人工智能行为体安全攻击方法,其特征在于,所述对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,具体包括:在所述人工智能行为体存在数据预处理的情况下,根据预设的第二公式对所述正常样本集合中任一个正常样本进行修改,得到有毒样本,其中,第二公式为:式中,表示人工智能行为体的数据预处理,p表示有毒样本,t表示待攻击样本,α表示系数因子,b表示正常样本,f()表示目标函数,x表示目标函数进行最小化的参数,argmin表示使目标函数取最小值时的变量值。5.根据权利要求1所述的人工智能行为体安全攻击方法,其特征在于,所述获取高斯噪声,基于所述真实样本集合和所述高斯噪声,对所述目标模型进行攻击训练,具体包括:获取高斯噪声,将所述高斯噪声输入至生成器,并通过第一损失函数进行约束,得到触发器;将所述触发器添加至所述真实样本集合,得到混合样本;将所述混合样本和所述真实样本集合分别输入至判别器,并通过第二损失函数进行约束,得到对应的输出结果,所述判别器用于判别输入的样本是否为真实样本;根据各所述输出结果和所述生成器,确定目标生成器;将所述...

【专利技术属性】
技术研发人员:管耀华殷光强王治国常益凡肖林刘学婷
申请(专利权)人:电子科技大学深圳高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1