人工智能行为体安全攻击方法和系统技术方案

技术编号：38351413 阅读：10 留言：0更新日期：2023-08-05 17:24

本申请涉及一种人工智能行为体安全攻击方法和系统，其中方法包括：获取人工智能行为体中目标模型的攻击指定输出结果，根据所述攻击指定输出结果，确定输入的正常样本集合，所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果；对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，并将所述有毒样本添加至所述正常样本集合中，得到真实样本集合；获取高斯噪声，基于所述真实样本集合和所述高斯噪声，对所述目标模型进行攻击训练。本申请具有使人工智能行为体的攻击训练效果较好的效果。练效果较好的效果。练效果较好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
人工智能行为体安全攻击方法和系统

[0001]本申请涉及计算机
，具体涉及人工智能行为体安全攻击方法和系统。

技术介绍

[0002]随着人工智能技术的日益普及，人工智能行为体中的深度学习模型的安全性和可靠性问题也在逐步暴露，引起了学术界和工业界的广泛关注。对于深度学习模型，最不可忽略的安全性问题就是对抗样本，对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本。
[0003]对抗样本的攻击使深度学习模型的性能下降，导致深度学习模型以高置信度给出的一个错误的输出。攻击者往往利用对抗攻击以诱导各场景下部署的人工智能行为体，威胁其安全的运行。因此通过对抗样本对深度学习模型进行攻击训练，有助于提高深度学习模型的鲁棒性、提升深度学习模型的安全系数以及减少深度学习模型的错误输出。
[0004]目前，攻击训练强度的限制上仅约束扰动的数量，远远不能达到攻击不被察觉的效果，导致对抗样本的攻击能轻易被目前的防御手段检测出来，而丧失攻击训练的效果。

技术实现思路

[0005]为了使人工智能行为体的攻击训练效果较好，本申请提供一种人工智能行为体安全攻击方法和系统。
[0006]在本申请的第一方面提供了一种人工智能行为体安全攻击方法，具体包括：获取人工智能行为体中目标模型的攻击指定输出结果，根据所述攻击指定输出结果，确定输入的正常样本集合，所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果；对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，并将所述有毒样本添加至所述正常...

【技术保护点】

【技术特征摘要】
1.一种人工智能行为体安全攻击方法，其特征在于，所述方法包括：获取人工智能行为体中目标模型的攻击指定输出结果，根据所述攻击指定输出结果，确定输入的正常样本集合，所述攻击指定输出结果为待攻击样本输入所述目标模型指定输出的结果；对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，并将所述有毒样本添加至所述正常样本集合中，得到真实样本集合，所述有毒样本为所述待攻击样本的细微干扰；获取高斯噪声，基于所述真实样本集合和所述高斯噪声，对所述目标模型进行攻击训练。2.根据权利要求1所述的人工智能行为体安全攻击方法，其特征在于，所述获取人工智能行为体中目标模型的攻击指定输出结果，根据所述攻击指定输出结果，确定正常样本集合，具体包括：获取人工智能行为体中目标模型的攻击指定输出结果，确定所述攻击指定输出结果对应的输入样本；从所述输入样本中筛选所述攻击指定输出结果对应的正常样本集合。3.根据权利要求1所述的人工智能行为体安全攻击方法，其特征在于，所述对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，具体包括：根据预设的第一公式对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，其中，第一公式为：式中，p表示有毒样本，t表示待攻击样本，α表示系数因子，b表示正常样本，f()表示目标函数，x表示目标函数进行最小化的参数，argmin表示使目标函数取最小值时的变量值。4.根据权利要求1所述的人工智能行为体安全攻击方法，其特征在于，所述对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，具体包括：在所述人工智能行为体存在数据预处理的情况下，根据预设的第二公式对所述正常样本集合中任一个正常样本进行修改，得到有毒样本，其中，第二公式为：式中，表示人工智能行为体的数据预处理，p表示有毒样本，t表示待攻击样本，α表示系数因子，b表示正常样本，f()表示目标函数，x表示目标函数进行最小化的参数，argmin表示使目标函数取最小值时的变量值。5.根据权利要求1所述的人工智能行为体安全攻击方法，其特征在于，所述获取高斯噪声，基于所述真实样本集合和所述高斯噪声，对所述目标模型进行攻击训练，具体包括：获取高斯噪声，将所述高斯噪声输入至生成器，并通过第一损失函数进行约束，得到触发器；将所述触发器添加至所述真实样本集合，得到混合样本；将所述混合样本和所述真实样本集合分别输入至判别器，并通过第二损失函数进行约束，得到对应的输出结果，所述判别器用于判别输入的样本是否为真实样本；根据各所述输出结果和所述生成器，确定目标生成器；将所述...

【专利技术属性】
技术研发人员：管耀华，殷光强，王治国，常益凡，肖林，刘学婷，
申请(专利权)人：电子科技大学深圳高等研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人