多类型映射的神经网络后门风险评估方法、系统及设备技术方案

技术编号：34845885 阅读：10 留言：0更新日期：2022-09-08 07:44

本发明专利技术公开了一种多类型映射的神经网络后门风险评估方法、系统及设备，首先在干净的样本集上训练目标模型和统计准确率。然后，根据4种映射策略构建不同的投毒训练集，训练多个植入后门的目标模型并统计准确率。最后构建攻击测试集并测试不同后门模型的攻击表现，综合各指标计算风险得分，实现目标深度学习模型的后门安全风险评估。本发明专利技术解决了深度学习模型面对后门攻击的安全风险评估问题。型面对后门攻击的安全风险评估问题。型面对后门攻击的安全风险评估问题。

全部详细技术资料下载

【技术实现步骤摘要】
多类型映射的神经网络后门风险评估方法、系统及设备

[0001]本专利技术属于计算机学科中的信息安全
，涉及一种神经网络后门风险评估方法、系统及设备，具体涉及一种多类型映射的神经网络后门风险评估方法、系统及设备。

技术介绍

[0002]近年来，深度学习技术在多个领域取得了丰硕的成果，基于深度学习技术的应用不断扩展，如人脸识别、自动驾驶、智慧医疗等。目前，由于计算资源和训练数据的缺乏，更多的人选择将训练任务外包给第三方或者使用第三方提供的数据训练模型。这种训练模式给深度学习模型带来了新的安全风险。攻击者可以往训练数据中注入恶意样本，进而向模型中植入后门。一方面，后门攻击可以使得被攻击的模型将带触发器的样本错误预测为攻击者指定的目标类别，比如将带有触发器图案的停车标志识别为加速，可能导致严重的安全问题。另一方面，被攻击模型在干净的样本上保持较高的分类准确率，使得后门本身具有良好的隐蔽性，难以检测。
[0003]尽管现在已经存在一些对深度学习模型实施后门攻击和测试的方法，但是这些方法采用的攻击形式比较单一，不能对深度学习模型面临的后门安全风险进行全面、系统的评估。

技术实现思路

[0004]本专利技术为了解决现有技术中涉及的后门攻击局限于单一攻击形式、无法实现全面性安全风险评估的问题，提出了一种多类型映射的神经网络后门风险评估方法、系统及设备。
[0005]本专利技术的方法所采用的技术方案是：一种多类型映射的神经网络后门风险评估方法，包括以下步骤：
[000...

【技术保护点】

【技术特征摘要】
1.一种多类型映射的神经网络后门风险评估方法，其特征在于，包括以下步骤：步骤1：确定需要评估的神经网络模型、原始干净训练集D
train
和原始干净测试集，利用原始干净训练集训练该神经网络模型，获得训练好的干净神经网络模型，并统计干净神经网络模型在原始干净测试集上的分类准确率；步骤2：确定后门攻击设置，包括选择投毒比例、后门触发器和标签映射方式；所述投毒比例η，为投毒样本占所有训练样本的比例；选择攻击使用的后门触发器，包括设置后门触发器的图案样式p、后门触发器掩模m、后门触发器透明度α；所述标签映射方式，为从样本的真实标签y到目标标签y
～
的映射函数L(y)；步骤3：按投毒比例从原始干净训练集中随机抽取一部分样本作为初始投毒集合，获得初始投毒样本集合D
m
；原始干净训练集中剩余的干净训练样本集合记为D
c
，则原始干净训练集D
train
＝D
m
∪D
c
；步骤4：根据后门攻击设置修改初始投毒样本集合中的每个样本，构建N个投毒样本集合；其中，N为标签映射方式数量；步骤5：分别将N个投毒样本集合和原始干净训练集中剩余的干净训练样本集合D
c
合并作为被投毒训练集，利用被投毒训练集进行神经网络模型训练，得到N个后门模型，统计N个后门模型分别在原始干净测试集上的分类准确率；步骤6：为原始干净测试集上的每个样本生成对应的攻击样本，构成一个攻击测试集合；将攻击测试集合中的攻击样本分别输入N个后门模型进行预测，统计不同后门模型的攻击成功率ASR以及保护类攻击样本准确率ACC
protect
；步骤7：计算干净神经网络模型和后门模型在原始干净测试集上分类准确率的差值ΔACC
clean
，根据后门模型在原始干净测试集上的分类准确率以及ΔACC
clean
、ASR、ACC
protect
，为N个后门模型分别计算一个得分，累加之后得到总风险得分score；总风险得分越高，神经网络模型面临的后门安全风险就越高。2.根据权利要求1所述的多类型映射的神经网络后门风险评估方法，其特征在于：步骤2中，包括4种标签映射策略：all
‑
to
‑
one、all
‑
to
‑
multi、sub
‑
to
‑
one和sub
‑
to
‑
multi；所述all
‑
to
‑
one，是所有类别都映射到一个目标类别；所述all
‑
to
‑
multi，是所有类别被映射到多个目标类别；所述sub
‑
to
‑
one，只有一部分类别受到攻击的影响，称为被攻击类别，一部分类别不受攻击的影响，称为保护类别；保护类别仍被映射为原始真实类别，而被攻击类别都被映射到一个目标类别；所述sub
‑
to
‑
multi，只有一部分类别受到攻击的影响；保护类别映射为原始真实类别，被攻击类别被分别映射到多个目标类别；在4种映射策略下随机选择N个具体的标签映射方式，最终确定了一组标签映射方式Label_Mapping_set＝{L1，...，L
N
}。3.根据权利要求1所述的多类型映射的神经网络后门风险评估方法，其特征在于：步骤4中，针对初始投毒样本集合，分别根据每种标签映射方式，对进行修改图像和修改标签操作，生成N个投毒集合；所述修改图像操作，是对于初始投毒样本集合中的每张图像x，根据步骤2中确定的触发器设置，按照(1
‑
m)
⊙
x+m
⊙
[αx+(1
‑
α)p]的方式为图像x添加触发器，其中，
⊙
表示点积运

【专利技术属性】
技术研发人员：何琨，陈晶，吴聪，加梦，陈竹军，杜瑞颖，
申请(专利权)人：武汉大学日照信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人