【技术实现步骤摘要】
一种后门攻击防御方法、装置、电子设备以及存储介质
[0001]本申请涉及人工智能安全
,具体涉及一种后门攻击防御方法、装置、电子设备以及存储介质。
技术介绍
[0002]随着人工智能的发展,机器学习模型已广泛应用到各行各业,在各个场景发挥着非常重要的作用。后门攻击是一种新兴的针对机器学习模型的攻击方式,攻击者会在模型中埋藏后门,使得被感染的模型在一般情况下表现正常。但当后门被激活时,模型的输出将变为攻击者预先设置的恶意目标。具体为:攻击者通过带有后门触发器(BackdoorTrigger)的恶意数据训练模型后,获得一个带有后门的恶意模型。这类恶意模型在输入良性数据时可以将其正确分类,但当输入恶意数据时,其后门触发器会激活恶意神经元,从而导致错误分类。
[0003]在现有技术中中,主要采取剪枝与注意力蒸馏的方法来防御后门攻击。剪枝是一种模型压缩技术,可以消除一些不活跃的神经元来进行净化,但无法防御一些较为先进的后门攻击。注意力蒸馏利用一个额外的教师模型来监督后门模型的重新训练,但是教师模型会消耗额外的存储与计算资 ...
【技术保护点】
【技术特征摘要】
1.一种后门攻击防御方法,其特征在于,所述方法包括以下步骤:基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数;根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型;基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率。2.如权利要求1所述后门攻击防御的方法,其特征在于,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:在预设间隔时间段内,若所述防御模型的损失函数值下降次数小于预设阈值,则调整所述防御模型的待修正参数的优化速率。3.如权利要求1所述后门攻击防御的方法,其特征在于,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:在预设间隔时间段内,若所述防御模型的样本全局最大损失值没有下降,且所述防御模型的待修正参数的优化速率不变,则调整所述防御模型的待修正参数的优化速率。4.如权利要求1所述的后门攻击防御方法,其特征在于,所述基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图,包括以下步骤:获取目标深度神经网络各个激活层的输出,通过注意力映射函数,将每一激活层的输出映射到注意力表征图上,得到每一所述激活层的注意力表征图。5.如权利要求1所述的后门攻击防御方法,其特征在于,所述基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数,包括以下步骤:分别对任一激活层的注意力表征图和目标激活层的注意...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。