本申请涉及一种后门攻击防御方法、装置、电子设备以及存储介质,涉及人工智能安全技术领域,该方法包括以下步骤:基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数;根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型;基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率。在本方法中依据后门攻击防御效果来及时对参数迭代优化速率进行调整,使得调整后的防御模型对后门的防御效果更好。门的防御效果更好。门的防御效果更好。
【技术实现步骤摘要】
一种后门攻击防御方法、装置、电子设备以及存储介质
[0001]本申请涉及人工智能安全
,具体涉及一种后门攻击防御方法、装置、电子设备以及存储介质。
技术介绍
[0002]随着人工智能的发展,机器学习模型已广泛应用到各行各业,在各个场景发挥着非常重要的作用。后门攻击是一种新兴的针对机器学习模型的攻击方式,攻击者会在模型中埋藏后门,使得被感染的模型在一般情况下表现正常。但当后门被激活时,模型的输出将变为攻击者预先设置的恶意目标。具体为:攻击者通过带有后门触发器(BackdoorTrigger)的恶意数据训练模型后,获得一个带有后门的恶意模型。这类恶意模型在输入良性数据时可以将其正确分类,但当输入恶意数据时,其后门触发器会激活恶意神经元,从而导致错误分类。
[0003]在现有技术中中,主要采取剪枝与注意力蒸馏的方法来防御后门攻击。剪枝是一种模型压缩技术,可以消除一些不活跃的神经元来进行净化,但无法防御一些较为先进的后门攻击。注意力蒸馏利用一个额外的教师模型来监督后门模型的重新训练,但是教师模型会消耗额外的存储与计算资源,而且由于学习率的设置问题会经常陷入局部最优或收敛缓慢的情况。
[0004]因此,如何使得后门攻击防御方法可以抵御更先进的后门攻击,并且不会出现收敛困难的问题,是目前急需解决的问题。
技术实现思路
[0005]本申请提供一种后门攻击防御方法、装置、电子设备以及存储介质,以抵御更先进的后门攻击,并且不会出现收敛困难问题。
[0006]为实现上述目的,本申请提供以下方案:
[0007]第一方面,本申请提供了一种后门攻击防御方法,所述方法包括以下步骤:
[0008]基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;
[0009]基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数;
[0010]根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型;
[0011]基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率。
[0012]进一步的,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:
[0013]在预设间隔时间段内,若所述防御模型的损失函数值下降次数小于预设阈值,则
调整所述防御模型的待修正参数的优化速率。
[0014]进一步的,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:
[0015]在预设间隔时间段内,若所述防御模型的样本全局最大损失值没有下降,且所述防御模型的待修正参数的优化速率不变,则调整所述防御模型的待修正参数的优化速率。
[0016]进一步的,所述基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图,包括以下步骤:
[0017]获取目标深度神经网络各个激活层的输出,通过注意力映射函数,将每一激活层的输出映射到注意力表征图上,得到每一所述激活层的注意力表征图。
[0018]进一步的,所述基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数,包括以下步骤:
[0019]分别对任一激活层的注意力表征图和目标激活层的注意力表征图采用双线性插值,进行维度调整;
[0020]对进行维度调整后的注意力表征图进行空间softmax操作,得到任一激活层与目标激活层之间的蒸馏损失。
[0021]进一步的,所述根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型,包括以下步骤:
[0022]为所述蒸馏损失函数以及所述交叉熵损失函数分别匹配不同的权重因子;
[0023]基于所述权重因子,获取整体损失函数;
[0024]利用所述整体损失函数对所述目标深度神经网络进行训练激,得到与所述目标神经网络对应的防御模型。
[0025]进一步的,所述方法还包括以下步骤:
[0026]每一所述激活层的注意力表征图之间的自蒸馏通道采用密集连接的方式。
[0027]第二方面,本申请提供了一种后门攻击防御装置,所述装置包括:
[0028]表征图获取模块,其用于基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;
[0029]损失函数获取模块,其用于基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数;
[0030]模型生成模块,其用于根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型;
[0031]调整模块,其用于基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率。
[0032]进一步的,所述调整模块还用于在预设间隔时间段内,若所述防御模型的损失函数值下降次数小于预设阈值,则调整所述防御模型的待修正参数的优化速率。
[0033]进一步的,所述调整模块还用于在预设间隔时间段内,若所述防御模型的样本全局最大损失值没有下降,且所述防御模型的待修正参数的优化速率不变,则调整所述防御模型的待修正参数的优化速率。
[0034]进一步的,所述表征图获取模块还用于获取目标深度神经网络各个激活层的输出,通过注意力映射函数,将每一激活层的输出映射到注意力表征图上,得到每一所述激活
层的注意力表征图。
[0035]进一步的,所述损失函数获取模块,包括:
[0036]维度调整子模块,其用于分别对任一激活层的注意力表征图和目标激活层的注意力表征图采用双线性插值,进行维度调整;
[0037]操作子模块,其用于对进行维度调整后的注意力表征图进行空间softmax操作,得到任一激活层与目标激活层之间的蒸馏损失。
[0038]进一步的,所述模型生成模块,包括:
[0039]权重分配子模块,其用于为所述蒸馏损失函数以及所述交叉熵损失函数分别匹配不同的权重因子;
[0040]整体函数获取子模块,其用于基于所述权重因子,获取整体损失函数;
[0041]训练子模块,其用于利用所述整体损失函数对所述目标深度神经网络进行训练,得到与所述目标神经网络对应的防御模型。
[0042]进一步的,所述装置还用于每一所述激活层的注意力表征图之间的自蒸馏通道采用密集连接的方式。
[0043]本申请提供的技术方案带来的有益效果包括:
[0044]本申请基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;基于注意力表征图对各个激活层进行知识自蒸馏处理,得到各个激活层的蒸馏损失函数;根据蒸馏损失函数对目标深度神经网络进行训练,得到与目标深度神经网络对应的防御模型;基于防御模型对后门攻击的防御效本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种后门攻击防御方法,其特征在于,所述方法包括以下步骤:基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图;基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数;根据所述蒸馏损失函数对所述目标深度神经网络进行训练,得到与所述目标深度神经网络对应的防御模型;基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率。2.如权利要求1所述后门攻击防御的方法,其特征在于,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:在预设间隔时间段内,若所述防御模型的损失函数值下降次数小于预设阈值,则调整所述防御模型的待修正参数的优化速率。3.如权利要求1所述后门攻击防御的方法,其特征在于,所述基于所述防御模型对后门攻击的防御效果,动态调整所述防御模型的待修正参数的优化速率,包括以下步骤:在预设间隔时间段内,若所述防御模型的样本全局最大损失值没有下降,且所述防御模型的待修正参数的优化速率不变,则调整所述防御模型的待修正参数的优化速率。4.如权利要求1所述的后门攻击防御方法,其特征在于,所述基于目标深度神经网络中每一个激活层的输出以及注意力映射函数,获取注意力表征图,包括以下步骤:获取目标深度神经网络各个激活层的输出,通过注意力映射函数,将每一激活层的输出映射到注意力表征图上,得到每一所述激活层的注意力表征图。5.如权利要求1所述的后门攻击防御方法,其特征在于,所述基于所述注意力表征图对各个所述激活层进行知识自蒸馏处理,得到各个所述激活层的蒸馏损失函数,包括以下步骤:分别对任一激活层的注意力表征图和目标激活层的注意...
【专利技术属性】
技术研发人员:王骞,顾宇喆,龚雪鸾,
申请(专利权)人:武汉大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。