当前位置: 首页 > 专利查询>浙江大学专利>正文

基于注意力机制,知识蒸馏防御后门攻击的方法及系统技术方案

技术编号:30366620 阅读:26 留言:0更新日期:2021-10-16 17:36
本发明专利技术公开了基于注意力机制,知识蒸馏防御后门攻击的方法及系统,应用于互联网安全技术领域,包括:神经网络微调步骤:将目标神经网络进行微调,得到一个微调后的深度神经网络;注意力图生成步骤:将深度神经网络每一个激活层的输出通过注意力映射算子,映射到注意力图上;模型自蒸馏步骤:利用注意力图逐层进行深度神经网络的知识自蒸馏处理,得到得到各层之间的蒸馏损失;防御模块生成步骤:通过模型交叉损失函数,训练得到防御模型。本发明专利技术可以有效防御后门攻击,并且防御效果远远超过了传统方法;在消除网络对触发模式的注意力方面也更有效。有效。有效。

【技术实现步骤摘要】
基于注意力机制,知识蒸馏防御后门攻击的方法及系统


[0001]本专利技术涉及互联网安全
,尤其涉及基于注意力机制,知识蒸馏防御后门攻击的方法及系统。

技术介绍

[0002]随着人工智能的发展,机器学习模型已广泛应用到各行各业,在各个场景发挥着非常重要的作用。后门攻击是一种新兴的针对机器学习模型的攻击方式,攻击者会在模型中埋藏后门,使得被感染的模型在一般情况下表现正常。但当后门被激活时,模型的输出将变为攻击者预先设置的恶意目标。具体为:攻击者通过带有后门触发器(Backdoor Trigger)的恶意数据训练模型后,获得一个带有后门的恶意模型。这类恶意模型在输入良性数据时可以将其正确分类,但当输入恶意数据时,其后门触发器会激活恶意神经元,从而导致错误分类(并且往往是某一特定类别)。
[0003]现有技术中,没有有效的防御后门攻击的方法,这类攻击具有极强的隐蔽性,给攻击检测带来了巨大挑战,也给一些资源受限型用户将深度神经网络的训练过程外包给拥有丰富存储和计算资源的第三方带来了不小的风险。
[0004]因此,提出一种新的防御后门攻击的方法,克服现有技术中后门攻击防御困难,是本领域技术人员亟需解决的问题。

技术实现思路

[0005]有鉴于此,本专利技术提供了基于注意力机制,知识蒸馏防御后门攻击的方法及系统,充分考虑了攻击者的各种攻击手段,可以进行全面防御。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]基于注意力机制,知识蒸馏防御后门攻击的方法,包括以下步骤:
[0008]神经网络微调步骤:将目标神经网络进行微调,得到一个微调后的深度神经网络;
[0009]注意力图生成步骤:将深度神经网络每一个激活层的输出通过注意力映射算子,映射到注意力图上;
[0010]模型自蒸馏步骤:利用注意力图逐层进行深度神经网络的知识自蒸馏处理,得到得到各层之间的蒸馏损失;
[0011]防御模块生成步骤:模型自蒸馏后的模型通过模型交叉损失函数,训练得到防御模型。
[0012]优选的,神经网络微调步骤的具体内容包括:
[0013]选择一个训练好的深度神经网络;
[0014]将该深度神经网络的前n层复制到目标神经网络中;
[0015]将剩余层进行随机初始化,利用干净的数据集进行训练,得到训练误差;
[0016]将训练误差反向传播到目标神经网络复制的前n层中,得到微调后的深度神经网络。
[0017]优选的,注意力图生成步骤的具体内容包括:
[0018]获得深度神经网络各激活层输出,通过注意力映射算子,将每一个输出映射到注意力图上,得到各区块的注意力图。
[0019]优选的,模型自蒸馏步骤的具体内容包括:
[0020]分别对任一区块注意力图和目标区块注意力图采用双线性插值,进行维度调整;
[0021]分别对维度调整后的注意力图进行空间softmax操作,得到各层之间的蒸馏损失。
[0022]基于注意力机制,知识蒸馏防御后门攻击的系统,包括:
[0023]神经网络微调模块、注意力图生成模块、模型自蒸馏模块和防御模型生成模块;
[0024]神经网络微调模块,与注意力图生成模块的输入端连接,用于将目标神经网络进行微调,得到一个微调后的深度神经网络,并发送至注意力图生成模块;
[0025]注意力图生成模块,与模型自蒸馏模块的输入端连接,用于将深度神经网络每一个激活层的输出通过注意力映射算子,映射到注意力图上,并将注意力图发送至模型自蒸馏模块;
[0026]模型自蒸馏模块,与防御模型生成模块的输入端连接,用于利用注意力图逐层进行深度神经网络的知识自蒸馏处理,得到得到各层之间的蒸馏损失;
[0027]防御模型生成模块,用于将模型自蒸馏后的模型通过模型交叉损失函数,训练得到防御模型。
[0028]一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该程序,以实现基于注意力机制,知识蒸馏防御后门攻击的方法。
[0029]一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现基于注意力机制,知识蒸馏防御后门攻击的方法。
[0030]经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种基于注意力机制,知识蒸馏防御后门攻击的方法及系统:通过注意力机制和知识自蒸馏提炼过程将神经网络进行逐层的特征与注意力学习,训练出一个消除后门的神经网络,可以有效防御后门攻击,并且防御效果远远超过了传统方法;在消除网络对触发模式的注意力方面也更有效。
附图说明
[0031]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0032]图1为本专利技术基于注意力机制,知识蒸馏防御后门攻击的方法流程图;
[0033]图2为本专利技术神经网络微调步骤流程图;
[0034]图3为本专利技术注意力图生成步骤流程图;
[0035]图4为本专利技术模型自蒸馏步骤流程图;
[0036]图5为本专利技术基于注意力机制,知识蒸馏防御后门攻击的系统的方框示意图;
[0037]图6为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]参照图1所示,本实专利技术公开了基于注意力机制,知识蒸馏防御后门攻击的方法,包括以下步骤:
[0040]神经网络微调步骤:将目标神经网络进行微调,得到一个微调后的深度神经网络;
[0041]注意力图生成步骤:将深度神经网络每一个激活层的输出通过注意力映射算子,映射到注意力图上;
[0042]模型自蒸馏步骤:利用注意力图逐层进行深度神经网络的知识自蒸馏处理,得到得到各层之间的蒸馏损失;
[0043]防御模块生成步骤:模型自蒸馏后的模型通过模型交叉损失函数,训练得到防御模型。
[0044]在一个具体实施例中,通过模型微调技术在一个没有被后门攻击的子集上训练深度神经网络,用这个神经网络进行接下来的知识自蒸馏。
[0045]模型微调是一种最初在迁移学习背景下提出的策略,使用者希望调整一个已经为别的任务训练好的DNN,来执行此任务。模型微调使用预训练的深度神经网络的权重来初始化训练(而不是随机初始化),而且由于最终的权重和预训练模型的权重比较接近,故学习率较小。因此,使用干净的输入进行微调会导致参与后门行为的神经元的权重得到更新。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于注意力机制,知识蒸馏防御后门攻击的方法,其特征在于,包括以下步骤:神经网络微调步骤:将目标神经网络进行微调,得到一个微调后的深度神经网络;注意力图生成步骤:将深度神经网络每一个激活层的输出通过注意力映射算子,映射到注意力图上;模型自蒸馏步骤:利用注意力图逐层进行深度神经网络的知识自蒸馏处理,得到得到各层之间的蒸馏损失;防御模块生成步骤:模型自蒸馏后的模型通过模型交叉损失函数,训练得到防御模型。2.根据权利要求1所述的基于注意力机制,知识蒸馏防御后门攻击的方法,其特征在于,神经网络微调步骤的具体内容包括:选择一个训练好的深度神经网络;将该深度神经网络的前n层复制到目标神经网络中;将剩余层进行随机初始化,利用干净的数据集进行训练,得到训练误差;将训练误差反向传播到目标神经网络复制的前n层中,得到微调后的深度神经网络。3.根据权利要求1所述的基于注意力机制,知识蒸馏防御后门攻击的方法,其特征在于,注意力图生成步骤的具体内容包括:获得深度神经网络各激活层输出,通过注意力映射算子,将每一个输出映射到注意力图上,得到各区块的注意力图。4.根据权利要求1所述的基于注意力机制,知识蒸馏防御后门攻击的方法,其特征在于,模型自蒸馏步骤的具体内容包括:分别对任一区块注意力图和目标区块注意力图采用双线性插值,进行维度调整;分别对维度调整后...

【专利技术属性】
技术研发人员:陈艳姣龚雪鸾董建硕
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1