一种后门防御方法和系统技术方案

技术编号:31498966 阅读:58 留言:0更新日期:2021-12-18 12:45
本说明书实施例公开了一种后门防御方法和系统。其中,该方法包括对目标模型进行一轮或多轮更新,其中一轮更新包括:将多个干净数据输入目标模型,获取目标模型中至少部分计算单元的多个输出数据;对于至少部分计算单元中的每一个,基于其多个输出数据确定该计算单元对多个干净数据的响应性指标;基于所述响应性指标,从所述至少部分计算单元中确定一个或多个待处理计算单元;至少对所述待处理计算单元进行处理,以增加所述目标模型对后门攻击的防御能力。御能力。御能力。

【技术实现步骤摘要】
一种后门防御方法和系统


[0001]本说明书涉及信息安全
,特别涉及一种后门防御方法和系统。

技术介绍

[0002]在各种领域例如图像识别、自然语言处理等,都可以应用机器学习模型,机器学习模型可以在各种领域的数据处理中发挥重要的作用。在机器学习模型的应用中,模型可能会遭到后门攻击(也可以称为投毒攻击或木马攻击)。在后门攻击中,攻击者可以在模型中植入后门,并通过向被植入后门的模型输入带有触发器的输入数据,令其输出攻击者指定的标签,从而攻击者可以操纵模型的输出。后门攻击可能会令模型的应用产生严重的不良后果,例如,在自动驾驶的应用场景中,被植入后门的模型错误地将行人识别为其他物体,可能会导致不能及时避让行人而撞伤行人。
[0003]因此,亟需后门攻击的防御方法和系统,以有效地防御模型的后门攻击。

技术实现思路

[0004]本说明书实施例的一个方面提供一种后门防御方法。该方法包括对目标模型进行一轮或多轮更新,其中一轮更新包括:将多个干净数据输入目标模型,获取目标模型中至少部分计算单元的多个输出数据;对于至少部分计算单元中的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种后门防御方法,包括对目标模型进行一轮或多轮更新,其中一轮更新包括:将多个干净数据输入目标模型,获取目标模型中至少部分计算单元的多个输出数据;对于至少部分计算单元中的每一个,基于其多个输出数据确定该计算单元对多个干净数据的响应性指标;基于所述响应性指标,从所述至少部分计算单元中确定一个或多个待处理计算单元;至少对所述待处理计算单元进行处理,以增加所述目标模型对后门攻击的防御能力。2.根据权利要求1所述的方法,所述响应性指标反映多个输出数据间的差异。3.根据权利要求1所述的方法,所述响应性指标包括以下中的一种或多种的组合:方差、绝对差和信息熵。4.根据权利要求1所述的方法,所述至少部分计算单元为目标模型中一个或多个网络层中的计算单元;所述一个或多个网络层与目标模型输出层的间隔不超过预设层数。5.根据权利要求1或4所述的方法,所述基于所述响应性指标,从所述至少部分计算单元中确定一个或多个待处理计算单元,包括:基于预设比例,从所述至少部分计算单元中选择响应性指标最低的若干计算单元,作为所述待处理计算单元;不同轮次更新中预设比例不同;所述预设比例与更新次数负相关。6.根据权利要求1所述的方法,所述至少对所述待处理计算单元进行处理,以增加所述目标模型对后门攻击的防御能力,包括:降低所述待处理计算单元对目标模型输出结果的影响力。7.根据权利要求1所述的方法,所述至少对所述待处理计算单元进行处理,以增加所述目标模型对后门攻击的防御能力,包括:减小所述待处理计算单元的模型参数的绝对值,或将其模型参数置为0。8.根据权利要求1所述的方法,所述至少对所述待处理计算单元进行处理,以增加所述目标模型对后门攻击的防御能力,包括:调整目标模型的模型参数,以减小目标函数值;所述目标函数与第一损失函数和约束项正相关,其中第一损失函数反映目标模型对应于干净数据的输出结果与干净数据的标签之间的...

【专利技术属性】
技术研发人员:范洺源陈岑王力
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1