图像分类模型后门攻击的防御方法、装置、设备及介质制造方法及图纸

技术编号:26924601 阅读:11 留言:0更新日期:2021-01-01 22:50
本申请涉及一种图像分类模型后门攻击的防御方法、装置、设备及介质,该方法包括:获取训练图像集;将训练图像集中可见触发器的训练图像滤除,得到训练样本集;利用训练样本集分别对图像分类模型进行标准训练和对抗训练,得到第一图像分类模型和第二图像分类模型;根据纯净测试图像对第一图像分类模型和第二图像分类模型进行诊断对比,以确定所述训练图像集中是否存在第一类不可见触发器的训练图像;当所述训练图像集中存在第一类不可见触发器的训练图像时,返回所述获取训练图像集的步骤以继续训练,直至训练图像集中不存在第一类不可见触发器的训练图像。本申请能够提升模型对抗后门攻击的能力,并同时增强模型对对抗攻击的鲁棒性。

【技术实现步骤摘要】
图像分类模型后门攻击的防御方法、装置、设备及介质
本申请涉及人工智能
,尤其涉及一种图像分类模型后门攻击的防御方法、装置、设备及介质。
技术介绍
随着人工智能的发展,机器学习模型已广泛应用到各行各业,在各个场景发挥着非常重要的作用。后门攻击是一种新兴的针对机器学习模型的攻击方式,攻击者会在模型中埋藏后门,使得被感染的模型在一般情况下表现正常。但当后门被激活时,模型的输出将变为攻击者预先设置的恶意目标。投毒式后门攻击是目前后门攻击中常用的手段,即攻击者通过对训练数据集投毒的方式进行后门植入。为了对抗投毒式后门攻击,现有的防御方案主要采用基于样本过滤的防御或基于毒性抑制的防御,即过滤掉训练集中被投毒样本而达到防御效果,或通过抑制被投毒样本在训练过程中的有效性使其不能成功创建后门而达到防御效果。但上述两种方式均只针对部分类型的投毒式后门攻击有效,不具有普适性,模型的防御性能较差。
技术实现思路
本申请提供一种图像分类模型后门攻击的防御方法、装置、设备及介质,通过结合基于毒性抑制和基于模型诊断的方式对模型进行训练,能够抵御训练样本集中同时含有可见触发器和不可见触发器的投毒式后门攻击,提升模型对后门攻击的防御能力,增强模型的鲁棒性。一方面,本申请提供了一种图像分类模型后门攻击的防御方法,所述方法包括:获取训练图像集;将所述训练图像集中可见触发器的训练图像滤除,得到训练样本集;利用所述训练样本集对图像分类模型进行标准训练,得到第一图像分类模型,以及利用所述训练样本集对所述图像分类模型进行对抗训练,得到第二图像分类模型;根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比,以确定所述训练图像集中是否存在第一类不可见触发器的训练图像,其中,所述纯净测试图像表征未被投毒的测试图像;当所述训练图像集中存在所述第一类不可见触发器的训练图像时,返回所述获取训练图像集的步骤以继续训练,直至所述训练图像集中不存在所述第一类不可见触发器的训练图像;当所述训练图像集中不存在所述第一类不可见触发器的训练图像时,输出所述第二图像分类模型以供使用。另一方面提供了一种图像分类模型后门攻击的防御装置,所述装置包括:训练图像获取模块,用于获取训练图像集;训练图像过滤模块,用于将所述训练图像集中可见触发器的训练图像滤除,得到训练样本集;标准训练模块,用于利用所述训练样本集对图像分类模型进行标准训练,得到第一图像分类模型;对抗训练模块,用于利用所述训练样本集对所述图像分类模型进行对抗训练,得到第二图像分类模型;模型诊断模块,用于根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比,以确定所述训练图像集中是否存在第一类不可见触发器的训练图像,其中,所述纯净测试图像表征未被投毒的测试图像;重训练模块,用于在所述训练图像集中存在所述第一类不可见触发器的训练图像的情况下,返回所述训练图像获取模块获取训练图像集以继续训练,直至所述训练图像集中不存在所述第一类不可见触发器的训练图像;模型输出模块,用于在所述训练图像集中不存在所述第一类不可见触发器的训练图像的情况下,输出所述第二图像分类模型以供使用。另一方面提供了一种防御设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行如上所述的图像分类模型后门攻击的防御方法。另一方面提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上所述的图像分类模型后门攻击的防御方法。本申请提供的图像分类模型后门攻击的防御方法、装置、设备及介质,具有如下有益效果:在获取到训练图像集后,先将训练图像集中可见触发器的训练图像滤除,可以避免可见触发器在模型训练过程中创建后门;通过对抗训练,可以避免第二类不可见触发器在模型训练过程中创建后门;通过对图像分类模型分别进行标准训练和对抗训练,并使用未包含触发器的测试图像,对经过标准训练所得到的第一图像分类模型和经过对抗训练所得到的第二图像分类模型进行诊断对比,可以避免第一类不可见触发器在模型训练过程中创建后门;通过避免可见触发器和不可见触发器(包括第一类不可见触发器和第二类不可见触发器)在模型训练过程中创建后门,提升了模型对后门攻击的防御能力,可以抑制任何类型的投毒式后门攻击,增强了模型的鲁棒性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本申请实施例提供的在图像分类任务中投毒式后门攻击的一个示例。图2是本申请实施例提供的一种图像分类模型后门攻击的防御方法的实施环境示意图。图3是本申请实施例提供的服务器进行防御的第一阶段的过程示意图。图4是本申请实施例提供的服务器进行防御的第二阶段的过程示意图。图5是本申请实施例提供的服务器进行防御的第三阶段的过程示意图。图6是本申请实施例提供的一种图像分类模型后门攻击的防御方法的流程示意图。图7是本申请实施例提供的训练图像集的示例图。图8是本申请实施例提供的滤除含可见触发器的训练图像的流程示意图。图9是本申请实施例提供的获取领域像素的一个示例。图10是本申请实施例提供的对图像分类模型进行标准训练的流程示意图。图11是本申请实施例提供的对图像分类模型进行对抗训练的流程示意图。图12是本申请实施例提供的对抗样本的一个示例。图13是本申请实施例提供的对两个模型进行诊断对比的流程示意图。图14是本申请实施例提供的一种图像分类模型后门攻击的防御装置的结构框图示意图。图15是本申请实施例提供的训练图像过滤模块的结构框图示意图。图16是本申请实施例提供的标准训练模块的结构框图示意图。图17是本申请实施例提供的对抗训练模块的结构框图示意图。图18是本申请实施例提供的模型诊断模块的结构框图示意图。图19是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。具体实施方式人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综本文档来自技高网...

【技术保护点】
1.一种图像分类模型后门攻击的防御方法,其特征在于,所述方法包括:/n获取训练图像集;/n将所述训练图像集中可见触发器的训练图像滤除,得到训练样本集;/n利用所述训练样本集对图像分类模型进行标准训练,得到第一图像分类模型,以及利用所述训练样本集对所述图像分类模型进行对抗训练,得到第二图像分类模型;/n根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比,以确定所述训练图像集中是否存在第一类不可见触发器的训练图像,其中,所述纯净测试图像表征未被投毒的测试图像;/n当所述训练图像集中存在所述第一类不可见触发器的训练图像时,返回所述获取训练图像集的步骤以继续训练,直至所述训练图像集中不存在所述第一类不可见触发器的训练图像;/n当所述训练图像集中不存在所述第一类不可见触发器的训练图像时,输出所述第二图像分类模型以供使用。/n

【技术特征摘要】
1.一种图像分类模型后门攻击的防御方法,其特征在于,所述方法包括:
获取训练图像集;
将所述训练图像集中可见触发器的训练图像滤除,得到训练样本集;
利用所述训练样本集对图像分类模型进行标准训练,得到第一图像分类模型,以及利用所述训练样本集对所述图像分类模型进行对抗训练,得到第二图像分类模型;
根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比,以确定所述训练图像集中是否存在第一类不可见触发器的训练图像,其中,所述纯净测试图像表征未被投毒的测试图像;
当所述训练图像集中存在所述第一类不可见触发器的训练图像时,返回所述获取训练图像集的步骤以继续训练,直至所述训练图像集中不存在所述第一类不可见触发器的训练图像;
当所述训练图像集中不存在所述第一类不可见触发器的训练图像时,输出所述第二图像分类模型以供使用。


2.根据权利要求1所述的方法,其特征在于,所述将所述训练图像集中含有可见触发器的训练图像滤除,得到训练样本集,包括:
根据预设统计指标,将所述训练图像集中含有可见触发器的训练图像滤除,得到所述训练样本集,所述预设统计指标包括局部平滑性或局部相似性;或者,
根据预先训练好的二分类器,将所述训练图像集中含有可见触发器的训练图像滤除,得到所述训练样本集。


3.根据权利要求2所述的方法,其特征在于,所述根据预设统计指标,将所述训练图像集中含有可见触发器的训练图像滤除,得到所述训练样本集,包括:
针对所述训练图像集中每个训练图像中的每个像素,采集与所述像素相邻的预设个数的邻域像素,计算所述像素与每个所述领域像素之间的差异值,将各个所述差异值的平均值确定为所述像素对应的像素指标;
对于所述训练图像集中每个训练图像,若所述训练图像中存在至少一个像素对应的像素指标不满足预设差异条件,则判定所述训练图像中含有可见触发器,并将所述训练图像从所述训练图像集中移除,得到所述训练样本集。


4.根据权利要求1所述的方法,其特征在于,所述利用所述训练样本集对图像分类模型进行标准训练,得到第一图像分类模型,包括:
针对所述训练样本集中的每个训练样本,基于所述训练样本和所述图像分类模型的当前模型参数,获取所述训练样本对应的损失函数的值;
将各个所述训练样本对应的损失函数的值进行累加,作为所述训练样本集对应的损失函数的值;
按照减小所述训练样本集对应的损失函数的值为原则,训练所述图像分类模型,得到所述第一图像分类模型。


5.根据权利要求1所述的方法,其特征在于,所述利用所述训练样本集对所述图像分类模型进行对抗训练,得到第二图像分类模型,包括:
对所述训练样本集中的每个训练样本增加扰动,得到所述训练样本对应的对抗样本,并由各个所述训练样本对应的对抗样本构成对抗样本集;
针对所述对抗样本集中的每个对抗样本,基于所述对抗样本和所述图像分类模型的当前模型参数,获取所述对抗样本对应的损失函数的值;
将各个所述对抗...

【专利技术属性】
技术研发人员:李一鸣吴保元江勇李志锋夏树涛刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1