图像分类模型后门攻击的防御方法、装置、设备及介质制造方法及图纸

技术编号：26924601 阅读：11 留言：0更新日期：2021-01-01 22:50

本申请涉及一种图像分类模型后门攻击的防御方法、装置、设备及介质，该方法包括：获取训练图像集；将训练图像集中可见触发器的训练图像滤除，得到训练样本集；利用训练样本集分别对图像分类模型进行标准训练和对抗训练，得到第一图像分类模型和第二图像分类模型；根据纯净测试图像对第一图像分类模型和第二图像分类模型进行诊断对比，以确定所述训练图像集中是否存在第一类不可见触发器的训练图像；当所述训练图像集中存在第一类不可见触发器的训练图像时，返回所述获取训练图像集的步骤以继续训练，直至训练图像集中不存在第一类不可见触发器的训练图像。本申请能够提升模型对抗后门攻击的能力，并同时增强模型对对抗攻击的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
图像分类模型后门攻击的防御方法、装置、设备及介质
本申请涉及人工智能
，尤其涉及一种图像分类模型后门攻击的防御方法、装置、设备及介质。
技术介绍
随着人工智能的发展，机器学习模型已广泛应用到各行各业，在各个场景发挥着非常重要的作用。后门攻击是一种新兴的针对机器学习模型的攻击方式，攻击者会在模型中埋藏后门，使得被感染的模型在一般情况下表现正常。但当后门被激活时，模型的输出将变为攻击者预先设置的恶意目标。投毒式后门攻击是目前后门攻击中常用的手段，即攻击者通过对训练数据集投毒的方式进行后门植入。为了对抗投毒式后门攻击，现有的防御方案主要采用基于样本过滤的防御或基于毒性抑制的防御，即过滤掉训练集中被投毒样本而达到防御效果，或通过抑制被投毒样本在训练过程中的有效性使其不能成功创建后门而达到防御效果。但上述两种方式均只针对部分类型的投毒式后门攻击有效，不具有普适性，模型的防御性能较差。
技术实现思路
本申请提供一种图像分类模型后门攻击的防御方法、装置、设备及介质，通过结合基于毒性抑制和基于模型诊断的方式对模型进行训练，能够抵御训练样本集中同时含有可见触发器和不可见触发器的投毒式后门攻击，提升模型对后门攻击的防御能力，增强模型的鲁棒性。一方面，本申请提供了一种图像分类模型后门攻击的防御方法，所述方法包括：获取训练图像集；将所述训练图像集中可见触发器的训练图像滤除，得到训练样本集；利用所述训练样本集对图像分类模型进行标准训练，得到第一图像分类模型，以及利用所述训练样本集对所述...

【技术保护点】
1.一种图像分类模型后门攻击的防御方法，其特征在于，所述方法包括：/n获取训练图像集；/n将所述训练图像集中可见触发器的训练图像滤除，得到训练样本集；/n利用所述训练样本集对图像分类模型进行标准训练，得到第一图像分类模型，以及利用所述训练样本集对所述图像分类模型进行对抗训练，得到第二图像分类模型；/n根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比，以确定所述训练图像集中是否存在第一类不可见触发器的训练图像，其中，所述纯净测试图像表征未被投毒的测试图像；/n当所述训练图像集中存在所述第一类不可见触发器的训练图像时，返回所述获取训练图像集的步骤以继续训练，直至所述训练图像集中不存在所述第一类不可见触发器的训练图像；/n当所述训练图像集中不存在所述第一类不可见触发器的训练图像时，输出所述第二图像分类模型以供使用。/n

【技术特征摘要】
1.一种图像分类模型后门攻击的防御方法，其特征在于，所述方法包括：
获取训练图像集；
将所述训练图像集中可见触发器的训练图像滤除，得到训练样本集；
利用所述训练样本集对图像分类模型进行标准训练，得到第一图像分类模型，以及利用所述训练样本集对所述图像分类模型进行对抗训练，得到第二图像分类模型；
根据纯净测试图像对所述第一图像分类模型和所述第二图像分类模型进行诊断对比，以确定所述训练图像集中是否存在第一类不可见触发器的训练图像，其中，所述纯净测试图像表征未被投毒的测试图像；
当所述训练图像集中存在所述第一类不可见触发器的训练图像时，返回所述获取训练图像集的步骤以继续训练，直至所述训练图像集中不存在所述第一类不可见触发器的训练图像；
当所述训练图像集中不存在所述第一类不可见触发器的训练图像时，输出所述第二图像分类模型以供使用。

2.根据权利要求1所述的方法，其特征在于，所述将所述训练图像集中含有可见触发器的训练图像滤除，得到训练样本集，包括：
根据预设统计指标，将所述训练图像集中含有可见触发器的训练图像滤除，得到所述训练样本集，所述预设统计指标包括局部平滑性或局部相似性；或者，
根据预先训练好的二分类器，将所述训练图像集中含有可见触发器的训练图像滤除，得到所述训练样本集。

3.根据权利要求2所述的方法，其特征在于，所述根据预设统计指标，将所述训练图像集中含有可见触发器的训练图像滤除，得到所述训练样本集，包括：
针对所述训练图像集中每个训练图像中的每个像素，采集与所述像素相邻的预设个数的邻域像素，计算所述像素与每个所述领域像素之间的差异值，将各个所述差异值的平均值确定为所述像素对应的像素指标；
对于所述训练图像集中每个训练图像，若所述训练图像中存在至少一个像素对应的像素指标不满足预设差异条件，则判定所述训练图像中含有可见触发器，并将所述训练图像从所述训练图像集中移除，得到所述训练样本集。

4.根据权利要求1所述的方法，其特征在于，所述利用所述训练样本集对图像分类模型进行标准训练，得到第一图像分类模型，包括：
针对所述训练样本集中的每个训练样本，基于所述训练样本和所述图像分类模型的当前模型参数，获取所述训练样本对应的损失函数的值；
将各个所述训练样本对应的损失函数的值进行累加，作为所述训练样本集对应的损失函数的值；
按照减小所述训练样本集对应的损失函数的值为原则，训练所述图像分类模型，得到所述第一图像分类模型。

5.根据权利要求1所述的方法，其特征在于，所述利用所述训练样本集对所述图像分类模型进行对抗训练，得到第二图像分类模型，包括：
对所述训练样本集中的每个训练样本增加扰动，得到所述训练样本对应的对抗样本，并由各个所述训练样本对应的对抗样本构成对抗样本集；
针对所述对抗样本集中的每个对抗样本，基于所述对抗样本和所述图像分类模型的当前模型参数，获取所述对抗样本对应的损失函数的值；
将各个所述对抗...

【专利技术属性】
技术研发人员：李一鸣，吴保元，江勇，李志锋，夏树涛，刘威，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人