带有后门的机器学习模型的训练方法及装置、电子设备制造方法及图纸

技术编号：32216337 阅读：20 留言：0更新日期：2022-02-09 17:21

本发明专利技术公开了一种带有后门的机器学习模型的训练方法及装置、电子设备，属于人工智能安全领域。该方法包括：从训练数据中选择P个样本作为待污染样本；将后门触发器加入所述待污染样本中并将待污染样本的标签修改为目标类别，得到P个污染样本；将P个污染样本和其它未被污染的训练数据作为机器学习模型的输入，训练得到带有后门的机器学习模型。本发明专利技术采用主动污染方法，选择最有利于潜在后门模式学习的部分原始训练样本作为待污染样本，攻击者在选择的样本上加入后门触发器进行污染，从而只需选择少量的样本进行污染。在相同的污染率下，本发明专利技术提出的主动污染方法比起随机选择进行后门攻击的攻击成功率更高，增大了后门攻击的隐蔽性和威胁性。隐蔽性和威胁性。

全部详细技术资料下载

【技术实现步骤摘要】
带有后门的机器学习模型的训练方法及装置、电子设备

[0001]本申请涉及人工智能安全领域，更具体地，涉及一种带有后门的机器学习模型的训练方法及装置、电子设备。

技术介绍

[0002]已有很多研究表明机器学习模型在面临对抗攻击时的脆弱性，主要包括两种类型的对抗攻击：逃逸攻击和污染攻击。逃逸攻击是通过在测试样本上加入微小的对抗扰动构造对抗样本使机器学习模型将其错分；污染攻击通过在训练集中加入一些恶意设计的污染样本，从而使模型犯错。
[0003]后门攻击是一种更具威胁性的污染攻击，它通过在模型中植入一个隐蔽的后门，原始的测试样本不会激活后门，经过模型预测后并不会被分错，和通过正常训练的模型预测的结果类似。然而，一旦测试样本被加入后门触发器将后门激活后，这些测试样本将会被模型预测为攻击者指定的类别。因为被植入后门的模型在原始的测试样本上表现正常，只有当后门被攻击者设定的触发器激活时模型才会出错，因此很难被用户发现后门的存在，这对机器学习模型是一种相当严重的安全问题。
[0004]具体来说，后门攻击是通过在训练数据中注...

【技术保护点】

【技术特征摘要】
1.一种带有后门的机器学习模型的训练方法，其特征在于，包括：采用主动污染方法从训练数据中选择P个样本作为待污染样本；将后门触发器加入所述待污染样本中并将所述待污染样本的标签修改为目标类别，得到P个污染样本；将所述P个污染样本和其它未被污染的训练数据作为机器学习模型的输入，训练得到带有后门的机器学习模型。2.根据权利要求1所述的方法，其特征在于，所述主动污染方法为最小化不确定采样法(MUS)、最小化模型变化采样法(MMC)、最大化多样性采样法(MDS)、多样性和代表性采样法(RDS)、结合最大化多样性和最小化不确定性的方法(MUS+MDS)或结合最大化多样性和最小化模型变化的方法(MMC+MDS)。3.根据权利要求2所述的方法，其特征在于，(1)所述最小化不确定采样法(MUS)，包括：将所述训练数据进行预训练，得到每一个样本x关于类别y的后验概率p(y|x)，再计算信息熵u(x)＝
‑
∑
y
p(y|x)logp(y|x)，选择前P个具有最小信息熵的样本作为待污染样本；(2)所述最小化模型变化采样法(MMC)，包括：在所述训练数据上使用逻辑回归和交叉熵损失函数时，采用梯度下降法进行训练，得到每一个样本x的sigmoid输出f(x)，再计算模型变化c(x)＝(f(x)
‑
y)x，y是样本x的真实类别，选择前P个具有最小模型变化的样本作为待污染样本；(3)所述最大化多样性采样法(MDS)，包括：计算在所述训练数据的特征空间上，每一个样本与其它样本的距离，得到每一个样本与其最近样本的距离d(x)作为多样性，选择前P个具有最大多样性的样本作为待污染样本。4.根据权利要求2所述的方法，其特征在于，所述多样性和代表性采样法(RDS)，包括：在所述训练数据上进行k
‑
mans聚类(其中k＝P)，选择最接近每...

【专利技术属性】
技术研发人员：伍冬睿，蒋雪，孟璐斌，李思扬，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人