一种基于多元特征交互的模型后门检测方法、装置及存储介质制造方法及图纸

技术编号:36526720 阅读:19 留言:0更新日期:2023-02-01 16:06
本发明专利技术涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。主旨在于提高模型后门的识别率以及降低检测实现的计算开销。主要方案包括对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集将数据集的单个数据输入给模型F,得到模型F的logits层的输出向量然后对向量按类别做向量和得到用于判断后门的k维向量r,其中r

【技术实现步骤摘要】
一种基于多元特征交互的模型后门检测方法、装置及存储介质


[0001]本专利技术涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。

技术介绍

[0002]随着人工智能技术的发展,机器学习被运用在人们工作和生活的各个领域中。由于人工智能需要大量数据和算力的驱动,故很多个人和组织会将机器学习模型的训练任务外包给外部供应商,这就给了攻击者影响模型的机会,模型后门攻击就是一种常见的在模型训练阶段施加影响的攻击技术。
[0003]模型后门攻击通过各种手段向模型植入后门,被植入后门的模型在被部署后表现与正常模型一致,但当攻击者通过特定输入激活该模型中的后门时,该模型将按照攻击者的意图行动。早期的后门植入方法主要是通过修改模型的训练数据实现的,随着模型后门攻击技术的发展,后门的隐蔽性不断提高,后门植入的手段也变得多样,一些在模型交付或部署后向模型植入后门的技术被提出。
[0004]针对后门攻击的防御手段可被分为两类:一类为基于经验的后门防御,防御者在对攻击原理有一定了解的基础上部署防御措施,在实践中能较好的防御已有的后门攻击方法,但其有效性缺乏理论保证,且无法保证对后续出现的攻击手段的防御;另一类为基于认证的后门防御,此类方法在假定一些前提条件后在理论上证明防御的有效性,但在实践中由于假设通常无法完全满足,导致其有效性低于基于经验的后门防御方法。

技术实现思路

[0005]本专利技术的目的在于提高模型后门的识别率以及降低检测实现的计算开销。
[0006]为了实现上述目的本专利技术采用以下技术手段:
[0007]本专利技术提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
[0008]步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
[0009]步骤2、将步骤1中准备的数据集中的数据中的数据依次输入给模型F,得到模型F对于该数据的logits层的输出向量其中代表模型F对数据为第k类的预测概率,代表提前准备的数据集中第i类数据集的第j个数据;
[0010]然后对向量按类别做向量和得到用于判断后门的k维向量,其中r
m
为向量r的第m爪分量,r
m
代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其r
m
的计算公式如下:
[0011][0012]步骤3、给定阈值b,当第m类的logits累计值r
m
高于b时,则此类受到了模型后门攻击。
[0013]本专利技术还提供了一种基于多元特征交互的模型后门检测装置,包括:
[0014]数据集模块、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
[0015]向量模块、将准备的数据集中的数据中的数据依次输入给模型F,得到模型F的logits层的输出向量其中代表模型F对数据为第k类的预测概率,代表提前准备的数据集中第i类数据集的第j个数据;
[0016]然后对向量按类别做向量和得到用于判断后门的k维向量,其中r
m
为向量r的第m个分量,r
m
代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其r
m
的计算公式如下:
[0017][0018]给定阈值b,当第m类的logits累计值r
m
高于b时,则此类受到了模型后门攻击。
[0019]本专利技术还提供了一种存储介质,所述存储,处理器读取所存储介质中的计算机程序,用以执行所述的一种基于多元特征交互的模型后门检测方法。
[0020]因为本专利技术采用上述技术方案,因此具备以下有益效果:
[0021]一、相比于基于经验的后门防御方法,本专利技术的迁移性更高:
[0022]基于经验的后门防御方法面对未知攻击时的表现较差,准确率低于30%左右。相比之下,由于本专利技术是一种利用模型特征交互以实现可解释性的后门检测方法,在面对未知后门攻击时也能达到95%以上检测准确率,因此具有更强的迁移性;
[0023]二、相比于其他模型后门检测方法,本专利技术的计算开销更小:
[0024]对于常见的图像分类问题,现有的模型后门检测方法引入了额外的优化和训练开
销,而本专利技术提出的检测方法只需对输入图像的logits层输出按类别求和,将结果与阈值进行比较以判断模型是否存在后门,其计算量远小于图像预处理所花费的计算开销。
[0025]三、以MNIST数据集为例现有方法对单个MNIST分类模型的检测时间为约300秒,而本方法的检测时间开销小于1秒。
附图说明
[0026]图1为本专利技术流程简图。
具体实施方式
[0027]以下将对本专利技术的实施例给出详细的说明。尽管本专利技术将结合一些具体实施方式进行阐述和说明,但需要注意的是本专利技术并不仅仅只局限于这些实施方式。相反,对本专利技术进行的修改或者等同替换,均应涵盖在本专利技术的权利要求范围当中。
[0028]另外,为了更好的说明本专利技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本专利技术同样可以实施。
[0029]本专利技术基于以下多元特征交互原理展开对模型后门攻击的防御:
[0030]以训练阶段植入后门的后门攻击为例,目标模型为一个以θ为参数的模型,记为F
θ
,其输入为图片x。在F
θ
的正常训练过程中,其正向传播过程利用从x提取得到的n个特征{f1,f2,...,f
n
}给出k分类的预测结果,在计算损失后,通过反向传播过程更新θ,在这个前后向传播过程里,特征{f
i
|i=1,2,...,n}对应于k个分类结果的权重将会迭代更新。随着训练的进行,对某个分类有正向影响的特征的权重将逐渐变大,对应的,有负向影响的特征的权重会逐渐减小。最终,一个训练完毕的模型的参数中会体现出各个特征对各个目标类别的竞争或合作的关系。
[0031]当攻击者操控模型的训练数据以在训练过程中向目标模型注入后门时,各个特征的竞争与合作关系相较于正常模型会发生改变。具体而言,当攻击者希望通过后门来实现对目标类别的控制时,模型在训练过程中根据如下三类特征去更新参数:(a)正常训练数据上提取的正常特征;(b)被植入后门数据上提取的后门的特征;(c)被植入后门数据上的其他特征。上述三类特征在模型训练过程中都会对目标类别的预测产生正向影响,可利用这一特点来识别模型中是否存在后门。
[0032]本专利技术提供了一种基于多元特征交互的模型后门检测方法,包括以下步骤:
[0033]步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集
[0034]步骤2、将步骤1中准备的数据集中的数据中的数据依次输入给模型F,得到模型F对于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多元特征交互的模型后门检测方法,其特征在于,包括以下步骤:步骤1、对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集步骤2、将步骤1中准备的数据集中的数据中的数据依次输入给模型F,得到模型F对于该数据的logits层的输出向量其中代表模型F对数据为第k类的预测概率,代表提前准备的数据集中第i类数据集的第j个数据;然后对向量按类别做向量和得到用于判断后门的k维向量,其中r
m
为向量r的第m个分量,r
m
代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,其r
m
的计算公式如下:步骤3、给定阈值b,当第m类的logits累计值r
m
高于b时,则此类受到了模型后门攻击。2.一种基于多元特征交互的模型后门检测装置,其特征在于,包括:数据集模...

【专利技术属性】
技术研发人员:刘小垒易鸣殷明勇邓凯胥迤潇许思博
申请(专利权)人:中国工程物理研究院计算机应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1