一种有效避开对深度学习模型的所有权检测方法技术

技术编号:34739322 阅读:32 留言:0更新日期:2022-08-31 18:30
本发明专利技术公开了一种有效避开对深度学习模型的所有权检测方法,其特点是该所有权检测方法,采用找到合适的数据池来微调对手模型的决策边界使数据集推理置信度下降且不降低模型的精度,具体包括:训练受害者模型、考虑攻击方法和模型架构、训练对手模型及数据集推理、模型逆演、计算EWC损失、对手模型微调和推理并得出结论等步骤。本发明专利技术与现有技术相比具有避开数据集推理的检测,运用了弹性权重巩固方法,使在修改决策边界的同时能控制模型测试精度不会大幅度下降,方法简便,效果显著,具有广泛的应用前景,可进一步发展到一个更现实的场合:黑盒设置和高分辨率图像。黑盒设置和高分辨率图像。黑盒设置和高分辨率图像。

【技术实现步骤摘要】
一种有效避开对深度学习模型的所有权检测方法


[0001]本专利技术涉及深度学习及安全
,具体地说是一种有效避开对深度学习模型的所有权检测方法。

技术介绍

[0002]随着人工智能的发展和普及,机器学习在图像与语音识别、自动驾驶、自然语言处理及网络安全检测等领域展示出了巨大的优势。训练一个表现良好的深度学习模型需要大量的计算资源和时间,有时模型所有者会将他们的模型上传到向公众提供服务的云服务器上。在大多数情况下,模型参数和结构对用户是不可见的,用户只能得到与其输入对应的输出(标签或概率),这时一些恶意用户就会通过暴露的界面窃取受害者模型的知识产权(intellectual property,IP),这种威胁被称为模型窃取攻击。由于对手可以获得受害者模型的类似功能复制,因此非常迫切需要保护受害者模型。为了防止模型窃取攻击,大致有两种不同的防御策略。一方面,在受害者模型中添加扰动可以增加模型窃取攻击的成本或完全防止。另一方面,水印被广泛应用于保护模型知识产权。
[0003]最近,Maini等人提出了一种名为数据集推理(Dataset Inference,DI)的方法保护模型的知识产权,该方法利用私有训练数据的独特特性来进行模型所有权验证。实验表明,数据集推理仅通过暴露10个受害者模型的私人训练样本,就可以95%的置信度验证模型被盗。
[0004]现有技术的DI方法成功主要归因于训练集知识带来的模型相似性(如决策边界),一旦对手用一些处理过的数据对自己的模型进行微调,DI的检测置信度将会显著下降,然而模型的准确性也会下降。因此,如何找到合适的样本,既可以改变对手模型的决策边界使DI失效,又不降低模型精度是一个重要问题。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供一种有效避开对深度学习模型的所有权检测方法,采用弹性权重巩固方法,找到合适的数据池来微调对手模型的决策边界,使数据集推理置信度下降且不降低模型的精度,使在修改决策边界的同时能控制模型测试精度不会大幅度下降,该方法既可以通过修改模型的决策边界来避开数据集推理的检测,又运用了弹性权重巩固法来缓解灾难性遗忘从而确保模型精度不会大幅度下降,在CIFAR10、CIFAR100和Imagenet12数据集上的实验结果证明该方法有效,并进一步发展到一个更现实的场合,黑盒设置和高分辨率图像,方法简便,效果显著,具有广泛的应用前景。
[0006]实现本专利技术目的的具体技术方案是:一种有效的避开对深度学习模型所有权检测的方法,其特点是该所有权检测方法,采用找到合适的数据池来微调对手模型的决策边界使数据集推理置信度下降且不降低模型的精度,具体包括下述步骤:
[0007]步骤1:训练受害者模型
[0008]选择一个卷积层总数为28,加宽因子为10的残差网络WRN

28

10,数据集选择的是
CIFAR10、CIFAR100和Imagenet12。CIFAR10由10类32
×
32的彩色图像组成,每类有50000张训练图像和10000张测试图像。CIFAR100与CIFAR10具有相同的分布,有100个类,每个类包含500张训练图像和100张测试图像,总共有6万张图片。Imagenet12是ImageNet的一个子集。它包含12个类的彩色图像,每个类有1040张训练图像和260张验证图像。
[0009]步骤2:考虑攻击方法和模型架构
[0010]根据目标模型的不同权限级别,考虑了六种攻击方法并分别确定了对手模型架构:
[0011]1)数据可访问攻击(Data

Accessible Attack,)
[0012]对手可以获得目标模型的数据集,对手可以使用知识蒸馏来训练学生模型或从头开始训练新模型,选择一个简单的模型架构:ResNet;
[0013]2)模型可访问攻击(Model

Accessible Attack,)
[0014]对手可以访问整个模型,包括目标模型的内部结构、超参数和梯度;对手可以通过零知识精馏来训练复制,或者使用一个本地独立的数据集来微调目标模型;对于零知识蒸馏攻击者,选择CIFAR10上的WRN

16

1和CIFAR100上的WRN

16

2;对于微调攻击者,因为是直接对受害者模型进行微调,因此模型架构为WRN

28

10。
[0015]3)仅查询攻击(Query

Only Attack,)
[0016]对手通过查询API来获得对目标模型的知识,根据API返回的表单,有两种类型的攻击:仅标签攻击(Label

Only attack)和仅日志攻击(Logit

Only attack)。选择CIFAR10上的WRN

16

1和CIFAR100上的WRN

16

2。
[0017]步骤3:训练对手模型
[0018]根据攻击的类型采用不同的训练方法:
[0019]1)对于数据可访问攻击
[0020]直接在原始训练数据集上训练两个模型,进行100个迭代周期;
[0021]2)对于零知识蒸馏攻击
[0022]使用了无数据的对抗性蒸馏方法,并对该模型进行了500个迭代周期训练;3)对于微调攻击
[0023]使用未标记的Tinyimages,它在5个训练周期后接近CIFAR;
[0024]4)对于仅查询攻击,使用未标记的Tinyimages,但训练周期是20个。
[0025]步骤4:对对手模型进行数据集推理
[0026]数据集推理(Dataset Inference,DI)的具体步骤如下:
[0027]1)首先考虑一个N类的任务,对于训练数据集中的每个样本(x,y),DI首先生成它到每个类的距离。基于受害者对目标模型内部梯度的访问,DI执行两种生成方法:MinGD和Blind Walk,分别代表白盒和黑盒。在MinGD中,DI通过min
δ
d(x,x+δ)s.t.f(x+δ)=m获得到目标类m的最小距离δ
m
;在Blind Walk中,DI首先选定一个初始方向δ,并沿着这个方向走k步直到f(x+kδ)=m,δ
m
=kδ表示y到m的距离。一般来说,度量(δ1,δ2,


N
)为嵌入到目标模型中的特征。
[0028]2)接着受害者从其私有训练数据集和公共数据集中随机选择相同数量的样本,并计算其自身模型的嵌入向量,标记为

1或1(在私有训练数据集中表示为1,否则为

1),用来训练一个二值分类器。在验证阶段,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种有效避开对深度学习模型的所有权检测方法,其特征在于采用弹性权重巩固方法,找到合适的数据池来微调对手模型的决策边界,使数据集推理置信度下降且不降低模型的精度,使在修改决策边界的同时能控制模型测试精度,该方法具体包括下述步骤:步骤1:训练受害者模型选择一个卷积层总数为28,加宽因子为10的残差网络WRN

28

10,数据集选择的是CIFAR10、CIFAR100和Imagenet12;步骤2:考虑攻击方法和模型架构根据目标模型的不同权限级别以及攻击方法,确定如下的对手模型架构:1)数据可访问攻击对手使用知识蒸馏来训练学生模型或从头开始训练新模型,其模型架构选择ResNet;2)模型可访问攻击对手可以通过零知识精馏来训练复制,或者使用一个本地独立的数据集来微调目标模型,对于零知识蒸馏攻击者,模型架构选择CIFAR10上的WRN

16

1和CIFAR100上的WRN

16

2;对于微调攻击者,模型架构选择WRN

28

10;3)仅查询攻击根据API返回的表单有仅标签攻击和仅日志攻击两种类型,其模型架构选择CIFAR10上的WRN

16

1和CIFAR100上的WRN

16

2;步骤3:训练对手模型根据攻击的类型,采用下述不同的训练方法:1)对于数据可访问攻击,直接在原始训练数据集上训练两个模型,进行100个迭代周期;2)对于零知识蒸馏攻击,使用无数据的对抗性蒸馏方法,并对该模型进行500个迭代周期训练;对于微调攻击,使用未标记的Tinyimages,在5个训练周期后接近CIFAR;3)对于仅查询攻击,使用未标记的Tinyimages,其训练周期为20个;步骤4:对手模型的数据集推理1)考虑一个N类的任务,对于训练数据集中的每个样本(x,y),DI首先生成它到每个类的距离,基于受害者对目标模型内部梯度的访问,DI执行两种生成方法:MinGD和Blind Walk,分别代表白盒和黑盒;在MinGD中,DI通过min
δ
d(x,x+δ)s.t.f(x+δ)=m获得到目标类m的最小距离δ
m
;在Blind Walk中,DI选定一个初始方向δ,并沿着这个方向走k步直到f(x+kδ)=m,δ
m
=kδ表示y到m的距离,其中度量(δ1,δ2,


N
)为嵌入到目标模型中的特征;2)受害者从其私有训练数据集和公共数据集中随机选择相同数量的样...

【专利技术属性】
技术研发人员:顾雯雯殷文轩钱海峰
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1