当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于对抗样本指纹的黑盒深度学习模型版权保护方法技术

技术编号:32854404 阅读:50 留言:0更新日期:2022-03-30 19:22
本发明专利技术公开了一种基于对抗样本指纹的黑盒深度学习模型版权保护方法,包括:设计深度学习模型差异度衡量指标,实现高效的种子选取策略及对抗样本指纹生成方法,并在此基础上对可疑模型进行相似度测量(仅需模型最后一层的输出,无需白盒权限),最后对可疑模型是否发生侵权行为进行判断。本方法基于深度学习模型的公共属性(鲁棒性),能够自动地为原模型生成指纹集,并在多种模型窃取场景下有效;不受数据领域及模型结构的限制,具备良好的通用性和可拓展性。相比于传统的模型水印嵌入法,本方法无需介入深度学习模型的训练过程,避免了繁琐耗时的参数调整过程以及嵌入水印造成的精确度损失,使得对深度学习模型的版权验证及保护变得简单高效。变得简单高效。变得简单高效。

【技术实现步骤摘要】
一种基于对抗样本指纹的黑盒深度学习模型版权保护方法


[0001]本专利技术涉及深度学习模型的安全、隐私领域,特别涉及一种基于对抗样本指纹的黑盒深度学习模型版权保护方法。

技术介绍

[0002]深度学习在解决许多实际问题方面取得了巨大成功,例如图像识别、语音识别、自然语言处理等。然而训练深度学习模型并非易事,通常需要大量的资源,包括大型数据集、昂贵的计算资源以及专家知识。此外,训练高性能模型的成本随着任务复杂性和模型容量的增加而迅速增长。例如,在维基百科和图书语料库(15GB)上训练一个BERT模型大概需要160万美元。这让恶意对手(模型窃贼)有动机窃取模型并掩盖他们的踪迹,从而导致模型版权受到侵害和可能的经济损失。事实证明,窃取模型可以非常有效地完成,例如对原模型进行微调或剪枝,甚至在仅暴露原模型API的情况下,攻击者仍然可以利用模型提取技术窃取模型的大部分功能。
[0003]近年来提出的模型水印技术利用深度学习模型过拟合的特性,在训练过程中将秘密水印(例如签名)嵌入模型,来保护深度学习模型的版权。当从可疑模型中提取相同或相似的水印时,可以验证模型所有权。但目前的水印技术有两个关键缺陷:1)水印嵌入需要介入正常的训练过程,导致模型表现受损;2)过拟合嵌入的水印容易被攻击者清除,导致水印失效。因此,需要针对深度学习模型设计新的版权保护方法,用以应对复杂多变的攻击场景。

技术实现思路

[0004]本专利技术的目的在于针对现有深度学习模型水印技术的不足,提出一种基于对抗样本指纹的通用黑盒深度学习模型版权保护方法,该方法无需介入模型训练过程,通用性和可拓展性好。
[0005]本专利技术的目的是通过以下技术方案实现的:一种基于对抗样本指纹的黑盒深度学习模型版权保护方法,该方法包括以下步骤:
[0006]步骤1:使用置信度优先策略在训练集中选取具有代表性的种子,利用对抗样本攻击方法,基于需要保护版权的深度学习模型即原模型,生成唯一的对抗样本指纹集合;
[0007]步骤2:对相同功能的可疑模型进行指纹匹配,将步骤1生成的对抗样本指纹作为输入,获得可疑模型的黑盒输出,计算可疑模型和原模型的指标差异度;
[0008]步骤3:基于指标差异度对是否发生模型窃取进行判断,如果指标差异度小于设定阈值,说明可疑模型和原模型具有相似的决策边界,很有可能是原模型的衍生模型,判定为发生模型窃取,否则判定为没有发生模型窃取。
[0009]进一步地,所述步骤1中,基于训练集在原模型上的概率向量输出,计算2

范数作为Gini系数,选取Gini系数最大的一部分样本作为种子,能够更好地表征原模型,提高最终判断的准确性。
[0010]进一步地,所述步骤1中,对于每个种子样本x
i
,使用无目标的损失梯度下降算法(PGD)生成对应的对抗样本,并保存生成的对抗样本x

i
和相应参考标签y
i
,得到对抗样本指纹集合T={(x
′1,y1),(x
′2,y2),

}。
[0011]进一步地,所述步骤2中,
[0012]a.基于深度学习模型的鲁棒属性,设计RobD(Robustness Distance)和JSD(Jensen

Shanon Distance)距离指标;
[0013]所述RobD距离指标的公式如下:
[0014][0015]其中f为原模型标签映射方程,对于给定输入x
i
,原模型输出预测标签f(x
i
);类似的,为可疑模型标签映射方程,对于同样的输入x
i
,可疑模型输出预测标签T={(x
′1,y1),(x
′2,y2),

}为基于原模型生成的对抗样本指纹集合,其中x

i
为对抗样本,y
i
为x

i
的参考标签;II为真值布尔函数,当f(x

i
)=y
i
时,返回1,否则返回0;
[0016]所述JSD距离指标的公式如下:
[0017][0018]其中f
L
为原模型输出概率向量映射方程,对于给定输入x
i
,原模型输出概率向量f
L
(x
i
);类似的,为可疑模型输出概率向量映射方程,对于同样的输入x
i
,可疑模型输出概率向量T={(x
′1,y1),(x
′2,y2),

}为基于原模型生成的对抗样本指纹集合,其中x

i
为对抗样本;KL为Kullback

Leibler散度(KL散度);相比于RobD距离指标,JSD距离指标能够更细粒度地比较原模型和可疑模型输出概率向量分布的差异度。
[0019]b.利用步骤1生成的对抗样本指纹对可疑模型进行验证,计算相应的指标差异度,指标差异度越小,可疑模型和原模型的相似度越高,则越有可能发生窃取行为。
[0020]c.距离指标可以基于例如公平性等模型属性进行扩展,能够更全面地刻画原模型的特征,为最终判断是否发生窃取行为提供更全面的依据。
[0021]进一步地,所述步骤3中,使用阈值对步骤2得到的指标差异度进行划分,可以根据实际应用需求进行数据分析,动态确定指标阈值。针对RobD和JSD距离指标,可以采用如下方式:
[0022]使用原模型的训练集从随机初始起点训练一组结构相同的参考模型,默认为24个,基于对抗样本指纹集合T,使用T

检验在这组参考模型上得到RobD和JSD指标值的95%置信度区间下限,记为LB
RobD
和LB
JSD
;两个指标对应的阈值τ
RobD
和τ
JSD
的公式如下:
[0023]τ
RobD
=LB
RobD
·
α
[0024]τ
JSD
=LB
JSD
·
α
[0025]其中α为动态阈值系数,默认为0.9,可根据实际应用需求调整。
[0026]进一步地,所述步骤3中,对最终是否发生模型窃取采用投票机制,当可疑模型的所有指标值均小于各自的阈值时,则判断发生模型窃取;当可疑模型的所有指标值均大于各自的阈值时,则判断未发生模型窃取;对于其他情况,说明指标上出现分歧,则判断为可能发生模型窃取,需要后续分析。
[0027]进一步地,在对抗样本指纹集合T暴露的情况下,能够通过更换种子来恢复保护方法的有效性。
[0028]与现有深度学习模型水印技术相比,本专利技术具有以下优势:
[0029]1)无需介入模型的正常训练,因此不会造成额外的精确度损失;
[0030]2)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,包括以下步骤:步骤1:使用置信度优先策略在训练集中选取具有代表性的种子,利用对抗样本攻击方法,基于需要保护版权的深度学习模型即原模型,生成唯一的对抗样本指纹集合;步骤2:对相同功能的可疑模型进行指纹匹配,将步骤1生成的对抗样本指纹作为输入,获得可疑模型的黑盒输出,计算可疑模型和原模型的指标差异度;步骤3:基于指标差异度对是否发生模型窃取进行判断,如果指标差异度小于设定阈值,说明可疑模型和原模型具有相似的决策边界,很有可能是原模型的衍生模型,判定为发生模型窃取,否则判定为没有发生模型窃取。2.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤1中,基于训练集在原模型上的概率向量输出,计算2

范数作为Gini系数,选取Gini系数最大的一部分样本作为种子。3.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤1中,对于每个种子样本,使用无目标的损失梯度下降算法生成对应的对抗样本,并保存生成的对抗样本和相应参考标签,得到对抗样本指纹集合。4.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤2中,基于深度学习模型的鲁棒属性,设计RobD和JSD距离指标;利用步骤1生成的对抗样本指纹对可疑模型进行验证,计算相应的指标差异度,指标差异度越小,可疑模型和原模型的相似度越高;所述RobD距离指标的公式如下:其中f为原模型标签映射方程,对于给定输入x
i
,原模型输出预测标签f(x
i
);为可疑模型标签映射方程,对于同样的输入x
i
,可疑模型输出预测标签T={(x
′1,y1),(x
′2,y2),

}为基于原模型生成的对抗样本指纹集合,其中x

i
为对抗样本,y
i
为x

i
的参考标签;为真值布尔函数,当f(x

i
)=y
i
时,返回1,否则返回0;所述JSD距离指标的公式如下:其中f
L
...

【专利技术属性】
技术研发人员:王竟亦陈伽洛彭汀兰孙有程程鹏马兴军
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1