【技术实现步骤摘要】
一种基于对抗样本指纹的黑盒深度学习模型版权保护方法
[0001]本专利技术涉及深度学习模型的安全、隐私领域,特别涉及一种基于对抗样本指纹的黑盒深度学习模型版权保护方法。
技术介绍
[0002]深度学习在解决许多实际问题方面取得了巨大成功,例如图像识别、语音识别、自然语言处理等。然而训练深度学习模型并非易事,通常需要大量的资源,包括大型数据集、昂贵的计算资源以及专家知识。此外,训练高性能模型的成本随着任务复杂性和模型容量的增加而迅速增长。例如,在维基百科和图书语料库(15GB)上训练一个BERT模型大概需要160万美元。这让恶意对手(模型窃贼)有动机窃取模型并掩盖他们的踪迹,从而导致模型版权受到侵害和可能的经济损失。事实证明,窃取模型可以非常有效地完成,例如对原模型进行微调或剪枝,甚至在仅暴露原模型API的情况下,攻击者仍然可以利用模型提取技术窃取模型的大部分功能。
[0003]近年来提出的模型水印技术利用深度学习模型过拟合的特性,在训练过程中将秘密水印(例如签名)嵌入模型,来保护深度学习模型的版权。当从可疑模型中提取相同或相似的水印时,可以验证模型所有权。但目前的水印技术有两个关键缺陷:1)水印嵌入需要介入正常的训练过程,导致模型表现受损;2)过拟合嵌入的水印容易被攻击者清除,导致水印失效。因此,需要针对深度学习模型设计新的版权保护方法,用以应对复杂多变的攻击场景。
技术实现思路
[0004]本专利技术的目的在于针对现有深度学习模型水印技术的不足,提出一种基于对抗样本指纹的通用黑盒深度学习模型 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,包括以下步骤:步骤1:使用置信度优先策略在训练集中选取具有代表性的种子,利用对抗样本攻击方法,基于需要保护版权的深度学习模型即原模型,生成唯一的对抗样本指纹集合;步骤2:对相同功能的可疑模型进行指纹匹配,将步骤1生成的对抗样本指纹作为输入,获得可疑模型的黑盒输出,计算可疑模型和原模型的指标差异度;步骤3:基于指标差异度对是否发生模型窃取进行判断,如果指标差异度小于设定阈值,说明可疑模型和原模型具有相似的决策边界,很有可能是原模型的衍生模型,判定为发生模型窃取,否则判定为没有发生模型窃取。2.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤1中,基于训练集在原模型上的概率向量输出,计算2
‑
范数作为Gini系数,选取Gini系数最大的一部分样本作为种子。3.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤1中,对于每个种子样本,使用无目标的损失梯度下降算法生成对应的对抗样本,并保存生成的对抗样本和相应参考标签,得到对抗样本指纹集合。4.根据权利要求1所述的基于对抗样本指纹的黑盒深度学习模型版权保护方法,其特征在于,所述步骤2中,基于深度学习模型的鲁棒属性,设计RobD和JSD距离指标;利用步骤1生成的对抗样本指纹对可疑模型进行验证,计算相应的指标差异度,指标差异度越小,可疑模型和原模型的相似度越高;所述RobD距离指标的公式如下:其中f为原模型标签映射方程,对于给定输入x
i
,原模型输出预测标签f(x
i
);为可疑模型标签映射方程,对于同样的输入x
i
,可疑模型输出预测标签T={(x
′1,y1),(x
′2,y2),
…
}为基于原模型生成的对抗样本指纹集合,其中x
′
i
为对抗样本,y
i
为x
′
i
的参考标签;为真值布尔函数,当f(x
′
i
)=y
i
时,返回1,否则返回0;所述JSD距离指标的公式如下:其中f
L
...
【专利技术属性】
技术研发人员:王竟亦,陈伽洛,彭汀兰,孙有程,程鹏,马兴军,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。