基于生成对抗网络的自适应模型窃取防御方法技术

技术编号:43763497 阅读:30 留言:0更新日期:2024-12-24 16:06
本公开实施例中提供了一种基于生成对抗网络的自适应模型窃取防御方法,属于数据处理技术领域,具体包括:采用对比学习的方法训练分类模型M的特征提取器;进行有监督学习训练分类网络;构建生成对抗网络,利用生成对抗网络中的生成器接收查询样本x,并生成伪造的相似样本x',将查询样本x和相似样本x'分别输入判别器得到标签和置信度,并使用反向传播算法更新生成器和判别器;将特征提取器网络和更新后的生成器构成保护模块,实时查询数据经过保护模块生成相似样本,相似样本通过待保护模型给出预测标签及置信度,并根据分类网络对实时查询数据的分类结果将预测标签及置信度返回用户。通过本公开的方案,提高了模型的安全性和适应性。

【技术实现步骤摘要】

本公开实施例涉及数据处理,尤其涉及一种基于生成对抗网络的自适应模型窃取防御方法


技术介绍

1、目前,随着机器学习、深度学习取得了相当深入的研究,并在许多应用领域取得了非常显著的成功,机器学习应用也越来越普遍。作为一项前景广阔的服务,机器学习即服务(mlaas)通过付费api为客户提供个性化推理功能。然而,它很容易受到模型提取攻击,模型提取攻击是针对机器学习即服务(mlaas)平台上部署的模型进行黑盒攻击,试图通过预测api重建具有与目标模型类似功能的替代模型。通常攻击者需要制作精心准备的样本(合成样本、对抗性样本、代理样本)迭代的去查询目标模型,以得到返回的结果,进而去训练自己的模型。现有的防御检测方法中基于查询分布的检测,由于代理样本其分布符合高斯分布且涉及多个串通的恶意用户,使其合成样本不相关(即作为自然数据分布),从而使基于查询分布的检测无效。对于对抗性置信度扰动来隐藏给定不同查询的不同置信度分布,虽然达到了不同查询所对应的置信度差异小,从而降低了目标模型的信息泄露,但是并没有改变不同查询所对应的预测标签,所以对于只需要预测标签的模型窃取效果不佳。本文档来自技高网...

【技术保护点】

1.一种基于生成对抗网络的自适应模型窃取防御方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括编码器和多层感知机。

3.根据权利要求2所述的方法,其特征在于,所述步骤1具体包括:

4.根据权利要求3所述的方法,其特征在于,所述步骤2具体包括:

5.根据权利要求4所述的方法,其特征在于,所述步骤3具体包括:

【技术特征摘要】

1.一种基于生成对抗网络的自适应模型窃取防御方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括编码器和多层感知机。

3.根据权利要求2...

【专利技术属性】
技术研发人员:陈晓红汤晨曹文治袁依格尚荪培任剑
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1