一种针对模型窃取攻击的综合防御方法技术

技术编号:42659504 阅读:44 留言:0更新日期:2024-09-10 12:18
本发明专利技术提供一种针对模型窃取攻击的综合防御方法,包括对抗训练步骤、恶意查询检测步骤、自适应回复步骤和所有权验证步骤;在训练阶段施加对抗训练以获得更鲁棒的模型,并削弱模型窃取攻击的效果,导致攻击者需要提交更多的恶意查询才能达到预期的攻击目标。在这之后,恶意查询检测用来检测和识别恶意查询并标记恶意用户。然后,针对恶意用户,防御者采用自适应回复策略,用添加了扰动的结果回复恶意用户。这些扰动的结果不仅可以减弱模型窃取攻击的效果,还可以为后续的模型所有权验证步骤做准备。最后,模型所有权验证可以通过扰动结果集进行验证。本发明专利技术能提高模型窃取攻击的检测精度,且多个阶段的防御措施相互促进达到最佳的整体防御。

【技术实现步骤摘要】

本专利技术涉及信息安全技术,特别涉及在机器学习即服务模式mlaas的防御技术。


技术介绍

0、技术背景

1、近年来,为了促进机器学习服务的部署,许多科技巨头,如谷歌、亚马逊、微软等已经推出了它们基于云的机器学习即服务(machine learning as a services,mlaas)模式。用户可以通过云服务器所提供的应用程序编程接口api访问机器学习预测服务,这一操作大大降低了使用机器学习服务的门槛,用户可以从繁琐耗时的模型训练过程中解脱出来,直接付费使用第三方公司提供的机器学习服务。因此,mlaas中预训练好的深度学习模型可以被视为公司的知识产权,因为训练一个模型需要大量的数据和计算资源。然而,最近的研究表明,mlaas中处于发布阶段的预训练模型很容易受到模型窃取攻击的威胁。攻击者使用恶意构造的查询样本来不断查询待保护模型,以获得回复的结果。然后利用这些(查询-回复)集合作为训练集来重建一个与原始模型(也称为待保护模型)功能相似的替代模型。

2、在防御模型窃取的研究上出现了很多优秀的工作,它们主要可以分为三类:恶意查询检测本文档来自技高网...

【技术保护点】

1.一种针对模型窃取攻击的综合防御方法,其特征在于,包括步骤:

2.如权利要求1所述方法,其特征在于,自适应回复步骤中基于最优停止理论的标签翻转的具体方式为:按照预设概率1/M,从恶意用户收到的查询每M个分为一组,再设置一个小于M的观察值r;对一组查询,先计算前r-1个查询的置信度差距,再从第M-r+1个查询开始,如出现任何一个查询的置信度差距大于前r-1个查询中置信度差距的最大值,则该查询被选中进行其预测结果对应标签的翻转到置信度最低的类别;所述置信度差距为每个查询的最大置信度和最小置信度之间的差距。

3.如权利要求2所述方法,其特征在于,观察值r设置为M/e,...

【技术特征摘要】

1.一种针对模型窃取攻击的综合防御方法,其特征在于,包括步骤:

2.如权利要求1所述方法,其特征在于,自适应回复步骤中基于最优停止理论的标签翻转的具体方式为:按照预设概率1/m,从恶意用户收到的查询每m个分为一组,再设置一个小于m的观察值r;对一组查询,先计算前r-1个查询的置信度差距,再从第m-r+1个查询开始,如出现任何一个查询的置信度差距大于前r-1个查询中置信度差距的最大值,则该查询被选中进行其预测结果对应标签的...

【专利技术属性】
技术研发人员:姜文博李洪伟鲁钰馨张瑞张然王涛张希琳杨浩淼刘鹏飞
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1