一种模型隐私保护方法、装置以及设备制造方法及图纸

技术编号:34720831 阅读:9 留言:0更新日期:2022-08-31 18:06
本说明书实施例公开了一种模型隐私保护方法、装置以及设备。方案包括:在原始样本中定位出敏感区域;通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;确定包含待保护模型及其对应的攻击模型的对抗网络模型;利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。型转变为具有隐私保护的模型。型转变为具有隐私保护的模型。

【技术实现步骤摘要】
一种模型隐私保护方法、装置以及设备


[0001]本说明书涉及机器学习
,尤其涉及一种模型隐私保护方法、装置以及设备。

技术介绍

[0002]近年来,人工智能学科的发展取得了重大进展,从而推进各类相关的应用开始广泛进入人们的生产和生活当中。比如,刷脸打卡、刷脸支付、智能美颜以及各类辅助驾驶等。作为人工智能系统的核心,深度学习模型在进行核心运算的同时,也面临着攻击者的恶意攻击。攻击者一般会尝试直接获取模型文件来破解模型的结构和权重,从而窒息系统的运行逻辑,从而攻破系统。因此,模型隐私保护工作刻不容缓。
[0003]目前,可以基于训练后的加密和混淆方法进行模型隐私保护,这类方案在模型完成训练以后,对模型的结构进行调整(混淆),然后对模型的权重进行加密,从而攻击者即使获得了模型文件,也无法破解出模型的结构和权重。但是,针对这类方案,又兴起了基于黑盒攻击的突破手段,在不需要显式获取模型文件的情况下,可以得到替代模型来进行系统攻击。
[0004]基于此,需要更有效的模型隐私保护方案。

技术实现思路

[0005]本说明书一个或多个实施例提供一种模型隐私保护方法、装置、设备以及存储介质,用以解决如下技术问题:需要更有效的模型隐私保护方案。
[0006]为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
[0007]本说明书一个或多个实施例提供的一种模型隐私保护方法,包括:
[0008]在原始样本中定位出敏感区域;
[0009]通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
[0010]确定包含待保护模型及其对应的攻击模型的对抗网络模型;
[0011]利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
[0012]本说明书一个或多个实施例提供的一种模型隐私保护装置,包括:
[0013]敏感区域定位模块,在原始样本中定位出敏感区域;
[0014]敏感区域脱敏模块,通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
[0015]对抗网络确定模块,确定包含待保护模型及其对应的攻击模型的对抗网络模型;
[0016]敏感对抗训练模块,利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
[0017]本说明书一个或多个实施例提供的一种模型隐私保护设备,包括:
[0018]至少一个处理器;以及,
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0021]在原始样本中定位出敏感区域;
[0022]通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
[0023]确定包含待保护模型及其对应的攻击模型的对抗网络模型;
[0024]利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
[0025]本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0026]在原始样本中定位出敏感区域;
[0027]通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
[0028]确定包含待保护模型及其对应的攻击模型的对抗网络模型;
[0029]利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
[0030]本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:敏感区域比如是梯度相对大的高响应区域,通过该方案,能够较准确地定位这种区域,针对这种区域进行输入脱敏,通过对抗训练能够对对应区域的输出进行微调,从而使得模型本身仍然能够在脱敏情况下较为准确地进行推理,同时又使得黑盒攻击方式难以察觉和确定脱敏对于从原始输入到模型输出之间映射关系的重映射影响,从而导致从原始输入到模型输出之间表面上的直接映射关系价值降低,进而有效地降低了针对模型的黑盒攻击效果,有助于更好地保护模型隐私。
附图说明
[0031]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本说明书一个或多个实施例提供的模型隐私保护方案的构思简图;
[0033]图2为本说明书一个或多个实施例提供的一种模型隐私保护方法的流程示意图;
[0034]图3为本说明书一个或多个实施例提供的一种应用场景下,图2中方法的一种详细流程示意图;
[0035]图4为本说明书一个或多个实施例提供的一种模型隐私保护装置的结构示意图;
[0036]图5为本说明书一个或多个实施例提供的一种模型隐私保护设备的结构示意图。
具体实施方式
[0037]本说明书实施例提供一种模型隐私保护方法、装置、设备以及存储介质。
[0038]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述
的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0039]在实际应用中,机器学习模型(以下简称模型,深度学习模型是其中的一类典型的模型)可用于在各种业务领域进行推理,比如,预测用户的交易是否存在异常、预测图像中的对象所属的类型、对图像进行分割、预测时间序列,等等。
[0040]如
技术介绍
中所说,攻击者会尝试获取模型文件来破解模型的结构和权重。这种方式属于白盒攻击方式,模型虽然经过训练,但是并不是对所有的样本都能够正确推理,不仅如此,尤其有一类较为特殊的样本值得注意,其相对于能正确推理的样本,表面上(比如,肉眼观察)可能区别并不算大,但是,在模型中却会推理出错误的结果,这是模型的弱点。而当攻击者获取到模型的结构和权重,则更容易掌握模型的这种弱点,从而可以有针对性地取故意构造这类特殊的样本,以欺骗模型,从而实现攻击目的。
[0041]进一步地,在黑盒攻击模式下,无需掌握目标模型(即攻击对象)的结构和权重,而是通过诸如会员攻击等方式判断一个样本属不属于目标模型的训练数据,一旦通过这类攻击有效识别出训练数据,则可以快速使用模型蒸馏的手段在黑盒情况下窃取模型性能,比如,用相同的训练数据对一个新的模型进行小样本训练,以尝试得到输入输出与目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型隐私保护方法,包括:在原始样本中定位出敏感区域;通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;确定包含待保护模型及其对应的攻击模型的对抗网络模型;利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。2.如权利要求1所述的方法,所述在原始样本中定位出敏感区域之前,所述方法还包括:根据第一原始样本的梯度表现,生成第一训练数据,并利用所述第一训练数据,训练敏感区域定位模型;所述在原始样本中定位出敏感区域,具体包括:利用所述敏感区域定位模型,在第二原始样本中定位出敏感区域。3.如权利要求2所述的方法,所述第一原始样本为图像样本;所述根据第一原始样本的梯度表现,生成第一训练数据,具体包括:将所述图像样本输入所述待保护模型进行处理,通过梯度反向传播,得到所述图像样本的各像素分别对应的梯度;根据所述梯度确定对应所述像素的敏感度;根据处于同一区域的多个所述像素的敏感度,在所述图像样本中的多个区域中确定敏感区域,将所述图像样本及为其确定出的敏感区域作为第一训练数据。4.如权利要求1所述的方法,所述针对所述敏感区域进行脱敏之前,所述方法还包括:根据第二训练数据在脱敏模型中的脱敏损失,以及对应的原始目标损失,对所述脱敏模型进行对抗训练;所述针对所述敏感区域进行脱敏,具体包括:利用所述脱敏模型,针对所述敏感区域进行脱敏。5.如权利要求4所述的方法,所述对所述脱敏模型进行对抗训练之前,所述方法还包括:将第二训练数据输入所述待保护模型中进行处理后输出,得到第一输出结果;将第二训练数据通过所述脱敏模型脱敏后,在输入所述待保护模型中进行处理后输出,得到第二输出结果;根据所述第一输出结果与所述第二输出结果之间的差异,确定所述对应的原始目标损失。6.如权利要求1所述的方法,所述利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,具体包括:将所述脱敏样本,输入所述对抗网络模型包含的所述待保护模型进行处理;将所述原始样本,输入所述对抗网络模型包含的所述攻击模型进行处理,以尝试模拟所述待保护模型的输出;根据所述待保护模型和所述攻击模型分别的输出,对所述对抗网络模型进行对抗训练。7.如权利要求6所述的方法,所述根据所述待保护模型和所述攻击模型分别的输出,对
所述对抗网络模型进行对抗训练,具体包括:根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失;根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练。8.如权利要求7所述的方法,所述根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失,具体包括:根据所述待保护模型针对所述脱敏样本的输出,与对应标签或者针对所述原始样本的输出之间的差异,确定所述待保护模型对应的原始目标损失;根据所述待保护模型针对所述脱敏样本的输出,与所述攻击模型的输出之间的差异,确定所述攻击模型对应的黑盒攻击损失。9.如权利要求7所述的方法,所述根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练,具体包括:以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标,对所述对抗网络模型进行对抗训练。10.如权利要求1所述的方法,所述待保护模型转变为具有隐私保护的模型之后,所述方法还包括:在当前的待推理对象中定位出敏感区域;通过针对所述待推理对象的所述敏感区域进行脱敏,将所述待推理对象转换为脱敏对象;通过所述具有隐私保护的模型,对所述脱敏对象进行推理,得到推理结果。11.如权利要求1~10任一项所述的方法,所述待保护模型为非分类模型。12.如权利要求11所述的方法,所述非分类模型包括图像分割模型,所述图像分割模型在转变为所述具有隐私保护的模型后,用于预测图像分割结果,并且抵御针对所述图像分割模型自身的黑盒攻击。13.一种模型隐私保护装置,包括:敏感区域定位模块,在原始样本中定位出敏感区域;敏感区域脱敏模块,通过针对所述敏感区域进行脱敏,将所述原始样本转换为...

【专利技术属性】
技术研发人员:曹佳炯丁菁汀
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1