一种模型隐私保护方法、装置以及设备制造方法及图纸

技术编号：34720831 阅读：9 留言：0更新日期：2022-08-31 18:06

本说明书实施例公开了一种模型隐私保护方法、装置以及设备。方案包括：在原始样本中定位出敏感区域；通过针对所述敏感区域进行脱敏，将所述原始样本转换为脱敏样本；确定包含待保护模型及其对应的攻击模型的对抗网络模型；利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，以使所述待保护模型转变为具有隐私保护的模型。型转变为具有隐私保护的模型。型转变为具有隐私保护的模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型隐私保护方法、装置以及设备

[0001]本说明书涉及机器学习
，尤其涉及一种模型隐私保护方法、装置以及设备。

技术介绍

[0002]近年来，人工智能学科的发展取得了重大进展，从而推进各类相关的应用开始广泛进入人们的生产和生活当中。比如，刷脸打卡、刷脸支付、智能美颜以及各类辅助驾驶等。作为人工智能系统的核心，深度学习模型在进行核心运算的同时，也面临着攻击者的恶意攻击。攻击者一般会尝试直接获取模型文件来破解模型的结构和权重，从而窒息系统的运行逻辑，从而攻破系统。因此，模型隐私保护工作刻不容缓。
[0003]目前，可以基于训练后的加密和混淆方法进行模型隐私保护，这类方案在模型完成训练以后，对模型的结构进行调整(混淆)，然后对模型的权重进行加密，从而攻击者即使获得了模型文件，也无法破解出模型的结构和权重。但是，针对这类方案，又兴起了基于黑盒攻击的突破手段，在不需要显式获取模型文件的情况下，可以得到替代模型来进行系统攻击。
[0004]基于此，需要更有效的模型隐私保护方案。

技术实现思路

[0005]本说明书一个或多个实施例提供一种模型隐私保护方法、装置、设备以及存储介质，用以解决如下技术问题：需要更有效的模型隐私保护方案。
[0006]为解决上述技术问题，本说明书一个或多个实施例是这样实现的：
[0007]本说明书一个或多个实施例提供的一种模型隐私保护方法，包括：
[0008]在原始样本中定位出敏感区域；
[0009]通过针对所述敏感区域进行脱敏，...

【技术保护点】

【技术特征摘要】
1.一种模型隐私保护方法，包括：在原始样本中定位出敏感区域；通过针对所述敏感区域进行脱敏，将所述原始样本转换为脱敏样本；确定包含待保护模型及其对应的攻击模型的对抗网络模型；利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，以使所述待保护模型转变为具有隐私保护的模型。2.如权利要求1所述的方法，所述在原始样本中定位出敏感区域之前，所述方法还包括：根据第一原始样本的梯度表现，生成第一训练数据，并利用所述第一训练数据，训练敏感区域定位模型；所述在原始样本中定位出敏感区域，具体包括：利用所述敏感区域定位模型，在第二原始样本中定位出敏感区域。3.如权利要求2所述的方法，所述第一原始样本为图像样本；所述根据第一原始样本的梯度表现，生成第一训练数据，具体包括：将所述图像样本输入所述待保护模型进行处理，通过梯度反向传播，得到所述图像样本的各像素分别对应的梯度；根据所述梯度确定对应所述像素的敏感度；根据处于同一区域的多个所述像素的敏感度，在所述图像样本中的多个区域中确定敏感区域，将所述图像样本及为其确定出的敏感区域作为第一训练数据。4.如权利要求1所述的方法，所述针对所述敏感区域进行脱敏之前，所述方法还包括：根据第二训练数据在脱敏模型中的脱敏损失，以及对应的原始目标损失，对所述脱敏模型进行对抗训练；所述针对所述敏感区域进行脱敏，具体包括：利用所述脱敏模型，针对所述敏感区域进行脱敏。5.如权利要求4所述的方法，所述对所述脱敏模型进行对抗训练之前，所述方法还包括：将第二训练数据输入所述待保护模型中进行处理后输出，得到第一输出结果；将第二训练数据通过所述脱敏模型脱敏后，在输入所述待保护模型中进行处理后输出，得到第二输出结果；根据所述第一输出结果与所述第二输出结果之间的差异，确定所述对应的原始目标损失。6.如权利要求1所述的方法，所述利用所述原始样本和所述脱敏样本，对所述对抗网络模型进行对抗训练，具体包括：将所述脱敏样本，输入所述对抗网络模型包含的所述待保护模型进行处理；将所述原始样本，输入所述对抗网络模型包含的所述攻击模型进行处理，以尝试模拟所述待保护模型的输出；根据所述待保护模型和所述攻击模型分别的输出，对所述对抗网络模型进行对抗训练。7.如权利要求6所述的方法，所述根据所述待保护模型和所述攻击模型分别的输出，对
所述对抗网络模型进行对抗训练，具体包括：根据所述待保护模型和所述攻击模型分别的输出，确定所述待保护模型对应的原始目标损失，以及所述攻击模型对应的黑盒攻击损失；根据所述原始目标损失和所述黑盒攻击损失，对所述对抗网络模型进行对抗训练。8.如权利要求7所述的方法，所述根据所述待保护模型和所述攻击模型分别的输出，确定所述待保护模型对应的原始目标损失，以及所述攻击模型对应的黑盒攻击损失，具体包括：根据所述待保护模型针对所述脱敏样本的输出，与对应标签或者针对所述原始样本的输出之间的差异，确定所述待保护模型对应的原始目标损失；根据所述待保护模型针对所述脱敏样本的输出，与所述攻击模型的输出之间的差异，确定所述攻击模型对应的黑盒攻击损失。9.如权利要求7所述的方法，所述根据所述原始目标损失和所述黑盒攻击损失，对所述对抗网络模型进行对抗训练，具体包括：以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标，对所述对抗网络模型进行对抗训练。10.如权利要求1所述的方法，所述待保护模型转变为具有隐私保护的模型之后，所述方法还包括：在当前的待推理对象中定位出敏感区域；通过针对所述待推理对象的所述敏感区域进行脱敏，将所述待推理对象转换为脱敏对象；通过所述具有隐私保护的模型，对所述脱敏对象进行推理，得到推理结果。11.如权利要求1～10任一项所述的方法，所述待保护模型为非分类模型。12.如权利要求11所述的方法，所述非分类模型包括图像分割模型，所述图像分割模型在转变为所述具有隐私保护的模型后，用于预测图像分割结果，并且抵御针对所述图像分割模型自身的黑盒攻击。13.一种模型隐私保护装置，包括：敏感区域定位模块，在原始样本中定位出敏感区域；敏感区域脱敏模块，通过针对所述敏感区域进行脱敏，将所述原始样本转换为...

【专利技术属性】
技术研发人员：曹佳炯，丁菁汀，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人