数据保护方法、装置、服务器和介质制造方法及图纸

技术编号:25949474 阅读:60 留言:0更新日期:2020-10-17 03:41
本申请实施例公开了数据保护方法、装置、服务器和介质。该方法的一具体实施方式包括:获取属于分布不均衡的二分类样本集的目标样本和与该目标样本属于同批次的参考样本分别对应的梯度关联信息;根据该目标样本对应的梯度关联信息与该参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;根据该待添加的数据噪声的信息对该目标样本对应的初始梯度传递值进行修正,以使样本集中属于不同类别的样本所对应的修正后的梯度传递信息一致;将该梯度传递信息发送至联合训练模型的被动参与方。该实施方式使得正负样本对应的修正后的梯度传递信息没有明显差异,从而有力地保护了数据安全。

【技术实现步骤摘要】
数据保护方法、装置、服务器和介质
本申请实施例涉及计算机
,具体涉及数据保护方法、装置、服务器和介质。
技术介绍
随着人工智能技术的发展,机器学习取得越来越广泛的应用。近年来,为了保护数据安全和解决数据孤岛的问题,相关的方式通常采用联合训练模型来实现在不暴露原始数据的前提下完成机器学习模型的共同训练。针对有监督机器学习模型,通常将拥有样本标签的一方称为主动参与方(activeparty),将未拥有样本标签的一方称为被动参与方(passiveparty)。主动参与方所拥有的样本标签是在联合训练模型中需要进行保护的重要数据之一。
技术实现思路
本申请实施例提出了数据保护方法、装置、服务器和介质。第一方面,本申请实施例提供了一种数据保护方法,该方法包括:获取目标样本和与目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,目标样本所属的样本集属于分布不均衡的二分类样本集;根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;根据待添加的数据噪声的信息对目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,初始梯度传递值用于指示根据目标样本调整所训练的联合训练模型;将梯度传递信息发送至联合训练模型的被动参与方,以使被动参与方根据梯度传递信息调整联合训练模型的参数。在一些实施例中,上述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率,样本预测概率用于表征样本经过联合训练模型所得到的预测为预设类别标签的概率,预设类别标签包括样本集中占比较小的样本标签,参考样本包括样本预测概率满足预设概率条件且样本标签与预设类别标签一致的样本;以及上述根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息,包括:根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差。在一些实施例中,上述根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差,包括:响应于确定目标样本对应的样本标签与预设类别标签不一致,生成第一标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第一标准差与目标样本对应的样本预测概率负相关。在一些实施例中,上述根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差,包括:响应于确定目标样本对应的样本标签与预设类别标签一致且目标样本对应的样本预测概率大于参考样本的样本预测概率,生成第二标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第二标准差与目标样本对应的样本预测概率正相关。在一些实施例中,上述参考样本包括与目标样本同批次、且与预设类别标签一致的样本中样本预测概率最小的样本。在一些实施例中,上述梯度关联信息包括梯度模,梯度模用于指示样本对应的损失函数对属于被动参与方的模型部分的参数的梯度的模;以及上述根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息,包括:响应于确定目标样本对应的梯度模小于参考样本的梯度模,生成第三标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第三标准差与目标样本对应的梯度模负相关。在一些实施例中,上述参考样本包括与目标样本同批次的样本中梯度模最大的样本。第二方面,本申请实施例提供了一种数据保护装置,该装置包括:获取单元,被配置成获取目标样本和与目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,目标样本所属的样本集属于分布不均衡的二分类样本集;生成单元,被配置成根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;修正单元,被配置成根据待添加的数据噪声的信息对目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,初始梯度传递值用于指示根据目标样本调整所训练的联合训练模型;发送单元,被配置成将梯度传递信息发送至联合训练模型的被动参与方,以使被动参与方根据梯度传递信息调整联合训练模型的参数。在一些实施例中,上述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率,上述样本预测概率用于表征样本经过联合训练模型所得到的预测为预设类别标签的概率,预设类别标签包括样本集中占比较小的样本标签,参考样本包括样本预测概率满足预设概率条件且样本标签与预设类别标签一致的样本;以及上述生成单元进一步被配置成:根据目标样本对应的样本标签是否与预设类别标签一致,生成与目标样本匹配的待添加的数据噪声的标准差。在一些实施例中,上述生成单元进一步被配置成:响应于确定目标样本对应的样本标签与预设类别标签不一致,生成第一标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第一标准差与目标样本对应的样本预测概率负相关。在一些实施例中,上述生成单元进一步被配置成:响应于确定目标样本对应的样本标签与预设类别标签一致且目标样本对应的样本预测概率大于参考样本的样本预测概率,生成第二标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第二标准差与目标样本对应的样本预测概率正相关。在一些实施例中,上述参考样本包括与目标样本同批次、且与预设类别标签一致的样本中样本预测概率最小的样本。在一些实施例中,上述梯度关联信息包括梯度模,上述梯度模用于指示样本对应的损失函数对属于被动参与方的模型部分的参数的梯度的模;以及上述生成单元进一步被配置成:响应于确定目标样本对应的梯度模小于参考样本的梯度模,生成第三标准差作为与目标样本匹配的待添加的数据噪声的标准差,其中,第三标准差与目标样本对应的梯度模负相关。在一些实施例中,上述参考样本包括与目标样本同批次的样本中梯度模最大的样本。第三方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的数据保护方法、装置、服务器和介质,通过获取目标样本和与目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,目标样本所属的样本集属于分布不均衡的二分类样本集;根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;根据待添加的数据噪声的信息对目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,初始梯度传递值用于指示根据目标样本调整所训练的联合训练模型;将梯度传递信息发送至联合训练模型的被动参与方,以使被动参与方根据梯度传本文档来自技高网...

【技术保护点】
1.一种数据保护方法,包括:/n获取目标样本和与所述目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,所述目标样本所属的样本集属于分布不均衡的二分类样本集;/n根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;/n根据所述待添加的数据噪声的信息对所述目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使所述样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,所述初始梯度传递值用于指示根据所述目标样本调整所训练的联合训练模型;/n将所述梯度传递信息发送至所述联合训练模型的被动参与方,以使所述被动参与方根据所述梯度传递信息调整所述联合训练模型的参数。/n

【技术特征摘要】
1.一种数据保护方法,包括:
获取目标样本和与所述目标样本属于同批次的参考样本分别对应的梯度关联信息,其中,所述目标样本所属的样本集属于分布不均衡的二分类样本集;
根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息;
根据所述待添加的数据噪声的信息对所述目标样本对应的初始梯度传递值进行修正,生成修正后的梯度传递信息,以使所述样本集中属于不同类别的样本所对应的梯度传递信息一致,其中,所述初始梯度传递值用于指示根据所述目标样本调整所训练的联合训练模型;
将所述梯度传递信息发送至所述联合训练模型的被动参与方,以使所述被动参与方根据所述梯度传递信息调整所述联合训练模型的参数。


2.根据权利要求1所述的方法,其中,所述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率,所述样本预测概率用于表征样本经过所述联合训练模型所得到的预测为预设类别标签的概率,所述预设类别标签包括所述样本集中占比较小的样本标签,所述参考样本包括样本预测概率满足预设概率条件且样本标签与所述预设类别标签一致的样本;以及
所述根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果,生成待添加的数据噪声的信息,包括:
根据所述目标样本对应的样本标签是否与所述预设类别标签一致,生成与所述目标样本匹配的待添加的数据噪声的标准差。


3.根据权利要求2所述的方法,其中,所述根据所述目标样本对应的样本标签是否与所述预设类别标签一致,生成与所述目标样本匹配的待添加的数据噪声的标准差,包括:
响应于确定所述目标样本对应的样本标签与所述预设类别标签不一致,生成第一标准差作为与所述目标样本匹配的待添加的数据噪声的标准差,其中,所述第一标准差与所述目标样本对应的样本预测概率负相关。


4.根据权利要求2所述的方法,其中,所述根据所述目标样本对应的样本标签是否与所述预设类别标签一致,生成与所述目标样本匹配的待添加的数据噪声的标准差,包括:
响应于确定所述目标样本对应的样本标签与所述预设类别标签一致且所述目标样本对应的样本预测概率大于所述参考样本的样本预测概率,生成第二标准差作为与所述目标样本匹配的待添加的数...

【专利技术属性】
技术研发人员:孙建凯高伟豪张宏毅王崇解浚源吴良超刘小兵
申请(专利权)人:北京字节跳动网络技术有限公司字节跳动有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1