数据保护方法、装置、服务器和介质制造方法及图纸

技术编号：25949474 阅读：60 留言：0更新日期：2020-10-17 03:41

本申请实施例公开了数据保护方法、装置、服务器和介质。该方法的一具体实施方式包括：获取属于分布不均衡的二分类样本集的目标样本和与该目标样本属于同批次的参考样本分别对应的梯度关联信息；根据该目标样本对应的梯度关联信息与该参考样本对应的梯度关联信息的比较结果，生成待添加的数据噪声的信息；根据该待添加的数据噪声的信息对该目标样本对应的初始梯度传递值进行修正，以使样本集中属于不同类别的样本所对应的修正后的梯度传递信息一致；将该梯度传递信息发送至联合训练模型的被动参与方。该实施方式使得正负样本对应的修正后的梯度传递信息没有明显差异，从而有力地保护了数据安全。

全部详细技术资料下载

【技术实现步骤摘要】
数据保护方法、装置、服务器和介质
本申请实施例涉及计算机
，具体涉及数据保护方法、装置、服务器和介质。
技术介绍
随着人工智能技术的发展，机器学习取得越来越广泛的应用。近年来，为了保护数据安全和解决数据孤岛的问题，相关的方式通常采用联合训练模型来实现在不暴露原始数据的前提下完成机器学习模型的共同训练。针对有监督机器学习模型，通常将拥有样本标签的一方称为主动参与方(activeparty)，将未拥有样本标签的一方称为被动参与方(passiveparty)。主动参与方所拥有的样本标签是在联合训练模型中需要进行保护的重要数据之一。
技术实现思路
本申请实施例提出了数据保护方法、装置、服务器和介质。第一方面，本申请实施例提供了一种数据保护方法，该方法包括：获取目标样本和与目标样本属于同批次的参考样本分别对应的梯度关联信息，其中，目标样本所属的样本集属于分布不均衡的二分类样本集；根据目标样本对应的梯度关联信息与参考样本对应的梯度关联信息的比较结果，生成待添加的数据噪声的信息；根据待添加的数据噪声的信息对目标样本对应的初始梯度传递值进行修正，生成修正后的梯度传递信息，以使样本集中属于不同类别的样本所对应的梯度传递信息一致，其中，初始梯度传递值用于指示根据目标样本调整所训练的联合训练模型；将梯度传递信息发送至联合训练模型的被动参与方，以使被动参与方根据梯度传递信息调整联合训练模型的参数。在一些实施例中，上述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率，样本预测概率用于表征样本经...

【技术保护点】
1.一种数据保护方法，包括：/n获取目标样本和与所述目标样本属于同批次的参考样本分别对应的梯度关联信息，其中，所述目标样本所属的样本集属于分布不均衡的二分类样本集；/n根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果，生成待添加的数据噪声的信息；/n根据所述待添加的数据噪声的信息对所述目标样本对应的初始梯度传递值进行修正，生成修正后的梯度传递信息，以使所述样本集中属于不同类别的样本所对应的梯度传递信息一致，其中，所述初始梯度传递值用于指示根据所述目标样本调整所训练的联合训练模型；/n将所述梯度传递信息发送至所述联合训练模型的被动参与方，以使所述被动参与方根据所述梯度传递信息调整所述联合训练模型的参数。/n

【技术特征摘要】
1.一种数据保护方法，包括：
获取目标样本和与所述目标样本属于同批次的参考样本分别对应的梯度关联信息，其中，所述目标样本所属的样本集属于分布不均衡的二分类样本集；
根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果，生成待添加的数据噪声的信息；
根据所述待添加的数据噪声的信息对所述目标样本对应的初始梯度传递值进行修正，生成修正后的梯度传递信息，以使所述样本集中属于不同类别的样本所对应的梯度传递信息一致，其中，所述初始梯度传递值用于指示根据所述目标样本调整所训练的联合训练模型；
将所述梯度传递信息发送至所述联合训练模型的被动参与方，以使所述被动参与方根据所述梯度传递信息调整所述联合训练模型的参数。

2.根据权利要求1所述的方法，其中，所述梯度关联信息包括用于表征样本类别的样本标签和样本预测概率，所述样本预测概率用于表征样本经过所述联合训练模型所得到的预测为预设类别标签的概率，所述预设类别标签包括所述样本集中占比较小的样本标签，所述参考样本包括样本预测概率满足预设概率条件且样本标签与所述预设类别标签一致的样本；以及
所述根据所述目标样本对应的梯度关联信息与所述参考样本对应的梯度关联信息的比较结果，生成待添加的数据噪声的信息，包括：
根据所述目标样本对应的样本标签是否与所述预设类别标签一致，生成与所述目标样本匹配的待添加的数据噪声的标准差。

3.根据权利要求2所述的方法，其中，所述根据所述目标样本对应的样本标签是否与所述预设类别标签一致，生成与所述目标样本匹配的待添加的数据噪声的标准差，包括：
响应于确定所述目标样本对应的样本标签与所述预设类别标签不一致，生成第一标准差作为与所述目标样本匹配的待添加的数据噪声的标准差，其中，所述第一标准差与所述目标样本对应的样本预测概率负相关。

4.根据权利要求2所述的方法，其中，所述根据所述目标样本对应的样本标签是否与所述预设类别标签一致，生成与所述目标样本匹配的待添加的数据噪声的标准差，包括：
响应于确定所述目标样本对应的样本标签与所述预设类别标签一致且所述目标样本对应的样本预测概率大于所述参考样本的样本预测概率，生成第二标准差作为与所述目标样本匹配的待添加的数...

【专利技术属性】
技术研发人员：孙建凯，高伟豪，张宏毅，王崇，解浚源，吴良超，刘小兵，
申请(专利权)人：北京字节跳动网络技术有限公司，字节跳动有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人