数据保护方法、装置、介质及电子设备制造方法及图纸

技术编号:31089147 阅读:33 留言:0更新日期:2021-12-01 12:49
本公开涉及一种数据保护方法、装置、介质及电子设备,该方法包括:获取联合训练模型的主动参与方的指定批次的参考样本;确定第一参考样本的生成梯度信息,生成梯度信息是根据如下信息项中的至少一者确定的:第二参考样本的实际梯度信息、第一参考样本的生成标签信息、被动参与方的指定批次的参考样本的特征信息;根据生成梯度信息确定向被动参与方发送的目标梯度信息,并将目标梯度信息发送至被动参与方,以由被动参与方根据目标梯度信息对联合训练模型的参数进行更新。通过上述方案,尽量避免生成数据对联合训练模型的训练过程和模型性能的影响,提高数据的隐私性和安全性。提高数据的隐私性和安全性。提高数据的隐私性和安全性。

【技术实现步骤摘要】
数据保护方法、装置、介质及电子设备


[0001]本公开涉及计算机
,具体地,涉及一种数据保护方法、装置、介质及电子设备。

技术介绍

[0002]随着人工智能技术的发展,机器学习取得越来越广泛的应用。近年来,为了保护数据安全和解决数据孤岛的问题,相关的方式通常采用联合训练模型,来实现在不暴露原始数据的前提下完成机器学习模型的共同训练,通常将每个参与共同建模的企业称为参与方,在训练联合训练模型的过程中,为避免信息泄露,提高数据安全,每一参与方各自的信息是需要进行保护的重要数据,并且在避免信息泄露的同时保证联合训练模型的性能是联合学习过程中的重要问题。

技术实现思路

[0003]提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种数据保护方法,所述方法包括:获取联合训练模型的主动参与方的指定批次的参考样本,其中,所述主动参与方的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据保护方法,其特征在于,所述方法包括:获取联合训练模型的主动参与方的指定批次的参考样本,其中,所述主动参与方的指定批次的参考样本包括第一参考样本和第二参考样本,所述第一参考样本对应的目标加密标识信息不为所述主动参与方的目标加密标识信息,所述第二参考样本对应的目标加密标识信息为所述主动参与方的目标加密标识信息,所述目标加密标识信息是根据所述主动参与方的密钥和所述联合训练模型的被动参与方的密钥进行加密得到的;确定所述第一参考样本的生成梯度信息,其中,所述生成梯度信息是根据如下信息项中的至少一者确定的:所述第二参考样本的实际梯度信息、所述第一参考样本的生成标签信息、所述被动参与方的指定批次的参考样本的特征信息;根据所述生成梯度信息确定向所述被动参与方发送的目标梯度信息,并将所述目标梯度信息发送至所述被动参与方,以由所述被动参与方根据所述目标梯度信息对所述联合训练模型的参数进行更新。2.根据权利要求1所述的方法,其特征在于,所述生成梯度信息是根据所述第二参考样本的实际梯度信息确定的;所述确定所述第一参考样本的生成梯度信息,包括:从所述第二参考样本中确定所述第一参考样本的相似参考样本;根据所述相似参考样本的所述实际梯度信息,确定所述生成梯度信息。3.根据权利要求2所述的方法,其特征在于,所述从所述第二参考样本中确定所述第一参考样本的相似参考样本,包括:针对每一所述第二参考样本,确定该第二参考样本的特征信息与所述第一参考样本的特征信息之间的距离信息;按照从小到大的顺序遍历所述距离信息;若当前遍历到的距离信息对应的第二参考样本已作为其他第一参考样本的相似参考样本的数量小于第一预设数量阈值,则将当前遍历到的距离信息对应的第二参考样本作为所述第一参考样本的相似参考样本;在满足如下条件之一的情况下停止遍历:所述距离信息遍历完成、确定出的所述第一参考样本的相似参考样本的数量达到第二预设数量阈值。4.根据权利要求2所述的方法,其特征在于,所述根据所述相似参考样本的所述实际梯度信息,确定所述生成梯度信息,包括:确定所述第二参考样本的所述实际梯度信息的第一梯度均值;确定所述相似参考样本的所述实际梯度信息的第二梯度均值;根据所述第一梯度均值、所述第二梯度均值、噪声信息、所述指定批次的参考样本中第一参考样本的数量、所述指定批次的参考样本中第二参考样本的数量,确定所述生成梯度信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一梯度均值、所述第二梯度均值、噪声信息、所述指定批次的参考样本中第一参考样本的数量、所述指定批次的参考样本中第二参考样本的数量,确定所述生成梯度信息,包括:通过如下公式确定所述生成梯度信息:
其中,i表示指定批次的参考样本中第i个第一参考样本,表示第i个第一参考样本的生成梯度信息,n
r
表示指定批次的参考样本中第二参考样本的数量,n
f
表示指定批次的参考样本中第一参考样本的数量,表示第一梯度均值,表示第二梯度均值,α表示预设参数,α取值范围为[0,1],ε
i
表示噪声信息。6.根据权利要求1所述的方法,其特征在于,所述生成梯度信息是根据所述第一参考样本的生成标签信息确定的;所述确定所述第一参考样本的生成梯度信息,包括:将所述第一参考样本的所述生成标签信息设置为预设值;若所述联合训练模型输出在所述第二参考样本的实际标签信息的数据分布下、所述第一参考样本的特征信息为正例的第一逻辑回归信息,则根据所述第一逻辑回归信息、所述第一参考样本对应的标识信息属于所述主动参与方的标识集合的概率,确定在混合标签信息的数据分布下、所述第一参考样本的特征信息为正例的第二逻辑回归信息,其中,所述混合标签信息包括所述实际标签信息和所述生成标签信息;根据所述第二逻辑回归信息,确定训练损失函数值,并根据所述训练损失函数值确定所述生成梯度信息。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:根据所述第一逻辑回归信息,确定测试损失函数值,并根据所述测试损失函数值对所述联合训练模型进行测试。8.根据权利要求1所述的方法,其特征在于,所述生成梯度信息是根据所述第一参考样本的生成标签信息确定的;所述确定所述第一参考样本的生成梯度信息,包括:将所述第一参考样本的所述生成标签信息设置为预设值;若所述联合训练模型输出在混合标签信息的数据分布下、所述第一参考样本的特征信息为正例的第二逻辑回归信息,则根据所述第二逻辑回归信息,确定训练损失函数值,其中,所述混合标签信息包括所述生成标签信息和所述第二参考样本的实际标签信息;根据所述训练损失函数值确定所述生成梯度信息。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:根据所述第二逻辑回归信息、所述第一参考样本对应的标识信息属于所述主动参与方的标识集合的概率,确定在所述第二参考样本的实际标签信息的数据分布下、所述第一参考样本的特征信息为正例的第一逻辑回归信息;根据所述第一逻辑回归信息,确定测试损失函数值,并根据所述测试损失函数值对所述联合训练模型进行测试。10.根据权利要求1所述的方法,其特征在于,所述生成梯度信息是根据所述第一参考样本的生成标签信息确定的;所述确定所述第一参考样本的生成梯度信息,包括:
确定所述第一参考样本的特征信息为正例的预测概率;根据所述预测概率确定所述第一参考样本的生成标签信息;根据所述生成标签信息确定训练损失函数值,并根据所述训练损失函数值确定所述生成梯度信息。11.根据权利要求1所述的方法,其特征在于,所述生成梯度信息是根据所述被动参与方的指定批次的参考样本的特征信息确定的;所述确定所述第一参考样本的生成梯度信息,包括:获取所述被动参与方的指定批次的参考样本的特征信息,所述特征信息包括实际特征信息和生成特征信息;若所述联合训练模型输出在实际特征信息的数据分布下、所述第一参考样本的特征信息为正例的第三逻辑回归信息,则根据所述第三逻辑...

【专利技术属性】
技术研发人员:孙建凯杨鑫张傲南高伟豪解浚源王崇
申请(专利权)人:脸萌有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1