一种基于隐私数据进行模型训练的方法及系统技术方案

技术编号:24092277 阅读:51 留言:0更新日期:2020-05-09 08:37
本说明书一个或多个实施例涉及一种基于隐私数据进行模型训练的方法及系统。该方法包括:第二终端接收来自第一终端的加密后的第一隐私数据;第一隐私数据由与其对应的特征和模型参数确定;第二终端至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果;第二隐私数据由与其对应的特征和模型参数确定;第二终端基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和第二隐私数据联合训练的模型的加密损失值;通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算;第一解密梯度和第二解密梯度分别与第一隐私数据和第二隐私数据对应,第一解密梯度和第二解密梯度用于更新联合训练的模型。

A model training method and system based on privacy data

【技术实现步骤摘要】
一种基于隐私数据进行模型训练的方法及系统
本说明书一个或多个实施例涉及多方数据合作,特别涉及一种基于隐私数据进行模型训练的方法和系统。
技术介绍
在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是在多方数据合作的过程中,涉及到数据安全和模型安全等问题。因此,有必要提出一种安全的基于多方数据进行联合建模的方案。
技术实现思路
本说明书实施例的一个方面提供一种基于隐私数据进行模型训练的方法;所述方法包括:第二终端接收来自第一终端的加密后的第一隐私数据;所述第一隐私数据由与其对应的特征和模型参数确定;第二终端至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果;所述第二隐私数据由与其对应的特征和模型参数确定;第二终端基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和所述第二隐私数据本文档来自技高网...

【技术保护点】
1.一种基于隐私数据进行模型训练的方法;所述方法包括:/n第二终端接收来自第一终端的加密后的第一隐私数据;所述第一隐私数据由与其对应的特征和模型参数确定;/n第二终端至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果;所述第二隐私数据由与其对应的特征和模型参数确定;/n第二终端基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;/n通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训...

【技术特征摘要】
1.一种基于隐私数据进行模型训练的方法;所述方法包括:
第二终端接收来自第一终端的加密后的第一隐私数据;所述第一隐私数据由与其对应的特征和模型参数确定;
第二终端至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果;所述第二隐私数据由与其对应的特征和模型参数确定;
第二终端基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;
通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;
其中,所述加密为同态加密;所述第三方持有所述同态加密的公钥以及对应的私钥;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本。


2.根据权利要求1所述的方法,所述联合训练的模型包括线性回归模型或逻辑回归模型。


3.根据权利要求1所述的方法,当所述联合训练的模型包括逻辑回归模型时,所述基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值包括:
第二终端基于泰勒展开公式以及Sigmoid函数确定所述加密损失值。


4.根据权利要求1所述的方法,所述通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算包括:
第二终端基于所述加密损失值以及所述第二隐私数据对应的特征,确定第二加密梯度。


5.根据权利要求4所述的方法,所述通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算还包括:
第二终端基于所述第二加密梯度以及第二掩码,确定第二掩码梯度,并将所述第二掩码梯度传输给所述第三方;
第二终端接收来自第三方的第二解密结果;所述第二解密结果对应于所述第二掩码梯度;
第二终端基于所述第二解密结果以及第二掩码,确定第二解密梯度,并基于所述第二解密梯度更新联合训练的模型。


6.根据权利要求1所述的方法,所述方法还包括:接收来自其他终端的其他隐私数据;所述其他隐私数据由与其对应的特征和模型参数确定;所述至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果包括:
第二终端将加密后的第一隐私数据、加密后的其他隐私数据以及所述第二隐私数据的加密数据进行计算,得到加密后的结果。


7.根据权利要求1所述的方法,所述第一隐私数据和所述第二隐私数据包括与实体相关的图像数据、文本数据或声音数据。


8.一种基于隐私数据进行模型训练的系统,所述系统包括:
第一数据接收模块,用于接收来自第一终端的加密后的第一隐私数据;所述第一隐私数据由与其对应的特征和模型参数确定;
加密结果确定模块,用于至少将加密后的第一隐私数据与第二隐私数据的加密数据进行计算,得到加密后的结果;所述第二隐私数据由与其对应的特征和模型参数确定;
加密损失值确定模块,用于基于所述加密后的结果以及样本标签,得到至少基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;
模型参数更新模块,用于通过第三方将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;
其中,所述加密为同态加密;所述第三方持有所述同态加密的公钥以及对应的私钥;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本。


9.根据权利要求8所述的系统,所述联合训练的模型包括线性回归模型或逻辑回归模型。


10.根据权利要求8所述的系统,当所述联合训练的模型包括逻辑回归模型时,所述加密损失值确定模块还用于:
基于泰勒展开公式以及Sigmoid函数确定所述加密损失值。


11.根据权利要求8所述的系统,所述模型参数更新...

【专利技术属性】
技术研发人员:陈超超王力周俊
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1