【技术实现步骤摘要】
一种基于隐私数据进行模型训练的方法及系统
本说明书一个或多个实施例涉及多方数据合作,特别涉及一种基于隐私数据进行模型训练的方法和系统。
技术介绍
在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是在多方数据合作的过程中,涉及到数据安全和模型安全等问题。因此,有必要提出一种安全的基于多方数据进行联合建模的方案。
技术实现思路
本说明书实施例的一个方面提供一种基于隐私数据进行模型训练的方法,所述方法包括:第二终端接收来自第一终端的加密后的第一隐私数据;并将其与第二终端的第二隐私数据的加密数据进行计算,得到加密后的结果;第二终端基于所述加密后的结果以及样本标签,得到基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;将所述加密损失值参与加密模型训练,得到参数更新的模型;其中,所述加密为同态加密;所述第一隐私数据和所述第二隐私数据对应于相同样本的不同特征以及模型参数。本说明书实施例的另一方面提供一种基于隐私数据进行模型训练的系统,所述系统包括:第一数据接收模块,用于接收来自第一终端的加密后的第一隐私数据;加密结果确定模块,用于将加密后的第一隐私数据与第二终端的第二隐私数据的加密数据进行计算,得到加密后的结果;加密损失值确定模块,用于基于所述加密后的结果以及样本标签,得到基 ...
【技术保护点】
1.一种基于隐私数据进行模型训练的方法,所述方法包括:/n第二终端接收来自第一终端的加密后的第一隐私数据;并将其与第二终端的第二隐私数据的加密数据进行计算,得到加密后的结果;所述第一隐私数据由与其对应的特征和模型参数确定;所述第二隐私数据由与其对应的特征和模型参数确定;/n第二终端基于所述加密后的结果以及样本标签,得到基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;/n将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;/n其中,所述加密为同态加密;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本。/n
【技术特征摘要】
1.一种基于隐私数据进行模型训练的方法,所述方法包括:
第二终端接收来自第一终端的加密后的第一隐私数据;并将其与第二终端的第二隐私数据的加密数据进行计算,得到加密后的结果;所述第一隐私数据由与其对应的特征和模型参数确定;所述第二隐私数据由与其对应的特征和模型参数确定;
第二终端基于所述加密后的结果以及样本标签,得到基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;
将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;
其中,所述加密为同态加密;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本。
2.根据权利要求1所述的方法,所述联合训练的模型包括线性回归模型或逻辑回归模型。
3.根据权利要求1所述的方法,当所述联合训练的模型包括逻辑回归模型时,所述第二终端基于所述加密后的结果以及样本标签,得到基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值包括:
第二终端基于泰勒展开公式以及Sigmoid函数确定所述加密损失值。
4.根据权利要求1所述的方法,所述将所述加密损失值参与第一解密梯度和第二解密梯度的计算包括:
基于所述加密损失值以及第二隐私数据对应的特征确定第二加密梯度;
基于所述第二加密梯度,确定对应的第二解密梯度。
5.根据权利要求4所述的方法,所述基于所述第二加密梯度,确定对应的第二解密梯度包括:
基于所述第二加密梯度和第一掩码确定对应的第一掩码梯度,并将所述掩码梯度传输给所述第一终端;
接收来自第一终端的第一解码结果,所述第一解码结果对应所述第一掩码梯度;
第二终端基于所述第一解码结果以及所述第一掩码,确定第二解密梯度;并基于所述第二解密梯度更新所述联合训练的模型。
6.根据权利要求1所述的方法,所述接收来自第一终端的加密后的第一隐私数据包括:接收用第一终端的公钥进行加密的第一隐私数据;
所述第二隐私数据的加密数据的加密公钥为第一终端的公钥。
7.根据权利要求1所述的方法,所述第一隐私数据和所述第二隐私数据包括与实体相关的图像数据、文本数据或声音数据。
8.一种基于隐私数据进行模型训练的系统,所述系统包括:
第一数据接收模块,用于接收来自第一终端的加密后的第一隐私数据;所述第一隐私数据由与其对应的特征和模型参数确定;
加密结果确定模块,用于将加密后的第一隐私数据与第二终端的第二隐私数据的加密数据进行计算,得到加密后的结果;所述第二隐私数据由与其对应的特征和模型参数确定;
加密损失值确定模块,用于基于所述加密后的结果以及样本标签,得到基于所述第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;
模型参数更新模块,用于将所述加密损失值参与第一解密梯度和第二解密梯度的计算;所述第一解密梯度和第二解密梯度分别与所述第一隐私数据和第二隐私数据对应,所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;
其中,所述加密为同态加密;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本。
9.根据权利要求8所述的系统,所述联合训练的模型包括线性回归模型或逻辑回归模型。
10.根据权利要求8所述的系统,当所述联合训练的模型包括逻辑回归模型时,所述加密损失值确定模块还用于:基于泰勒展开公式以及Sigmoid函数确定所述加密损失值。
11.根据权利要求8所述的系统,所述模型参数更新模块还用于:
基于所述加密损失值以及第二隐私数据对应的特征确定第二加密梯度;
基于所述第二加密梯度,确定对应的第二解密梯度。
12.根据权利要求11所述的系统,所述模型参数更新模块还用于:
基于所述第二加密梯度和第一掩码确定对应的第一掩码梯度,并将所述第一掩码梯度传输给所述第一终端;
接收来自第一终...
【专利技术属性】
技术研发人员:陈超超,王力,周俊,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。