【技术实现步骤摘要】
一种基于隐私保护的方式获取联合训练模型的方法及系统
本说明书一个或多个实施例涉及多方数据合作,特别涉及一种基于隐私保护的方式获取联合训练模型的方法及系统。
技术介绍
在数据分析、数据挖掘、经济预测等领域,机器学习模型可被用来分析、发现潜在的数据价值。由于单个数据拥有方持有的数据可能是不完整的,由此难以准确地刻画目标,为了得到更好的模型预测结果,通过多个数据拥有方的数据合作,来进行模型的联合训练的方式得到了广泛的使用。但是,在多方数据合作的过程中,标签信息并不是对所有样本都存在的。在医疗、金融等领域,标签信息需要大量的人工专家来标注,因此成本昂贵。因此,有必要提出一种基于隐私保护的方式获取联合训练模型的方法,来使用少量的有标签样本和大量的未标签样本来训练一个有效的联合训练模型。
技术实现思路
本说明书实施例的一个方面提供一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;所述方法包括:基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获取第二模型。本说明书实施例的另一方面提供一 ...
【技术保护点】
1.一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;/n所述方法包括:/n基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;/n将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;/n基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获得第二模型。/n
【技术特征摘要】
1.一种基于隐私保护的方式获取联合训练模型的方法,所述方法由参与方中的第一终端实现;其中,所述参与方包括第一终端与第二终端,分别持有水平或者垂直切分的训练数据,所述训练数据包括含样本标签的第一训练数据以及不含样本标签的第二训练数据;
所述方法包括:
基于含样本标签的所述第一训练数据通过隐私保护的方式与所述参与方中的第二终端联合训练第一模型;
将不含标签的第二训练数据通过隐私保护的方式输入训练好的所述第一模型得到第二训练数据的预测标签;
基于含样本标签的第一训练数据以及含预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,获得第二模型。
2.根据权利要求1所述的方法,所述方法还包括迭代训练第二模型,其中每轮迭代包括:
基于上一轮迭代计算的第二模型更新预测标签;
基于含样本标签的第一训练数据与含更新后预测标签的第二训练数据通过隐私保护的方式与所述第二终端联合训练模型,更新第二模型;
基于更新后的第二模型确定进行下一轮迭代,或者确定第二模型。
3.根据权利要求2所述的方法,所述第二模型包括第一参数矩阵和第二参数矩阵,所述第一参数矩阵与所述第二参数矩阵分别存储在所述第一终端与所述第二终端;所述迭代更新第二模型,还包括:
基于所述第一参数矩阵与所述第二参数矩阵采用隐私保护的方式进行联合训练,得到第一加密累计值与第二加密累计值;所述第一加密累计值与所述第二加密累计值分别存储在所述参与方的两个终端上;
基于所述第一加密累计值计算第一加密梯度矩阵;
基于第一加密梯度矩阵更新所述第一参数矩阵。
4.根据权利要求3所述的方法,所述基于所述第一加密累计值计算第一加密梯度矩阵,还包括:
接收来自所述第二终端的第二加密累计值;
基于所述第一加密累计值、所述第二加密累计值以及第一终端持有的训练数据计算第一加密梯度矩阵。
5.根据权利要求3所述的方法,所述基于第一加密梯度矩阵更新所述第一参数矩阵,还包括:
所述第一加密梯度矩阵发送给第二终端进行解密,获取解密后的第一梯度矩阵;
基于所述解密后的第一梯度矩阵更新所述第一参数矩阵。
6.根据权利要求3所述的方法,所述基于所述第一加密累计值计算第一加密梯度矩阵,还包括:
基于秘密分享的方法将预测标签以及样本标签拆分为第一标签和第二标签;所述第一标签和所述第二标签分别存储在所述第一终端与所述第二终端上;
基于所述第一标签与所述第一加密累计值进行计算,得到第一误差;
基于所述第一误差和第一终端持有的训练数据计算第一加密梯度矩阵第一部分;
将所述第一终端持有的训练数据与所述第二终端中的第二误差进行安全矩阵乘法,得到第一加密梯度第二部分的第一分片;并从第二终端获取第一加密梯度第二部分的第二分片;
根据所述第一加密梯度第一部分和所述第一加密梯度第二部分的第一分片以及第二终端持有的第二加密梯度第二部分的第二分片,计算第一加密梯度矩阵。
7.根据权利要求1所述的方法,所述联合训练模型包括线性回归模型。
8.一种基于隐私保护的方式获取联合训练模型的系统,所述系统由参与方中的第一终端实现;其中,所述参与方包括第一终端与...
【专利技术属性】
技术研发人员:陈超超,周俊,王力,刘颖婷,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。