【技术实现步骤摘要】
模型训练方法、装置及系统
本公开通常涉及机器学习领域,尤其涉及用于使用水平切分的训练集来经由多个训练参与方协同训练逻辑回归模型的方法、装置及系统。
技术介绍
逻辑回归模型是机器学习领域广泛使用的回归/分类模型。在很多情况下,多个模型训练参与方(例如,电子商务公司、快递公司和银行)各自拥有训练逻辑回归模型所使用的特征样本的不同部分数据。该多个模型训练参与方通常想共同使用彼此的数据来统一训练逻辑回归模型,但又不想把各自的数据提供给其它各个模型训练参与方以防止自己的数据被泄露。面对这种情况,提出了能够保护数据安全的机器学习方法,其能够在保证多个模型训练参与方的各自数据安全的情况下,协同该多个模型训练参与方来训练逻辑回归模型,以供该多个模型训练参与方使用。然而,现有的能够保护数据安全的机器学习方法的模型训练效率较低。
技术实现思路
鉴于上述问题,本公开提供了一种用于经由多个训练参与方协同训练逻辑回归模型的方法、装置及系统,其能够在保证多个训练参与方的各自数据安全的情况下提高模型训练的效率。根据本公开的一个 ...
【技术保护点】
1.一种用于经由多个训练参与方来协同训练逻辑回归模型的方法,所述逻辑回归模型具有第一数目个子模型,所述多个训练参与方包括第一训练参与方和第二数目个第二训练参与方,每个训练参与方具有一个子模型,所述第一训练参与方具有第一特征样本子集和标记值,每个第二训练参与方具有第二特征样本子集,所述第一和第二特征样本子集是通过对用于模型训练的特征样本集进行垂直切分而获得的,所述第二数目等于所述第一数目减一,所述方法由所述第一训练参与方执行,所述方法包括:/n对各个训练参与方的子模型进行模型转换处理,以得到各个训练参与方的转换子模型;/n执行下述循环过程,直到满足循环结束条件:/n对所述特征 ...
【技术特征摘要】
1.一种用于经由多个训练参与方来协同训练逻辑回归模型的方法,所述逻辑回归模型具有第一数目个子模型,所述多个训练参与方包括第一训练参与方和第二数目个第二训练参与方,每个训练参与方具有一个子模型,所述第一训练参与方具有第一特征样本子集和标记值,每个第二训练参与方具有第二特征样本子集,所述第一和第二特征样本子集是通过对用于模型训练的特征样本集进行垂直切分而获得的,所述第二数目等于所述第一数目减一,所述方法由所述第一训练参与方执行,所述方法包括:
对各个训练参与方的子模型进行模型转换处理,以得到各个训练参与方的转换子模型;
执行下述循环过程,直到满足循环结束条件:
对所述特征样本集进行垂直-水平切分转换,以得到各个训练参与方处的转换特征样本子集;
使用秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第一训练参与方处的转换特征样本子集之间的矩阵乘积;
将所述标记值分解为所述第一数目个部分标记值,并将所述第二数目个部分标记值中的每个分别发送给对应的第二训练参与方;
基于所述第一训练参与方处的矩阵乘积来确定所述第一训练参与方处的当前预测值;
确定所述第一训练参与方的当前预测值与对应的部分标记值之间的预测差值;
基于经过转换后的特征样本集和所述第一训练参与方处的预测差值,确定所述第一训练参与方处的模型更新量;
基于所述第一训练参与方的当前转换子模型以及对应的模型更新量来更新所述第一训练参与方的转换子模型,其中,在循环过程未结束时,所述更新后的各个训练参与方的转换子模型被用作下一循环过程的当前转换子模型;以及
在满足所述循环结束条件时,基于各个训练参与方的转换子模型,确定所述第一训练参与方的子模型。
2.如权利要求1所述的方法,其中,对所述特征样本集进行垂直-水平切分转换,以得到各个训练参与方处的转换特征样本子集包括:
将所述第一特征样本子集分解为所述第一数目个第一部分特征样本子集;
将所述第二数目个第一部分特征样本子集中的每个发送给对应的第二训练参与方;
从每个第二训练参与方接收第二部分特征样本子集,所接收的各个第二部分特征样本子集是通过对各个第二训练参与方处的第二特征样本子集进行分解而得到的第一数目个第二部分特征样本子集中的一个;以及
对剩余的第一部分特征样本子集和所接收的第二部分特征样本子集进行拼接,以得到所述第一训练参与方处的转换特征样本子集。
3.如权利要求1所述的方法,其中,使用秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第一训练参与方的转换特征样本子集之间的矩阵乘积包括:
使用有可信初始化方秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第一训练参与方的转换特征样本子集之间的矩阵乘积;或者
使用无可信初始化方秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第一训练参与方的转换特征样本子集之间的矩阵乘积。
4.如权利要求1所述的方法,其中,基于所述训练发起方处的矩阵乘积来确定所述训练发起方处的当前预测值包括:
按照泰勒展开公式来基于所述训练发起方处的矩阵乘积确定所述训练发起方处的当前预测值。
5.如权利要求1到4中任一所述的方法,其中,所述循环结束条件包括:
预定循环次数;或者
所确定出的预测差值位于预定范围内。
6.一种用于经由多个训练参与方来协同训练逻辑回归模型的方法,所述逻辑回归模型具有第一数目个子模型,所述多个训练参与方包括第一训练参与方和第二数目个第二训练参与方,每个训练参与方具有一个子模型,所述第一训练参与方具有第一特征样本子集和标记值,每个第二训练参与方具有第二特征样本子集,所述第一和第二特征样本子集是通过对用于模型训练的特征样本集进行垂直切分而获得的,所述第二数目等于所述第一数目减一,所述方法由所述第二训练参与方执行,所述方法包括:
对各个训练参与方的子模型进行模型转换处理,以得到各个训练参与方的转换子模型;
执行下述循环过程,直到满足循环结束条件:
对所述特征样本集进行垂直-水平切分转换,以得到各个训练参与方处的转换特征样本子集;
使用秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第二训练参与方处的转换特征样本子集之间的矩阵乘积;
从所述第一训练参与方接收对应的部分标记值,所述部分标记值是在所述第一训练参与方处对所述标记值进行分解后得到的所述第一数目个部分标记值中的一个部分标记值;
基于所述第二训练参与方处的矩阵乘积来确定所述第二训练参与方处的当前预测值;
使用所述第二训练参与方的当前预测值和所接收的部分标记值,确定所述第二训练参与方处的预测差值;
基于经过转换后的特征样本集和所述第二训练参与方的预测差值,使用秘密共享矩阵乘法来获得所述第二训练参与方处的模型更新量;
基于所述第二训练参与方的当前转换子模型以及对应的模型更新量来更新所述第二训练参与方的转换子模型,其中,在循环过程未结束时,所述更新后的各个训练参与方的转换子模型被用作下一循环过程的当前转换子模型;以及
在满足所述循环结束条件时,基于各个训练参与方的转换子模型,确定所述第二训练参与方的子模型。
7.如权利要求6所述的方法,其中,对所述特征样本集进行垂直-水平切分转换,以得到各个训练参与方处的转换特征样本子集包括:
将所述第二特征样本子集分解为所述第一数目个第二部分特征样本子集;
将所述第二数目个第二部分特征样本子集中的每个发送给所述第一训练参与方以及其余第二训练参与方;
从所述第一训练参与方接收第一部分特征样本子集以及从其余第二训练参与方中的每个接收第二部分特征样本子集,所述第一部分特征样本子集是通过对所述第一训练参与方处的特征样本子集进行分解而得到的第一数目个第一部分特征样本子集中的一个,所接收的各个第二部分特征样本子集是在各个其余第二训练参与方处对各自的第二特征样本子集进行分解而得到的第一数目个第二部分特征样本子集中的一个;以及
对剩余的第二部分特征样本子集以及所接收的第一和第二部分特征样本子集进行拼接,以得到所述第二训练参与方处的转换特征样本子集。
8.如权利要求6所述的方法,其中,使用秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第二训练参与方的转换特征样本子集之间的矩阵乘积包括:
使用有可信初始化方秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第二训练参与方的转换特征样本子集之间的矩阵乘积;或者
使用无可信初始化方秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所述第二训练参与方的转换特征样本子集之间的矩阵乘积。
9.如权利要求6所述的方法,其中,基于经过转换后的特征样本集和所述第二训练参与方的预测差值,使用秘密共享矩阵乘法来获得所述第二训练参与方的模型更新量包括:
基于经过转换后的特征样本集和所述第二训练参与方的预测差值,使用有可信初始化方秘密共享矩阵乘法来获得所述第二训练参与方的模型更新量;或者
基于经过转换后的特征样本集和所述第二训练参与方的预测差值,使用无可信初始化方秘密共享矩阵乘法来获得所述第二训练参与方的模型更新量。
10.一种用于经由多个训练参与方来协同训练逻辑回归模型的装置,所述逻辑回归模型具有第一数目个子模型,所述多个训练参与方包括第一训练参与方和第二数目个第二训练参与方,每个训练参与方具有一个子模型,所述第一训练参与方具有第一特征样本子集和标记值,每个第二训练参与方具有第二特征样本子集,所述第一和第二特征样本子集是通过对用于模型训练的特征样本集进行垂直切分而获得的,所述第二数目等于所述第一数目减一,所述装置位于所述第一训练参与方侧,所述装置包括:
模型转换单元,被配置为对各个训练参与方的子模型进行模型转换处理,以得到各个训练参与方的转换子模型;
样本转换单元,被配置为对所述特征样本集进行垂直-水平切分转换,以得到各个训练参与方处的转换特征样本子集;
矩阵乘积获取单元,被配置为使用秘密共享矩阵乘法来获得经过模型转换后的逻辑回归模型和所...
【专利技术属性】
技术研发人员:陈超超,李梁,王力,周俊,
申请(专利权)人:创新先进技术有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。