【技术实现步骤摘要】
基于同态加密的模型训练方法、装置及系统
本说明书的实施例通常涉及人工智能领域,尤其涉及基于同态加密的模型训练方法、装置及系统。
技术介绍
逻辑回归模型是机器学习领域广泛使用的回归/分类模型。在很多情况下,多个数据拥有方(例如,电子商务公司、快递公司和银行)各自拥有逻辑回归模型训练所使用的训练样本的不同部分数据。该多个数据拥有方通常想共同使用彼此的数据来统一训练逻辑回归模型,但又不想把各自的数据提供给其它各个数据拥有方以防止自己的数据被泄露。面对这种情况,提出了能够保护数据安全的模型训练方法,其能够在保证数据拥有方的各自数据安全的情况下,由数据拥有方利用各自的隐私数据来协同训练逻辑回归模型。
技术实现思路
鉴于上述,本说明书的实施例提供用于经由第一和第二数据拥有方协同训练逻辑回归模型的方法,第一数据拥有方具有第一模型、第一数据、第一公钥和第一私钥,第二数据拥有方具有第二模型、第二数据、第二公钥、第二私钥和标签值,第一和第二数据按照垂直切分方式共同组成所述逻辑回归模型的训练样本,第一和第二模型按照垂直 ...
【技术保护点】
1.一种用于经由第一和第二数据拥有方协同训练逻辑回归模型的方法,第一数据拥有方具有第一模型、第一数据、第一公钥和第一私钥,第二数据拥有方具有第二模型、第二数据、第二公钥、第二私钥和标签值,所述第一和第二数据按照垂直切分方式共同组成所述逻辑回归模型的训练样本,所述第一和第二模型按照垂直切分方式共同组成所述逻辑回归模型,所述方法包括:/n在各个数据拥有方之间共享各自的公钥;/n在各个数据拥有方处分别使用各自的模型和数据确定各自的预测值,并且使用所述第一公钥来对所确定出的预测值进行加密;/n在所述第二数据拥有方处,获取所述第一数据提供方处的加密后的预测值,并根据各个数据拥有方处的 ...
【技术特征摘要】
1.一种用于经由第一和第二数据拥有方协同训练逻辑回归模型的方法,第一数据拥有方具有第一模型、第一数据、第一公钥和第一私钥,第二数据拥有方具有第二模型、第二数据、第二公钥、第二私钥和标签值,所述第一和第二数据按照垂直切分方式共同组成所述逻辑回归模型的训练样本,所述第一和第二模型按照垂直切分方式共同组成所述逻辑回归模型,所述方法包括:
在各个数据拥有方之间共享各自的公钥;
在各个数据拥有方处分别使用各自的模型和数据确定各自的预测值,并且使用所述第一公钥来对所确定出的预测值进行加密;
在所述第二数据拥有方处,获取所述第一数据提供方处的加密后的预测值,并根据各个数据拥有方处的加密后的预测值,确定所述逻辑回归模型的第一加密预测差值以及第一加密梯度信息;
在所述第一数据拥有方和所述第二数据拥有方之间,利用所述第一加密预测差值和所述第一加密梯度信息,使用同态加密算法确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息;以及
在所述第一数据拥有方和所述第二数据拥有方处,分别使用所述第一和第二梯度信息更新所述第一模型和所述第二模型。
2.如权利要求1所述的方法,其中,在所述第一数据拥有方和所述第二数据拥有方之间,利用所述第一加密预测差值和所述第一加密梯度信息,使用同态加密算法确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息包括:
在所述第二数据拥有方处,生成第一随机数和第二随机数,确定所述第一加密预测差值与所述第二随机数的第一和值、所述第一加密梯度信息与所述第一随机数的第二和值以及加密随机数,并将所述第一和值、所述第二和值以及所述加密随机数提供给所述第一数据拥有方,所述加密随机数通过使用所述第二公钥对所述第二随机数进行加密得到;
在所述第一数据拥有方处,使用所述第一私钥来对所述第一和值和所述第二和值进行解密,并将解密后的第二和值提供给所述第二数据拥有方;
在所述第一数据拥有方处,使用解密后的第一和值以及所述第一数据,确定所述第一数据拥有方处的第三梯度信息;
在所述第一数据拥有方处,生成第三随机数,并且使用所述加密随机数、所述第一数据以及所述第三随机数,确定第二加密梯度信息并发送给所述第二数据拥有方;
在所述第二数据拥有方处,根据解密后的第二和值和第一随机数,确定所述第二数据拥有方处的第二梯度信息,并且使用所述第二私钥对所述第二加密梯度信息进行解密,得到第四梯度信息并发送给所述第一数据拥有方;以及
在所述第一数据拥有方处,使用所述第四梯度信息、所述第三随机数和所述第三梯度信息,确定所述第一数据拥有方处的第一梯度信息。
3.如权利要求1所述的方法,其中,根据各个数据拥有方处的加密后的预测值,确定所述逻辑回归模型的第一加密预测差值以及第一加密梯度信息包括:
计算所述第一和第二数据拥有方处的加密后的预测值的预测值和值;
使用所述预测值和值以及所述标签值,根据多阶多项式公式展开来确定所述第一加密预测差值;以及
使用所述第一加密预测差值和所述第二数据,确定所述第一加密梯度信息。
4.如权利要求3所述的方法,其中,所述多阶多项式公式展开包括泰勒级数展开。
5.如权利要求1到4中任一所述的方法,其中,所述方法循环执行,直到满足循环结束条件,所述循环结束条件包括:
预定循环次数;或者
预测差值位于预定范围内。
6.一种用于经由第一和第二数据拥有方协同训练逻辑回归模型的方法,第一数据拥有方具有第一模型、第一数据、第一公钥和第一私钥,第二数据拥有方具有第二模型、第二数据、第二公钥、第二私钥和标签值,所述第一和第二数据按照垂直切分方式共同组成所述逻辑回归模型的训练样本,所述第一和第二模型按照垂直切分方式共同组成所述逻辑回归模型,所述方法由所述第一数据拥有方执行,所述方法包括:
将所述第一公钥提供给所述第二数据拥有方,以及从所述第二数据拥有方获取所述第二公钥;
使用所述第一模型和所述第一数据,确定所述第一数据拥有方处的第一预测值;
使用所述第一公钥来对所述第一预测值进行加密,得到第一加密预测值,并将所述第一加密预测值提供给所述第二数据拥有方;
在所述第一数据拥有方和所述第二数据拥有方之间,利用第一加密预测差值以及第一加密梯度信息,使用同态加密算法确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息,其中,所述第一加密预测差值和所述第一加密梯度信息是在所述第二数据拥有方处,根据各个数据拥有方处的加密后的预测值确定出;以及
使用所述第一梯度信息更新所述第一数据拥有方处的第一模型。
7.如权利要求6所述的方法,其中,在所述第一数据拥有方和所述第二数据拥有方之间,利用第一加密预测差值以及第一加密梯度信息,使用同态加密算法确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息包括:
从所述第二数据拥有方获取第一和值、第二和值以及加密随机数,其中,所述第一和值是第一加密预测差值与第二随机数的和值,所述第二和值是第一加密梯度信息与第一随机数的和值,所述加密随机数通过使用所述第二公钥对所述第二随机数进行加密得到,所述第一随机数和第二随机数在所述第二数据拥有方处生成,所述第一加密预测差值和所述第一加密梯度信息在所述第二数据拥有方处根据各个数据拥有方处的加密后的预测值确定出;
使用所述第一私钥来对所述第一和值和所述第二和值进行解密,并将解密后的第二和值提供给所述第二数据拥有方;
使用解密后的第一和值和所述第一数据,确定所述第一数据拥有方处的第三梯度信息;
生成第三随机数,并且使用所述加密随机数、所述第一数据以及所述第三随机数,确定第二加密梯度信息并发送给所述第二数据拥有方;以及
使用所述第三随机数、所述第三梯度信息以及从所述第二数据拥有方获取的第四梯度信息,确定所述第一数据拥有方处的第一梯度信息,所述第四梯度信息是在所述第二数据拥有方处使用所述第二私钥对所述第二加密梯度信息进行解密而得到。
8.一种用于经由第一和第二数据拥有方协同训练逻辑回归模型的方法,第一数据拥有方具有第一模型、第一数据、第一公钥和第一私钥,第二数据拥有方具有第二模型、第二数据、第二公钥、第二私钥和标签值,所述第一和第二数据按照垂直切分方式共同组成所述逻辑回归模型的训练样本,所述第一和第二模型按照垂直切分方式共同组成所述逻辑回归模型,所述方法由所述第二数据拥有方执行,所述方法包括:
将所述第二公钥提供给所述第一数据拥有方,以及从所述第一数据拥有方获取所述第一公钥;
使用所述第二模型和所述第二数据,确定所述第二数据拥有方处的第二预测值;
使用所述第一公钥对所述第二预测值进行加密,得到第二加密预测值,并从所述第一数据方获取第一加密预测值,所述第一加密预测值是在所述第一数据拥有方处对根据所述第一模型和所述第一数据确定出的第一预测值,使用所述第一公钥加密而得到;
根据所述第一加密预测值和所述第二加密预测值,确定所述逻辑回归模型的第一加密预测差值和第一加密梯度信息;
在所述第一数据拥有方和所述第二数据拥有方之间,利用所述第一加密预测差值和第一加密梯度信息,使用同态加密算法来确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息;以及
使用所述第二梯度信息更新所述第二数据拥有方处的第二模型。
9.如权利要求8所述的方法,其中,在所述第一数据拥有方和所述第二数据拥有方之间,利用所述第一加密预测差值和第一加密梯度信息,使用同态加密算法来确定所述第一数据拥有方处的第一梯度信息和所述第二数据拥有方处的第二梯度信息包括:
生成第一随机数和第二随机数;
确定所述第一加密预测差值与所述第二随机数的第一和值...
【专利技术属性】
技术研发人员:巫锡斌,陈超超,王力,王磊,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。