【技术实现步骤摘要】
基于样本加权的业务模型训练方法、装置及系统
本说明书实施例通常涉及机器学习领域,尤其涉及基于样本加权的业务模型训练方法、装置及系统。
技术介绍
机器学习技术被广泛地应用于各种业务应用场景。在业务应用场景中,使用机器学习模型作为业务模型来进行各种业务服务。在很多情况下,业务模型需要采用多个数据拥有方的业务数据来进行模型训练。多个数据拥有方(例如,电子商务公司、快递公司和银行)各自拥有训练业务模型所使用的特征数据的不同部分数据。该多个数据拥有方通常想共同使用彼此的数据来统一训练业务模型,但又不想把各自的数据提供给其它数据拥有方以防止自己的数据被泄露。面对这种情况,提出了能够保护数据安全的业务模型训练方法,其能够在保证多个数据拥有方的各自数据安全的情况下,协同该多个数据拥有方来训练业务模型,以供该多个数据拥有方使用。然而,现有业务模型训练方法不能适用于训练样本的数据标签具有权重的应用场景。
技术实现思路
鉴于上述,本说明书实施例提供一种基于样本加权的业务模型训练方法、装置及系统。根据本说明书实施 ...
【技术保护点】
1.一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集
【技术特征摘要】
1.一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集、第一模型以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集和第二模型,第一数据集和第二数据集按照垂直切分方式组成业务模型的训练样本,第一模型和第二模型按照垂直切分方式组成业务模型,所述方法由第一数据拥有方执行,所述方法包括:
将第一模型和标签权重C分别分解为第一模型份额和以及标签权重份额和,并将第一模型份额和标签权重份额发送给第二数据拥有方;
从第二数据拥有方接收第二模型的第二模型份额,第二模型份额经由第二数据拥有方将第二模型分解为第二模型份额和得到;
执行下述循环过程,直到满足循环结束条件:
在各个数据拥有方之间,使用第一模型份额和、第二模型份额和、第一数据集和第二数据集以及数据标签Y,确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和,第一数据拥有方具有模型更新量份额和,以及第二数据拥有方具有模型更新量份额和;
在各个数据拥有方之间,使用第一模型的模型更新量份额和、第二模型的模型更新量份额和以及标签权重份额和,确定第一模型的加权模型更新量份额和以及第二模型的加权模型更新量份额和,第一数据拥有方具有加权模型更新量份额和,以及第二数据拥有方具有加权模型更新量份额和;
分别根据加权模型更新量份额和更新第一模型份额和第二模型份额,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第二数据拥有方的第一模型份额和第二模型份额分别根据加权模型更新量份额和更新,
在满足循环结束条件时,将更新后的第二模型份额发送给第二数据拥有方,并且从第二数据拥有方获取更新后的第一模型份额;以及
根据更新后的第一模型份额和,确定训练出的第一模型。
2.如权利要求1所述的方法,其中,在各个数据拥有方之间,使用第一模型份额和、第二模型份额和、第一数据集和第二数据集以及数据标签Y,确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和包括:
根据第一模型份额和第一数据集确定第一预测值;
在各个数据拥有方之间,使用第一模型份额和第一数据集按照多方安全计算确定第二预测值,以及使用第二模型份额和第二数据集按照多方安全计算确定第三预测值,第一数据拥有方具有第二预测值的预测值份额和第三预测值的预测值份额,第二数据拥有方具有第二预测值的预测值份额和第三预测值的预测值份额;
根据第一预测值以及预测值份额和确定第一数据拥有方处的模型预测值份额;
根据模型预测值份额以及数据标签Y确定第一数据拥有方处的预测差值份额;以及
在各个数据拥有方之间,使用预测差值份额和以及第一数据集和第二数据集,按照多方安全计算确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和,
其中,预测差值份额是由第二数据拥有方使用第四预测值、预测值份额和确定出的模型预测值份额,第四预测值由第二数据拥有方根据第二模型份额和第二数据集确定。
3.如权利要求2所述的方法,其中,所述多方安全计算包括下述安全计算中的一种:
基于秘密共享的多方安全计算;
基于同态加密的多方安全计算;
基于不经意传输的多方安全计算;
基于混淆电路的多方安全计算;或者
基于可信执行环境的多方安全计算。
4.如权利要求2所述的方法,其中,在各个数据拥有方之间,使用预测差值份额和以及第一数据集和第二数据集,按照多方安全计算确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和包括:
根据预测差值份额和第一数据集确定第一模型更新量;
在各个数据拥有方之间,使用预测差值份额和第一数据集按照多方安全计算确定第二模型更新量,以及使用预测差值份额和第二数据集按照多方安全计算确定第三模型更新量,第一数据拥有方具有第二模型更新量的模型更新量份额和第三模型更新量的模型更新量份额,第二数据拥有方具有第二模型更新量的模型更新量份额和第三模型更新量的模型更新量份额;以及
将第一模型更新量与模型更新量份额之和确定为模型更新量份额,并将模型更新量份额确定为模型更新量份额,
其中,模型更新量份额是模型更新量份额,以及模型更新量份额是第四模型更新量与模型更新量份额之和,第四模型更新量由第二数据拥有方根据预测差值份额和第二数据集确定。
5.如权利要求1所述的方法,其中,在各个数据拥有方之间,使用第一模型的模型更新量份额和、第二模型的模型更新量份额和以及标签权重份额和,确定第一模型的加权模型更新量份额和以及第二模型的加权模型更新量份额和包括:
在各个数据拥有方之间,使用第一模型的模型更新量份额和、第二模型的模型更新量份额和以及标签权重份额和,按照多方安全计算确定第一模型的加权模型更新量份额和以及第二模型的加权模型更新量份额和。
6.如权利要求1所述的方法,其中,分别根据加权模型更新量份额和更新第一模型份额和第二模型份额包括:
按照以下等式更新第一数据拥有方处的模型份额:
,
其中,表示第一数据拥有方处针对第i模型的更新后的模型份额,表示第一数据拥有方处针对第i模型的当前模型份额,表示学习率,以及表示第一数据拥有方处针对第i模型的模型更新份额。
7.如权利要求1到6中任一所述的方法,其中,所述循环结束条件包括:
预定循环次数;或者
所确定出的预测差值在预定范围内。
8.一种用于经由第一和第二数据拥有方训练业务模型的方法,第一数据拥有方具有第一数据集、第一模型以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集和第二模型,第一数据集和第二数据集按照垂直切分方式组成业务模型的训练样本,第一模型和第二模型按照垂直切分方式组成业务模型,所述方法由第二数据拥有方执行,所述方法包括:
将第二模型分解为第二模型份额和,并将第二模型份额发送给第一数据拥有方;
从第一数据拥有方接收第一模型的第一模型份额以及标签权重份额,第一模型份额以及标签权重份额经由第一数据拥有方将第一模型和标签权重C分别分解为第一模型份额和以及标签权重份额和得到;
执行下述循环过程,直到满足循环结束条件:
在各个数据拥有方之间,使用第一模型份额和、第二模型份额和、第一数据集和第二数据集以及数据标签Y,确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和,第一数据拥有方具有模型更新量份额和,以及第二数据拥有方具有模型更新量份额和;
在各个数据拥有方之间,使用第一模型的模型更新量份额和、第二模型的模型更新量份额和以及标签权重份额和,确定第一模型的加权模型更新量份额和以及第二模型的加权模型更新量份额和,第一数据拥有方具有加权模型更新量份额和,以及第二数据拥有方具有加权模型更新量份额和;
分别根据加权模型更新量份额和更新第一模型份额和第二模型份额,在未满足循环结束条件时,更新后的各个数据拥有方处的第一和第二模型份额用作下一循环的当前第一和第二模型份额,第一数据拥有方处的第一模型份额和第二模型份额分别根据加权模型更新量份额和更新,
在满足循环结束条件时,将更新后的第一模型份额发送给第一数据拥有方,并且从第一数据拥有方获取更新后的第二模型份额;以及
根据更新后的第二模型份额和,确定训练出的第二模型。
9.如权利要求8所述的方法,其中,在各个数据拥有方之间,使用第一模型份额和、第二模型份额和、第一数据集和第二数据集以及数据标签Y,确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和包括:
根据第二模型份额和第二数据集确定第四预测值;
在各个数据拥有方之间,使用第一模型份额和第一数据集按照多方安全计算确定第二预测值,以及使用第二模型份额和第二数据集按照多方安全计算确定第三预测值,第一数据拥有方具有第二预测值的预测值份额和第三预测值的预测值份额,第二数据拥有方具有第二预测值的预测值份额和第三预测值的预测值份额;
根据第四预测值、预测值份额和,确定模型预测值份额,作为第二数据拥有方处的预测差值份额;以及
在各个数据拥有方之间,使用预测差值份额和以及第一数据集和第二数据集,按照多方安全计算确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和,
其中,预测差值份额由第一数据拥有方根据第一数据拥有方处的模型预测值份额和数据标签Y确定,模型预测值份额根据第一预测值、预测值份额和确定,以及第一预测值根据第一模型份额和第一数据集确定。
10.如权利要求9所述的方法,其中,在各个数据拥有方之间,使用预测差值份额和以及第一数据集和第二数据集,按照多方安全计算确定第一模型的模型更新量份额和以及第二模型的模型更新量份额和包括:
根据预测差值份额和第二数据集确定第四模型更新量;
在各个数据拥有方之间,使用预测差值份额和第一数据集按照多方安全计算确定第二模型更新量,以及使用预测差值份额和第二数据集按照多方安全计算确定第三模型更新量,第一数据拥有方具有第二模型更新量的模型更新量份额和第三模型更新量的模型更新量份额,第二数据拥有方具有第二模型更新量的模型更新量份额和第三模型更新量的模型更新量份额;以及
将第四模型更新量与模型更新量份额之和确定为模型更新量份额,并将模型更新量份额确定为模型更新量份额,
其中,模型更新量份额是第一模型更新量与模型更新量份额之和,模型更新量份额是模型更新量份额,第一模型更新量由第一数据拥有方根据预测差值份额和第一数据集确定。
11.一种用于经由第一和第二数据拥有方训练业务模型的装置,第一数据拥有方具有第一数据集、第一模型以及具有标签权重C的数据标签Y,第二数据拥有方具有第二数据集和第二模型,第一数据集和第二数据集按照垂直切分方式组成业务模型的训练样本,第一模型和第二模型按照垂直切分...
【专利技术属性】
技术研发人员:陈超超,周俊,王力,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。