【技术实现步骤摘要】
在分布式系统中保护隐私的模型训练方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及在分布式系统中保护隐私的模型训练方法及装置。
技术介绍
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。由于模型的预测性能依赖于训练样本的丰富程度和可用程度,为了得到性能更加优异的业务预测模型,往往需要综合利用多个平台的训练数据,共同对模型进行训练。具体的,在数据纵向分布的场景中,多个平台可以各自拥有同一批业务对象的不同特征数据。例如在基于机器学习的商户分类分析场景中,电子支付平台拥有商户的交易流水数据,电子商务平台存储有商户的销售数据,银行机构拥有商户的借贷数据。在数据横向分布的场景中,多个平台可以各自拥有不同业务对象的相同属性特征。例如不同地区的银行机构,各自拥有本地注册商户的借贷数据。当然还存在纵向横向分布相结合的情况。多个平台本地的训练数据往往包含本地业务对象的隐私,特别是用户隐私。进一步的,根据本地训练数据训练出的本地模型,也会存在泄漏本地数据特点的风险。因此,在多方共同训练模型的场景中,数据安全和数据隐私问题,是极大的一项挑战。因此,希望提供改进的方案,在分布式系统中多方共同训练业务预测模型的情况下,保证各方的隐私数据不泄露,确保数据安全。
技术实现思路
本说明书一个或多个实施例描述了一种在分布式系统中联合训练模型的方法和装置,可以通过对本地模型进行本地差分隐私处理,保护本地隐私数据不泄露,确保数据安全。根据第一方面,提供了一种在分布式系统 ...
【技术保护点】
1.一种在分布式系统中保护隐私的模型训练方法,所述分布式系统至少包括多个数据平台,所述方法通过所述多个数据平台中任意一个数据平台执行,包括:/n利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;/n利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;/n利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;/n提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。/n
【技术特征摘要】
1.一种在分布式系统中保护隐私的模型训练方法,所述分布式系统至少包括多个数据平台,所述方法通过所述多个数据平台中任意一个数据平台执行,包括:
利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;
利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;
利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;
提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。
2.根据权利要求1所述的方法,其中,所述训练业务预测模型包括,多轮迭代过程,每轮迭代过程包括:
根据所述业务预测模型针对所述业务对象样本集中至少部分样本的预测损失,确定各权重参数对应的浮点梯度值;
根据所述各权重参数在前一轮迭代中的浮点数值和所述浮点梯度值,确定各权重参数本轮迭代后的浮点数值。
3.根据权利要求1所述的方法,其中,所述各权重参数包括第一权重参数,具有第一浮点值;所述利用满足查分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,包括:
至少根据所述第一浮点值确定第一概率,所述第一概率与所述第一浮点值的大小正相关;
以第一概率将所述第一浮点值转换为1,以第二概率将所述第一浮点值转换为0,其中,所述第一概率和第二概率之和为1。
4.根据权利要求3所述的方法,其中,至少根据所述第一浮点值确定第一概率包括:
确定所述各权重参数的浮点数值的原始取值范围,所述原始取值范围的最小值为第一正数的相反数;
通过将所述原始取值范围增加所述第一正数,得到修正取值范围,以及将所述第一浮点值增加所述第一正数,得到第一修正浮点值;
基于所述第一修正浮点值与所述修正取值范围的最大值的比例,确定所述第一概率,其中所述第一概率与所述比例正相关。
5.根据权利要求4所述的方法,其中,所述第一概率为,第一数据项加上所述比例与第二数据项的乘积之和,所述第一数据项和第二数据项根据第一隐私预算确定。
6.根据权利要求1所述的方法,其中,所述第一比特串包括第一位置的第一比特值;所述利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,包括:
若所述第一比特值为1,则以第三概率保持其比特值不变;
若所述第一比特值为0,则以第四概率将其翻转为1;
其中,第三概率和第四概率中的至少一个根据第二隐私预算确定。
7.根据权利要求1所述的方法,其中,所述第一比特串包括第一位置的第一比特值;所述利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,包括:
若所述第一位置为偶数位,则以第五概率将其翻转值设定为1;
若所述第一位置为奇数位,则以第六概率将其翻转值设定为1;
其中,所述第五概率和第六概率为根据第二隐私预算和所述第一比特串的长度而分别确定的不同值。
8.根据权利要求1所述的方法,其中,所述分布式系统还包括服务平台;所述提供所述第二比特串,包括:
向所述服务平台发送所述第二比特串,使得所述服务平台对所述多个数据平台分别发送的第二比特串进行聚合,得到所述业务预测模型的联合学习结果。
9.根据权利要求1所述的方法,其中,所述提供所述第二比特串,包括:
向所述多个数据平台中的其他数据平台发送所述第二比特串,并从所述其他数据平台获取其对应发送的第二比特串,用于得到所述业务预测模型的共享学习结果。
10.根据权利要求1所述的方法,其中,所述业务预测模型用于针对业务对象进行预测,所述业务对象包括以下之一:用户、商户、交易、图像、文本、音频。
11.一种在分布式系统中保护隐私的模型训练装置,所述分布式系统至少包括多个数据平台,...
【专利技术属性】
技术研发人员:熊涛,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。