在分布式系统中保护隐私的模型训练方法及装置制造方法及图纸

技术编号:26763233 阅读:18 留言:0更新日期:2020-12-18 23:22
本说明书实施例提供一种在分布式系统中保护隐私的模型训练方法和装置,上述分布式系统至少包括多个数据平台,方法可以由任意数据平台执行,并包括以下步骤。首先利用本地样本集训练业务预测模型,得到各权重参数的浮点数值;然后利用第一随机化算法,将各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;接着,利用第二随机化算法,对第一比特串中各个位置的比特值进行随机翻转,得到第二比特串。于是,可以提供第二比特串,作为业务预测模型的各权重参数的本地化训练结果。

【技术实现步骤摘要】
在分布式系统中保护隐私的模型训练方法及装置
本说明书一个或多个实施例涉及机器学习领域,尤其涉及在分布式系统中保护隐私的模型训练方法及装置。
技术介绍
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。由于模型的预测性能依赖于训练样本的丰富程度和可用程度,为了得到性能更加优异的业务预测模型,往往需要综合利用多个平台的训练数据,共同对模型进行训练。具体的,在数据纵向分布的场景中,多个平台可以各自拥有同一批业务对象的不同特征数据。例如在基于机器学习的商户分类分析场景中,电子支付平台拥有商户的交易流水数据,电子商务平台存储有商户的销售数据,银行机构拥有商户的借贷数据。在数据横向分布的场景中,多个平台可以各自拥有不同业务对象的相同属性特征。例如不同地区的银行机构,各自拥有本地注册商户的借贷数据。当然还存在纵向横向分布相结合的情况。多个平台本地的训练数据往往包含本地业务对象的隐私,特别是用户隐私。进一步的,根据本地训练数据训练出的本地模型,也会存在泄漏本地数据特点的风险。因此,在多方共同训练模型的场景中,数据安全和数据隐私问题,是极大的一项挑战。因此,希望提供改进的方案,在分布式系统中多方共同训练业务预测模型的情况下,保证各方的隐私数据不泄露,确保数据安全。
技术实现思路
本说明书一个或多个实施例描述了一种在分布式系统中联合训练模型的方法和装置,可以通过对本地模型进行本地差分隐私处理,保护本地隐私数据不泄露,确保数据安全。根据第一方面,提供了一种在分布式系统中保护隐私的模型训练方法,所述分布式系统至少包括多个数据平台,所述方法通过所述多个数据平台中任意一个数据平台执行,包括:利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。在一个实施例中,训练业务预测模型具体包括多轮迭代过程,每轮迭代过程包括:根据所述业务预测模型针对所述业务对象样本集中至少部分样本的预测损失,确定各权重参数对应的浮点梯度值;根据所述各权重参数在前一轮迭代中的浮点数值和所述浮点梯度值,确定各权重参数本轮迭代后的浮点数值。在一个实施例中,各权重参数包括第一权重参数,具有第一浮点值。将该第一权重参数转换为二进制比特值的方式可以包括:至少根据所述第一浮点值确定第一概率,所述第一概率与所述第一浮点值的大小正相关;以第一概率将所述第一浮点值转换为1,以第二概率将所述第一浮点值转换为0,其中,所述第一概率和第二概率之和为1。进一步的,在一个例子中,通过以下方式确定上述第一概率:确定所述各权重参数的浮点数值的原始取值范围,所述原始取值范围的最小值为第一正数的相反数;通过将所述原始取值范围增加所述第一正数,得到修正取值范围,以及将所述第一浮点值增加所述第一正数,得到第一修正浮点值;基于所述第一修正浮点值与所述修正取值范围的最大值的比例,确定所述第一概率,其中所述第一概率与所述比例正相关。更进一步的,在一个具体例子中,上述第一概率为,第一数据项加上所述比例与第二数据项的乘积之和,所述第一数据项和第二数据项根据第一隐私预算确定。根据一种实施方式,假定第一比特串包括第一位置的第一比特值;则对第一比特串中各个位置的比特值进行随机翻转可以包括:若所述第一比特值为1,则以第三概率保持其比特值不变;若所述第一比特值为0,则以第四概率将其翻转为1;其中,第三概率和第四概率中的至少一个根据第二隐私预算确定。根据另一种实施方式,对第一比特串中各个位置的比特值进行随机翻转通过以下方式实现:若上述第一位置为偶数位,则以第五概率将其翻转值设定为1;若所述第一位置为奇数位,则以第六概率将其翻转值设定为1;其中,所述第五概率和第六概率为根据第二隐私预算和所述第一比特串的长度而分别确定的不同值。在一个实施例中,分布式系统还包括服务平台;在这样的情况下,提供所述第二比特串具体可以包括:向所述服务平台发送所述第二比特串,使得所述服务平台对所述多个数据平台分别发送的第二比特串进行聚合,得到所述业务预测模型的联合学习结果。在另一实施例中,提供所述第二比特串具体包括:向所述多个数据平台中的其他数据平台发送所述第二比特串,并从所述其他数据平台获取其对应发送的第二比特串,用于得到所述业务预测模型的共享学习结果。在各个实施例中,业务预测模型用于针对业务对象进行预测,业务对象可以包括以下之一:用户、商户、交易、图像、文本、音频。根据第二方面,提供了一种在分布式系统中保护隐私的模型训练装置,所述分布式系统至少包括多个数据平台,所述装置部署在所述多个数据平台中任意一个数据平台中,所述装置包括:训练单元,配置为利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;二值化单元,配置为利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;翻转单元,配置为利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;提供单元,配置为提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。根据本说明书实施例提供的方法和装置,在多个数据平台联合训练业务预测模型过程中,各个数据平台在利用本地样本训练出本地模型后,可以通过两阶段的本地差分隐私处理,保护本地模型的参数。该两阶段的本地差分隐私处理,首先将各个参数进行随机二值化处理,得到一个比特串;然后对该比特串中各个位置的比特值进行随机翻转,得到扰动后的比特串。然后,数据平台可以提供该扰动后的比特串作为本地模型训练结果。通过这样两阶段的本地差分隐私处理,可以极大强度地保护本地模型的参数不会泄露;在隐私保护和模型的预测性能之间达到较好的平衡。此外,将模型参数转换为比特串进行传输,还可以极大缩小数据传输量,显著提升分布式系统中的数据传输效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出在分布式系统中联合进行模型训练的一个场景示例;图2示本文档来自技高网...

【技术保护点】
1.一种在分布式系统中保护隐私的模型训练方法,所述分布式系统至少包括多个数据平台,所述方法通过所述多个数据平台中任意一个数据平台执行,包括:/n利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;/n利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;/n利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;/n提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。/n

【技术特征摘要】
1.一种在分布式系统中保护隐私的模型训练方法,所述分布式系统至少包括多个数据平台,所述方法通过所述多个数据平台中任意一个数据平台执行,包括:
利用所述数据平台本地的业务对象样本集,训练业务预测模型,得到所述业务预测模型中各权重参数的浮点数值;
利用满足差分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,得到第一比特串;
利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,得到第二比特串;
提供所述第二比特串,作为所述业务预测模型的各权重参数的本地化训练结果。


2.根据权利要求1所述的方法,其中,所述训练业务预测模型包括,多轮迭代过程,每轮迭代过程包括:
根据所述业务预测模型针对所述业务对象样本集中至少部分样本的预测损失,确定各权重参数对应的浮点梯度值;
根据所述各权重参数在前一轮迭代中的浮点数值和所述浮点梯度值,确定各权重参数本轮迭代后的浮点数值。


3.根据权利要求1所述的方法,其中,所述各权重参数包括第一权重参数,具有第一浮点值;所述利用满足查分隐私的第一随机化算法,将所述各权重参数的浮点数值分别转换为二进制比特值,包括:
至少根据所述第一浮点值确定第一概率,所述第一概率与所述第一浮点值的大小正相关;
以第一概率将所述第一浮点值转换为1,以第二概率将所述第一浮点值转换为0,其中,所述第一概率和第二概率之和为1。


4.根据权利要求3所述的方法,其中,至少根据所述第一浮点值确定第一概率包括:
确定所述各权重参数的浮点数值的原始取值范围,所述原始取值范围的最小值为第一正数的相反数;
通过将所述原始取值范围增加所述第一正数,得到修正取值范围,以及将所述第一浮点值增加所述第一正数,得到第一修正浮点值;
基于所述第一修正浮点值与所述修正取值范围的最大值的比例,确定所述第一概率,其中所述第一概率与所述比例正相关。


5.根据权利要求4所述的方法,其中,所述第一概率为,第一数据项加上所述比例与第二数据项的乘积之和,所述第一数据项和第二数据项根据第一隐私预算确定。


6.根据权利要求1所述的方法,其中,所述第一比特串包括第一位置的第一比特值;所述利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,包括:
若所述第一比特值为1,则以第三概率保持其比特值不变;
若所述第一比特值为0,则以第四概率将其翻转为1;
其中,第三概率和第四概率中的至少一个根据第二隐私预算确定。


7.根据权利要求1所述的方法,其中,所述第一比特串包括第一位置的第一比特值;所述利用满足差分隐私的第二随机化算法,对所述第一比特串中各个位置的比特值进行随机翻转,包括:
若所述第一位置为偶数位,则以第五概率将其翻转值设定为1;
若所述第一位置为奇数位,则以第六概率将其翻转值设定为1;
其中,所述第五概率和第六概率为根据第二隐私预算和所述第一比特串的长度而分别确定的不同值。


8.根据权利要求1所述的方法,其中,所述分布式系统还包括服务平台;所述提供所述第二比特串,包括:
向所述服务平台发送所述第二比特串,使得所述服务平台对所述多个数据平台分别发送的第二比特串进行聚合,得到所述业务预测模型的联合学习结果。


9.根据权利要求1所述的方法,其中,所述提供所述第二比特串,包括:
向所述多个数据平台中的其他数据平台发送所述第二比特串,并从所述其他数据平台获取其对应发送的第二比特串,用于得到所述业务预测模型的共享学习结果。


10.根据权利要求1所述的方法,其中,所述业务预测模型用于针对业务对象进行预测,所述业务对象包括以下之一:用户、商户、交易、图像、文本、音频。


11.一种在分布式系统中保护隐私的模型训练装置,所述分布式系统至少包括多个数据平台,...

【专利技术属性】
技术研发人员:熊涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1