联邦学习分类树构建方法、模型构建方法,及终端设备技术

技术编号:25949465 阅读:14 留言:0更新日期:2020-10-17 03:41
本发明专利技术实施例涉及一种联邦学习分类树构建方法、模型构建方法,及终端设备,包括:根据第一分类特征和第一分类阈值,将用户样本集合进行分类,获取至少两组用户样本子集;向第一子集中添加混淆用户样本,获取第二子集;计算与第二子集对应的第一加密梯度值之和;对一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方;接收第二加密梯度值之和;对第二加密梯度值之和进行一次解密,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息反馈至第二数据提供方;接收最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息;根据二者对第一子集进行分类,形成联邦学习分类树的分支节点,构建联邦学习分类树。

【技术实现步骤摘要】
联邦学习分类树构建方法、模型构建方法,及终端设备
本专利技术实施例涉及计算机
,尤其涉及联邦学习分类树构建方法、模型构建方法,及终端设备。
技术介绍
随着机器学习技术的发展,越来越多的机器学习方法在金融、医疗等领域中得到了广泛的应用。在机器学习中,数据决定了模型效果的上限,为了进一步提高模型的准确性,聚合多方数据进行模型训练的联邦学习方法开始出现。由于不同的公司可能掌握着同一批用户不同维度的特征,将不同的特征聚合起来,可以有效地提高机器学习的效果。纵向联邦学习的目标正是聚合多方不同维度的特征数据,在不泄露用户隐私的前提下,共享各方数据,协同训练模型。目前比较成熟的纵向联邦学习方案是FATE开源框架中的SecureBoost方案,该方案是对XGBoost模型的一种联邦训练方法。为了避免用户隐私泄露,SecureBoost方案中,数据提供方会将特征名称隐藏,使用特征的编号代替特征名称,防止业务方根据特征名称和背景知识对数据提供方的特征进行分析。也正是由于数据提供方的特征名称都被隐藏处理,使得最终XGBoost模型的可解释性受到了极大的影响。模型的可解释性在金融领域有着重要意义。如果模型缺乏可解释性,我们便无法直觉地判断模型是否抓住了有意义的特征,也无法得知模型在其他样本预测上的泛化能力如何,因此可能会使得模型预测结果受到质疑。
技术实现思路
鉴于此,为解决现有技术中上述技术问题,本专利技术实施例提供联邦学习分类树构建方法、模型构建方法,及终端设备。第一方面,本专利技术实施例提供一种联邦学习分类树构建方法,该方法由第一数据提供方执行,包括:根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与第二子集共同发送至第二数据提供方;接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;对第二加密梯度值之和进行一次解密后,与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提供方;接收第二数据提供方反馈的最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为第二数据提供方根据第一加密梯度值之和,以及第二加密梯度值之和,确定的信息;根据最优分类特征信息和最优分类阈值的信息,对第一子集进行分类,形成联邦学习分类树的分支节点;直至达到预设分类要求时,根据所有分支节点,构建联邦学习分类树。在一个可能的实施方式中,第一分类特征、第一分类阈值、第二分类特征,以及第二分类阈值的数量均包括一个或多个。在一个可能的实施方式中,按照预设规则,对至少两组用户样本子集中的第一子集中添加混淆用户样本,获取经过混淆后的第二子集,具体包括:当第一子集中用户样本数量低于预设阈值时,从用户样本集合中选择部分用户样本作为混淆用户样本,加入到第一子集中,获取第二子集;或者,当第一子集中用户样本数量高于预设阈值时,将用户样本集合中除第一子集外的所有用户样本作为混淆用户样本,加入到第一子集中,获取第二子集。在一个可能的实施方式中,第一子集中用户样本对应的一次加密梯度值为:根据第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。在一个可能的实施方式中,当前构建的分类树为第t棵树,且t大于1时,第一子集中每一个用户样本对应的一次加密梯度值为根据第一子集中每一个用户样本对应的实际标签,以及在第t-1棵树中的预测标签计算得出的,且为第一数据提供方和第二数据提供方共同计算得出;或者,当t=1时,第一子集中的每一个用户样本对应的一次加密梯度值为第二数据提供方根据第一子集中每一个用户样本对应的实际标签计算得出。第二方面,本专利技术实施例提供一种联邦学习分类树构建方法,该方法由第二数据提供方执行,包括:接收第一数据提供方发送的第二子集以及第二子集中每一个用户样本对应的二次加密梯度值;根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值,计算相应的梯度值之和后,进行加密得到第二加密梯度值之和;将第二加密梯度值之和反馈至第一数据提供方;接收第一数据提供方反馈的第一加密梯度值之和、第一分类特征的信息、第一分类阈值的信息,以及经过一次解密的后的第二加密梯度值之和;根据第一数据提供方反馈的第一加密梯度值之和计算第一增益信息;根据经过一次解密的后的第二加密梯度值之和计算第二增益信息;从第一增益信息和第二增益信息中,确定最大的增益信息;根据最大的增益信息,从述第一分类特征的信息、第一分类阈值的信息、第二分类特征的信息、以及第二分类阈值的信息中匹配最优分类特征的信息,以及最优分类特征的最优分类阈值的信息;将最优分类特征的信息以及最优分类阈值的信息反馈至第一数据提供方。第三方面,本专利技术实施例提供一种联邦学习分类模型构建方法,该方法包括:根据至少一棵如第一方面任一实施方式构建的联邦分类树,组成联邦分类模型。第四方面,本专利技术实施例提供一种联邦学习分类树构建装置,该装置包括:分类单元,用于根据第一分类特征和与第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;获取单元,用于按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中第一子集为至少两组用户样本子集中的任一个子集;处理单元,用于根据预获取的与第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;对第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密;发送单元,用于将第二子集中每一个用户样本分别对应的,经过二次加密后的梯度值,以及第二子集共同发送至第二数据提供方;接收单元,用于接收第二数据提供方反馈的第二加密梯度值之和,第二加密梯度值之和为第二数据提供方根据第二分类特征、与第二分类特征对应的第二分类阈值、第二子集以及第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;处理单元还用于,对第二加密梯度值之和进行一次解密;发送单元还用于,将经过一次解密后的第二加密梯度值之和、第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息共同反馈至第二数据提本文档来自技高网...

【技术保护点】
1.一种联邦学习分类树构建方法,其特征在于,所述方法由第一数据提供方执行,所述方法包括:/n根据第一分类特征和与所述第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;/n按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中所述第一子集为所述至少两组用户样本子集中的任一个子集;/n根据预获取的与所述第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;/n对所述第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与所述第二子集共同发送至第二数据提供方;/n接收所述第二数据提供方反馈的第二加密梯度值之和,所述第二加密梯度值之和为所述第二数据提供方根据第二分类特征、与所述第二分类特征对应的第二分类阈值、所述第二子集以及所述第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;/n对所述第二加密梯度值之和进行一次解密后,与所述第一加密梯度值之和、所述第一分类特征的信息以及所述第一分类阈值的信息共同反馈至所述第二数据提供方;/n接收所述第二数据提供方反馈的最优分类特征的信息和与所述最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为所述第二数据提供方根据所述第一加密梯度值之和,以及所述第二加密梯度值之和,确定的信息;/n根据所述最优分类特征信息和与所述最优分类阈值的信息,对所述第一子集进行分类,形成联邦学习分类树的分支节点;/n根据所有分支节点,构建所述联邦学习分类树。/n...

【技术特征摘要】
1.一种联邦学习分类树构建方法,其特征在于,所述方法由第一数据提供方执行,所述方法包括:
根据第一分类特征和与所述第一分类特征对应的第一分类阈值,将当前的用户样本集合进行分类后,获取至少两组用户样本子集;
按照预设规则向第一子集中添加混淆用户样本,获取经过混淆后的第二子集,其中所述第一子集为所述至少两组用户样本子集中的任一个子集;
根据预获取的与所述第二子集中每一个用户样本对应的一次加密梯度值,计算第一加密梯度值之和;
对所述第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后,与所述第二子集共同发送至第二数据提供方;
接收所述第二数据提供方反馈的第二加密梯度值之和,所述第二加密梯度值之和为所述第二数据提供方根据第二分类特征、与所述第二分类特征对应的第二分类阈值、所述第二子集以及所述第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和;
对所述第二加密梯度值之和进行一次解密后,与所述第一加密梯度值之和、所述第一分类特征的信息以及所述第一分类阈值的信息共同反馈至所述第二数据提供方;
接收所述第二数据提供方反馈的最优分类特征的信息和与所述最优分类特征对应的最优分类阈值的信息,其中,最优分类特征的信息和最优分类阈值的信息为所述第二数据提供方根据所述第一加密梯度值之和,以及所述第二加密梯度值之和,确定的信息;
根据所述最优分类特征信息和与所述最优分类阈值的信息,对所述第一子集进行分类,形成联邦学习分类树的分支节点;
根据所有分支节点,构建所述联邦学习分类树。


2.根据权利要求1所述的方法,其特征在于,所述第一分类特征、所述第一分类阈值、所述第二分类特征,以及所述第二分类阈值的数量均包括一个或多个。


3.根据权利要求1所述的方法,其特征在于,所述按照预设规则,对所述至少两组用户样本子集中的第一子集中添加混淆用户样本,获取经过混淆后的第二子集,具体包括:
当所述第一子集中用户样本数量低于预设阈值时,从所述用户样本集合中选择部分用户样本作为所述混淆用户样本,加入到所述第一子集中,获取所述第二子集;
或者,当所述第一子集中用户样本数量高于所述预设阈值时,将所述用户样本集合中除所述第一子集外的所有用户样本作为所述混淆用户样本,加入到所述第一子集中,获取所述第二子集。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述第一子集中用户样本对应的一次加密梯度值为:根据所述第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值;所述混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。


5.根据权利要求1-3任一项所述的方法,其特征在于,当前构建的分类树为第t棵树,且t大于1时,所述第一子集中每一个用户样本对应的一次加密梯度值为根据所述第一子集...

【专利技术属性】
技术研发人员:周帅陈忠张一凡王虎黄志翔彭南博程建波
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1