联邦学习分类树构建方法、模型构建方法，及终端设备技术

技术编号：25949465 阅读：14 留言：0更新日期：2020-10-17 03:41

本发明专利技术实施例涉及一种联邦学习分类树构建方法、模型构建方法，及终端设备，包括：根据第一分类特征和第一分类阈值，将用户样本集合进行分类，获取至少两组用户样本子集；向第一子集中添加混淆用户样本，获取第二子集；计算与第二子集对应的第一加密梯度值之和；对一次加密梯度值进行二次加密后，与第二子集共同发送至第二数据提供方；接收第二加密梯度值之和；对第二加密梯度值之和进行一次解密，与第一加密梯度值之和、第一分类特征的信息以及第一分类阈值的信息反馈至第二数据提供方；接收最优分类特征的信息和与最优分类特征对应的最优分类阈值的信息；根据二者对第一子集进行分类，形成联邦学习分类树的分支节点，构建联邦学习分类树。

全部详细技术资料下载

【技术实现步骤摘要】
联邦学习分类树构建方法、模型构建方法，及终端设备
本专利技术实施例涉及计算机
，尤其涉及联邦学习分类树构建方法、模型构建方法，及终端设备。
技术介绍
随着机器学习技术的发展，越来越多的机器学习方法在金融、医疗等领域中得到了广泛的应用。在机器学习中，数据决定了模型效果的上限，为了进一步提高模型的准确性，聚合多方数据进行模型训练的联邦学习方法开始出现。由于不同的公司可能掌握着同一批用户不同维度的特征，将不同的特征聚合起来，可以有效地提高机器学习的效果。纵向联邦学习的目标正是聚合多方不同维度的特征数据，在不泄露用户隐私的前提下，共享各方数据，协同训练模型。目前比较成熟的纵向联邦学习方案是FATE开源框架中的SecureBoost方案，该方案是对XGBoost模型的一种联邦训练方法。为了避免用户隐私泄露，SecureBoost方案中，数据提供方会将特征名称隐藏，使用特征的编号代替特征名称，防止业务方根据特征名称和背景知识对数据提供方的特征进行分析。也正是由于数据提供方的特征名称都被隐藏处理，使得最终XGBoost模型的可解释性受到了极大的影响。模型的可解释性在金融领域有着重要意义。如果模型缺乏可解释性，我们便无法直觉地判断模型是否抓住了有意义的特征，也无法得知模型在其他样本预测上的泛化能力如何，因此可能会使得模型预测结果受到质疑。
技术实现思路
鉴于此，为解决现有技术中上述技术问题，本专利技术实施例提供联邦学习分类树构建方法、模型构建方法，及终端设备。第一方面，本专利技术实施...

【技术保护点】
1.一种联邦学习分类树构建方法，其特征在于，所述方法由第一数据提供方执行，所述方法包括：/n根据第一分类特征和与所述第一分类特征对应的第一分类阈值，将当前的用户样本集合进行分类后，获取至少两组用户样本子集；/n按照预设规则向第一子集中添加混淆用户样本，获取经过混淆后的第二子集，其中所述第一子集为所述至少两组用户样本子集中的任一个子集；/n根据预获取的与所述第二子集中每一个用户样本对应的一次加密梯度值，计算第一加密梯度值之和；/n对所述第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后，与所述第二子集共同发送至第二数据提供方；/n接收所述第二数据提供方反馈的第二加密梯度值之和，所述第二加密梯度值之和为所述第二数据提供方根据第二分类特征、与所述第二分类特征对应的第二分类阈值、所述第二子集以及所述第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和；/n对所述第二加密梯度值之和进行一次解密后，与所述第一加密梯度值之和、所述第一分类特征的信息以及所述第一分类阈值的信息共同反馈至所述第二数据提供方；/n接收所述第二数据提供方反馈的最优分类特征的信息和与所述最...

【技术特征摘要】
1.一种联邦学习分类树构建方法，其特征在于，所述方法由第一数据提供方执行，所述方法包括：
根据第一分类特征和与所述第一分类特征对应的第一分类阈值，将当前的用户样本集合进行分类后，获取至少两组用户样本子集；
按照预设规则向第一子集中添加混淆用户样本，获取经过混淆后的第二子集，其中所述第一子集为所述至少两组用户样本子集中的任一个子集；
根据预获取的与所述第二子集中每一个用户样本对应的一次加密梯度值，计算第一加密梯度值之和；
对所述第二子集中每一个用户样本分别对应的一次加密梯度值进行二次加密后，与所述第二子集共同发送至第二数据提供方；
接收所述第二数据提供方反馈的第二加密梯度值之和，所述第二加密梯度值之和为所述第二数据提供方根据第二分类特征、与所述第二分类特征对应的第二分类阈值、所述第二子集以及所述第二子集中每一个用户样本分别对应的二次加密梯度值计算得到并进行加密的梯度值之和；
对所述第二加密梯度值之和进行一次解密后，与所述第一加密梯度值之和、所述第一分类特征的信息以及所述第一分类阈值的信息共同反馈至所述第二数据提供方；
接收所述第二数据提供方反馈的最优分类特征的信息和与所述最优分类特征对应的最优分类阈值的信息，其中，最优分类特征的信息和最优分类阈值的信息为所述第二数据提供方根据所述第一加密梯度值之和，以及所述第二加密梯度值之和，确定的信息；
根据所述最优分类特征信息和与所述最优分类阈值的信息，对所述第一子集进行分类，形成联邦学习分类树的分支节点；
根据所有分支节点，构建所述联邦学习分类树。

2.根据权利要求1所述的方法，其特征在于，所述第一分类特征、所述第一分类阈值、所述第二分类特征，以及所述第二分类阈值的数量均包括一个或多个。

3.根据权利要求1所述的方法，其特征在于，所述按照预设规则，对所述至少两组用户样本子集中的第一子集中添加混淆用户样本，获取经过混淆后的第二子集，具体包括：
当所述第一子集中用户样本数量低于预设阈值时，从所述用户样本集合中选择部分用户样本作为所述混淆用户样本，加入到所述第一子集中，获取所述第二子集；
或者，当所述第一子集中用户样本数量高于所述预设阈值时，将所述用户样本集合中除所述第一子集外的所有用户样本作为所述混淆用户样本，加入到所述第一子集中，获取所述第二子集。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第一子集中用户样本对应的一次加密梯度值为：根据所述第一子集中用户样本对应的真实梯度值进行加密后得到的一次加密梯度值；所述混淆用户对应的一次加密梯度值为对预设固定数值进行加密后得到的一次加密梯度值。

5.根据权利要求1-3任一项所述的方法，其特征在于，当前构建的分类树为第t棵树，且t大于1时，所述第一子集中每一个用户样本对应的一次加密梯度值为根据所述第一子集...

【专利技术属性】
技术研发人员：周帅，陈忠，张一凡，王虎，黄志翔，彭南博，程建波，
申请(专利权)人：京东数字科技控股有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人