基于联邦学习系统的决策树构建方法、装置及电子设备制造方法及图纸

技术编号：30104651 阅读：13 留言：0更新日期：2021-09-18 09:11

本申请提供一种基于联邦学习系统的决策树构建方法、装置、电子设备、存储介质及计算机程序产品，包括：获取训练样本和待构建的决策树的类型，并基于训练样本及类型，确定用于构建决策树的分裂点的参考数据；对参考数据进行压缩处理得到第一压缩数据，并将第一压缩数据发送至第二参与方设备；接收第二参与方设备发送的分裂点数据，分裂点数据为，第二参与方设备基于第一压缩数据，进行对应决策树的分裂点构建所得到；基于分裂点数据，确定决策树的全局分裂点，并基于全局分裂点，构建决策树。如此，减少了决策树构建过程中的数据传输量与处理量，降低了传输开销，提升了决策树的构建效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于联邦学习系统的决策树构建方法、装置及电子设备

[0001]本申请涉及人工智能技术，尤其涉及一种基于联邦学习系统的决策树构建方法、装置、电子设备、存储介质及计算机程序产品。

技术介绍

[0002]在人工智能的联邦学习领域，是通过数据提供方和数据使用方共同训练一个模型，然后各数据使用方基于各自的模型来进行相应的预测，在目前各行各业逐渐加强数据隐私保护的大趋势下，联邦学习，一种可以在保护数据隐私的情况下协同多方数据建立机器学习的技术，成为了各企业/行业间合作的关键之一。如今，联邦梯树模型:梯度提升树，随机森林，分类决策树，已经广泛地在纵向联邦场景下，成为了金融、风控领域的常用且强力的算法之一，在该领域，分类任务使用最为频繁。
[0003]然而，在纵向树模型中，guest方(即有标签的主动方)需要对梯度或者标签统计值进行加密，传输，host方(即没有标签的参与方)需要接受同态加密密文，然后进行计算，再返回分裂点，分裂点中包含加密的构建结果，而guest方需要根据这一构建结果进一步的计算出最优分裂点。现实场景下，guest方对标签的同态加密，host方对密文的计算，公网的传输的时间消耗是很高的，因此联邦纵向树在实际应用中，加密计算，密文计算和通信时间会有很大的一部分占比。

技术实现思路

[0004]本申请实施例提供一种基于联邦学习系统的决策树构建方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效减少决策树构建过程中的数据传输量与处理量，从而降低了传输开销，提升了决策树的构建效率。r/>[0005]本申请实施例的技术方案是这样实现的：
[0006]本申请实施例提供一种基于联邦学习系统的决策树构建方法，所述联邦学习系统包括具有标签信息的第一参与方设备，以及至少一个第二参与方设备，所述方法应用于第一参与方设备，包括：
[0007]获取训练样本和待构建的决策树的类型，并基于所述训练样本及所述类型，确定用于构建所述决策树的分裂点的参考数据；
[0008]对所述参考数据进行压缩处理得到第一压缩数据，并将所述第一压缩数据发送至第二参与方设备；
[0009]接收第二参与方设备发送的分裂点数据，所述分裂点数据为，所述第二参与方设备基于所述第一压缩数据，进行对应所述决策树的分裂点构建所得到；
[0010]基于所述分裂点数据，确定所述决策树的全局分裂点，并基于所述全局分裂点，构建所述决策树。
[0011]本申请实施例提供一种基于联邦学习系统的决策树构建装置，包括：
[0012]获取模块，用于获取训练样本和待构建的决策树的类型，并基于所述训练样本及
所述类型，确定用于构建所述决策树的分裂点的参考数据；
[0013]压缩模块，用于对所述参考数据进行压缩处理得到第一压缩数据，并将所述第一压缩数据发送至第二参与方设备；
[0014]接收模块，用于接收第二参与方设备发送的分裂点数据，所述分裂点数据为，所述第二参与方设备基于所述第一压缩数据，进行对应所述决策树的分裂点构建所得到；
[0015]构建模块，用于基于所述分裂点数据，确定所述决策树的全局分裂点，并基于所述全局分裂点，构建所述决策树。
[0016]上述方案中，所述压缩模块，还用于基于所述决策树的类型，确定相应的压缩控制参数，所述压缩控制参数包括以下至少之一：同态最大整数位数、浮点数定点化精度、标签个数以及样本数；基于所述压缩控制参数及所述参考数据的位长，确定压缩参数；基于压缩参数，对所述参考数据进行压缩处理，得到第一压缩数据。
[0017]上述方案中，当所述决策树为梯度提升决策树时，所述参考数据为样本梯度，所述压缩控制参数包括所述同态最大整数位数、所述浮点数定点化精度以及所述样本数，所述压缩模块，还用于基于所述浮点数定点化精度，对所述样本梯度进行定点化处理，得到所述样本梯度对应的定点化整数，并基于所述样本数与所述定点化整数，确定对应所述样本梯度的占位；将所述样本梯度的占位进行求和处理，确定压缩总占位；将所述同态最大整数位数与所述压缩总占位进行整数除法处理，确定密文压缩量；将所述样本梯度的占位、所述压缩总占位以及所述密文压缩量作为所述压缩参数。
[0018]上述方案中，当所述决策树为分类决策树时，所述参考数据为样本标签，所述压缩控制参数包括所述同态最大整数位数、所述标签个数以及所述样本数，所述压缩模块，还用于基于所述样本标签，确定标签占位；将所述样本数的位长与标签个数进行求积处理，确定压缩总占位；将所述同态最大整数位数与所述压缩总占进行整数除法处理，确定密文压缩量；将所述标签占位、所述压缩总占位以及所述密文压缩量作为所述压缩参数。
[0019]上述方案中，所述压缩模块，还用于对所述第一压缩数据进行同态加密，发送同态加密后的第一压缩数据至第二参与方设备，以使所述第二参与方设备基于同态加密后的第一压缩数据，进行对应所述决策树的分裂点构建，得到所述分裂点数据。
[0020]上述方案中，所述分裂点数据为，所述第二参与方设备基于所述第一压缩数据，构建所述决策树的分裂点得到分裂点构建结果，并对所述分裂点构建结果进行压缩处理得到，所述构建模块，还用于对所述分裂点数据进行解压处理，得到所述分裂点构建结果；结合所述分裂点构建结果及所述训练样本，确定所述决策树的全局分裂点。
[0021]上述方案中，所述构建模块，还用于基于所述训练样本，对所述决策树的分裂点进行遍历，以确定第一分裂点；基于所述训练样本以及所述分裂点构建结果，对所述决策树中的分裂点进行遍历，以确定第二分裂点；将所述第一分裂点以及所述第二分裂点进行对比，以确定所述决策树的全局分裂点。
[0022]上述方案中，所述构建模块，还用于获取所述训练样本的标签；基于所述训练样本的标签与所述参考数据，对所述决策树的分裂点进行遍历，确定对应所述第一参与方设备的第一特征分裂增益直方图；其中，所述第一特征分裂增益直方图，用于确定所述第一特征分裂增益直方图中的最大增益分裂点；基于所述第一特征分裂增益直方图，确定所述决策树的分裂点的增益值，并选取增益值最大的分裂点作为所述第一分裂点；获取所述训练样
本的标签；基于所述训练样本的标签与所述分裂点构建结果，对所述决策树的分裂点进行遍历，确定对应所述第二参与方设备的第二特征分裂增益直方图；其中，所述第二特征分裂增益直方图用于基于预设增益计算公式确定所述第二特征分裂增益直方图中的最大增益分裂点；基于所述第二特征分裂增益直方图，确定所述决策树的分裂点的增益值，并选取增益值最大的分裂点作为所述第二分裂点。
[0023]上述方案中，所述构建模块，还用于分别获取所述第一分裂点的增益值以及所述第二分裂点的增益值；比较所述第一分裂点的增益值以及所述第二分裂点的增益值，并选取较大增益值所对应的分裂点作为所述决策树的全局分裂点。
[0024]上述方案中，所述构建模块，还用于获取所述全局分裂点的特征值和特征编码；确定对应所述特征编码的特征，并结合所述特征及所述特征值确定特征分裂方式本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习系统的决策树构建方法，其特征在于，所述联邦学习系统包括具有标签信息的第一参与方设备，以及至少一个第二参与方设备，所述方法应用于第一参与方设备，包括：获取训练样本和待构建的决策树的类型，并基于所述训练样本及所述类型，确定用于构建所述决策树的分裂点的参考数据；对所述参考数据进行压缩处理得到第一压缩数据，并将所述第一压缩数据发送至第二参与方设备；接收第二参与方设备发送的分裂点数据，所述分裂点数据为，所述第二参与方设备基于所述第一压缩数据，进行对应所述决策树的分裂点构建所得到；基于所述分裂点数据，确定所述决策树的全局分裂点，并基于所述全局分裂点，构建所述决策树。2.根据权利要求1所述的方法，其特征在于，所述对所述参考数据进行压缩处理得到第一压缩数据，包括：基于所述决策树的类型，确定相应的压缩控制参数，所述压缩控制参数包括以下至少之一：同态最大整数位数、浮点数定点化精度、标签个数以及样本数；基于所述压缩控制参数及所述参考数据的位长，确定压缩参数；基于压缩参数，对所述参考数据进行压缩处理，得到第一压缩数据。3.根据权利要求2所述的方法，其特征在于，当所述决策树为梯度提升决策树时，所述参考数据为样本梯度，所述压缩控制参数包括所述同态最大整数位数、所述浮点数定点化精度以及所述样本数；所述基于所述压缩控制参数及所述参考数据的位长，确定压缩参数，包括：基于所述浮点数定点化精度，对所述样本梯度进行定点化处理，得到所述样本梯度对应的定点化整数，并基于所述样本数与所述定点化整数，确定对应所述样本梯度的占位；将所述样本梯度的占位进行求和处理，确定压缩总占位；将所述同态最大整数位数与所述压缩总占位进行整数除法处理，确定密文压缩量；将所述样本梯度的占位、所述压缩总占位以及所述密文压缩量作为所述压缩参数。4.根据权利要求2所述的方法，其特征在于，当所述决策树为分类决策树时，所述参考数据为样本标签，所述压缩控制参数包括所述同态最大整数位数、所述标签个数以及所述样本数；所述基于所述压缩控制参数及所述参考数据的位长，确定压缩参数，包括：基于所述样本标签，确定标签占位；将所述样本数的位长与标签个数进行求积处理，确定压缩总占位；将所述同态最大整数位数与所述压缩总占进行整数除法处理，确定密文压缩量；将所述标签占位、所述压缩总占位以及所述密文压缩量作为所述压缩参数。5.根据权利要求1所述的方法，其特征在于，所述将所述第一压缩数据发送至第二参与方设备，包括：对所述第一压缩数据进行同态加密，发送同态加密后的第一压缩数据至第二参与方设备，以使所述第二参与方设备基于同态加密后的第一压缩数据，进行对应所述决策树的分裂点构建，得到所述分裂点数据。
6.根据权利要求1所述的方法，其特征在于，所述分裂点数据为，所述第二参与方设备基于所述第一压缩数据，构建所述决策树的分裂点得到分裂点构建结果，并对所述分裂点构建结果进行压缩处理得到；所述基于所述分裂点数据，确定所述决策树的全局分裂点，包括：对所述分裂点数据进行解压处理，得到所述分裂点构建结果；结合所述分裂点构建结果及所述训练样本，确定所述决策树的全局分裂点。7.根据权利要求6所述的方法，其特征在于，所述结合所述分裂点构建结果及所述训练样本，确定所述决策树的全局分裂点，包括：基于所述训练样本，对所述决策树的分裂点进行遍历，以确定第一分裂点；基于所述训练样本以及所述分裂点构建结果，对所述决策树中的分裂点进行遍历，以确定第...

【专利技术属性】
技术研发人员：陈伟敬，马国强，范涛，陈天健，
申请(专利权)人：深圳前海微众银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人