一种纵向xgboost决策树的联邦学习方法和系统技术方案

技术编号:32649950 阅读:26 留言:0更新日期:2022-03-12 18:40
本发明专利技术公开一种纵向xgboost决策树的联邦学习方法和系统,涉及联邦学习和机器学习决策树技术领域,能够保证各方所持有样本的特征数据的隐私性,增强对各方特征数据的安全性。本发明专利技术的主要技术方案为:本发明专利技术提供了纵向xgboost决策树的联合训练过程和联合推理过程,在联合训练过程中计算分裂点以及在联合推理过程中对每个节点进行判别,联合训练过程公开的信息是每个参与方的最大分裂值,而不会直接泄露每个参与方的特征信息,联合推理过程的安全依赖门限同态加密方案。本发明专利技术主要应用于决策树的联合训练和联合推理过程。决策树的联合训练和联合推理过程。决策树的联合训练和联合推理过程。

【技术实现步骤摘要】
一种纵向xgboost决策树的联邦学习方法和系统


[0001]本专利技术涉及联邦学习和机器学习决策树
,尤其涉及一种纵向xgboost决策树的联邦学习方法和系统。

技术介绍

[0002]纵向xgboost决策树联邦学习是指当每个样本的特征信息和标签信息掌握在不同所有者处,各方联合进行xgboost决策树的训练,并且各方在训练和推理过程中不希望向其他任意方泄露关于样本的特征信息或者标签信息。
[0003]例如xgboost决策树的训练所需要的完整样本信息如下,例举表一:IDx1x2x3x4x5x6yu1.....................u2.....................u3.....................其中,ID表示能唯一确定所描述对象的标识,x1到x6表示该对象的属性信息(特征信息),y表示标签信息。其中的属性信息有可能分布在不同的机构,例如机构A具有前三个特征信息和标签信息;机构B具有后三个特征信息。比如,现实中银行和保险机构可以有一批共同的客户,而银行和保险具有关于其共同客户的不同属性信息,因此不同机构间具有联合进行xgboost决策树训练的条件。联合训练的障碍来自银行和保险不愿/不能向对方透漏各自客户的信息。
[0004]目前,对于使用paillier同态加密方案设计纵向xgboost决策树联邦学习,例如SecureBoost方案,它是一种新的基于联邦学习的无损隐私保护树增强方案,具体阐述如下:在SecureBoost方案中,拥有标签信息的参与方称为“主动方”(Active party);只拥有特征信息的参与方称为“被动方”(Passive parties);“主动方”一般在一个系统中唯一存在,“被动方”可以有多个参与方,各参与方联合训练得到xgboost决策树模型。
[0005]具体的,训练过程为如下:根据前t

1轮生成的决策树模型计算每个样本的一阶梯度g
i
和二阶梯度h
i
,例如对逻辑回归的损失函数:这些信息包含主动方的标签信息,主动方不愿向被动方透露标签信息。
[0006]主动方生成Paillier加法同态加密方案的公钥和私钥,安全保存私钥,将公钥发送给其他被动方。主动方使用公钥加密一阶梯度g
i
和二阶梯度h
i
,并将加密后的密文<g
i
>和<h
i
>发送其他被动方,根据加法同态加密的特性,被动方可以在不知密文对应明文的
情况下计算样本空间的梯度累积和。
[0007]被动方根据密文梯度信息分别计算所有特征对应的所有可能分裂空间的密文梯度累加值,并将该密文值发送给主动方。主动方收到被动方的密文梯度累加值后,使用私钥解密。主动方根据解密后的梯度累加值计算全体的最优分裂点。各被动方使用加法同态在本地计算可能的分裂点的梯度和。
[0008]以上,主动方根据解密后的梯度和寻找最优的分裂点。被动方只能被动接收主动方所发送的最佳分裂点的特征和阈值。相应的被动方根据接收的分裂特征和阈值进行样本空间的划分。从整个过程看被动方的作用是辅助主动方寻找最优的分裂点。由算法描述知,主动方可获取被动方的所有可能分裂点的梯度累加值,主动方可获取决策树模型的所有消息,包括决策树的结构,每个节点的判断条件,以及叶子节点的权重消息。
[0009]除了以上训练过程,相应的联合推理过程为:每一棵树的推理过程均是在主动方的导引下由多个参与方协助完成路径的推理。从一棵树的根节点开始,对每个需要进行决策的节点,主动方询问相应特征的所有者进行路径的判别,直到获得叶子节点的权重值。
[0010]在SecureBoost方案的训练过程中,具体的,每轮树的训练过程中,每个被动方需要向主动方发送所有可能分裂样本空间的梯度和,主动方可获取大量数据。例如:对一个节点,样本集合中有5个元素,那么主动方可能获得如下信息:表一上面例子可得:o1<1;1=<o2,o3<2;2=<o4,o5<3。主动方可获取大量对同一个集合的划分信息,其实就是对集合中每个元素的取值的判别信息,从中泄露每个样本的每个特征的取值范围,划分的粒度越小,信息泄露越严重。
[0011]在SecureBoost方案的联合推理过程中,被动方对一个节点的判别会直接向主动方泄露该特征的范围信息,由于xgboost由多棵树组成,每棵树中对一个特征的判别可以分布在多层,因此该方案的推理过程对被动方的特征信息泄露严重。
[0012]例如,一个节点的对年龄的判别结果是小于30,一个节点对年龄的判别是大于或等于20,那么主动方可直接获得的信息是被推理的对象的年龄是20至30岁之间的,随着树的层数和数量的增加被推理对象的信息泄露愈发严重,当一个特征的取值范围较小时可能完全被泄露。
[0013]以上,在SecureBoost方案的训练过程和联合推理过程中,都是存在被动方的特征信息泄露严重的情况,那么在纵向xgboost决策树联邦学习过程中,是难以保护各方样本的特征信息的隐私安全性的。

技术实现思路

[0014]有鉴于此,本专利技术提供一种纵向xgboost决策树的联邦学习方法和系统,主要目的在于保证各方所持有样本的特征数据的隐私性,增强对各方特征数据的安全性。
[0015]为了达到上述目的,本专利技术主要提供如下技术方案:本专利技术第一方面提供了一种纵向xgboost决策树的联邦学习方法,该方法包括:根据前t

1轮生成的决策树模型,参与方计算每个样本的一阶梯度和二阶梯度;一个所述参与方将每个样本的一阶梯度和二阶梯度发送给其他多个参与方;每个所述参与方在本地计算其拥有的所有特征对应的多个分裂值并从中选择最大分裂值,得到每个所述参与方自身对应的最大分裂值;通过比较每个所述参与方自身对应的最大分裂值,选择一个全局最大分裂值;根据所述全局最大分裂值确定目标分裂点,完成对节点样本空间进行划分,将划分后的节点样本空间对应的集合信息同步给每个所述参与方,以使得每个所述参与方共同获知每棵决策树的全局结构信息,用于完成对第t轮生成的k棵决策树模型的训练过程;每个所述参与方分别对所述k棵决策树模型中所有需要其负责判别的节点进行本地判别,利用门限同态加密方案保护各个所述参与方的交互过程,以完成纵向联邦决策树的联合推理过程。
[0016]在本申请的一些变更实施方式中,所述每棵决策树的全局结构信息,包括:每个节点对应的属主、不同节点之间的关联,所述属主为对节点进行判别的参与方;每个节点具有唯一编号,所述编号为由树的序号和节点所述树中的位置进行表征。
[0017]在本申请的一些变更实施方式中,所述通过比较每个所述参与方自身对应的最大分裂值,选择一个全局最大分裂值,包括:在每个所述参与方确定自身对应的最大分裂值之后,每个所述参与方将自身对应的最大分裂值发送给其他参与方;所有的参与方经比较多个所述最大分裂值,从中选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纵向xgboost决策树的联邦学习方法,其特征在于,所述方法包括:根据前t

1轮生成的决策树模型,参与方计算每个样本的一阶梯度和二阶梯度;一个所述参与方将每个样本的一阶梯度和二阶梯度发送给其他多个参与方;每个所述参与方在本地计算其拥有的所有特征对应的多个分裂值并从中选择最大分裂值,得到每个所述参与方自身对应的最大分裂值;通过比较每个所述参与方自身对应的最大分裂值,选择一个全局最大分裂值;根据所述全局最大分裂值确定目标分裂点,完成对节点样本空间进行划分,将划分后的节点样本空间对应的集合信息同步给每个所述参与方,以使得每个所述参与方共同获知每棵决策树的全局结构信息,用于完成对第t轮生成的k棵决策树模型的训练过程;每个所述参与方分别对所述k棵决策树模型中所有需要其负责判别的节点进行本地判别,利用门限同态加密方案保护各个所述参与方的交互过程,以完成纵向联邦决策树的联合推理过程。2.根据权利要求1所述的方法,其特征在于,所述每棵决策树的全局结构信息,包括:每个节点对应的属主、不同节点之间的关联,所述属主为对节点进行判别的参与方;每个节点具有唯一编号,所述编号为由树的序号和节点所述树中的位置进行表征。3.根据权利要求1所述的方法,其特征在于,所述通过比较每个所述参与方自身对应的最大分裂值,选择一个全局最大分裂值,包括:在每个所述参与方确定自身对应的最大分裂值之后,每个所述参与方将自身对应的最大分裂值发送给其他参与方;所有的参与方经比较多个所述最大分裂值,从中选择一个全局最大分裂值。4.根据权利要求1所述的方法,其特征在于,所述根据所述全局最大分裂值确定目标分裂点,完成对节点样本空间进行划分,包括:根据所述全局最大分裂值,确定对应的属主;根据所述全局最大分裂值和所述属主,确定目标分裂点的特征和阈值;根据所述特征和阈值对节点样本空间进行划分。5.根据权利要求1所述的方法,其特征在于,所述每个所述参与方分别对所述k棵决策树模型中所有需要其负责判别的节点进行本地判别,利用门限同态加密方案保护各个所述参与方的交互过程,以完成纵向联邦决策树的联合推理过程,包括:每个所述参与方获取对应的判别输出表;根据所述判别输出表,每个所述参与方计算对应所负责节点的判别边长,...

【专利技术属性】
技术研发人员:李登峰
申请(专利权)人:神州融安科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1