一种梯度提升树模型的构建方法、装置、设备和介质制造方法及图纸

技术编号:34620176 阅读:14 留言:0更新日期:2022-08-20 09:27
本发明专利技术实施例公开了一种梯度提升树模型的构建方法、装置、设备和介质。该方法应用于业务端,包括:获取第一样本数据,并将样本密文标签发送至数据端;基于上一树模型中的叶子节点权重、第一样本数据和样本标签确定第一信息增益;将上一树模型中的叶子节点密文权重发送至数据端,以使数据端基于叶子节点密文权重、第二样本数据和样本密文标签确定并发送梯度密文聚合值;基于梯度密文聚合值确定第二信息增益;基于第一信息增益和第二信息增益,对待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;在满足预设构建停止条件时,获得梯度提升树模型,从而可以降低通信开销,提高模型构建效率,并且保证数据安全性。安全性。安全性。

【技术实现步骤摘要】
一种梯度提升树模型的构建方法、装置、设备和介质


[0001]本专利技术实施例涉及隐私计算
,尤其涉及联邦学习
,具体涉及一种梯度提升树模型的构建方法、装置、设备和介质。

技术介绍

[0002]随着人工智能得到越来越广泛的应用,数据在各行各业带来了巨大的价值,与此同时,数据的隐私与安全也越来越受重视。不同的数据拥有方之间希望合作发挥出数据的价值,但又不愿或者不能分享数据,这造成了数据孤岛问题。为了解决这一问题,联邦学习的概念被提出,希望多个参与方实现共同建模的目的的同时不分享数据、只分享中间结果、且无法反推数据,从而保证数据安全性。
[0003]根据联邦学习的不同参与方持有数据的特点不同,可以将其分类为横向联邦学习、纵向联邦学习以及联邦迁移学习等。在风控场景中纵向联邦学习得到了更为广泛的应用与发展,其中的特点是,样本标签仅为其中一方所持有(即业务端),而其他各方仅拥有数据的部分特征(即数据端)。梯度提升树模型(Gradient Boosting Decision Tree,GBDT)可以有效地解决单棵决策树带来的性能不足问题,集成多棵树的强大的学习能力,既能处理分类问题也能处理回归问题,从而在风控场景中得到了广泛应用。目前,往往基于纵向联邦学习构建梯度提升树模型,从而提高模型性能,达到降低风险的目的。
[0004]然而,在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]在基于纵向联邦学习构建梯度提升树模型的过程中,业务端每构建一个树模型,都需要确定每个样本数据对应的预测值的梯度密文值,并将该梯度密文值传输给所有数据端,由于样本数据较多,从而导致这个过程需要较大的通信开销,大大降低了梯度提升树模型的构建效率。

技术实现思路

[0006]本专利技术实施例提供了一种梯度提升树模型的构建方法、装置、设备和介质,以降低通信开销,提高梯度提升树模型的构建效率,并且保证数据安全性。
[0007]第一方面,本专利技术实施例提供了一种梯度提升树模型的构建方法,应用于业务端,包括:
[0008]获取与数据端进行样本对齐后的第一样本数据,并对所述第一样本数据对应的样本标签进行加密,并将加密后的样本密文标签发送至所述数据端;
[0009]基于已构建的上一树模型中的叶子节点权重、所述第一样本数据和所述样本标签,确定待构建的当前树模型中的待分裂节点在第一分裂方式下的第一信息增益;
[0010]对所述上一树模型中的叶子节点权重进行加密,并将加密后的叶子节点密文权重发送至所述数据端,以使所述数据端基于所述叶子节点密文权重、与所述业务端进行样本对齐后的第二样本数据和所述样本密文标签,确定所述待分裂节点在第二分裂方式下的梯度密文聚合值,并将所述梯度密文聚合值发送至所述业务端;
[0011]基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益;
[0012]基于所述第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;
[0013]在满足预设构建停止条件时,基于已构建的各个树模型,获得梯度提升树模型。
[0014]第二方面,本专利技术实施例还提供了一种梯度提升树模型的构建方法,应用于数据端,包括:
[0015]获取与业务端进行样本对齐后的第二样本数据;
[0016]接收所述业务端发送的所述第二样本数据对应的样本密文标签;
[0017]接收所述业务端发送的已构建的上一树模型对应的叶子节点密文权重;
[0018]基于所述叶子节点密文权重、所述第二样本数据和所述样本密文标签,确定待构建的当前树模型中的待分裂节点在第二分裂方式下的梯度密文聚合值;
[0019]将所述梯度密文聚合值发送至所述业务端,以使所述业务端基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益,并基于所述待分裂节点在第一分裂方式下的第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;在满足预设模型构建停止条件时,基于构建出的各个树模型,获得目标梯度提升树模型。
[0020]第三方面,本专利技术实施例还提供了一种梯度提升树模型的构建装置,集成于业务端,包括:
[0021]第一样本数据对齐模块,用于获取与数据端进行样本对齐后的第一样本数据,并对所述第一样本数据对应的样本标签进行加密,并将加密后的样本密文标签发送至所述数据端;
[0022]第一信息增益确定模块,用于基于已构建的上一树模型中的叶子节点权重、所述第一样本数据和所述样本标签,确定待构建的当前树模型中的待分裂节点在第一分裂方式下的第一信息增益;
[0023]叶子节点密文权重发送模块,用于对所述上一树模型中的叶子节点权重进行加密,并将加密后的叶子节点密文权重发送至所述数据端,以使所述数据端基于所述叶子节点密文权重、与所述业务端进行样本对齐后的第二样本数据和所述样本密文标签,确定所述待分裂节点在第二分裂方式下的梯度密文聚合值,并将所述梯度密文聚合值发送至所述业务端;
[0024]第二信息增益确定模块,用于基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益;
[0025]节点分裂模块,用于基于所述第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;
[0026]梯度提升树模型确定模块,用于在满足预设构建停止条件时,基于已构建的各个树模型,获得梯度提升树模型。
[0027]第四方面,本专利技术实施例还提供了一种梯度提升树模型的构建装置,集成于数据端,包括:
[0028]第二样本数据获取模块,用于获取与业务端进行样本对齐后的第二样本数据;
[0029]样本密文标签接收模块,用于接收所述业务端发送的所述第二样本数据对应的样本密文标签;
[0030]叶子节点密文权重接收模块,用于接收所述业务端发送的已构建的上一树模型对应的叶子节点密文权重;
[0031]梯度密文聚合值确定模块,用于基于所述叶子节点密文权重、所述第二样本数据和所述样本密文标签,确定待构建的当前树模型中的待分裂节点在第二分裂方式下的梯度密文聚合值;
[0032]梯度密文聚合值发送模块,用于将所述梯度密文聚合值发送至所述业务端,以使所述业务端基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益,并基于所述待分裂节点在第一分裂方式下的第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;在满足预设模型构建停止条件时,基于构建出的各个树模型,获得目标梯度提升树模型。
[0033]第五方面,本专利技术实施例还提供了一种梯度提升树模型的构建系统,所述系统包括业务端和至少一个数据端;
[0034]其中,所述业务端用于实现如第一方面提供的梯度提升树模型的构建方法;...

【技术保护点】

【技术特征摘要】
1.一种梯度提升树模型的构建方法,其特征在于,应用于业务端,包括:获取与数据端进行样本对齐后的第一样本数据,并对所述第一样本数据对应的样本标签进行加密,并将加密后的样本密文标签发送至所述数据端;基于已构建的上一树模型中的叶子节点权重、所述第一样本数据和所述样本标签,确定待构建的当前树模型中的待分裂节点在第一分裂方式下的第一信息增益;对所述上一树模型中的叶子节点权重进行加密,并将加密后的叶子节点密文权重发送至所述数据端,以使所述数据端基于所述叶子节点密文权重、与所述业务端进行样本对齐后的第二样本数据和所述样本密文标签,确定所述待分裂节点在第二分裂方式下的梯度密文聚合值,并将所述梯度密文聚合值发送至所述业务端;基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益;基于所述第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;在满足预设构建停止条件时,基于已构建的各个树模型,获得梯度提升树模型。2.根据权利要求1所述的方法,其特征在于,所述基于已构建的上一树模型中的叶子节点权重、所述第一样本数据和所述样本标签,确定待构建的当前树模型中的待分裂节点在第一分裂方式下的第一信息增益,包括:获取待构建的当前树模型对应的当前待分裂节点集合中的当前待分裂节点;从所述第一样本数据获取当前待分裂节点对应的第三样本数据;基于已构建的上一树模型中的叶子节点权重、所述第三样本数据和所述第三样本数据对应的样本标签,确定当前待分裂节点在第一分裂方式下进行分裂获得的第一子节点所对应的第一梯度聚合值;基于所述第一子节点所对应的第一梯度聚合值,确定当前待分裂节点在第一分裂方式下的第一信息增益。3.根据权利要求2所述的方法,其特征在于,所述从所述第一样本数据获取当前待分裂节点对应的第三样本数据,包括:若首次迭代,则将所述第一样本数据作为当前待分裂节点对应的第三样本数据;若非首次迭代,则获取所述第一样本数据中当前待分裂节点对应的第三样本数据,并将所述第三样本数据对应的样本标识发送至所述数据端,以使所述数据端基于该样本标识,从所述第二样本数据中确定当前待分裂节点对应的第四样本数据。4.根据权利要求2所述的方法,其特征在于,所述基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益,包括:对当前待分裂节点在第二分裂方式下进行分裂获得的第二子节点所对应的梯度密文聚合值进行解密,获得解密后的第二子节点对应的第二梯度聚合值;基于所述第二子节点对应的第二梯度聚合值,确定当前待分裂节点在第二分裂方式下的第二信息增益。5.根据权利要求4所述的方法,其特征在于,所述基于所述第二子节点对应的第二梯度聚合值,确定当前待分裂节点在第二分裂方式下的第二信息增益,包括:基于第二左子节点对应的一阶梯度聚合值和二阶梯度聚合值、以及第二右子节点对应的一阶梯度聚合值和二阶梯度聚合值,确定当前待分裂节点在第二分裂方式下的第二信息
增益。6.根据权利要求2所述的方法,其特征在于,所述基于所述第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成,包括:基于所述第一信息增益和所述第二信息增益,确定最大信息增益;若检测到所述最大信息增益大于或等于预设增益阈值,则基于所述最大信息增益对应的目标分裂方式对当前待分裂节点进行节点分裂;将分裂后的目标子节点添加至当前待分裂节点集合,并将当前待分裂节点从当前待分裂节点集合中移除,返回执行所述获取待构建的当前树模型对应的当前待分裂节点集合中的当前待分裂节点的步骤,直到满足预设分裂停止条件时确定当前树模型构建完成。7.根据权利要求6所述的方法,其特征在于,所述基于所述最大信息增益对应的目标分裂方式对当前待分裂节点进行节点分裂,包括:若所述最大信息增益对应的目标分裂方式为所述业务端中的第一分裂方式,则基于所述目标分裂方式,对当前待分裂节点进行本地节点分裂,确定目标分裂特征和特征阈值;若所述最大信息增益对应的目标分裂方式为所述数据端中的第二分裂方式,则将所述目标分裂方式对应的标识信息发送至所述数据端,以使所述数据端基于该标识信息对应的第二分裂方式,对当前待分裂节点进行分裂,确定目标分裂特征和特征阈值。8.一种梯度提升树模型的构建方法,其特征在于,应用于数据端,包括:获取与业务端进行样本对齐后的第二样本数据;接收所述业务端发送的所述第二样本数据对应的样本密文标签;接收所述业务端发送的已构建的上一树模型对应的叶子节点密文权重;基于所述叶子节点密文权重、所述第二样本数据和所述样本密文标签,确定待构建的当前树模型中的待分裂节点在第二分裂方式下的梯度密文聚合值;将所述梯度密文聚合值发送至所述业务端,以使所述业务端基于所述梯度密文聚合值确定所述待分裂节点在第二分裂方式下的第二信息增益,并基于所述待分裂节点在第一分裂方式下的第一信息增益和所述第二信息增益,对所述待分裂节点进行节点分裂,并在满足预设分裂停止条件时确定当前树模型构建完成;在满足预设模型构建停止条件时,基于构建出的各个树模型,获得目标梯度提升树模型。9.根据权利要求8所述的方法,其特征在于,所述基于所述叶子节点密文权重、所述第二样本数据和所述样本密文标签,确定待构建的当前树模型中的待分裂节点在第二分裂方式下的梯度密文聚合值,包括:从所述第二样本数据中确定当前待分裂节点对应的第四样本数据;基于所述叶子节点密文权重...

【专利技术属性】
技术研发人员:杨恺郑邦祺黄志翔
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1