基于跨特征联邦的XGBoost模型的数据处理方法技术

技术编号:33892858 阅读:59 留言:0更新日期:2022-06-22 17:28
本公开的实施例提供了一种基于跨特征联邦的XGBoost模型的数据处理方法、基于跨特征联邦的XGBoost模型的数据处理装置、计算机可读介质及电子设备,涉及联邦学习技术领域;包括:通过分布式计算节点确定用于多维度表征标签方数据的第一直方图信息;基于流水线并行处理方式向无标签方发送对应于标签方数据的梯度密文;无标签方根据梯度密文和本方数据确定第二直方图信息并将第二直方图信息发送至标签方;根据第一直方图信息和第二直方图信息确定节点分裂信息,并根据节点分裂信息对基于标签方数据构建的第一特征节点树进行节点分裂处理;将节点分裂信息同步至无标签方。这样可以应用于大规模数据训练,提升数据处理效率,减少无标签方的数据处理等待时间。减少无标签方的数据处理等待时间。减少无标签方的数据处理等待时间。

【技术实现步骤摘要】
基于跨特征联邦的XGBoost模型的数据处理方法


[0001]本公开涉及联邦学习
,具体而言,涉及一种基于跨特征联邦的XGBoost模型的数据处理方法、基于跨特征联邦的XGBoost模型的数据处理装置、计算机可读介质及电子设备。

技术介绍

[0002]联邦学习技术旨在联合不同参与方的数据,在实现本地数据不泄露至其他参与方的情况下实现模型训练。在跨特征联邦学习场景下的极端梯度提升模型(eXtreme Gradient Boosting,XGBoost)训练中,XGBoost一般是通过梯度提升的方式串行训练多棵决策树,从而实现对于模型精度的提升。
[0003]与中心化的XGBoost算法不同,跨特征联邦学习场景下的XGBoost模型需要联合不同参与方的特征建立多个节点树,同时保证标签方持有的标签不会泄露至无标签方。在标签方基于XGBoost模型对样本数据的处理过程中,通常需要根据标签计算相应的梯度参数并加密,进而将加密后的梯度参数发送至无标签方,进而,标签方和无标签方根据梯度等信息并行进行直方图计算。
[0004]但是,这种方式效率较低,当数据量的规模较大时,无标签方需要等待较长的时间才能获取到所需的信息。

技术实现思路

[0005]本公开实施例的目的在于提供一种基于跨特征联邦的XGBoost模型的数据处理方法、基于跨特征联邦的XGBoost模型的数据处理系统、基于跨特征联邦的XGBoost模型的数据处理装置、计算机可读介质及电子设备,可以应用于大规模数据训练,提升数据处理效率,减少无标签方的数据处理等待时间。
[0006]本公开实施例的第一方面提供了一种基于跨特征联邦的XGBoost模型的数据处理方法,包括:
[0007]通过分布式计算节点确定标签方数据对应的梯度参数,并根据梯度参数确定用于多维度表征标签方数据的第一直方图信息;
[0008]加密梯度参数得到梯度密文,并基于流水线并行处理方式向无标签方发送对应于标签方数据的梯度密文;其中,无标签方用于根据梯度密文和本方数据确定用于多维度表征本方数据的第二直方图信息,并将第二直方图信息发送至标签方;
[0009]根据第一直方图信息和第二直方图信息确定节点分裂信息,并根据节点分裂信息对基于标签方数据构建的第一特征节点树进行节点分裂处理;
[0010]将节点分裂信息同步至无标签方;其中,无标签方用于根据节点分裂信息对基于本方数据构建的第二特征节点树进行节点分裂处理。
[0011]在本公开的一种示例性实施例中,上述方法还包括:
[0012]根据预设比例从标签方数据中选取第一数据集;
[0013]根据第一数据集构建第一特征节点树;
[0014]根据第一特征节点树中各特征节点对应的增益值从各特征节点中选取第一目标特征节点;
[0015]根据各特征节点对应的各特征节点对应的梯度参数从各特征节点中选取第二目标特征节点;
[0016]根据第一目标特征节点、第二目标特征节点和其余特征节点确定用于构建新特征节点树的特征数据;其中,其余特征节点为各特征节点中除第一目标特征节点和第二目标特征节点之外的特征节点。
[0017]在本公开的一种示例性实施例中,根据梯度参数确定用于多维度表征标签方数据的第一直方图信息,包括:
[0018]根据梯度参数确定第一特征节点树中父节点对应的直方图子信息和左分支节点对应的直方图子信息,并根据父节点对应的直方图子信息和左分支节点对应的直方图子信息确定右分支节点对应的直方图子信息,直到确定出第一直方图信息;或者,
[0019]根据梯度参数确定第一特征节点树中父节点对应的直方图子信息和右分支节点对应的直方图子信息,并根据父节点对应的直方图子信息和右分支节点对应的直方图子信息确定左分支节点对应的直方图子信息,直到确定出第一直方图信息。
[0020]在本公开的一种示例性实施例中,无标签方用于根据梯度密文和本方数据确定用于多维度表征本方数据的第二直方图信息,包括:
[0021]无标签方用于在接收到梯度密文时,根据梯度密文和本方数据确定第二特征节点树中父节点对应的直方图子信息和左分支节点对应的直方图子信息,并根据父节点对应的直方图子信息和左分支节点对应的直方图子信息确定右分支节点对应的直方图子信息,直到确定出第二直方图信息;或者,
[0022]无标签方用于在接收到梯度密文时,根据梯度密文和本方数据确定第二特征节点树中父节点对应的直方图子信息和右分支节点对应的直方图子信息,并根据父节点对应的直方图子信息和右分支节点对应的直方图子信息确定左分支节点对应的直方图子信息,直到确定出第二直方图信息。
[0023]在本公开的一种示例性实施例中,通过分布式计算节点确定标签方数据对应的梯度参数,包括:
[0024]控制分布式计算节点基于各自对应的指针数据从共享存储空间中获取相对应的数据切片,并计算数据切片对应的梯度参数;其中,标签方数据由多个数据切片构成;
[0025]根据数据切片对应的梯度参数确定标签方数据对应的梯度参数。
[0026]在本公开的一种示例性实施例中,节点分裂信息至少包括分裂特征数据及分裂特征数据对应的分裂位置。
[0027]本公开实施例的第二方面提供了一种应用于跨特征联邦学习场景下XGBoost模型的数据处理系统,包括:
[0028]标签方,用于通过分布式计算节点确定标签方数据对应的梯度参数,并根据梯度参数确定用于多维度表征标签方数据的第一直方图信息;加密梯度参数得到梯度密文,并基于流水线并行处理方式向无标签方发送对应于标签方数据的梯度密文;
[0029]无标签方,用于根据梯度密文和本方数据确定用于多维度表征本方数据的第二直
方图信息,并将第二直方图信息发送至标签方;
[0030]标签方,还用于根据第一直方图信息和第二直方图信息确定节点分裂信息,并根据节点分裂信息对基于标签方数据构建的第一特征节点树进行节点分裂处理;将节点分裂信息同步至无标签方;
[0031]无标签方,还用于根据节点分裂信息对基于本方数据构建的第二特征节点树进行节点分裂处理。
[0032]本公开实施例的第三方面提供了一种应用于高速公路的拥堵指数确定装置,包括:
[0033]分布式处理单元,用于通过分布式计算节点确定标签方数据对应的梯度参数,并根据梯度参数确定用于多维度表征标签方数据的第一直方图信息;
[0034]数据传输单元,用于加密梯度参数得到梯度密文,并基于流水线并行处理方式向无标签方发送对应于标签方数据的梯度密文;其中,无标签方用于根据梯度密文和本方数据确定用于多维度表征本方数据的第二直方图信息,并将第二直方图信息发送至标签方;
[0035]节点分裂处理单元,用于根据第一直方图信息和第二直方图信息确定节点分裂信息,并根据节点分裂信息对基于标签方数据构建的第一特征节点树进行节点分裂处理;
[0036]数据传输单元,还用于将节点分裂信息同步至无标签方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于跨特征联邦的XGBoost模型的数据处理方法,其特征在于,包括:通过分布式计算节点确定标签方数据对应的梯度参数,并根据所述梯度参数确定用于多维度表征所述标签方数据的第一直方图信息;加密所述梯度参数得到梯度密文,并基于流水线并行处理方式向无标签方发送对应于所述标签方数据的梯度密文;其中,所述无标签方根据所述梯度密文和本方数据确定用于多维度表征无标签方数据的第二直方图信息,并将所述第二直方图信息发送至标签方;根据所述第一直方图信息和所述第二直方图信息确定节点分裂信息,并根据所述节点分裂信息对基于所述标签方数据构建的第一特征节点树进行节点分裂处理;将所述节点分裂信息同步至所述无标签方;其中,所述无标签方根据所述节点分裂信息对基于所述本方数据构建的第二特征节点树进行节点分裂处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据预设比例从所述标签方数据中选取第一数据集;根据所述第一数据集构建所述第一特征节点树;根据所述第一特征节点树中各特征节点对应的增益值从所述各特征节点中选取第一目标特征节点;根据所述各特征节点对应的各特征节点对应的梯度参数从所述各特征节点中选取第二目标特征节点;根据所述第一目标特征节点、所述第二目标特征节点和其余特征节点确定用于构建新特征节点树的特征数据;其中,所述其余特征节点为所述各特征节点中除所述第一目标特征节点和所述第二目标特征节点之外的特征节点。3.根据权利要求1所述的方法,其特征在于,根据所述梯度参数确定用于多维度表征标签方数据的第一直方图信息,包括:根据所述梯度参数确定所述第一特征节点树中父节点对应的直方图子信息和左分支节点对应的直方图子信息,并根据所述父节点对应的直方图子信息和左分支节点对应的直方图子信息确定右分支节点对应的直方图子信息,直到确定出所述第一直方图信息;或者,根据所述梯度参数确定所述第一特征节点树中父节点对应的直方图子信息和右分支节点对应的直方图子信息,并根据所述父节点对应的直方图子信息和右分支节点对应的直方图子信息确定左分支节点对应的直方图子信息,直到确定出所述第一直方图信息。4.根据权利要求1所述的方法,其特征在于,所述无标签方用于根据所述梯度密文和本方数据确定用于多维度表征所述本方数据的第二直方图信息,包括:所述无标签方用于在接收到所述梯度密文时,根据所述梯度密文和所述本方数据确定所述第二特征节点树中父节点对应的直方图子信息和左分支节点对应的直方图子信息,并根据所述父节点对应的直方图子信息和所述左分支节点对应的直方图子信息确定右分支节点对应的直方图子信息,直到确定出所述第二直方图信息;或者,所述无标签方用于在接收到所述梯度密文时,根据所述梯度密文和所述本方数据确定所述第二特征节点树中父节点对应的直方图子信息和右分支节点对应的直方图子信息,并根据所述父节点对应的直方图子信息和所述右分支节点对应的直方图子信息确定左分支节点对应的直方...

【专利技术属性】
技术研发人员:潘富城傅致晖孟丹李晓林
申请(专利权)人:杭州博盾习言科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1