联合建模方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33289366 阅读:13 留言:0更新日期:2022-05-01 00:04
本发明专利技术涉及数据处理领域,揭露一种联合建模方法,包括:将每个子样本集分配到对应的待构建的树的根节点上;对每个根节点上的样本中每个特征进行分箱,基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目标梯度直方图密文;将目标梯度直方图密文发送给对应的第二参与方,接收每个第二参与方返回的梯度直方合并图;根据梯度直方合并图确定待分割特征及其待分割点,以构建下一层树节点;当树节点的深度达到预设深度阈值时,判断构建的树是否满足收敛条件,若判断为是,完成联合建模。本发明专利技术还提供一种联合建模装置、电子设备及存储介质。本发明专利技术提高了联合模型的精确度。本发明专利技术提高了联合模型的精确度。本发明专利技术提高了联合模型的精确度。

【技术实现步骤摘要】
联合建模方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,尤其涉及一种联合建模方法、装置、电子设备及存储介质。

技术介绍

[0002]为消除数据孤岛、保证数据安全,联邦学习已被广泛应用于联合建模中。联邦学习过程中,各参与方不共享数据,分别使用本地数据训练模型,通过交换加密的参数来对模型进行参数更新,完成建模。
[0003]联邦学习包括横向联邦学习和纵向联邦学习,通常,若参与方之间有相同的样本特征,但样本数量都不足,则采用横向联邦学习方案;若参与方样本数量足够,但缺少样本特征,则采用纵向联邦学习方案。然而,对于既缺少样本特征又缺少样本数量的情况,无论使用横向联邦学习方案还是纵向联邦学习方案,构建的联合模型的精确度都不高。因此,亟需一种联合建模方法,以在缺少样本特征和样本数量的情况下,提高联合模型的精确度。

技术实现思路

[0004]鉴于以上内容,有必要提供一种联合建模方法,旨在提高联合模型的精确度。
[0005]本专利技术提供的联合建模方法,应用于联合建模系统中任意一个第一参与方,所述联合建模系统包括通信连接的多个第一参与方及多个第二参与方,各个第一参与方与每个第二参与方之间包含相同的样本对象及不同的样本特征,各个第二参与方之间包含相同的样本特征及不同的样本对象,第一参与方的样本不含标签,第二参与方的样本携带标签,所述方法包括:
[0006]接收联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的第一样本集及每个第二参与方的第二样本集分别执行样本对齐处理,基于样本对齐处理结果将所述第一样本集拆分为每个第二参与方对应的子样本集;
[0007]接收每个第二参与方发送的其第二样本集中每个样本的一阶梯度密文及二阶梯度密文;
[0008]将每个子样本集分别分配到对应的待构建的树的根节点上;
[0009]对每个根节点上的样本中每个特征进行分箱,基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目标梯度直方图密文;
[0010]将所述目标梯度直方图密文发送给对应的第二参与方,接收每个第二参与方返回的采用安全聚合算法处理后的梯度直方合并图;
[0011]根据所述梯度直方合并图确定待分割特征及其待分割点,根据所述待分割特征及其待分割点构建下一层树节点;
[0012]当树节点的深度达到预设深度阈值时,判断构建的树是否满足收敛条件,若判断为是,完成联合建模。
[0013]可选的,所述基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目
标梯度直方图密文,包括:
[0014]选择一个子样本集对应的树的根节点,加总选择的树的根节点上每个特征的各个箱子中样本的一阶梯度密文,得到每个特征的各个箱子对应的一阶梯度密文和;
[0015]加总选择的树的根节点上每个特征的各个箱子中样本的二阶梯度密文,得到每个特征的各个箱子对应的二阶梯度密文和;
[0016]基于所述一阶梯度密文和及二阶梯度密文和绘制选择的树的根节点上每个特征对应的初始梯度直方图密文;
[0017]汇总每个特征对应的初始梯度直方图密文,得到选择的树的根节点对应的目标梯度直方图密文。
[0018]可选的,所述根据所述梯度直方合并图确定待分割特征及其待分割点,包括:
[0019]对于每个梯度直方合并图中的每个特征,分别以每个箱子的起点值作为分割点,计算每个分割点对应的信息增益值;
[0020]将信息增益值最大的分割点作为待分割点,将待分割点对应的特征作为待分割特征。
[0021]可选的,所述根据所述待分割特征及其待分割点构建下一层树节点,包括:
[0022]若所述待分割特征属于某一第一参与方,则将所述待分割特征及其待分割点发送给所述第一参与方,以供所述第一参与方对对应的根节点上的样本进行分离,并将分离结果发送给对应的第二参与方,由对应的第二参与方完成下一层树节点的构建;
[0023]若所述待分割特征属于某一第二参与方,则将所述待分割特征及其待分割点发送给每个第二参与方,以便每个第二参与方对其根节点的样本进行分离,完成下一层树节点的构建。
[0024]可选的,所述判断构建的树是否满足收敛条件,包括:
[0025]接收每个第二参与方发送的其构建的树对应的采用安全聚合算法处理后的损失值;
[0026]聚合所述损失值,得到总损失值,若得到的总损失值与上一棵已构建好的树的总损失值的差值小于损失阈值,则构建的树满足收敛条件。
[0027]可选的,所述损失值的计算过程包括:
[0028]每个第二参与方计算其构建的树的每个叶子节点的权重值,基于所述权重值计算其第二样本集中每个样本的新预测值;
[0029]每个第二参与方基于其第二样本集中每个样本的标签及新预测值计算其构建的树对应的损失值。
[0030]可选的,在所述判断构建的树是否满足收敛条件之后,所述方法还包括:
[0031]若判断为否,接收每个第二参与方发送的其第二样本集中每个样本的新一阶梯度密文及新二阶梯度密文,基于所述新一阶梯度密文及新二阶梯度密文构建下一棵树。
[0032]为了解决上述问题,本专利技术还提供一种联合建模装置,所述装置包括:
[0033]对齐模块,用于接收联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的第一样本集及每个第二参与方的第二样本集分别执行样本对齐处理,基于样本对齐处理结果将所述第一样本集拆分为每个第二参与方对应的子样本集;
[0034]接收模块,用于接收每个第二参与方发送的其第二样本集中每个样本的一阶梯度密文及二阶梯度密文;
[0035]分配模块,用于将每个子样本集分别分配到对应的待构建的树的根节点上;
[0036]分箱模块,用于对每个根节点上的样本中每个特征进行分箱,基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目标梯度直方图密文;
[0037]发送模块,用于将所述目标梯度直方图密文发送给对应的第二参与方,接收每个第二参与方返回的采用安全聚合算法处理后的梯度直方合并图;
[0038]确定模块,用于根据所述梯度直方合并图确定待分割特征及其待分割点,根据所述待分割特征及其待分割点构建下一层树节点;
[0039]判断模块,用于当树节点的深度达到预设深度阈值时,判断构建的树是否满足收敛条件,若判断为是,完成联合建模。
[0040]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0041]至少一个处理器;以及,
[0042]与所述至少一个处理器通信连接的存储器;其中,
[0043]所述存储器存储有可被所述至少一个处理器执行的联合建模程序,所述联合建模程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述联合建模方法。
[0044]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联合建模方法,应用于联合建模系统中任意一个第一参与方,所述联合建模系统包括通信连接的多个第一参与方及多个第二参与方,其特征在于,各个第一参与方与每个第二参与方之间包含相同的样本对象及不同的样本特征,各个第二参与方之间包含相同的样本特征及不同的样本对象,第一参与方的样本不含标签,第二参与方的样本携带标签,所述方法包括:接收联合建模系统中每个第二参与方发送的同态加密密钥对中的公钥,基于所述公钥对本地存储的第一样本集及每个第二参与方的第二样本集分别执行样本对齐处理,基于样本对齐处理结果将所述第一样本集拆分为每个第二参与方对应的子样本集;接收每个第二参与方发送的其第二样本集中每个样本的一阶梯度密文及二阶梯度密文;将每个子样本集分别分配到对应的待构建的树的根节点上;对每个根节点上的样本中每个特征进行分箱,基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目标梯度直方图密文;将所述目标梯度直方图密文发送给对应的第二参与方,接收每个第二参与方返回的采用安全聚合算法处理后的梯度直方合并图;根据所述梯度直方合并图确定待分割特征及其待分割点,根据所述待分割特征及其待分割点构建下一层树节点;当树节点的深度达到预设深度阈值时,判断构建的树是否满足收敛条件,若判断为是,完成联合建模。2.如权利要求1所述的联合建模方法,其特征在于,所述基于分箱结果、一阶梯度密文及二阶梯度密文构建每个根节点的目标梯度直方图密文,包括:选择一个子样本集对应的树的根节点,加总选择的树的根节点上每个特征的各个箱子中样本的一阶梯度密文,得到每个特征的各个箱子对应的一阶梯度密文和;加总选择的树的根节点上每个特征的各个箱子中样本的二阶梯度密文,得到每个特征的各个箱子对应的二阶梯度密文和;基于所述一阶梯度密文和及二阶梯度密文和绘制选择的树的根节点上每个特征对应的初始梯度直方图密文;汇总每个特征对应的初始梯度直方图密文,得到选择的树的根节点对应的目标梯度直方图密文。3.如权利要求1所述的联合建模方法,其特征在于,所述根据所述梯度直方合并图确定待分割特征及其待分割点,包括:对于每个梯度直方合并图中的每个特征,分别以每个箱子的起点值作为分割点,计算每个分割点对应的信息增益值;将信息增益值最大的分割点作为待分割点,将待分割点对应的特征作为待分割特征。4.如权利要求1所述的联合建模方法,其特征在于,所述根据所述待分割特征及其待分割点构建下一层树节点,包括:若所述待分割特征属于某一第一参与方,则将所述待分割特征及其待分割点发送给所述第一参与方,以供所述第一参与方对对应的根节点上的样本进行分离,并将分离结果发送给对应的第二参与方,由对应的第二参与方完成下一层树节点的构建;
若所述待分割特征属于某一第二参与方,则将...

【专利技术属性】
技术研发人员:张铁钢
申请(专利权)人:卫盈联信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1