一种数据处理方法、装置、计算机设备以及可读存储介质制造方法及图纸

技术编号:39284968 阅读:9 留言:0更新日期:2023-11-07 10:56
本申请实施例提供了一种数据处理方法、装置、计算机设备以及可读存储介质,该方法包括:获取第一参与方的第一业务样本标识对应的第一标识数量;若比较结果指示第一标识数量小于或等于第二标识数量,则获取针对第一业务样本标识的第一业务特征的第一特征数据划分矩阵,以及针对第二业务样本标识的第二业务特征的第一特征数据划分分片;获取与第一业务样本标识和第二业务样本标识共同关联的第一交集梯度分片;获取与交集梯度向量相关联的第一特征梯度分片;第一特征梯度分片和第二特征梯度分片用于确定针对第一业务特征和第二业务特征的最优分裂结果。采用本申请,可以提高参与方所拥有的数据的安全性。所拥有的数据的安全性。所拥有的数据的安全性。

【技术实现步骤摘要】
一种数据处理方法、装置、计算机设备以及可读存储介质


[0001]本申请涉及互联网
,尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。

技术介绍

[0002]纵向联邦学习算法获取参与纵向联邦学习的第一参与方的第一业务样本标识,以及获取参与纵向联邦学习的第二参与方的第二业务样本标识,直接对第一业务样本标识和第二业务样本标识进行比较(例如,第一参与方将第一业务样本标识发送至第二参与方,第二参与方对第一业务样本标识和第二业务样本标识进行比较),生成第一业务样本标识和第二业务样本标识之间的交集业务样本标识,进而基于交集业务样本标识在第一参与方的业务特征和交集业务样本标识在第二参与方的业务特征直接生成交集梯度向量,根据交集梯度向量确定针对第一业务特征和第二业务特征的最优分裂结果,从而基于最优分裂结果生成用于对业务数据进行业务处理的决策树。
[0003]然而,第一业务样本标识和第二业务样本标识可能为隐私数据(例如,手机号),直接使用隐私数据(例如,手机号)生成决策树的过程不可避免地会暴露这些隐私数据(例如,将第一参与方的第一业务样本标识暴露至第二参与方),从而降低了纵向联邦学习算法的参与方所拥有的数据的安全性。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介质,可以提高参与方所拥有的数据的安全性。
[0005]本申请实施例一方面提供了一种数据处理方法,方法由参与纵向联邦学习的第一参与方执行,包括:
[0006]获取第一参与方的第一业务样本标识对应的第一标识数量;第一标识数量用于和参与纵向联邦学习的第二参与方的第二业务样本标识对应的第二标识数量进行比较,得到比较结果;
[0007]若比较结果指示第一标识数量小于或等于第二标识数量,则获取针对第一业务样本标识的第一业务特征的第一特征数据划分矩阵,以及针对第二业务样本标识的第二业务特征的第一特征数据划分分片;第一特征数据划分矩阵用于表征第一参与方基于第一业务特征对第一业务样本标识进行业务样本划分所得到的划分结果;第一特征数据划分分片和第二参与方所持有的第二特征数据划分分片是第二特征数据划分矩阵的分片;第二特征数据划分矩阵用于表征第二参与方基于第二业务特征对第二业务样本标识进行业务样本划分所得到的划分结果;
[0008]获取与第一业务样本标识和第二业务样本标识共同关联的第一交集梯度分片;第一交集梯度分片和第二参与方所持有的第二交集梯度分片是交集梯度向量的分片;交集梯度向量用于表征第一业务样本标识和第二业务样本标识之间的交集业务样本标识的样本
梯度;
[0009]获取与交集梯度向量相关联的第一特征梯度分片;第一特征数据划分矩阵和第二特征数据划分矩阵用于对交集梯度向量进行梯度划分,得到第一特征梯度分片和第二参与方所持有的第二特征梯度分片;第一特征梯度分片和第二特征梯度分片用于确定针对第一业务特征和第二业务特征的最优分裂结果;最优分裂结果用于生成针对第一参与方和第二参与方的目标决策树;收敛后的目标决策树用于对业务数据进行业务处理。
[0010]本申请实施例一方面提供了一种数据处理装置,装置运行在参与纵向联邦学习的第一参与方上,包括:
[0011]数量获取模块,用于获取第一参与方的第一业务样本标识对应的第一标识数量;第一标识数量用于和参与纵向联邦学习的第二参与方的第二业务样本标识对应的第二标识数量进行比较,得到比较结果;
[0012]第一获取模块,用于若比较结果指示第一标识数量小于或等于第二标识数量,则获取针对第一业务样本标识的第一业务特征的第一特征数据划分矩阵,以及针对第二业务样本标识的第二业务特征的第一特征数据划分分片;第一特征数据划分矩阵用于表征第一参与方基于第一业务特征对第一业务样本标识进行业务样本划分所得到的划分结果;第一特征数据划分分片和第二参与方所持有的第二特征数据划分分片是第二特征数据划分矩阵的分片;第二特征数据划分矩阵用于表征第二参与方基于第二业务特征对第二业务样本标识进行业务样本划分所得到的划分结果;
[0013]第二获取模块,用于获取与第一业务样本标识和第二业务样本标识共同关联的第一交集梯度分片;第一交集梯度分片和第二参与方所持有的第二交集梯度分片是交集梯度向量的分片;交集梯度向量用于表征第一业务样本标识和第二业务样本标识之间的交集业务样本标识的样本梯度;
[0014]第三获取模块,用于获取与交集梯度向量相关联的第一特征梯度分片;第一特征数据划分矩阵和第二特征数据划分矩阵用于对交集梯度向量进行梯度划分,得到第一特征梯度分片和第二参与方所持有的第二特征梯度分片;第一特征梯度分片和第二特征梯度分片用于确定针对第一业务特征和第二业务特征的最优分裂结果;最优分裂结果用于生成针对第一参与方和第二参与方的目标决策树;收敛后的目标决策树用于对业务数据进行业务处理。
[0015]其中,第一业务特征的数量为M1个,第二业务特征的数量为M2个;M1为正整数,M2为正整数;M1个第一业务特征包括第一业务特征V
d
,d为小于M1的非负整数;
[0016]第一获取模块包括:
[0017]样本划分单元,用于获取针对第一业务样本标识的第一业务特征V
d
的特征数据,基于第一业务特征V
d
的特征数据对第一业务样本标识进行业务样本划分,生成第一业务特征V
d
的特征数据针对特征分桶的分桶指示向量;
[0018]矩阵确定单元,用于将M1个第一业务特征的特征数据分别针对特征分桶的分桶指示向量,确定为针对第一业务样本标识的M1个第一业务特征的第一特征数据划分矩阵;
[0019]分片获取单元,用于获取针对第二业务样本标识的M2个第二业务特征的第一特征数据划分分片。
[0020]其中,针对第一业务特征V
d
的特征分桶的数量为K个,K为正整数;
[0021]样本划分单元,具体用于将第一业务特征V
d
的特征数据分配至K个特征分桶;K个特征分桶包括特征分桶K
u
;u为小于K的非负整数;
[0022]样本划分单元,具体用于若第一业务样本标识在第一业务特征V
d
下的特征数据属于特征分桶K
u
,则将数据存在参数确定为第一业务样本标识在第一业务特征V
d
下针对特征分桶K
u
的分桶指示参数,若第一业务样本标识在第一业务特征V
d
下的特征数据不属于特征分桶K
u
,则将数据不存在参数确定为第一业务样本标识在第一业务特征V
d
下针对特征分桶K
u
的分桶指示参数;
[0023]样本划分单元,具体用于将每个第一业务样本标识分别针对特征分桶K
u
的分桶指示参数,确定为第一业务特征V
d
的特征数据针对特征分桶K
u
的分桶指示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法由参与纵向联邦学习的第一参与方执行,包括:获取所述第一参与方的第一业务样本标识对应的第一标识数量;所述第一标识数量用于和参与纵向联邦学习的第二参与方的第二业务样本标识对应的第二标识数量进行比较,得到比较结果;若所述比较结果指示所述第一标识数量小于或等于所述第二标识数量,则获取针对所述第一业务样本标识的第一业务特征的第一特征数据划分矩阵,以及针对所述第二业务样本标识的第二业务特征的第一特征数据划分分片;所述第一特征数据划分矩阵用于表征所述第一参与方基于所述第一业务特征对所述第一业务样本标识进行业务样本划分所得到的划分结果;所述第一特征数据划分分片和所述第二参与方所持有的第二特征数据划分分片是第二特征数据划分矩阵的分片;所述第二特征数据划分矩阵用于表征所述第二参与方基于所述第二业务特征对所述第二业务样本标识进行业务样本划分所得到的划分结果;获取与所述第一业务样本标识和所述第二业务样本标识共同关联的第一交集梯度分片;所述第一交集梯度分片和所述第二参与方所持有的第二交集梯度分片是交集梯度向量的分片;所述交集梯度向量用于表征所述第一业务样本标识和所述第二业务样本标识之间的交集业务样本标识的样本梯度;获取与所述交集梯度向量相关联的第一特征梯度分片;所述第一特征数据划分矩阵和所述第二特征数据划分矩阵用于对所述交集梯度向量进行梯度划分,得到所述第一特征梯度分片和所述第二参与方所持有的第二特征梯度分片;所述第一特征梯度分片和所述第二特征梯度分片用于确定针对所述第一业务特征和所述第二业务特征的最优分裂结果;所述最优分裂结果用于生成针对所述第一参与方和所述第二参与方的目标决策树;收敛后的目标决策树用于对业务数据进行业务处理。2.根据权利要求1所述的方法,其特征在于,所述第一业务特征的数量为M1个,所述第二业务特征的数量为M2个;所述M1为正整数,所述M2为正整数;M1个所述第一业务特征包括第一业务特征V
d
,所述d为小于所述M1的非负整数;所述获取针对所述第一业务样本标识的第一业务特征的第一特征数据划分矩阵,以及针对所述第二业务样本标识的第二业务特征的第一特征数据划分分片,包括:获取针对所述第一业务样本标识的所述第一业务特征V
d
的特征数据,基于所述第一业务特征V
d
的特征数据对所述第一业务样本标识进行业务样本划分,生成所述第一业务特征V
d
的特征数据针对特征分桶的分桶指示向量;将M1个所述第一业务特征的特征数据分别针对特征分桶的分桶指示向量,确定为针对所述第一业务样本标识的M1个所述第一业务特征的第一特征数据划分矩阵;获取针对所述第二业务样本标识的M2个所述第二业务特征的第一特征数据划分分片。3.根据权利要求2所述的方法,其特征在于,针对所述第一业务特征V
d
的特征分桶的数量为K个,所述K为正整数;所述基于所述第一业务特征V
d
的特征数据对所述第一业务样本标识进行业务样本划分,生成所述第一业务特征V
d
的特征数据针对特征分桶的分桶指示向量,包括:将所述第一业务特征V
d
的特征数据分配至K个所述特征分桶;K个所述特征分桶包括特征分桶K
u
;所述u为小于所述K的非负整数;
若所述第一业务样本标识在所述第一业务特征V
d
下的特征数据属于所述特征分桶K
u
,则将数据存在参数确定为所述第一业务样本标识在所述第一业务特征V
d
下针对所述特征分桶K
u
的分桶指示参数,若所述第一业务样本标识在所述第一业务特征V
d
下的特征数据不属于所述特征分桶K
u
,则将数据不存在参数确定为所述第一业务样本标识在所述第一业务特征V
d
下针对所述特征分桶K
u
的分桶指示参数;将每个所述第一业务样本标识分别针对所述特征分桶K
u
的分桶指示参数,确定为所述第一业务特征V
d
的特征数据针对所述特征分桶K
u
的分桶指示向量。4.根据权利要求1所述的方法,其特征在于,所述获取与所述第一业务样本标识和所述第二业务样本标识共同关联的第一交集梯度分片,包括:获取与所述第一业务样本标识和所述第二业务样本标识共同关联的第一样本梯度分片;所述第一样本梯度分片和所述第二参与方所持有的第二样本梯度分片是样本梯度向量的分片;所述样本梯度向量用于表征所述第一业务样本标识的样本梯度;获取所述第一业务样本标识对应的第一布尔交集分片;所述第一布尔交集分片和所述第二参与方所持有的第二布尔交集分片是布尔交集向量的分片;所述布尔交集向量用于指示所述第一业务样本标识针对所述第二业务样本标识的交集状态;获取与所述第一业务样本标识和所述第二业务样本标识共同关联的第一交集梯度分片;所述布尔交集向量用于对所述样本梯度向量进行梯度过滤,生成所述第一交集梯度分片和所述第二参与方所持有的第二交集梯度分片。5.根据权利要求4所述的方法,其特征在于,所述获取与所述第一业务样本标识和所述第二业务样本标识共同关联的第一样本梯度分片,包括:若所述第一参与方为标签持有方,则获取所述第一业务样本标识的第一累计样本预测分片,以及所述第一业务样本标识的第一业务样本标签对应的第一业务标签向量,根据所述第一累计样本预测分片和所述第一业务标签向量,确定与所述第一业务样本标识和所述第二业务样本标识共同关联的第一样本梯度分片;所述第一累计样本预测分片和所述第二参与方所持有的第二累计样本预测分片是累计样本预测向量的分片;所述累计样本预测向量用于表征在通过所述第一业务样本标识生成目标决策树时的历史累计样本预测值;所述第二参与方用于根据所述第二累计样本预测分片确定与所述第一业务样本标识和所述第二业务样本标识共同关联的第二样本梯度分片;若所述第二参与方为标签持有方,则获取所述第一业务样本标识的第一累计样本预测分片,以及所述第二业务样本标识的第二业务样本标签对应的第一业务标签分片,根据所述第一累计样本预测分片和所述第一业务标签分片,确定与所述第一业务样本标识和所述第二业务样本标识共同关联的第一样本梯度分片;所述第一业务标签分片和所述第二参与方所持有的第二业务标签分片是所述第二业务样本标签对应的第二业务标签向量的分片;所述第一累计样本预测分片和所述第二参与方所持有的第二累计样本预测分片是累计样本预测向量的分片;所述累计样本预测向量用于表征在通过所述第一业务样本标识生成目标决策树时的历史累计样本预测值;所述第二参与方用于根据所述第二累计样本预测分片和所述第二业务标签分片确定与所述第一业务样本标识和所述第二业务样本标识共同关联的第二样本梯度分片。6.根据权利要求4所述的方法,其特征在于,所述获取所述第一业务样本标识对应的第
一布尔交集分片,包括:对所述第一业务样本标识进行布谷鸟哈希映射,得到所述第一业务样本标识对应的第一哈希表;获取与所述第一哈希表和第二哈希表相关联的第一布尔交集分片;所述第一哈希表和所述第二哈希表用于通过不经意可编程伪随机函数进行哈希表匹配,生成所述第一布尔交集分片和所述第二参与方所持有的第二布尔交集分片;所述第二哈希表是所述第二参与方对所述第二业务样本标识进行哈希映射所得到的。7.根据权利要求6所述的方法,其特征在于,所述第一哈希表和所述第二哈希表的哈希表维度相同;所述第一哈希表包括第一哈希映射桶,所述第二哈希表包括与所述第一哈希映射桶的哈希表维度相同的第二哈希映射桶;其中,若所述第一哈希映射桶中包括第一业务样本标识,则所述第一哈希映射桶中的第一业务样本标识对应的第一随机数,是基于不经意可编程伪随机函数对所述第一哈希映射桶中的第一业务样本标识进行随机处理得到;其中,若所述第二哈希映射桶中包括第二业务样本标识,则所述第二哈希映射桶中的第二业务样本标识对应的第二随机数,是基于所述不经意可编程伪随机函数对所述第二哈希映射桶中的第二业务样本标识进行随机处理得到;所述第一随机数和所述第二随机数用于在所述第一参与方和所述第二参与方之间进行随机数匹配,生成所述第一哈希映射桶对应的第一布尔交集参数和所述第二哈希映射桶对应的第二布尔交集参数;所述第一布尔交集参数和所述第二布尔交集参数是合并布尔交集参数的分片;所述合并布尔交集参数用于指示所述第一哈希映射桶和所述第二哈希映射桶的布尔匹配结果;所述第一哈希表中的每个哈希表维度分别对应的第一布尔交集参数用于组成所述第一业务样本标识对应的第一布尔交集分片,所述第二哈希表中的每个哈希表维度分别对应的第二布尔交集参数用于组成所述第一业务样本标识对应的第二布尔交集分片。8.根据权利要求1所述的方法,其特征在于,所述第一业务样本标识和所述第二业务样本标识共包括M个分别属于不同业务维度的业务特征;所述M为大于1的正整数;M个所述业务特征包括业务特征V
c
,所述c为小于所述M的非负整数;其中,若所述业务特征V
c
属于所述第一业务特征,则所述第一特征数据划分矩阵用于对所述交集梯度向量进行梯度划分,得到针对所述业务特征V
c
的第一特征梯度分片和针对所述业务特征V
c
的第二特征梯度分片;其中,若所述业务特征V
c
属于所述第二业务特征,则所述第二特征数据划分矩阵用于对所述交集梯度向量进行梯度划分,得到针对所述业务特征V

【专利技术属性】
技术研发人员:黄晨宇蒋杰刘煜宏陈鹏张凡程勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1