【技术实现步骤摘要】
基于混淆箱的数据分箱处理方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于混淆箱的数据分箱处理方法、装置、设备及存储介质。
技术介绍
[0002]在人工智能领域,联邦学习的应用越来越广泛。联邦学习能够联合多个参与方进行模型训练,提升人工智能的效果。在构建联邦学习模型时,往往需要考虑特征变量的证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)。
[0003]在确定证据权重和信息价值时,持有标签的参与方将标签发送给持有特征变量的参与方,后者根据特征变量对样本进行分箱操作,并返回每个箱的标签之和,持有标签的一方可以根据标签之和计算证据权重和信息价值。
[0004]但是,若持有标签的一方恶意地将标签进行独热编码,就有可能根据返回的标签之和反推出分箱的信息,从而导致持有特征变量的参与方的数据泄露,因此确定证据权重和信息价值时的安全性较差。
技术实现思路
[0005]本专利技术的主要目的在于提供一种基于混淆箱 ...
【技术保护点】
【技术特征摘要】
1.一种基于混淆箱的数据分箱处理方法,其特征在于,所述方法应用于第一参与方,所述方法包括:获取第二参与方发送的多个数据标识以及每个数据标识对应的加密的标签和反标签;根据本地存储的与所述多个数据标识对应的特征变量,对本地存储的与所述特征变量对应的多个数据标识进行分箱操作,得到多个真实箱,并随机生成多个混淆箱;对于所述多个真实箱和多个混淆箱中的每一个箱,根据该箱中数据标识对应的加密的标签和反标签,计算该箱对应的加密的正样本占比和负样本占比;将各个箱的指示信息发送给所述第二参与方,以使所述第二参与方根据所述指示信息确定中间结果并对中间结果进行加密;其中,所述指示信息与加密后的正样本占比和负样本占比相关,所述中间结果用于计算证据权重和/或信息价值;获取所述第二参与方发送的各个箱对应的加密的中间结果,并从中选择多个真实箱对应的中间结果;根据所述多个真实箱对应的中间结果计算加密的证据权重和/或信息价值并向所述第二参与方发送加密的最终结果,所述最终结果包括证据权重的变化趋势和/或信息价值。2.根据权利要求1所述的基于混淆箱的数据分箱处理方法,其特征在于,将各个箱的指示信息发送给所述第二参与方,包括:对于每一个箱,生成随机数,并将加密的正样本占比和负样本占比分别与对应的随机数相乘,得到指示信息,并将所述指示信息发送给所述第二参与方;根据所述多个真实箱对应的中间结果计算加密的证据权重和/或信息价值并向所述第二参与方发送加密的最终结果,包括:根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密的证据权重和/或信息价值,并向所述第二参与方发送加密的最终结果。3.根据权利要求2所述的基于混淆箱的数据分箱处理方法,其特征在于,对于每一个箱,所述指示信息具体包括加密的正样本占比与第一随机数的乘积,加密的负样本占比与第二随机数的乘积;所述中间结果通过对数操作确定,且所述中间结果包括该箱对应的第一对数值和第二对数值之差,所述第一对数值为正样本占比与第一随机数的乘积的对数值,所述第二对数值为负样本占比与第二随机数的乘积的对数值;根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密的证据权重和/或信息价值,并向所述第二参与方发送加密的最终结果,包括:对于多个真实箱中的每一个箱,将该箱对应的加密的中间结果消除第一随机数与第二随机数的影响,得到加密后的证据权重;将各个箱对应的加密的证据权重与第三随机数相除,得到加密的最终结果并发送给所述第二参与方,所述多个真实箱的最终结果用于表征证据权重的变化趋势。4.根据权利要求2所述的基于混淆箱的数据分箱处理方法,其特征在于,对于每一个箱,所述指示信息包括加密的正样本占比与第一随机数的乘积、加密的负样本占比与第二随机数的乘积、加密的正样本占比与加密的负样本占比之差与第三随机数的乘积;所述中间结果通过对数操作确定,且所述中间结果包括正样本占比与负样本占比之差、第三随机数、第一对数值和第二对数值之差的乘积;其中,所述第一对数值为正样本占
比与第一随机数的乘积的对数值,所述第二对数值为负样本占比与第二随机数的乘积的对数值;根据所述多个真实箱对应的中间结果以及对应的随机数,计算加密的证据权重和/或信息价值,并向所述第二参与方发送加密的最终结果,包括:对于多个真实箱中的每一个箱,将该箱对应的中间结果消除第一随机数、第二随机数和第三随机数的影响,得到加密后的价值信息发送给第二参与方。5.一种基于混淆箱的数据分箱处理方法,其特征在于,所述方法应用于第二参与方,所述方法包括:向第一参与方发送多个数据标识以及每个数据标识对应的加密的标签和反标签,以使所述第一参与方根据本地存储的与所述多个数据标识对应的特征变量,对本地存储的与所述特征变量对应的多个数据标识进行分箱操作,得到多个真实箱,并随机生成多个混淆箱;获取所述第一参与方发送的所述多个真实箱和多个混淆箱中的各个箱的指示信息;其中,每一个箱的指示信息与该箱对应的加密的正样本...
【专利技术属性】
技术研发人员:谭明超,马国强,范涛,杨强,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。