用于联邦特征工程数据处理的方法和装置制造方法及图纸

技术编号:25346314 阅读:35 留言:0更新日期:2020-08-21 17:05
本公开的实施例公开了用于联邦特征工程数据处理的方法和装置。该方法的一具体实施方式包括:向数据端发送业务端的样本的样本ID、同态加密的正样本标签和同态加密的常数;接收数据端发送的各分箱的密文求和结果;对于每个数据端,将数据端的各分箱的密文求和结果解密,得到数据端的各分箱的解密结果;对于每个数据端,基于数据端的解密结果对变量相关性进行分析,得到数据端的分析结果;将数据端的分析结果发给数据端。该实施方式能够大幅减少传输过程中的数据总量,从而提高联邦学习过程中整体的效率。

【技术实现步骤摘要】
用于联邦特征工程数据处理的方法和装置
本公开的实施例涉及计算机
,具体涉及用于联邦特征工程数据处理的方法和装置。
技术介绍
特征工程是机器学习建模中最重要的一环。在机器学习业界流传着这么一句话:“数据和特征决定了机器学习的上限,模型和算法只能逼近这个上限。”也就是说,没有优良的数据集和合理的特征工程,模型和算法也无法达到预期的效果。特征工程的重要性和数据本身一样,可以极大影响机器学习建模的最终效果。联邦建模过程中,联邦特征工程作为决定联邦模型最终效果的重要的一环,需要通过数据在多方之间加密传输和计算的方式来完成。这种传输过程势必会消耗大量的网络和存储资源,影响联邦建模效率。
技术实现思路
本公开的实施例提出了用于联邦特征工程数据处理的方法和装置。第一方面,本公开的实施例提供了一种用于联邦特征工程数据处理的方法,应用于业务端,包括:向数据端发送业务端的样本的样本ID、同态加密的正样本标签和同态加密的常数;接收所述数据端发送的各分箱的密文求和结果;将所述数据端的各分箱的密文求和结果解密,得到所述数据端的各分本文档来自技高网...

【技术保护点】
1.一种用于联邦特征工程数据处理的方法,应用于业务端,包括:/n向数据端发送所述业务端的样本的样本ID、同态加密的正样本标签和同态加密的常数;/n接收所述数据端发送的各分箱的密文求和结果;/n将所述所述数据端的各分箱的密文求和结果解密,得到所述所述数据端的各分箱的解密结果;/n基于所述数据端的解密结果对变量相关性进行分析,得到所述数据端的分析结果;/n将所述数据端的分析结果发给所述数据端。/n

【技术特征摘要】
1.一种用于联邦特征工程数据处理的方法,应用于业务端,包括:
向数据端发送所述业务端的样本的样本ID、同态加密的正样本标签和同态加密的常数;
接收所述数据端发送的各分箱的密文求和结果;
将所述所述数据端的各分箱的密文求和结果解密,得到所述所述数据端的各分箱的解密结果;
基于所述数据端的解密结果对变量相关性进行分析,得到所述数据端的分析结果;
将所述数据端的分析结果发给所述数据端。


2.根据权利要求1所述的方法,其中,所述解密结果包括:正样本标签的运算结果、负样本标签的运算结果;以及
所述基于所述数据端的解密结果对变量相关性进行分析,得到所述数据端的分析结果,包括:
基于所述数据端的各分箱的正样本标签的运算结果和负样本标签的运算结果计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数;
根据所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数对变量相关性计算所述数据端的每个分箱的证据权重;
根据所述数据端的每个分箱的证据权重计算所述数据端的每个分箱的信息量,并求和得到所述数据端的总信息量作为分析结果。


3.根据权利要求1所述的方法,其中,所述解密结果包括数据端的样本的特征的群体稳定性指数:
以及
所述基于所述数据端的解密结果对变量相关性进行分析,得到所述数据端的分析结果,包括:
计算所述业务端的样本的各特征的群体稳定性指数,并进行同态加密;
向所述数据端发送同态加密的业务端的样本的各特征的群体稳定性指数;
计算所述业务端的样本和所述数据端的样本共有的各特征的群体稳定性指数作为分析结果。


4.根据权利要求1所述的方法,其中,所述解密结果包括:正样本标签的运算结果、负样本标签的运算结果;以及
所述基于所述数据端的解密结果对变量相关性进行分析,得到所述数据端的分析结果,包括:
基于所述数据端的各分箱的正样本标签的运算结果和负样本标签的运算结果计算所述数据端的每个分箱的正样本总数和负样本总数、所有分箱的正样本总数和负样本总数;
根据所述数据端的每个分箱的正样本总数和负样本总数,所有分箱的正样本总数和负样本总数对变量相关性计算所述数据端的每个分箱的KS值;
计算KS值最小的分箱的提升度作为分析结果。


5.一种用于联邦特征工程数据处理的方法,应用于数据端,包括:
接收业务端发送的所有样本的样本ID、同态加密的正样本标签和同态加密的常数;
基于所有样本的样本ID对同态加密的正样本标签进行分箱;
基于每个分箱中样本ID对应的同态加密的正样本标签和同态加密的常数计算每分箱的密文求和结果...

【专利技术属性】
技术研发人员:张一凡陈忠黄志翔彭南博
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1