【技术实现步骤摘要】
联邦特征工程中的特征筛选方法、装置、设备及存储介质
[0001]本申请实施例涉及联邦学习
,特别涉及一种联邦特征工程中的特征筛选方法、装置、设备及存储介质。
技术介绍
[0002]联邦特征工程是数据在两方或多方手中,通过分布式和隐私保护的方式对数据进行特征分析,以此挑选效果更好的特征进行后续建模的技术。
[0003]联邦特征工程可以分为横向联邦特征工程和纵向联邦特征工程。其中,横向是指各参与方拥有不同样本空间但是拥有相同的特征空间,纵向是指各个参与方拥有许多相同的样本空间但是拥有不同的特征空间。
[0004]相关技术中,纵向联邦算法获得交集信息后,参与各方均能够获取到交集中的元素,容易导致隐私数据泄露。
技术实现思路
[0005]本申请实施例提供了一种联邦特征工程中的特征筛选方法、装置、设备及存储介质,所述技术方案如下。
[0006]一方面,本申请实施例提供了一种联邦学习中的特征筛选方法,所述方法由第一参与方执行,所述方法包括:
[0007]与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
[0008]与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
[0009]基于所述特征指标进行 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习中的特征筛选方法,其特征在于,所述方法由第一参与方执行,所述方法包括:与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。2.根据权利要求1所述的方法,其特征在于,所述与第二参与方执行电路隐私集合求交,得到交集分片,包括:在所述第一参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为发起方与所述第二参与方执行电路隐私集合求交,得到所述交集分片;在所述第二参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为接受方与所述第二参与方执行电路隐私集合求交,得到所述交集分片。3.根据权利要求2所述的方法,其特征在于,所述作为发起方与所述第二参与方执行电路隐私集合求交,得到所述交集分片,包括:作为发起方并以第一样本标识为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识。4.根据权利要求3所述的方法,其特征在于,所述与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,包括:基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,所述样本分箱信息用于表征正负样本在特征分箱中的分布情况,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,包括:基于所述样本标签、所述第一交集分片以及所述第二交集分片进行逻辑与运算,得到第一布尔分片,所述第一布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第一布尔分片转换为算数分片并累加,得到所述样本分片。6.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片之前,所述方法包括:对所述待分析样本特征进行特征分箱;基于所述样本标签以及特征分箱结果确定所述样本分箱信息。7.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,包括:基于所述第一交集分片、所述样本分箱信息以及所述第二交集分片进行逻辑与运算,得到第二布尔分片,所述第二布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;将所述第二布尔分片转换为算数分片并累加,得到所述分箱分片。8.根据权利要求2所述的方法,其特征在于,所述作为接受方与所述第二参与方执行电路隐私集合求交,得到所述交集分片,包括:作为接受方并以第一样本标识和样本标签为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片以及标签分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的...
【专利技术属性】
技术研发人员:黄晨宇,蒋杰,刘煜宏,陈鹏,张凡,程勇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。