联邦特征工程中的特征筛选方法、装置、设备及存储介质制造方法及图纸

技术编号:37435149 阅读:14 留言:0更新日期:2023-05-06 09:07
本申请公开了一种联邦特征工程中的特征筛选方法、装置、设备及存储介质,涉及联邦学习技术领域。包括:与第二参与方执行电路隐私集合求交,得到交集分片,交集分片用于表征第一参与方与第二参与方之间的样本交集情况,且交集分片包括第一参与方拥有的第一交集分片以及第二参与方拥有的第二交集分片;与第二参与方通过安全多方计算,对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,特征指标用于评估待分析样本特征对样本分类的预测能力;基于特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。本申请实施例实现了匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。邦学习过程中各方数据的安全性。邦学习过程中各方数据的安全性。

【技术实现步骤摘要】
联邦特征工程中的特征筛选方法、装置、设备及存储介质


[0001]本申请实施例涉及联邦学习
,特别涉及一种联邦特征工程中的特征筛选方法、装置、设备及存储介质。

技术介绍

[0002]联邦特征工程是数据在两方或多方手中,通过分布式和隐私保护的方式对数据进行特征分析,以此挑选效果更好的特征进行后续建模的技术。
[0003]联邦特征工程可以分为横向联邦特征工程和纵向联邦特征工程。其中,横向是指各参与方拥有不同样本空间但是拥有相同的特征空间,纵向是指各个参与方拥有许多相同的样本空间但是拥有不同的特征空间。
[0004]相关技术中,纵向联邦算法获得交集信息后,参与各方均能够获取到交集中的元素,容易导致隐私数据泄露。

技术实现思路

[0005]本申请实施例提供了一种联邦特征工程中的特征筛选方法、装置、设备及存储介质,所述技术方案如下。
[0006]一方面,本申请实施例提供了一种联邦学习中的特征筛选方法,所述方法由第一参与方执行,所述方法包括:
[0007]与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
[0008]与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
[0009]基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
[0010]另一方面,本申请实施例提供了一种联邦学习中的特征筛选装置,所述装置包括:
[0011]电路隐私集合求交模块,用于与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;
[0012]安全多方计算模块,用于与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;
[0013]特征筛选模块,用于基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。
[0014]另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和
存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的联邦学习中的特征筛选方法。
[0015]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如上述方面所述的联邦学习中的特征筛选方法。
[0016]另一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上述方面所述的联邦学习中的特征筛选方法。
[0017]本申请实施例中,第一参与方和第二参与方通过电路隐私集合求交的方式,得到指示参与方之间样本交集情况的交集分片,由于第一参与方和第二参与方分别持有交集分片的一部分,因此能够避免求交过程中交集样本信息泄露;后续过程中,参与方之间通过安全多方计算对交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,进而基于该特征指标筛选出高价值样本特征用于后续联邦学习,实现匿踪状态的联邦特征工程,提高了联邦学习过程中各方数据的安全性。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1示出了本申请一个示例性实施例提供的实施环境的示意图;
[0020]图2示出了本申请一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
[0021]图3示出了本申请另一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
[0022]图4是图3所示联邦学习中的特征筛选过程的实施示意图;
[0023]图5示出了本申请再一个示例性实施例提供的联邦学习中的特征筛选方法的流程图;
[0024]图6是图5所示联邦学习中的特征筛选过程的实施示意图;
[0025]图7是本申请一个示例性实施例提供的联邦学习中的特征筛选装置的结构框图;
[0026]图8示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
[0027]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0028]为了方便理解,下面对本申请实施例中涉及的名词进行说明。
[0029]联邦学习(Federated Learning,FL):由谷歌提出的隐私保护+分布式机器学习技术,用于解决当敏感数据存在多个独立的机构、团体、个人手中时,如何在保护隐私的前提
下,在虚拟“聚合”的数据之上共同训练全局模型的问题。
[0030]联邦特征工程:当数据在两方或多方手中,通过分布式和隐私保护的方式对数据进行特征分析,以此挑选效果更好的特征进行后续建模。联邦特征功能包括横向联邦特征工程和纵向联邦特征工程,其中,横向是指各参与方拥有不同样本空间但是拥有相同的特征空间,纵向则是指各个参与方拥有许多相同的样本空间但是拥有不同的特征空间。本申请实施例中以纵向联邦特征工程为例进行说明。
[0031]WOE(Weight of Evidence,证据权重):是对原始变量的一种编码方式,在风控建模中常被作为一种特征变换。
[0032]IV(Information Value,信息值):与WOE密切相关的一个指标,用于反映自变量和应变量之间的相关性,常被用于评估变量的预测能力,进而实现变量筛选(即特征筛选)。
[0033]SMPC(Secure Multi

party Computation,安全多方计算):是一种当秘密分布式地掌握在多方手中时,安全求解全局问题的技术。
[0034]PSI(Private Set Intersection,隐私集合求交):指参与双方通过密码学方式获得双方数据的交集,且不会暴露交集以外的数据元素的技术。
[0035]PSI

Circuit(Private Set Intersection Circuit,电路隐私集合求交):是指参与双方输入集合,最终双方只能得到关于交集的分片信息,即数据是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种联邦学习中的特征筛选方法,其特征在于,所述方法由第一参与方执行,所述方法包括:与第二参与方执行电路隐私集合求交,得到交集分片,所述交集分片用于表征所述第一参与方与所述第二参与方之间的样本交集情况,且所述交集分片包括所述第一参与方拥有的第一交集分片以及所述第二参与方拥有的第二交集分片;与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,所述特征指标用于评估所述待分析样本特征对样本分类的预测能力;基于所述特征指标进行特征筛选,其中,筛选得到的样本特征用于进行联邦学习。2.根据权利要求1所述的方法,其特征在于,所述与第二参与方执行电路隐私集合求交,得到交集分片,包括:在所述第一参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为发起方与所述第二参与方执行电路隐私集合求交,得到所述交集分片;在所述第二参与方具有所述待分析样本特征,且所述第一参与方具有样本标签的情况下,作为接受方与所述第二参与方执行电路隐私集合求交,得到所述交集分片。3.根据权利要求2所述的方法,其特征在于,所述作为发起方与所述第二参与方执行电路隐私集合求交,得到所述交集分片,包括:作为发起方并以第一样本标识为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的样本标识。4.根据权利要求3所述的方法,其特征在于,所述与所述第二参与方通过安全多方计算,对所述交集分片进行联邦特征工程处理,得到待分析样本特征的特征指标,包括:基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,所述样本分片用于表征交集样本中正负样本数量,所述样本分片包括所述第一参与方拥有的第一正样本分片和第一负样本分片,以及所述第二参与方拥有的第二正样本分片和第二负样本分片;基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,所述样本分箱信息用于表征正负样本在特征分箱中的分布情况,所述分箱分片用于表征不同特征分箱中正负样本数量,所述分箱分片包括所述第一参与方拥有的第一正样本分箱分片和第一负样本分箱分片,以及所述第二参与方拥有的第二正样本分箱分片和第二负样本分箱分片;基于所述样本分片以及所述分箱分片进行安全多方计算,得到所述待分析样本特征的所述特征指标。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述样本标签和所述第一交集分片,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到样本分片,包括:基于所述样本标签、所述第一交集分片以及所述第二交集分片进行逻辑与运算,得到第一布尔分片,所述第一布尔分片用于以布尔形式指示交集样本中的正负样本;
将所述第一布尔分片转换为算数分片并累加,得到所述样本分片。6.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片之前,所述方法包括:对所述待分析样本特征进行特征分箱;基于所述样本标签以及特征分箱结果确定所述样本分箱信息。7.根据权利要求4所述的方法,其特征在于,所述基于所述第一参与方拥有的所述第一交集分片和样本分箱信息,以及所述第二参与方拥有的所述第二交集分片进行安全多方计算,得到分箱分片,包括:基于所述第一交集分片、所述样本分箱信息以及所述第二交集分片进行逻辑与运算,得到第二布尔分片,所述第二布尔分片用于以布尔形式指示位于交集且特征分箱中的正负样本;将所述第二布尔分片转换为算数分片并累加,得到所述分箱分片。8.根据权利要求2所述的方法,其特征在于,所述作为接受方与所述第二参与方执行电路隐私集合求交,得到所述交集分片,包括:作为接受方并以第一样本标识和样本标签为输入与所述第二参与方执行电路隐私集合求交,得到所述交集分片以及标签分片,其中,所述第一样本标识为所述第一参与方所拥有样本的样本标识,所述第二参与方作为发起方以第二样本标识为输入执行电路隐私集合求交,所述第二样本标识为所述第二参与方所拥有样本的...

【专利技术属性】
技术研发人员:黄晨宇蒋杰刘煜宏陈鹏张凡程勇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1