基于特征抽取的多模型训练方法及系统、电子设备和介质技术方案

技术编号:26420334 阅读:41 留言:0更新日期:2020-11-20 14:16
本公开提供一种基于特征抽取的多模型训练方法及系统、电子设备和介质,涉及云平台、深度学习技术领域。根据本公开一个方面,基于联邦特征抽取的多模型训练方法包括:基于与多个合作方分别共同的用户样本的数据、分别与每一个合作方合作训练树模型;对训练的树模型进行特征重要性评估,以对每一个树模型生成的特征列赋予相应的权重;响应于第一合作方训练线性模型,将与第一合作方共同的第一用户样本的数据输入到与第一合作方相对应的树模型以及与第二合作方相对应的树模型中,以得到多个独热编码的特征列;以及基于权重对所得到的特征列进行筛选,以根据筛选后的特征列和第一用户样本的数据训练与第一合作方相对应的线性模型。

【技术实现步骤摘要】
基于特征抽取的多模型训练方法及系统、电子设备和介质
本公开涉及云平台、深度学习
,特别涉及基于特征抽取的多模型训练方法及系统、电子设备和介质。
技术介绍
近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎、金融信贷等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。在通过推荐引擎进行广告业务的投放时,为丰富训练数据的多样性,人们希望能够融合多方企业间的数据进行推荐引擎的训练。但由于各企业间存在业务差异,其数据也体现了不同的业务特性。因此,如何实现相关数据的自动筛选以充分丰富训练数据的多样性成为了技术关键。另外,如今随着国内外数据监管以及公众隐私保护的逐步加强,在数据保密上也阻碍着不少企业之间的数据合作。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
根据本公开的一个方面,提供了一种基于联本文档来自技高网...

【技术保护点】
1.一种基于联邦特征抽取的多模型训练方法,包括:/n训练树模型,该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的,其中与每一个所述合作方的数据传输均以加密的形式进行;/n对所述训练的树模型进行特征重要性评估,以对每一个树模型生成的特征列赋予相应的权重;/n响应于第一合作方训练线性模型,将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中,以得到多个独热编码的特征列,其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方;以及/n基于所述权重对所得到的特征列进行筛选,以根据所述...

【技术特征摘要】
1.一种基于联邦特征抽取的多模型训练方法,包括:
训练树模型,该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的,其中与每一个所述合作方的数据传输均以加密的形式进行;
对所述训练的树模型进行特征重要性评估,以对每一个树模型生成的特征列赋予相应的权重;
响应于第一合作方训练线性模型,将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中,以得到多个独热编码的特征列,其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方;以及
基于所述权重对所得到的特征列进行筛选,以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型。


2.如权利要求1所述的方法,训练树模型,该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的,其中与每一个所述合作方的数据传输均以加密的形式进行包括:
接收所述多个合作方基于加密算法各自生成的公钥,以基于相应的公钥加密需要传输的数据;
接收所述合作方基于其生成的公钥加密后的导数,以计算对应分箱下的梯度和;以及
将所述梯度和传输到所述合作方,使得所述合作方通过基于所述加密算法生成的私钥解密所述梯度和,以训练双方的树模型。


3.如权利要求1所述的方法,基于所述权重对所得到的特征列进行筛选,以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型包括:
选择通过与所述第一合作方相对应的树模型所得到的特征列,以将所述选择的特征列与所述第一用户样本的数据组成第一数据集;
对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集;以及
基于所述第二数据集训练与所述第一合作方相对应的线性模型。


4.如权利要求3所述的方法,对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集包括:
将通过与所述第二合作方相对应的树模型所得到的特征列中过滤掉其权重小于第一阈值的特征列,以得到第一剩余特征列;
将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析;
确定其相关系数大于第二阈值的所有特征列对,以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列;以及
选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列,以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。


5.如权利要求3所述的方法,对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选,以将所述筛选的特征列与所述第一数据集组成第二数据集包括:
分别设定与所述第二合作方相对应的树模型的各自的权重阈值;
将通过与所述第二合作方相对应的树模型所得到的特征列根据其各自的权重阈值进行过滤,以过滤掉其权重小于其相应权重阈值的特征列,从而得到第一剩余特征列;
将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析;
确定其相关系数大于第二阈值的所有特征列对,以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列;以及
选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列,以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。


6.如权利要求2所述的方法,其中,所述加密算法包括以下中的一个:RSA算法、Pailler算法。


7.如权利要求1所述的方法,所述树模型包括以下中的一个:XGBoost模型、LightGBM模型。


8.如权利要求1所述的方法,所述线性模型包括以下中的一个:逻辑回归LR模型、泊松PR模型。


9.如权利要求1所述的方法,所述共同的用户样本的数据包括:所述用户样本是否点击广告的标签数据以及所述用户样本的行为数据。


10.一种基于联邦特征抽取的多模型训练设备,包括:
树模型训练单元,配置为训练树模型,该树模型是基于与多个合作方分...

【专利技术属性】
技术研发人员:周洋杰陈亮辉方军付琰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1