特征组合方法、装置、介质和电子设备制造方法及图纸

技术编号:24353338 阅读:35 留言:0更新日期:2020-06-03 02:02
本申请提供了一种特征组合方法、装置、介质和电子设备,该方法包括:以包括多个不同特征域的多个样本作为神经网络模型的输入,获取多个样本中各特征域对应的解释向量;对解释向量符合预设条件的特征域进行标注,其中,所述预设条件包括解释向量的绝对值大于设定阈值;根据各特征域被标注的频数从多到少的顺序,依次选取预设数量的组合特征域,作为候选组合特征域;从多个候选组合特征域中选取与目标模型匹配的目标组合特征域。本申请通过获取多个不同特征域各自对应的解释向量,从而筛选出对神经网络模型的输出结果的影响较佳的候选组合特征域,缩小组合特征域的选取范围,降低组合特征域的筛选复杂度,并且最终得到的组合特征域具备可解释性。

Feature combination method, device, medium and electronic equipment

【技术实现步骤摘要】
特征组合方法、装置、介质和电子设备
本专利技术涉及计算机
,尤其涉及一种特征组合方法、装置、介质和电子设备。
技术介绍
自动机器学习技术因其不需要对数据进行深入挖掘,就可以实现自动化数据处理及建模的特点,正逐步引起各领域的关注。采用自动机器学习技术进行建模时,组合特征的选取对神经网络模型准确性具有显著影响。组合特征是由多个不同特征域交叉构成的。目前,选取组合特征时大多采用互信息完全搜索策略、暴力搜索策略、深度模型点积策略中的一种来实现特征域交互,从而搜索出神经网络模型为预测对象进行预测时所需要的特征组合。但是,互信息完全搜索策略仅利用互信息值作为组合特征的筛选条件,不仅缺乏泛化性,只适用于部分分类任务,还使得组合特征难以提升模型预测效果。而暴力搜索策略需要遍历的组合特征过多,不仅该策略失败率高,还导致时间开销大。深度模型点积策略筛选出的组合特征复杂度高,难以被人类理解,不具备可解释性。因此,如何搜索出需要使用的组合特征,成为亟待解决的技术问题。
技术实现思路
本专利技术实施例提供一种特征组合方法、装置、本文档来自技高网...

【技术保护点】
1.一种特征组合方法,其中,包括:/n以包括多个不同特征域的多个样本作为神经网络模型的输入,获取所述多个样本中各特征域对应的解释向量;/n对解释向量符合预设条件的特征域进行标注,其中,所述预设条件包括解释向量的绝对值大于设定阈值;/n根据各特征域被标注的频数从多到少的顺序,依次选取预设数量的组合特征域,作为候选组合特征域;/n从多个候选组合特征域中选取与目标模型匹配的目标组合特征域。/n

【技术特征摘要】
1.一种特征组合方法,其中,包括:
以包括多个不同特征域的多个样本作为神经网络模型的输入,获取所述多个样本中各特征域对应的解释向量;
对解释向量符合预设条件的特征域进行标注,其中,所述预设条件包括解释向量的绝对值大于设定阈值;
根据各特征域被标注的频数从多到少的顺序,依次选取预设数量的组合特征域,作为候选组合特征域;
从多个候选组合特征域中选取与目标模型匹配的目标组合特征域。


2.根据权利要求1所述的特征组合方法,其中,所述以包括多个不同特征域的多个样本作为神经网络模型的输入,获取所述多个样本中各特征域对应的解释向量,包括:
从所述神经网络模型中提取所述多个样本中各特征域的隐含向量;
将每个样本中各特征域的隐含向量转换为对应样本中各特征域对应的解释向量;
其中,各特征域对应的解释向量用于反映每个样本中各特征域对所述神经网络模型输出结果的影响程度。


3.根据权利要求2所述的特征组合方法,其中,所述从所述神经网络模型中提取所述多个样本中各特征域的隐含向量,包括:
通过所述神经网络模型的嵌入层输出每个样本中各特征域对应的隐含向量。


4.根据权利要求2所述的特征组合方法,其中,所述将每个样本中各特征域的隐含向量转换为对应样本中各特征域对应的解释向量,包括:
对每一样本中各特征域对应的隐含向量进行预设处理,得到每一样本中各特征域对应的局部解释向量;或者
对每一样本中各特征域对应的隐含向量进行预设处理,并将每一样本中各特征域对应的局部解释向量与全体解释向量进行求差值计算,得到每一样本中各特征域对应的标准解释向量;
其中,所述全体解释向量为各特征域对应的局部解释向量的平均值。


5.根据权利要求1所述的特征组合方法,其中,所述从多个候选组合特征域中选取与目标模型匹配的目标组合特征域,包括:
以初始特征值作为所述目标模型的输入,获取所述目标模型的第一输出值;
以任一候选组合特征域中的组合特征值与所述初始特征值作为所述目标模型的输入,获取所述目标模型的第二输出值;
若所述第二输出值优于所述第一输出值,则将该候选组合特征域确定为所述目标组合特征域。


6.根据权利要求5所述的特征组合方法,其中,所述目标模型为逻辑回归模型;若以初始特征值作为所述目标模型的输入,则所述逻辑回归模型f1的公式表达为:

f
1(x)=sigmoid(a1x1+a2x2+···+afxf)
其中,xf表示在第f个特征域中的初始特征值,af表示该初始特征值的权重,sigmoid表示激活函数,f为正整数。


7.根据权利要求5所述的特征组合方法,其中,所述目标模型为逻辑回归模型;若以任一候选组合特征域中的组合特征值与所述初始特征值作为所述目标模型的输入,则所述逻辑回归模型f2的公式表达为:

f
2(x)=sigmoid(a1x1+a2x2+···+afxf+afi,fjxfi,fj)
其中,xfi,fj表示第i个特征域和第j个特征域构成的候选组合特征域中的组合特征值,afi,fj表示组合特征值的权重,xf表示在第f个特征域中的初始特征值,af表示该初始特征值的权重,sigmoid表示激活函数,f为正整数。


8.根据权利要求1-7中任一所述的特征组合方法,其中,选取出的目标组合特征域的阶数不超过设定阶数范围。


9.根据权利要求1所述的特征组合方法,其中,预设数量为特征域数量的二倍。


10.一种特征组合装置,其中,包括:
获取模块,被配置为以包括多个不同特征域的多个样本作为神经网络模型的输入,获取所述多个样本中各特征域对应的解释向量;根据各特征域对应的解释向量得到多个候选组合特征域;
选取模块,被配置为从所述多个候选组合特征域中选取与目标模型匹配的目标组合特征域;
在根据各特征域对应的解释...

【专利技术属性】
技术研发人员:张昊立刘昭呈刘强
申请(专利权)人:北京瑞莱智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1