【技术实现步骤摘要】
特征筛选方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及自然语言处理、智能搜索、深度学习
,尤其涉及一种特征筛选方法、装置及电子设备。
技术介绍
[0002]目前,根据样本集合中样本的特征以及标签构建模型时,如果样本特征维度过高,一般会通过特征筛选的方法对特征进行筛选降维。
[0003]其中,筛选的方法主要有两种,一种是通过专家经验进行识别,但需要丰富的经验且人力成本高,筛选效率差。另一种是分别对其中的每个特征进行多次打乱处理(其它特征保持不变),来构建多个打乱后模型,对比打乱前模型与打乱后模型的效果,进而筛选特征,时间成本高,计算量大,筛选效率差。
技术实现思路
[0004]本公开提供了一种特征筛选方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种特征筛选方法,所述方法包括:获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本特征序列对应的标签;所述打乱样本集合为对所述参考样本集合中标签进行打乱处理后得到的;将所述参考样本集合输入特征重要度模型,对所述特征重要度模型进行训练,得到一个参考重要度模型;将至少一个所述打乱样本集合分别输入所述特征重要度模型,对所述特征重要度模型进行训练,得到至少一个打乱重要度模型;根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的 ...
【技术保护点】
【技术特征摘要】
1.一种特征筛选方法,包括:获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本特征序列对应的标签;所述打乱样本集合为对所述参考样本集合中标签进行打乱处理后得到的;将所述参考样本集合输入特征重要度模型,对所述特征重要度模型进行训练,得到一个参考重要度模型;将至少一个所述打乱样本集合分别输入所述特征重要度模型,对所述特征重要度模型进行训练,得到至少一个打乱重要度模型;根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征。2.根据权利要求1所述的方法,其中,所述获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合,包括:获取所述参考样本集合;对所述参考样本集合中至少一个所述样本特征序列对应的标签进行打乱处理,得到一个打乱样本集合;重复打乱处理步骤,得到至少一个所述打乱样本集合。3.根据权利要求2所述的方法,其中,所述对所述参考样本集合中至少一个所述样本特征序列对应的标签进行打乱处理,得到一个打乱样本集合,包括:针对所述参考样本集合中的每个目标样本特征序列,获取所述目标样本特征序列对应的目标标签;所述目标样本特征序列,为所述参考样本集合中的全部样本特征序列,或者,为所述参考样本集合中的部分样本特征序列;采用所述参考样本集合中除所述目标标签之外的标签,对所述目标标签进行替换处理,得到所述目标样本特征序列对应的打乱后标签;根据所述目标样本特征序列以及所述目标样本特征序列对应的打乱后标签,生成所述打乱样本集合。4.根据权利要求1所述的方法,其中,所述根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征,包括:根据至少一个所述打乱特征重要度序列,确定打乱特征重要度均值序列;根据所述打乱特征重要度均值序列以及所述参考特征重要度序列,确定多个维度上的特征相关度指标;根据多个所述维度上的特征相关度指标,对所述样本特征序列中多个所述维度的特征进行筛选处理,获取至少一个所述维度的有效特征。5.根据权利要求4所述的方法,其中,所述根据所述打乱特征重要度均值序列以及所述参考特征重要度序列,确定多个维度上的特征相关度指标,包括:针对每个维度,获取所述打乱特征重要度均值序列中所述维度上的打乱特征重要度均值,以及所述参考特征重要度序列中所述维度上的参考特征重要度;确定所述参考特征重要度与所述打乱特征重要度均值的比值;
对所述比值进行对数处理,得到所述维度上的特征相关度指标。6.根据权利要求4所述的方法,其中,所述根据多个所述维度上的特征相关度指标,对所述样本特征序列中多个所述维度的特征进行筛选处理,获取至少一个所述维度的有效特征,包括:针对每个维度,在所述维度上的特征相关度指标大于或者等于预设数量阈值的情形下,确定所述维度为待保留维度;将至少一个所述待保留维度的特征,确定为有效特征。7.根据权利要求1所述的方法,其中,所述方法还包括:根据至少一个所述维度的有效特征,对所述样本特征序列进行特征更新处理,得到所述样本特征序列对应的更新后样本特征序列;根据所述参考样本集合中至少一个所述样本特征序列对应的更新后样本特征序列,以及所述样本特征序列对应的标签,生成目标样本集合;采用所述目标样本集合对初始分类模型进行训练,得到训练好的分类模型。8.根据权利要求7所述的方法,其中,所述方法还包括:在获取到新增样本特征序列以及对应的标签的情形下,根据至少一个所述维度的有效特征对所述新增样本特征序列进行特征更新处理,得到所述新增样本特征序列对应的更新后样本特征序列;将所述新增样本特征序列对应的更新后样本特征序列,以及所述新增样本特征序列对应的标签,添加到所述目标样本集合中。9.根据权利要求1所述的方法,其中,所述特征重要度模型包括以下至少一种:随机森林模型、极限梯度提升树模型、分布式梯度提升模型。10.根据权利要求1所述的方法,其中,所述样本特征序列为样本对象对应的样本特征序列;所述样本特征序列中的特征,为样本对象的数据中与信用相关的数据;所述样本特征序列对应的标签,用于指示是否对所述样本对象进行信贷操作处理。11.一种特征筛选装置,包括:获取模块,用于获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本...
【专利技术属性】
技术研发人员:徐靖宇,刘昊骋,徐世界,王天祺,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。