特征筛选方法、装置及电子设备制造方法及图纸

技术编号:37395755 阅读:18 留言:0更新日期:2023-04-27 07:33
本公开提供了特征筛选方法、装置及电子设备,涉及人工智能技术领域,尤其涉及自然语言处理、智能搜索、深度学习技术领域。具体实现方案为:获取参考样本集合以及对应的至少一个打乱样本集合;打乱样本集合为对参考样本集合中标签进行打乱处理后得到的;将参考样本集合以及至少一个打乱样本集合分别输入特征重要度模型进行训练,并获取训练得到的多个模型输出的参考特征重要度序列以及至少一个打乱特征重要度序列;进而对参考样本集合中样本特征序列的多个维度的特征进行筛选处理,获取至少一个维度的有效特征,从而能够结合参考样本集合以及数量较少的打乱样本集合,对样本特征序列中多个维度的特征进行筛选处理,减少计算量,且提高筛选效率。且提高筛选效率。且提高筛选效率。

【技术实现步骤摘要】
特征筛选方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、智能搜索、深度学习
,尤其涉及一种特征筛选方法、装置及电子设备。

技术介绍

[0002]目前,根据样本集合中样本的特征以及标签构建模型时,如果样本特征维度过高,一般会通过特征筛选的方法对特征进行筛选降维。
[0003]其中,筛选的方法主要有两种,一种是通过专家经验进行识别,但需要丰富的经验且人力成本高,筛选效率差。另一种是分别对其中的每个特征进行多次打乱处理(其它特征保持不变),来构建多个打乱后模型,对比打乱前模型与打乱后模型的效果,进而筛选特征,时间成本高,计算量大,筛选效率差。

技术实现思路

[0004]本公开提供了一种特征筛选方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种特征筛选方法,所述方法包括:获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本特征序列对应的标签;所述打乱样本集合为对所述参考样本集合中标签进行打乱处理后得到的;将所述参考样本集合输入特征重要度模型,对所述特征重要度模型进行训练,得到一个参考重要度模型;将至少一个所述打乱样本集合分别输入所述特征重要度模型,对所述特征重要度模型进行训练,得到至少一个打乱重要度模型;根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征。
[0006]根据本公开的另一方面,提供了一种特征筛选装置,所述装置包括:获取模块,用于获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本特征序列对应的标签;所述打乱样本集合为对所述参考样本集合中标签进行打乱处理后得到的;训练模块,用于将所述参考样本集合输入特征重要度模型,对所述特征重要度模型进行训练,得到一个参考重要度模型;所述训练模块,还用于将至少一个所述打乱样本集合分别输入所述特征重要度模型,对所述特征重要度模型进行训练,得到至少一个打乱重要度模型;筛选处理模块,用于根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本
公开上述提出的特征筛选方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开上述提出的特征筛选方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述提出的特征筛选方法的步骤。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是根据本公开第三实施例的示意图;
[0015]图4是根据本公开第四实施例的示意图;
[0016]图5是用来实现本公开实施例的特征筛选方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]目前,根据样本集合中样本的特征以及标签构建模型时,如果样本特征维度过高,一般会通过特征筛选的方法对特征进行筛选降维。
[0019]其中,筛选的方法主要有两种,一种是通过专家经验进行识别,但需要丰富的经验且人力成本高,筛选效率差。另一种是分别对其中的每个特征进行多次打乱处理(其它特征保持不变),来构建多个打乱后模型,对比打乱前模型与打乱后模型的效果,进而筛选特征,时间成本高,计算量大,筛选效率差。
[0020]针对上述问题,本公开提出一种特征筛选方法、装置及电子设备。
[0021]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的特征筛选方法可应用于特征筛选装置,该装置可被配置于电子设备中,以使该电子设备可以执行特征筛选功能。以下实施例中以执行主体为电子设备为例进行说明。
[0022]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0023]如图1所示,该特征筛选方法可以包括如下步骤:
[0024]步骤101,获取参考样本集合,以及参考样本集合对应的至少一个打乱样本集合;参考样本集合包括,至少一个样本特征序列以及样本特征序列对应的标签;打乱样本集合为对参考样本集合中标签进行打乱处理后得到的。
[0025]在本公开实施例中,参考样本集合中可以包括:至少一个样本对象的样本数据。其
中,样本数据可以包括:样本对象的样本特征序列,以及样本对象对应的标签。
[0026]其中,样本对象例如,文本、图像、语音、用户等。以样本对象为文本为例,样本特征序列中的特征例如,文本所属领域、文本中关键词、文本的语句类型等。以样本对象为图像为例,样本特征序列中的特征例如,图像所属领域、图像中内容、图像的尺寸信息等。以样本对象为语音为例,样本特征序列中的特征例如,语音内容、语音时长、语音内容类型等。
[0027]以样本对象为用户为例,样本特征序列中的特征例如,用户数据中与信用相关的数据、与驾驶行为相关的数据、与偏好相关的数据等。以特征为用户数据中与信用相关的数据为例,对应的标签,例如可以用于指示是否对样本对象进行信贷操作处理等。以特征为与驾驶行为相关的数据为例,对应的标签,例如可以用于指示样本对象是否存在危险驾驶行为等。以特征为与偏好相关的数据为例,对应的标签,例如可以用于指示样本对象的偏好类型等。
[0028]其中,样本对象为用户,样本特征序列中的特征为样本对象的数据中与信用相关的数据,样本特征序列对应的标签,用于指示是否对用户进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征筛选方法,包括:获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本特征序列对应的标签;所述打乱样本集合为对所述参考样本集合中标签进行打乱处理后得到的;将所述参考样本集合输入特征重要度模型,对所述特征重要度模型进行训练,得到一个参考重要度模型;将至少一个所述打乱样本集合分别输入所述特征重要度模型,对所述特征重要度模型进行训练,得到至少一个打乱重要度模型;根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征。2.根据权利要求1所述的方法,其中,所述获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合,包括:获取所述参考样本集合;对所述参考样本集合中至少一个所述样本特征序列对应的标签进行打乱处理,得到一个打乱样本集合;重复打乱处理步骤,得到至少一个所述打乱样本集合。3.根据权利要求2所述的方法,其中,所述对所述参考样本集合中至少一个所述样本特征序列对应的标签进行打乱处理,得到一个打乱样本集合,包括:针对所述参考样本集合中的每个目标样本特征序列,获取所述目标样本特征序列对应的目标标签;所述目标样本特征序列,为所述参考样本集合中的全部样本特征序列,或者,为所述参考样本集合中的部分样本特征序列;采用所述参考样本集合中除所述目标标签之外的标签,对所述目标标签进行替换处理,得到所述目标样本特征序列对应的打乱后标签;根据所述目标样本特征序列以及所述目标样本特征序列对应的打乱后标签,生成所述打乱样本集合。4.根据权利要求1所述的方法,其中,所述根据所述参考重要度模型输出的参考特征重要度序列以及至少一个所述打乱重要度模型输出的打乱特征重要度序列,对所述样本特征序列中多个维度的特征进行筛选处理,获取至少一个维度的有效特征,包括:根据至少一个所述打乱特征重要度序列,确定打乱特征重要度均值序列;根据所述打乱特征重要度均值序列以及所述参考特征重要度序列,确定多个维度上的特征相关度指标;根据多个所述维度上的特征相关度指标,对所述样本特征序列中多个所述维度的特征进行筛选处理,获取至少一个所述维度的有效特征。5.根据权利要求4所述的方法,其中,所述根据所述打乱特征重要度均值序列以及所述参考特征重要度序列,确定多个维度上的特征相关度指标,包括:针对每个维度,获取所述打乱特征重要度均值序列中所述维度上的打乱特征重要度均值,以及所述参考特征重要度序列中所述维度上的参考特征重要度;确定所述参考特征重要度与所述打乱特征重要度均值的比值;
对所述比值进行对数处理,得到所述维度上的特征相关度指标。6.根据权利要求4所述的方法,其中,所述根据多个所述维度上的特征相关度指标,对所述样本特征序列中多个所述维度的特征进行筛选处理,获取至少一个所述维度的有效特征,包括:针对每个维度,在所述维度上的特征相关度指标大于或者等于预设数量阈值的情形下,确定所述维度为待保留维度;将至少一个所述待保留维度的特征,确定为有效特征。7.根据权利要求1所述的方法,其中,所述方法还包括:根据至少一个所述维度的有效特征,对所述样本特征序列进行特征更新处理,得到所述样本特征序列对应的更新后样本特征序列;根据所述参考样本集合中至少一个所述样本特征序列对应的更新后样本特征序列,以及所述样本特征序列对应的标签,生成目标样本集合;采用所述目标样本集合对初始分类模型进行训练,得到训练好的分类模型。8.根据权利要求7所述的方法,其中,所述方法还包括:在获取到新增样本特征序列以及对应的标签的情形下,根据至少一个所述维度的有效特征对所述新增样本特征序列进行特征更新处理,得到所述新增样本特征序列对应的更新后样本特征序列;将所述新增样本特征序列对应的更新后样本特征序列,以及所述新增样本特征序列对应的标签,添加到所述目标样本集合中。9.根据权利要求1所述的方法,其中,所述特征重要度模型包括以下至少一种:随机森林模型、极限梯度提升树模型、分布式梯度提升模型。10.根据权利要求1所述的方法,其中,所述样本特征序列为样本对象对应的样本特征序列;所述样本特征序列中的特征,为样本对象的数据中与信用相关的数据;所述样本特征序列对应的标签,用于指示是否对所述样本对象进行信贷操作处理。11.一种特征筛选装置,包括:获取模块,用于获取参考样本集合,以及所述参考样本集合对应的至少一个打乱样本集合;所述参考样本集合包括,至少一个样本特征序列以及所述样本...

【专利技术属性】
技术研发人员:徐靖宇刘昊骋徐世界王天祺
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1