一种模型特征选择方法、装置及计算机可读存储介质制造方法及图纸

技术编号:32830903 阅读:59 留言:0更新日期:2022-03-26 20:43
本申请实施例提供的模型特征选择方法、装置及计算机可读存储介质,涉及计算机领域。首先,利用聚类、特征评分分组降低被选特征之间的相似度,从而保留了更多特征组合的可能性;接着,对高重要性、低相似度特征组(分组结果中排序第一的分组)采用嵌入法可以提高选择结果的稳定性,降低选择耗时;最后,按照分组的顺序采用向前搜索的方式进行特征选择得到用于创建模型的特征集合。上述方法通过改变特征搜索顺序,并先用嵌入法再用前向搜索来改进现有前向搜索忽视特征组合影响且耗时长的缺陷。向搜索忽视特征组合影响且耗时长的缺陷。向搜索忽视特征组合影响且耗时长的缺陷。

【技术实现步骤摘要】
一种模型特征选择方法、装置及计算机可读存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种模型特征选择方法、装置及计算机可读存储介质。

技术介绍

[0002]在有监督的机器学习模型的建模过程中,建模人员需要从特征中筛选部分特征用于训练模型。通常特征数量较多,模型实际所需使用的特征数量较少,如何快速选出有效的特征组合是建模中的一个难点。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种模型特征选择方法、装置及计算机可读存储介质,用于解决上述技术问题。
[0004]第一方面,本申请实施例提供一种模型特征选择方法,应用于计算机设备,所述方法包括:
[0005]对特征进行聚类处理,得到各特征的类别;
[0006]计算所述特征的特征评分;
[0007]基于各特征的类别以及各特征的特征评分,对各类别中的特征进行排序,得到所述各特征在对应类别中的排名结果;
[0008]根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果;
[0009]基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合;
[0010]基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合。
[0011]在一种可能的实现方式中,所述对特征进行聚类处理,得到各特征的类别的步骤,包括:
[0012]获取所述特征的特征原始值;
[0013]对所述特征的特征原始值进行标准化处理,得到标准化处理后的特征的标准特征值;
[0014]基于所述特征的标准特征值进行聚类,得到各所述特征的类别。
[0015]在一种可能的实现方式中,所述计算所述特征的特征评分的步骤,包括:
[0016]基于所述特征的特征原始值,对所述特征进行评分得到所述特征的特征评分。
[0017]在一种可能的实现方式中,所述根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果的步骤,包括:
[0018]根据所述各特征在对应类别中的排名结果,将各类别中排名相同的特征分到相同
一组中,得到分组结果。
[0019]在一种可能的实现方式中,所述基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合的步骤,包括:
[0020]配置多组不同模型参数对应的多个训练模型;
[0021]采用所述分组结果中排序第一的分组中的特征对所述多个训练模型进行训练;
[0022]基于每个训练模型输出的重要性指标对所述分组结果中排序第一的分组中的特征进行排序;
[0023]根据所述分组结果中排序第一的分组中的特征在不同训练模型中的排序,计算所述分组结果中排序第一的分组中各特征的平均排序名次;
[0024]采用所述分组结果中排序第一的分组中的平均排序名次在预设排序名次阈值之前的特征组成所述第一特征集合。
[0025]在一种可能的实现方式中,所述基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合的步骤,包括:
[0026]基于所述第一特征集合及所述分组结果,得到所述分组结果中排序第一的分组与所述第一特征集合的特征差集;
[0027]采用所述第一特征集合中的特征训练模型,并通过评价模型得到模型评价基准值;
[0028]遍历所述特征差集中的特征,采用所述特征差集中的特征与所述第一特征集合中的特征训练模型,获得模型评价最高的特征,将所述模型评价最高的特征加入所述第一特征集合中,且将所述模型评价最高的特征从所述特征差集中删除,并更新所述模型评价基准值为当前模型评价的最大值;
[0029]检测所述特征差集中是否存在特征满足预设的终止条件,若所述特征差集中存在特征满足预设的终止条件,则停止对所述特征差集中的特征的遍历;
[0030]将所述分组结果中排序第二的分组作为目标分组,遍历所述目标分组中的特征,采用所述目标分组中的特征与所述第一特征集合中的特征训练模型,将所述目标分组中模型评价最高的特征加入所述第一特征集合中,并将所述目标分组中模型评价最高的特征从所述目标分组中删除,同时更新所述模型评价基准值为当前模型评价的最大值;
[0031]检测所述目标分组中是否存在特征满足预设的终止条件,若所述目标分组中存在特征满足预设的终止条件,则停止对所述目标分组中的特征的遍历;
[0032]对所述分组结果中剩余的分组,按照剩余分组排序先后将剩余分组依次作为目标分组,对于剩余分组依次执行上述针对所述目标分组的步骤,从所述剩余分组选择出模型评价最高的特征加入所述第一特征集合中,得到用于创建模型的第二特征集合。
[0033]第二方面,本申请实施例还提供一种模型特征选择装置,应用于计算机设备,所述装置包括:
[0034]聚类模块,用于对特征进行聚类处理,得到各特征的类别;
[0035]计算模块,用于计算所述特征的特征评分;
[0036]排序模块,用于基于各特征的类别以及各特征的特征评分,对各类别中的特征进行排序,得到所述各特征在对应类别中的排名结果;
[0037]分组模块,用于根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果;
[0038]第一选择模块,用于基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合;
[0039]第二选择模块,用于基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合。
[0040]在一种可能的实现方式中,所述聚类模块具体用于:
[0041]获取所述特征的特征原始值;
[0042]对所述特征的特征原始值进行标准化处理,得到标准化处理后的特征的标准特征值;
[0043]基于所述特征的标准特征值进行聚类,得到各所述特征的类别。
[0044]第三方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得计算机执行上述第一方面或者第一方面中任意一个可能的实现方式中的模型特征选择方法。
[0045]第四方面,本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型特征选择方法,其特征在于,应用于计算机设备,所述方法包括:对特征进行聚类处理,得到各特征的类别;计算所述特征的特征评分;基于各特征的类别以及各特征的特征评分,对各类别中的特征进行排序,得到所述各特征在对应类别中的排名结果;根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果;基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合;基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合。2.如权利要求1所述的模型特征选择方法,其特征在于,所述对特征进行聚类处理,得到各特征的类别的步骤,包括:获取所述特征的特征原始值;对所述特征的特征原始值进行标准化处理,得到标准化处理后的特征的标准特征值;基于所述特征的标准特征值进行聚类,得到各所述特征的类别。3.如权利要求2所述的模型特征选择方法,其特征在于,所述计算所述特征的特征评分的步骤,包括:基于所述特征的特征原始值,对所述特征进行评分得到所述特征的特征评分。4.如权利要求3所述的模型特征选择方法,其特征在于,所述根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果的步骤,包括:根据所述各特征在对应类别中的排名结果,将各类别中排名相同的特征分到相同一组中,得到分组结果。5.如权利要求4所述的模型特征选择方法,其特征在于,所述基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合的步骤,包括:配置多组不同模型参数对应的多个训练模型;采用所述分组结果中排序第一的分组中的特征对所述多个训练模型进行训练;基于每个训练模型输出的重要性指标对所述分组结果中排序第一的分组中的特征进行排序;根据所述分组结果中排序第一的分组中的特征在不同训练模型中的排序,计算所述分组结果中排序第一的分组中各特征的平均排序名次;采用所述分组结果中排序第一的分组中的平均排序名次在预设排序名次阈值之前的特征组成所述第一特征集合。6.如权利要求5所述的模型特征选择方法,其特征在于,所述基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合的步
骤,包括:基于所述第一特征集合及所述分组结果,得到所述分组结果中排序第一的分组与所述第一特征集合的特征差集;采用所述第一特征集合中的特征训练模型,并通过评价模型得到模型评价基准值;遍历所述特征差集中的特征,采用所述特征差集中的特征与所述第一特征集合中...

【专利技术属性】
技术研发人员:顾凌云谢旻旗代宇谢苗张涛
申请(专利权)人:上海冰鉴信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1