【技术实现步骤摘要】
一种模型特征选择方法、装置及计算机可读存储介质
[0001]本申请涉及计算机
,具体而言,涉及一种模型特征选择方法、装置及计算机可读存储介质。
技术介绍
[0002]在有监督的机器学习模型的建模过程中,建模人员需要从特征中筛选部分特征用于训练模型。通常特征数量较多,模型实际所需使用的特征数量较少,如何快速选出有效的特征组合是建模中的一个难点。
技术实现思路
[0003]为了至少克服现有技术中的上述不足,本申请的目的在于提供一种模型特征选择方法、装置及计算机可读存储介质,用于解决上述技术问题。
[0004]第一方面,本申请实施例提供一种模型特征选择方法,应用于计算机设备,所述方法包括:
[0005]对特征进行聚类处理,得到各特征的类别;
[0006]计算所述特征的特征评分;
[0007]基于各特征的类别以及各特征的特征评分,对各类别中的特征进行排序,得到所述各特征在对应类别中的排名结果;
[0008]根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果;
[0009]基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合;
[0010]基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于 ...
【技术保护点】
【技术特征摘要】
1.一种模型特征选择方法,其特征在于,应用于计算机设备,所述方法包括:对特征进行聚类处理,得到各特征的类别;计算所述特征的特征评分;基于各特征的类别以及各特征的特征评分,对各类别中的特征进行排序,得到所述各特征在对应类别中的排名结果;根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果;基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合;基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合。2.如权利要求1所述的模型特征选择方法,其特征在于,所述对特征进行聚类处理,得到各特征的类别的步骤,包括:获取所述特征的特征原始值;对所述特征的特征原始值进行标准化处理,得到标准化处理后的特征的标准特征值;基于所述特征的标准特征值进行聚类,得到各所述特征的类别。3.如权利要求2所述的模型特征选择方法,其特征在于,所述计算所述特征的特征评分的步骤,包括:基于所述特征的特征原始值,对所述特征进行评分得到所述特征的特征评分。4.如权利要求3所述的模型特征选择方法,其特征在于,所述根据所述各特征在对应类别中的排名结果,对所述特征重新分组,得到分组结果的步骤,包括:根据所述各特征在对应类别中的排名结果,将各类别中排名相同的特征分到相同一组中,得到分组结果。5.如权利要求4所述的模型特征选择方法,其特征在于,所述基于所述分组结果中排序第一的分组,采用嵌入法从所述分组结果中排序第一的分组中选择出满足第一预设关系的特征组成第一特征集合的步骤,包括:配置多组不同模型参数对应的多个训练模型;采用所述分组结果中排序第一的分组中的特征对所述多个训练模型进行训练;基于每个训练模型输出的重要性指标对所述分组结果中排序第一的分组中的特征进行排序;根据所述分组结果中排序第一的分组中的特征在不同训练模型中的排序,计算所述分组结果中排序第一的分组中各特征的平均排序名次;采用所述分组结果中排序第一的分组中的平均排序名次在预设排序名次阈值之前的特征组成所述第一特征集合。6.如权利要求5所述的模型特征选择方法,其特征在于,所述基于所述第一特征集合及所述分组结果,针对除所述第一特征集合中特征之外的剩余特征,从所述剩余特征中按照该剩余特征所在分组的顺序采用向前搜索的方式逐组选择满足第二预设关系的特征,将满足第二预设关系的特征加入所述第一特征集合中得到用于创建模型的第二特征集合的步
骤,包括:基于所述第一特征集合及所述分组结果,得到所述分组结果中排序第一的分组与所述第一特征集合的特征差集;采用所述第一特征集合中的特征训练模型,并通过评价模型得到模型评价基准值;遍历所述特征差集中的特征,采用所述特征差集中的特征与所述第一特征集合中...
【专利技术属性】
技术研发人员:顾凌云,谢旻旗,代宇,谢苗,张涛,
申请(专利权)人:上海冰鉴信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。