【技术实现步骤摘要】
一种特征子集的选取方法、装置及存储介质
[0001]本专利技术涉及机器学习和模式识别
,尤其是涉及一种特征子集的选取方法、装置及存储介质。
技术介绍
[0002]近年来,多传感数据监测在信号处理、工业过程控制、图像处理、全自动目标跟踪等领域有着较为广泛的应用,由此带来的海量数据对待识别目标的描述尤为关键。由于目标的描述属性(即特征)往往是高维度的且存在冗杂,因此需要进行降维,而特征选择是在给定数据集上选择有利于后续算法的特征子集,从而能够实现降维。
[0003]因此,如何选取特征子集对于以多传感数据为基础的高维数据的降维具有重要的意义,是本领域技术人员所要亟待解决的技术问题。
技术实现思路
[0004]本专利技术提供一种特征子集的选取方法、装置及存储介质,通过特定的方法策略,利用Spearman相关性分析和随机森林以及GRU进行联合评价,完成特征评价多元化,进而实现特征数据降维,完善了特征评价的处理流程,为后续工作减少了时间复杂度和空间复杂度。
[0005]为了解决上述技术问题,本专利技 ...
【技术保护点】
【技术特征摘要】
1.一种特征子集的选取方法,其特征在于,包括:获取高维特征数据;对所述高维特征数据进行处理,得到目标随机森林模型,并基于所述目标随机森林模型的分析处理,得到特征重要性列表;利用Spearman相关性对所述高维特征数据进行分析,得到特征互相关矩阵;根据滑动窗口法,对各特征在所述特征互相关矩阵中的所在列进行处理,建立各特征预测数据集;根据所述各特征预测数据集得到目标GRU模型,并基于所述目标GRU模型的分析处理,得到各特征拟合度量;对所述特征重要性列表、所述特征互相关矩阵和各特征拟合度量进行特征关系型融合,得到各特征总体评价值;不断对各特征总体评价值进行特征排序,从中剔除评价值最低的特征并判定剩余特征数量是否小于要求的特征数量,直至剩余特征数量不大于要求的特征数量;将对应的剩余特征数据确定为特征子集。2.如权利要求1所述的特征子集的选取方法,其特征在于,对所述高维特征数据进行处理,得到目标随机森林模型,具体包括:将所述高维特征数据划分为第一训练集和第一测试集;将所述第一训练集导入随机森林以训练模型并采用网格搜索和交叉验证的方法对随机森林参数调优;使用所述第一测试集对随机森林模型进行评估,得到所述目标随机森林模型及对应的各特征重要性。3.如权利要求2所述的特征子集的选取方法,其特征在于,所述随机森林的构建过程包括:从所述第一训练集中随机有放回地抽样N次,使用对应的N个数据集合训练决策树模型;从样本的M个属性中选取特征,以信息增益或基尼系数的策略作节点分裂特征;重复上述步骤,直到节点不可分;对N棵决策树集成,形成随机森林。4.如权利要求1所述的特征子集的选取方法,其特征在于,所述基于所述目标随机森林模型的分析处理,得到特征重要性列表,具体包括:依次得到每个特征在随机森林中的重要性值,以得到所述特征重要性列表,所述重要性值的表示如下式:RandomForest
→
max{RF
y
}其中,RF
y
为第y个特征在随机森林中的重要性值。5.如权利要求4所述的特征子集的选取方法,其特征在于,利用Spearman相关性对所述高维特征数据进行分析,得到特征互相关矩阵,具体如下式所示:SpearmanRelation
→
min{R
i,j
},i≠j其中,R
i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。