【技术实现步骤摘要】
一种特征选择方法、装置和电子设备
[0001]本专利技术涉及大数据分析领域,具体涉及一种特征选择方法、装置和电子设备。
技术介绍
[0002]目前,大数据分析领域存在一种高维小样本数据,即样本数量少,但是每个样本的包含的元素多、维度大的数据,由于样本数量很少,为了提高大数据处理、机器学习的准确率,每个样本均需要更深入的利用,因此对每个样本中最能代表该样本的特征进行提取,显得至关重要。现有技术常用特征抽取或特征选择方法对高维数据进行降维,从而筛选出其中能够显著代表样本的有用元素,即特征。而特征抽取方法例如PCA会将无用元素与有用元素混合在一起进行降维,使得降维后的数据混入噪声,因此现有技术常常使用另一种特征选择方法对高维数据进行降维。常用的特征选择方法有过滤式方法、封装式方法和嵌入式方法,过滤式方法即使用评分算法对样本中的各个特征进行评分,并留下评分较高的前几个特征。过滤式方法能够快速且有效地得到具有差异表达的特征,但不同的过滤式方法得到的关键特征往往存在较大差异,分类稳定性不高。封装式方法即通过多次选取样本中的不同元素作为特 ...
【技术保护点】
【技术特征摘要】
1.一种特征选择方法,其特征在于,所述方法包括:使用多种过滤式算法对高维样本中的各个元素进行评分,得到多个评分结果;将多个评分结果进行合并,并去掉所述高维样本中评分在预设阈值以下的元素;对高维样本中剩余的元素进行聚类得到多个元素类别;基于嵌入式算法筛选各个元素类别中预设个数的关键元素;组合各个元素类别中筛选得到的关键元素,生成所述高维样本的样本特征。2.根据权利要求1所述的方法,其特征在于,在所述使用多种过滤式算法对高维样本中的各个元素进行评分之前,所述方法还包括:对所述高维样本进行离散化处理。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于嵌入式算法筛选所述样本特征中第二预设个数的第二关键元素;基于所述第二关键元素生成所述高维样本的第二样本特征。4.根据权利要求1所述的方法,其特征在于,所述使用多种过滤式算法对高维样本中的各个元素进行评分,得到多个评分结果,包括:分别基于信噪比算法、T检验算法、卡方检验算法、互信息算法、Relief算法作为所述过滤式算法对所述高维样本中的各个元素进行评分,得到各个算法对应的所述多个评分结果。5.根据权利要求1所述的方法,其特征在于,所述对高维样本中剩余的元素进行聚类得到多个元素类别,包括:基于谱聚类的方法对所述高维样本中剩余的元素进行聚类得到多个元素类别。6.根据权利要求1所述的方法,其特征在于,所述基于嵌入式算法筛选各个元素类别中预设个数的关键元素,包括:为所述各个元素类别添加类别标签;将当前元素类别中的元素输入SVM
‑
RFE模型中进行类别预测,并基于输出的预测结果与当前类别标签的误差调整权值参数,所述权值参数是所述SVM
‑
RFE模型中对应于当前类别各个元素的权重集合;基于所述权值参数中的最小值剔除所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。