一种特征选择方法和装置制造方法及图纸

技术编号:31228458 阅读:30 留言:0更新日期:2021-12-08 09:39
本发明专利技术公开了一种特征选择方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:确定各样本中的特征,基于所有特征在各个样本中的值构建样本向量;利用全局冗余最小化的稀疏特征选择算法处理所述样本向量,得到重要性评分向量;从所述各特征的重要性评分中,提取重要性评分最大的预定数目个特征,以作为所选择的目标特征。该实施方式提出的全局冗余最小化的稀疏特征选择算法GRMS,以最小化全局特征的冗余性、选择具有强判别性的特征,实现对稀疏选择的特征进行修正。对稀疏选择的特征进行修正。对稀疏选择的特征进行修正。

【技术实现步骤摘要】
一种特征选择方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种特征选择方法和装置。

技术介绍

[0002]随着信息技术的发展,全球数据爆发式增长,需存储和传播的数据越来越多。为处理海量高维数据,从中提取最翔实和最有价值的信息是非常必要的。由于高维数据包含大量的特征,这些特征不可避免地包含噪声,在这种情况下,特征选择成为不可或缺的数据挖掘技术,通过特征降维可以提高后续的分类或者聚类等性能。
[0003]目前特征选择方法分三种,过滤式方法、包裹式方法和嵌入式方法。在实现本专利技术的过程中,专利技术人发现这些方法通常不考虑所选特征之间的冗余性,因此这些特征往往具有高相关性,不利于后续聚类或者分类等任务。虽目前已提出基于互信息的mRMR(Max-Relevance and Min-Redundancy)特征选择方法以尽量减少特征之间的冗余性,但mRMR方法采用贪婪策略寻找具有最小冗余性的特征,导致所选特征并没有全局冗余信息最小化。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种特征选择方法和装置,至本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种特征选择方法,其特征在于,包括:确定各样本中的特征,基于所有特征在各个样本中的值构建样本向量;其中,样本为图像、文本、语音数据中的至少一种;利用全局冗余最小化的稀疏特征选择算法处理所述样本向量,得到重要性评分向量;其中,重要性评分向量包括各特征的重要性评分;从所述各特征的重要性评分中,提取重要性评分最大的预定数目个特征,以作为所选择的目标特征。2.根据权利要求1所述的方法,其特征在于,所述利用全局冗余最小化的稀疏特征选择算法处理所述样本向量,包括:确定各样本所属的类别,将所述样本向量、所述类别、第一重要性评分向量、第二重要性评分向量和冗余矩阵,一同输入到全局冗余最小化的稀疏特征选择算法中进行最小化;其中,所述第一重要性评分向量未考虑冗余性,所述第二重要性评分向量考虑冗余性;以及对所述第二重要性评分向量中的元素进行约束;其中,约束条件为元素非0,并且和为1;得到最小化且约束元素后的第二重要性评分向量。3.根据权利要求1所述的方法,其特征在于,所述利用全局冗余最小化的稀疏特征选择算法处理所述样本向量,得到重要性评分向量,包括:通过评价准则处理所述样本向量,以计算各特征未考虑冗余性时的第一重要性评分,生成第一重要性评分向量;引入冗余矩阵,并将所述第一重要性评分向量输入冗余信息最小化准则中,以对不同特征进行去冗余性修正,得到第二重要性向量。4.根据权利要求2或3所述的方法,其特征在于,还包括:将一特征在不同样本中的值进行归一化,以构建所述一特征的特征向量;计算两两特征的特征向量之间的内积,以构建所述两两特征之间的冗余矩阵。5.根据权利要求4所述的方法,其特征在于,所述将一特征在不同样本中的值进行归一化,以构建所述一特征的特征向量,包括:根据一特征在不同样...

【专利技术属性】
技术研发人员:祖辰杨立军
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1