基于稀疏分数的特征选择方法技术

技术编号:3979943 阅读:218 留言:0更新日期:2012-04-11 18:40
一种信息处理技术领域的基于稀疏分数的特征选择方法,包括以下步骤:提取待处理的数据集;采用L1范数最小化的方法,得到待处理的数据集中每个数据的稀疏表示的重构系数;对待处理数据集中每个数据的每维特征与相应数据的稀疏表示的重构系数进行重构误差累加处理,得到待处理数据集中每维特征的稀疏分数;将待处理数据集中每维特征按照其稀疏分数从小到大的顺序进行排列,稀疏分数最小的特征即是该待处理数据集中最重要的特征。本发明专利技术对于噪声和离群点数据具有更好的鲁棒性能,并不需要任何先验信息,适用性能强,能有效的提高分类预测的性能。本发明专利技术可以广泛的应用于模式识别、机器学习和数据挖据的各种分类、聚类和数据的可视化问题中。

【技术实现步骤摘要】

本专利技术涉及的是一种信息处理
的方法,具体是一种基于稀疏分数的特征 选择方法。
技术介绍
特征选择(feature selection)就是从一组特征中挑选出一些最有效的特征以达 到降低特征空间维数的目的,即在一组数量为d的特征中选择出数量为k(k < d)的一组 最优特征来。根据解答的评估方法,特征选择一般可以大致分为两大类,一类方法是将特 征选择和分类过程分离,特征选择的过程和具体的分类器无关,这类方法称为过滤型方法 (filter approach);另外一类是封装型方法(wrapper approach),这类方法将特征选择和 分类器的设计融合在一起,特征选择性能和采用的分类器密切相关。它们之间最大的差别 是使用了不同的评估策略。两类方法各具特色和不足滤波型方法实现简单,效率高,但用 于分类识别,则分类精度不如封装型方法;封装型方法具有较高的分类性能,但特征选择的效率较低,且对于不同的分类器移植性不如滤波法。早期的基于分数方程的过滤型的特征选择方法主要有基于方差分数(Variance Score)的特征选择和基于Fisher分数(Fisher Score)的特征选择。这两种都是最为简单 和使用最为广泛的特征选择方法。采用方差分数(Variance Score)的特征选择方法基于 保留数据集中方差最大的特征,舍弃方差较小的特征的思想。由于某一维特征的方差反映 了这一维对整个数据集的代表程度,因此通过计算每一维特征的方差情况,再按照其方差 大小排列,选取方差较大的特征,就达到了特征选择的目的。由于方差分数的方法仅仅利用 了数据的方差信息,相对简单,在复杂数据集上得到的特征子集的结果并不十分有效。而且 从本质上讲方差分数的方法是非监督的,并没有利用样本的类别信息。后来,又有人提出了 Fisher分数的特征选择方法。该方法的思想是寻找能用来有效分类的特征,即如果数据集 在某维特征上,类内相似性较大,而类间相似性较小,就认为该特征是好的特征;反之如果 在该特征上类内相似性较小,而类间相似性较大,则认为该特征不是好的特征。Fisher分数 的方法利用了数据的类别信息,是一种有效的有监督的特征选择方法。但是实验结果表明 在一定情况下,Fisher分数的方法对于多峰性(即某类中的样本由几个单独的聚类构成) 和离群类问题的处理不理想。经对现有文献检索发现,国外的Xiaofei He等人(Xiaofei He,Deng Cai,and ParthaNiyogi. ,"Laplacian Score for Feature Selection (基于拉普拉其jf分数的特征 选择方法),,,Advances in Neural Information Processing Systems 18 (NIPS 2005), Vancouver, Canada, 2005)在2005年国际神经信息处理系统大会上提出了利用Laplacian 分数进行特征选择的方法,这种方法是基于比较特征的局部保留能力的思想,即假设一种 好的特征应该是如果两个数据点近似,则这两个数据点在该特征上也应该近似,满足这种 条件的特征具有较强的代表原始数据的能力。这样通过计算每维特征的Laplacian分数, 再按照分数的大小进行排序,选择分数值较小的特征,从而进行特征选择。实验结果表明,Laplacian分数的方法对噪声数据也比较敏感,易受到噪声点的影响。又经检索发现,国内的张道强等人(Zhang DQ, Chen SC,Zhou ZH Constraint Score :A new filter method for feature selection with pairwise constraints. PatternRecognition 41(5) =1440-1451 2008,(张道强,陈松灿,周志华,“基于约束分数的 特征选择方法”),国际模式识别杂志第41卷第5期,2008年)利用约束分数的准则也提出 了一种新的特征选择的方法。该方法利用了数据间的监督信息(pairwise constraints) 来进行特征选择。即如果数据属于同一类,则该数据间存在连接约束(must-link), 因此好的特征此时应该较近;反之,如果数据不属于同一类,则该数据间不存连接约束 (carmot-link),因此好的特征此时应该较远。同拉普拉斯分数类似,约束分数也是利用了 近邻关系对特征进行判断,进行有效的特征选择。但由于约束分数的方法利用了样本间的 监督信息,需要预先指定数据间存在的连接约束,因此在缺乏已知信息情况下,适用性能不 是很好。
技术实现思路
本专利技术的目的在于克服现有技术的上述不足,提供一种基于稀疏分数的特征选择 方法。本专利技术利用样本间的稀疏重构矩阵,得到数据各维特征的稀疏表示保留能力,从而提 出了一种新的特征选择方法。本方法由于利用了数据间稀疏表示系数旋转和尺度变化的不 变性的特点,具有更好特征的判别信息保留能力的优点,因此可以很好的应用于模式识别、 机器学习的分类和聚类等预测问题中。本专利技术是通过以下技术方案实现的,本专利技术包括以下步骤第一步,提取待处理的数据集IxJ i = Λ数据集中共有η个数据,每个数据包括m维 特征。第二步,采用Ll范数最小化的方法,得到待处理的数据集IxJ…广中每个数据的 稀疏表示的重构系数。所述的Ll范数最小化的方法,具体是守nH1 其中X是待处理的数据集,X = e Rmxn, Si = e RmXn, mr是第r维特征数据的均值。第四步,将待处理数据集中每维特征按照其稀疏分数从小到大的顺序进行排列, 稀疏分数最小的特征即是该待处理数据集中最重要的特征。与现有技术相比,本专利技术的有益效果是利用了稀疏表示重构系数对于旋转和尺 度变化的不变的特性,本专利技术提出的方法对于噪声和离群点数据具有更好的鲁棒性能,可 以获得更好的特征选择效果;同时稀疏分数的特征选择方法是一种无监督的特征选择方 法,因此本方法并不需要任何先验信息,方法的适用性能很强,能有效的提高分类预测的性 能,且准确率很高。本专利技术可以广泛的应用于模式识别、机器学习和数据挖据的各种分类、聚类和数 据的可视化问题中。附图说明图1是实施例中wine数据集二维可视化的效果图;图2是实施例中对wine数据集的预测准确率的结果图;图3是分别采用现有的方差分数方法、Laplacian分数方法和实施例稀疏分数方 法对wine数据集在不同维数情况下进行10重交叉分类预测的准确率的比较示意图。具体实施例方式下面结合附图对本专利技术的实施例作详细说明本实施例在以本专利技术技术方案为前 提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下 述的实施例。实施例本实施例针对UCI中wine数据集展开,wine数据集是UCI数据库中的一个标准的 数据集,样本来源于意大利某个地区的三种不同的培育植物酿造的葡萄酒的化学成分。该 数据集共有178个样本,每个样本为13维的特征向量。本实施例对这13维特征进行排序, 挑选最重要的特征进行特征选择,具体包括以下步骤第一步,提取待处理的数据集IxJi = /78,数据集中共有178个数据,每个数据包括 13维本文档来自技高网
...

【技术保护点】
一种基于稀疏分数的特征选择方法,其特征在于,包括以下步骤:第一步,提取待处理的数据集{x↓[i]}↓[i=1]↑[n],数据集中共有n个数据,每个数据包括m维特征;第二步,采用L1范数最小化的方法,得到待处理的数据集{x↓[i]}↓[i=1]↑[n]中每个数据的稀疏表示的重构系数;第三步,对待处理数据集中每个数据的每维特征与相应数据的稀疏表示的重构系数进行重构误差累加处理,得到待处理数据集中每维特征的稀疏分数;第四步,将待处理数据集中每维特征按照其稀疏分数从小到大的顺序进行排列,稀疏分数最小的特征即是该待处理数据集中最重要的特征。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨杰朱林
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利