一种基于模糊ISODATA的特征选取方法技术

技术编号:8366775 阅读:190 留言:0更新日期:2013-02-28 05:20
本发明专利技术提出了一种基于模糊ISODATA的特征选取方法,属于机器学习领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive?Self-Organizing?Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类,由此分析特征对聚类类别隶属度的灵敏度,并据此在递归特征选取过程中产生候选特征子集,然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明专利技术方法在选取出具有较强分类和聚类能力的关键特征的同时,特征选取的效率也比较高,对于不同数据集的特征选取也有较好的适应性,特征选取结果总体上优于传统方法。

【技术实现步骤摘要】

本专利技术涉及特征选取方法,尤其涉及高维集数据的特征选取方法,属于机器学习领域。
技术介绍
特征选取是机器学习中样本分类和识别的重要环节之一,其目的是降低特征维数,选取对样本分类至关重要的具有丰富类别信息的关键特征,提高分类质量和效率。特征选取具有很高的实际应用价值,对样本分类、聚类及亚型发现,特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。为满足特征选取实际运用的需要,目前有大量的特征选取方法,其中绝大部分为将filter和wrapper方法相结合,基于分类模型进行的特征选取方法。(I)Guyon等人提出基于支持向量机的特征选取方法,I. Guyon, J. Weston, S. Barnhill, et al. ,Gene selectionfor cancer classification using support vector machines,Machine Learning,2002,46(1-3),他们对两个基因表达谱数据集进行了特征基因选取。(2) Cai等人提出基于互信量技术的特征选取方法,R. C. Cai, Z. F. Hao, X. W. Yang, W. Wen, An efficient gene selectionalgorithm based on mutual information, Neurocomputing, 2009 (72),对基因表达谱数据集进行了特征基因选取。近年来,有文献研究如何融合分类算法和聚类算法的优势,利用二者的互补性进行特征选取和分类。(I)Yousef等人提出基于递归聚类剔除过程的选取特征基因选取方法,M. Yousef, S. Jung, LC Showe, MK Showe, Recursive Cluster Elimination(RCE)for classification and feature selection from gene expression data, BMCBioinformatics, 2007,8 (I) 144,这种方法在特征选取过程中引入聚类算法。(2) Cai等人提出分类和聚类算法相结合的学习框架,W. L. Cai,S. C. Chen,and D. Q. Zhang,A simultaneouslearning framework for clustering and classification,Pattern Recognition,2009,42 (7),这种方法以聚类时类内数据的紧密程度为参数,完成对聚类和分类的目标函数的合并和补充。上述方法选取的关键特征有较强的分类能力,但聚类能力相对较弱。
技术实现思路
本专利技术针对上述特征选取方法的不足,利用分类和聚类算法的互补性,提出基于模糊IS0DATA(Interactive Self-Organizing Data,又称模糊C均值聚类算法)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键信息特征。本专利技术方法的流程如图I所示,该方法主要包括如下四个步骤第一步骤数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类,分析特征对聚类类别隶属度的灵敏度,逐级筛选高灵敏度的特征组成候选特征子集;特征灵敏度分析方法分为如下几步已知训练集η个样本分别属于s个类别,每个样本有m个特征,第k个样本Xk ={xkl,, xkJ, . . .,XkJ,其中Xkj为样本Xk的第j个特征。经模糊ISODATA聚类后,样本Xk 对第i个聚类类别的隶属度权利要求1.一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤 第一步骤数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能; 第二步骤特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self-Organizing Data,又称模糊 C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集; 第三步骤候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集; 第四步骤最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。2.根据权利要求I所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第二步骤中的特征灵敏度计算分析方法,包括如下步骤 已知训练集η个样本分别属于s个类别,每个样本有m个特征,第k个样本Xk ={xkl,, xkJ, . . .,xj,其中Xkj为样本Xk的第j个特征。经模糊ISODATA聚类后,样本Xk 对第i个聚类类别的隶属度3.根据权利要求I所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第三步骤具体包括如下步骤 步骤I :分类校验,用支持向量机(Support Vector Machine, SVM)和K近邻(K-nearestneighbor algorithm, KNN)两个分类器检验候选特征子集的分类能力,先在训练集中训练分类器,再用训练过的分类器对校验集样本分类; 步骤2 :聚类校验,用层次聚类(Hierarchical Clustering, Clustering)算法检验候选特征子集的聚类能力,对校验集样本聚类; 步骤3 :最佳特征子集选择,以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数 Object(F) = rightSVM(F)+rightKNN(F)+rightclustering(F),其中rightSVM(F)为支持向量机对校验集样本的分类正确率,rightKNN (F)为K近邻对校验集样本的分类正确率,rightclustering(F)为层次聚类算法对校验集样本的聚类正确率,以目标函数衡量候选特征子集所含的类别信息,选择目标函数最高的候选特征子集为最佳特征子集。全文摘要本专利技术提出了一种基于模糊ISODATA的特征选取方法,属于机器学习领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive Self-Organizing Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类本文档来自技高网
...

【技术保护点】
一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy?Interactive?Self?Organizing?Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;第三步骤:候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集;第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘全金赵志敏俞晓磊汪东华李颖新
申请(专利权)人:南京航空航天大学江苏省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1