一种基于模糊ISODATA的特征选取方法技术

技术编号:8366775 阅读:207 留言:0更新日期:2013-02-28 05:20
本发明专利技术提出了一种基于模糊ISODATA的特征选取方法,属于机器学习领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive?Self-Organizing?Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类,由此分析特征对聚类类别隶属度的灵敏度,并据此在递归特征选取过程中产生候选特征子集,然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明专利技术方法在选取出具有较强分类和聚类能力的关键特征的同时,特征选取的效率也比较高,对于不同数据集的特征选取也有较好的适应性,特征选取结果总体上优于传统方法。

【技术实现步骤摘要】

本专利技术涉及特征选取方法,尤其涉及高维集数据的特征选取方法,属于机器学习领域。
技术介绍
特征选取是机器学习中样本分类和识别的重要环节之一,其目的是降低特征维数,选取对样本分类至关重要的具有丰富类别信息的关键特征,提高分类质量和效率。特征选取具有很高的实际应用价值,对样本分类、聚类及亚型发现,特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。为满足特征选取实际运用的需要,目前有大量的特征选取方法,其中绝大部分为将filter和wrapper方法相结合,基于分类模型进行的特征选取方法。(I)Guyon等人提出基于支持向量机的特征选取方法,I. Guyon, J. Weston, S. Barnhill, et al. ,Gene selectionfor cancer classification using support vector machines,Machine Learning,2002,46(1-3),他们对两个基因表达谱数据集进行了特征基因选取。(2) Cai等人提出基于互信量技术的特征选取方法,R. C. Cai, Z. F. Hao, X. W. Y本文档来自技高网...

【技术保护点】
一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy?Interactive?Self?Organizing?Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;第三步骤:候选特征子集校验步骤,以候选...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘全金赵志敏俞晓磊汪东华李颖新
申请(专利权)人:南京航空航天大学江苏省标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1