【技术实现步骤摘要】
本专利技术涉及特征选取方法,尤其涉及高维集数据的特征选取方法,属于机器学习领域。
技术介绍
特征选取是机器学习中样本分类和识别的重要环节之一,其目的是降低特征维数,选取对样本分类至关重要的具有丰富类别信息的关键特征,提高分类质量和效率。特征选取具有很高的实际应用价值,对样本分类、聚类及亚型发现,特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。为满足特征选取实际运用的需要,目前有大量的特征选取方法,其中绝大部分为将filter和wrapper方法相结合,基于分类模型进行的特征选取方法。(I)Guyon等人提出基于支持向量机的特征选取方法,I. Guyon, J. Weston, S. Barnhill, et al. ,Gene selectionfor cancer classification using support vector machines,Machine Learning,2002,46(1-3),他们对两个基因表达谱数据集进行了特征基因选取。(2) Cai等人提出基于互信量技术的特征选取方法,R. C. Cai, Z. F. Ha ...
【技术保护点】
一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy?Interactive?Self?Organizing?Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;第三步骤:候选特征 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:刘全金,赵志敏,俞晓磊,汪东华,李颖新,
申请(专利权)人:南京航空航天大学,江苏省标准化研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。