一种基于过滤法和遗传算法的高维数据特征选择方法技术

技术编号：19426483 阅读：79 留言：0更新日期：2018-11-14 10:49

本发明专利技术公开了一种基于过滤法和遗传算法的高维数据特征选择方法。传统的特征选择方法存在容易陷入局部最优、删除有用特征概率高等局限性，不适用于高维、小样本数据。本发明专利技术首先采用最大信息系数计算输入数据的特征与类标之间的相关性；接着，根据相关性的值对特征进行降序排序，设置阈值，删除弱相关的特征；最后对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本发明专利技术能够有效地对高维数据进行特征选择，实现降维，特征选择的结果对样本类别判定具有重要意义，当应用于基因表达谱数据时，选择出来的特征同时还具有重要的生物意义。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于过滤法和遗传算法的高维数据特征选择方法
本专利技术属于数据挖掘
，涉及一种基于过滤法和遗传算法的高维数据特征选择方法。
技术介绍
数据收集和存储技术的进步使得各组织机构积累了海量数据，如何从中提取出有用的信息成为当前的巨大挑战。高维数据一般具有数据稀疏性和维数灾难等特点。高维数据大多数为零少数有值的稀疏性特点使得直接对数据进行分析挖掘具有一定的困难。随着数据维度(属性)的增加，计算量呈指数倍增长，从而产生了维度灾难。通过对高维数据进行有效的特征选择，选取对识别或分类有效的特征，从而简化计算。目前，有基于过滤法、包装法和嵌入法的特征选择方法。基于过滤法的特征选择是根据发散性或相关性对各个特征进行评分，设定阈值，选择特征；基于包装法的特征选择是根据目标函数(通常是根据预测效果评分)，每次选择若干特征或者排除若干特征；基于嵌入法的特征选择是先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从小到大进行特征选择，其在局部空间中进行最优特征选择，效果相对有限。上述所介绍的方法存在容易陷入局部最优、删除有用特征概率高等局限性，不适用于高维、小样本数据的特征选择。
技术实现思路
本专利技术的目的是针对现有的对高维、小样本数据的特征选择的需求，提出一种基于过滤法和遗传算法结合的特征选择方法。该方法采用基于最大信息系数(themaximalinformationcoefficient，简写MIC)(见DN,R.,etal.的论文Detectingnovelassociationsinlargedatasets.Science(NewYor...

【技术保护点】
1.一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：该方法的具体步骤如下：步骤1、输入基因表达谱数据样本，数据样本包含患病人群和正常人群，数据样本属性是基因表达谱特征，又叫探针；步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性；步骤3、根据MIC值对特征进行降序排序，设置阈值，删除弱相关的特征；步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。

【技术特征摘要】
1.一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：该方法的具体步骤如下：步骤1、输入基因表达谱数据样本，数据样本包含患病人群和正常人群，数据样本属性是基因表达谱特征，又叫探针；步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性；步骤3、根据MIC值对特征进行降序排序，设置阈值，删除弱相关的特征；步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。2.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：所述的遗传算法采用MATLAB中的ga函数，设计ga函数中的适应度函数为公式(1)：FitVal＝0.1*sum(chrom)+(1-Accuracy)(1)其中chrom是一条由0、1组成的染色体，代表一个种群，0代表该种群不拥有此特征，1代表该种群拥有此特征，chrom长度为特征总数；sum(chrom)是指每个种群所拥有的特征数量，Accuracy是根据每个种群所选的特征进行分类建模...

【专利技术属性】
技术研发人员：葛瑞泉，马浙萍，吴卿，邬惠峰，徐岗，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人