一种基于过滤法和遗传算法的高维数据特征选择方法技术

技术编号:19426483 阅读:79 留言:0更新日期:2018-11-14 10:49
本发明专利技术公开了一种基于过滤法和遗传算法的高维数据特征选择方法。传统的特征选择方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据。本发明专利技术首先采用最大信息系数计算输入数据的特征与类标之间的相关性;接着,根据相关性的值对特征进行降序排序,设置阈值,删除弱相关的特征;最后对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本发明专利技术能够有效地对高维数据进行特征选择,实现降维,特征选择的结果对样本类别判定具有重要意义,当应用于基因表达谱数据时,选择出来的特征同时还具有重要的生物意义。

【技术实现步骤摘要】
一种基于过滤法和遗传算法的高维数据特征选择方法
本专利技术属于数据挖掘
,涉及一种基于过滤法和遗传算法的高维数据特征选择方法。
技术介绍
数据收集和存储技术的进步使得各组织机构积累了海量数据,如何从中提取出有用的信息成为当前的巨大挑战。高维数据一般具有数据稀疏性和维数灾难等特点。高维数据大多数为零少数有值的稀疏性特点使得直接对数据进行分析挖掘具有一定的困难。随着数据维度(属性)的增加,计算量呈指数倍增长,从而产生了维度灾难。通过对高维数据进行有效的特征选择,选取对识别或分类有效的特征,从而简化计算。目前,有基于过滤法、包装法和嵌入法的特征选择方法。基于过滤法的特征选择是根据发散性或相关性对各个特征进行评分,设定阈值,选择特征;基于包装法的特征选择是根据目标函数(通常是根据预测效果评分),每次选择若干特征或者排除若干特征;基于嵌入法的特征选择是先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从小到大进行特征选择,其在局部空间中进行最优特征选择,效果相对有限。上述所介绍的方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据的特征选择。
技术实现思路
本专利技术的目的是针对现有的对高维、小样本数据的特征选择的需求,提出一种基于过滤法和遗传算法结合的特征选择方法。该方法采用基于最大信息系数(themaximalinformationcoefficient,简写MIC)(见DN,R.,etal.的论文Detectingnovelassociationsinlargedatasets.Science(NewYork,N.Y.),2011.334(6062))计算相关性的过滤法,删除大量冗余特征,达到提高后续方法的效率,其中最大信息系数是基于互信息的,它可以识别线性和非线性函数关系,相比互信息具有更高准确率。另外,我们采用遗传算法进行特征搜索优化,获得规模相对较小的特征子集,同时保持较高分类准确率。一种基于过滤法和遗传算法的高维数据特征选择方法,该方法的具体步骤如下:步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;;步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):FitVal=0.1*sum(chrom)+(1-Accuracy)(1)其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。所述的分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性,具体如下:首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本;将所有样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率为p(x,y),散点落入一列网格的概率为p(x),散点落入一行网格的概率为p(y);计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值;继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数;本专利技术的有益效果:本专利技术解决了传统算法中过滤法大量删除特征时可能删除有用特征的问题,同时解决了包装法时间计算开销大,不适用高维数据的问题,是一种比较适用于高维数据集同时保持较高准确率的方法。附图说明图1为本专利技术的算法总流程图;图2为本专利技术的MIC流程图;图3为本专利技术的遗传算法流程图;图4为Gastric1(胃癌)数据集通过本专利技术得到的特征子集规模示意图;图5为Gastric1(胃癌)数据集通过本专利技术得到的特征子集,通过支持向量机(SupportVectorMachine,简写SVM)分类建模再预测得到的分类准确率示意图。具体实施方式本实施例中没有详细说明的部分请参照
技术实现思路
的描述。如图1所示,一种基于过滤法和遗传算法的高维数据特征选择方法,具体步骤如下:步骤1、输入数据集Gastric1,样本数量为144,特征数量22283,其中非贲门胃癌样本数量为72,正常样本数量为72。Gastric1(accession:GSE29272)在theNCBIGeneExpressionOmnibus(GEO)database中下载。步骤2、利用最大信息系数(MIC)计算各基因表达谱特征与类标之间的相关性。首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本。将样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值。继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数,MIC计算流程图见图2。步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征。步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本方法希望在选择较少的特征数的同时获得较高的分类准确性。因此,设计遗传算法适应度函数为公式(1):FitVal=0.1*sum(chrom)+(1-Accuracy)(1)其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数。sum(chrom)是指每个种群所选特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。该适应度函数使所选的特征数尽可能少,同时使分类错误率尽可能低。遗传算法流程图见图3。步骤5、以上四个步骤重复循环20次得到的特征子集规模示意图见图4,每次得到的特征子集,通过支持向量机(SupportVectorMachine,简写SVM)分类建模再预测得到的分类准确率示意图见图5。本文档来自技高网
...

【技术保护点】
1.一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:该方法的具体步骤如下:步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。

【技术特征摘要】
1.一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:该方法的具体步骤如下:步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。2.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):FitVal=0.1*sum(chrom)+(1-Accuracy)(1)其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模...

【专利技术属性】
技术研发人员:葛瑞泉马浙萍吴卿邬惠峰徐岗
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1