一种基于遗传算法的特征选择方法技术

技术编号:26971842 阅读:16 留言:0更新日期:2021-01-06 00:03
本发明专利技术公开了一种基于遗传算法的特征选择方法,本发明专利技术提出基于两步过滤结合遗传算法的特征选择算法,通过分析特征与类别之间的相关性和特征与特征之间的冗余性将特征分为强相关特征、弱相关不冗余特征、弱相关冗余特征和不相关特征四部分,然后使用四部分特征来指导遗传算法的初始化而进行特征选择,经过实验,改进的初始化策略选择相较于传统随机式的初始化策略选择了更少的特征,得到了更高的分类准确度。

【技术实现步骤摘要】
一种基于遗传算法的特征选择方法
本专利技术属于数据预处理
,涉及一种基于遗传算法的特征选择方法。
技术介绍
随着大数据时代的到来,不断增加数据维度产生了“维度爆炸”的问题,而特征选择是解决该问题有效的方法之一。特征选择是从M个特征中选择出m个特征(M>m)来代表原数据的一种降维方法。特征选择在去除不相关和冗余特征来降低维度同时也保证了算法执行的表现。特征选择的优点在于减少特征数量,避免过拟合,节省存储空间和提高算法的执行效率。特征选择广泛应用于图像分类,分本分类,金融领域和医疗领域等等。特征选择的三种方法:Filter方法,Wrapper方法,Embedded方法。Filter方法是最常用的特征选择方法,Filter方法使用信息熵,距离,相关性系数等衡量指标对特征进行打分排序,之后过滤出大于阈值的特征作为结果。Filter方法的优点是算法的通用性强、计算简单高效,适用于大规模数据的数据预处理,缺点在于过滤过程与模型独立,导致算法的表现一般。由于Wrapper方法克服了Filter方法的缺点,受到了越来越多的关注。Wrapper方法是根据搜索策略选出特征子集之后使用分类器对样本进行分类,分类的精度作为衡量特征子集好坏的标准。Wrapper提高的算法的表现,但是由于要对每个特征子集使用分类计算分类精度,导致算法的时间复杂度较高。从Wrapper方法的角度看特征选择,可以认为特征选择就是最优化的过程。Embedded方法是将特征选择算法本身作为组成部分嵌入到模型中,在选定模型的情况下选取出对模型训练有利的特征。优点快速,面向算法,缺点需要调整结构和参数配置。Wrapper方法的表现很大程度上取决于所选特征子集的好坏。假设原始特征集中有n个特征,那么存在2n-1个可能非空特征子集,那么搜索策略就是从包含2n-1个候选解的搜索空间中寻找最优特征子集。目前特征子集的搜索策略有三种:Complete搜索,Heuristic搜索,Stochastic搜索。其中启发式搜索和随机式搜索最常用。启发式搜索会根据一些启发式规则在每次迭代时决定剩下的特征是否应该被选,包括正向选择、后向选择和基于实例选择等。经典的算法包括顺序正向选择(SFS),顺序反向选择(SBS),Relief。SFS和SBS方法优点是简单快速,缺点是只能添加特征而不能删除特征,容易陷入局部最优值。Relief采用距离度量作为评价指标,根据各个特征对近距离样本的区分能力赋予特征不同的权重,权重小于阈值的特征会被移除。Relief的优点是运行效率非常高,缺点是局限于二分类问题而且不能有效的去除冗余数据。当原始特征集的特征个数n过大时,完全式搜索和启发式搜索算法的表现一般。随机式搜索由于搜索范围广,适合解决结构复杂的最优问题的特点被广泛使用。随机式搜索由随机产生的特征子集开始,依照一定的启发式信息和规则逐步逼近全局最优解。常用的随机式搜索算法包括遗传算法(GA)、粒子群算法(PSO)、模拟退火算法(SA)、蚁群算法(ACO)。由于特征选择是个复杂的高维问题,而遗传算法对所求解的优化问题没有太多的数学要求,无论是线性还是非线性,离散还是连续问题都可以处理,所以遗传算法相比于其他的随机式搜索算法表现更好。
技术实现思路
本专利技术的目的是提供一种基于遗传算法的特征选择方法,解决了现有技术中存在的传统遗传算法的特征选择方法会忽视初始种群对最终结果的影响的问题。本专利技术所采用的技术方案是,一种基于遗传算法的特征选择方法,具体按照以下步骤实施:步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;步骤4:结果的评价。本专利技术的特点还在于:步骤2中强相关特征的定义为当且仅当特征属于强相关特征子集时,才称特征称为强相关特征;弱相关不冗余特征的定义为当且仅当特征属于弱相关不冗余特征子集时,才称特征称为弱相关不冗余特征;弱相关冗余特征的定义为当且仅当特征属于弱相关冗余特征子集时,才称特征称为弱相关冗余特征;不相关特征的定义为当且仅当特征属于不相关特征子集时,才称特征称为不相关特征。步骤2具体按照以下步骤实施:步骤2.1、计算特征和类别特征之间的相关性,使用对称不确定性来衡量特征与类别特征之间的相关性,然后根据相关性的大小将特征分为强相关、弱相关和不相关特征子集三部分;步骤2.2、计算特征和特征之间的冗余性,步骤2.1得到的弱相关特征使用相互作用信息来区分出冗余特征,最后将弱相关特征进一步分为弱相关不冗余和弱相关冗余两个特征子集。步骤3具体按照以下步骤实施:步骤3.1、编码方式,编码方式采用二进制编码;步骤3.2、初始化,利用Twostep-filter方法将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四部分,使得强相关和弱相关不冗余部分以较大概率为1,WRR和IR部分以较小概率为1;步骤3.3、适应度计算,适应度使用SVM和NB分类器的分类准确率作为个体适应度的大小;步骤3.4、选择,采用改进的分层的选择算子,将个体根据适应度大小分为高适应度,中适应度和低适应度三部分;三部分采用锦标赛选择;步骤3.5、交叉,使用改进的交叉算子,由于提出的算法中种群中的个体或染色体由强相关、弱相关不冗余、弱相关冗余和不相关四部分组成,交叉操作会随机的交换两个父染色体的四部分中的一个;步骤3.6、变异,变异算子使用均匀变异;步骤3.7、精英保留策略,将每代中两个最优个体加入精英种群;步骤3.8、终止条件,终止条件是当最优个体的适应度达到给定的阈值或者迭代次数达到预设的次数时算法终止。步骤4具体按照以下步骤实施:使用10折交叉验证分别在SVM和NB作为分类器的条件下进行实验,评估最终得到的特征子集的分类精度和选择的特征数量。步骤2.1的对称不确定性的定义公式(4):其中,I(X;Y)表示随机变量X,Y之间的互信息,H(X)和H(Y)分别表示信息熵。步骤2.2的相互作用信息的定义公式(6):I(X;Y;Z)=I(X;Y|Z)-I(X;Y)(6)其中,I(X;Y;Z)用来衡量随机变量X和Z关于Y的冗余性。本专利技术的有益效果是:1、本专利技术的基于两步过滤结合遗传算法的特征选择算法与五个经典的特征选择算法(MRMR、IWFS、CFR、IGDGA、GGA)相比,最终得到的特征子集的分类精度最高而且选择的特征数量最少。附图说明图1是本专利技术一种基于遗传算法的特征选择方法的流程图;图2是本专利技术一种基于遗传算法的特征选择方法的步骤2的流程图;图3是本专利技术一种基于遗传算法的特征本文档来自技高网
...

【技术保护点】
1.一种基于遗传算法的特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;/n步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;/n步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;/n步骤4:结果的评价。/n

【技术特征摘要】
1.一种基于遗传算法的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;
步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;
步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;
步骤4:结果的评价。


2.根据权利要求1所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2中强相关特征的定义为当且仅当特征属于强相关特征子集时,才称特征称为强相关特征;
弱相关不冗余特征的定义为当且仅当特征属于弱相关不冗余特征子集时,才称特征称为弱相关不冗余特征;
弱相关冗余特征的定义为当且仅当特征属于弱相关冗余特征子集时,才称特征称为弱相关冗余特征;
不相关特征的定义为当且仅当特征属于不相关特征子集时,才称特征称为不相关特征。


3.根据权利要求2所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、计算特征和类别特征之间的相关性,使用对称不确定性来衡量特征与类别特征之间的相关性,然后根据相关性的大小将特征分为强相关、弱相关和不相关特征子集三部分;
步骤2.2、计算特征和特征之间的冗余性,步骤2.1得到的弱相关特征使用相互作用信息来区分出冗余特征,最后将弱相关特征进一步分为弱相关不冗余和弱相关冗余两个特征子集。


4.根据权利要求3所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、编码方式,所述编码方式采用二进制编码;
步骤3.2、初始...

【专利技术属性】
技术研发人员:周红芳郭晓杰
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1