一种基于遗传算法的特征选择方法技术

技术编号:26971842 阅读:19 留言:0更新日期:2021-01-06 00:03
本发明专利技术公开了一种基于遗传算法的特征选择方法,本发明专利技术提出基于两步过滤结合遗传算法的特征选择算法,通过分析特征与类别之间的相关性和特征与特征之间的冗余性将特征分为强相关特征、弱相关不冗余特征、弱相关冗余特征和不相关特征四部分,然后使用四部分特征来指导遗传算法的初始化而进行特征选择,经过实验,改进的初始化策略选择相较于传统随机式的初始化策略选择了更少的特征,得到了更高的分类准确度。

【技术实现步骤摘要】
一种基于遗传算法的特征选择方法
本专利技术属于数据预处理
,涉及一种基于遗传算法的特征选择方法。
技术介绍
随着大数据时代的到来,不断增加数据维度产生了“维度爆炸”的问题,而特征选择是解决该问题有效的方法之一。特征选择是从M个特征中选择出m个特征(M>m)来代表原数据的一种降维方法。特征选择在去除不相关和冗余特征来降低维度同时也保证了算法执行的表现。特征选择的优点在于减少特征数量,避免过拟合,节省存储空间和提高算法的执行效率。特征选择广泛应用于图像分类,分本分类,金融领域和医疗领域等等。特征选择的三种方法:Filter方法,Wrapper方法,Embedded方法。Filter方法是最常用的特征选择方法,Filter方法使用信息熵,距离,相关性系数等衡量指标对特征进行打分排序,之后过滤出大于阈值的特征作为结果。Filter方法的优点是算法的通用性强、计算简单高效,适用于大规模数据的数据预处理,缺点在于过滤过程与模型独立,导致算法的表现一般。由于Wrapper方法克服了Filter方法的缺点,受到了越来越多的关注。Wrappe本文档来自技高网...

【技术保护点】
1.一种基于遗传算法的特征选择方法,其特征在于,具体按照以下步骤实施:/n步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;/n步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;/n步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;/n步骤4:结果的评价。/n

【技术特征摘要】
1.一种基于遗传算法的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1:数据预处理,对于连续型数据进行等距离散化处理;对于缺省值使用该属性的均值进行填充;对于异常值使用箱型图分析方法进行处理;
步骤2:特征分类,特征分类是根据信息熵将特征分为强相关、弱相关不冗余、弱相关冗余和不相关四个特征子集;
步骤3:遗传算法,利用步骤2所得的分类结果来指导遗传算法种群的初始化,之后进行迭代达到特征选择的目的;
步骤4:结果的评价。


2.根据权利要求1所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2中强相关特征的定义为当且仅当特征属于强相关特征子集时,才称特征称为强相关特征;
弱相关不冗余特征的定义为当且仅当特征属于弱相关不冗余特征子集时,才称特征称为弱相关不冗余特征;
弱相关冗余特征的定义为当且仅当特征属于弱相关冗余特征子集时,才称特征称为弱相关冗余特征;
不相关特征的定义为当且仅当特征属于不相关特征子集时,才称特征称为不相关特征。


3.根据权利要求2所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、计算特征和类别特征之间的相关性,使用对称不确定性来衡量特征与类别特征之间的相关性,然后根据相关性的大小将特征分为强相关、弱相关和不相关特征子集三部分;
步骤2.2、计算特征和特征之间的冗余性,步骤2.1得到的弱相关特征使用相互作用信息来区分出冗余特征,最后将弱相关特征进一步分为弱相关不冗余和弱相关冗余两个特征子集。


4.根据权利要求3所述的一种基于遗传算法的特征选择方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、编码方式,所述编码方式采用二进制编码;
步骤3.2、初始...

【专利技术属性】
技术研发人员:周红芳郭晓杰
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1