当前位置: 首页 > 专利查询>常州大学专利>正文

一种基于互信息和遗传算法的降维与特征提取方法技术

技术编号:36345801 阅读:10 留言:0更新日期:2023-01-14 18:00
本发明专利技术涉及数据处理技术领域,尤其涉及一种基于互信息和遗传算法的降维与特征提取方法,包括利用改进互信息公式计算互信息来度量每个维度对每类所起的作用;将互信息值作为特征维度的适应值,先利用遗传算法中的轮盘赌法生成多个携带信息的特征子集;再利用互信息来对生成的特征子集进行维度上的优化;对特征子集进行优化,并将优化后的特征子集进行变异和差异度控制,生成新的特征子集;进行多源特征子集的评价结果融合。本发明专利技术考虑特征变换对变换后维数的固定性、特征提取的降维高效性和小影响特征的忽略性;对特征子集变异,对降维后的特征子集维数进行变化,保证每个特征子集有效区分不同类别的数据,有效控制特征子集之间的差异度。的差异度。的差异度。

【技术实现步骤摘要】
一种基于互信息和遗传算法的降维与特征提取方法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于互信息和遗传算法的降维与特征提取方法。

技术介绍

[0002]随着信息时代的飞速发展,信息的表现形式越来越丰富和全面。各个领域的数据表现出数据体量大,数据类型繁多,数据价值密度低和数据处理速度快等特点,但同时也给数据处理带来“维度灾难”、“算法失效”等问题。如何从这些数据量庞大、类型丰富的数据中快速挖掘出对实际应用有价值的信息,是当前数据挖掘和模式识别研究的热点话题。由于高维数据的原始表示往往包含大量冗余,有些变量之间的相关程度很高,对于这类变量,可以找到一组新的数量更少的不相关的变量来表达原始数据,因此,降维或特征提取是解决高维数据维度灾难等问题的有效途径。
[0003]现有技术中已作相应的研究和探讨,特征提取和特征变换是数据降维常用的两类方法。特征变换是指将原有的特征空间变换成某种形式,得到新的特征;其中,最著名的特征变换算法是主成分分析法,该算法在大部分学习任务中的降维效果都比较可观,但是只能固定降维的维数,其特征降维的灵活性较低,并且特征变换的新特征通常由全部原始特征变换而来,并未减少数据处理工作量。
[0004]特征提取是指从原始特征集中选择使某种评估标准最优的特征子集,通过特征提取,删除了一些和任务无关或者冗余的特征,算法过程简单高效,但同时可能忽略了一些单个特征对任务相关性较小,但和其他特征组合在一起又相关性很大的特征。

技术实现思路

[0005]针对现有算法的不足,本专利技术考虑特征变换对变换后维数的固定性、特征提取的降维高效性和小影响特征的忽略性;通过互信息充分挖掘了特征与类别之间的相关性,借助遗传算法轮盘赌生成多个优等特征子集,又通过对特征子集变异,对降维后的特征子集维数进行变化,能够保证每个特征子集有效区分不同类别的数据,同时有效控制特征子集之间的差异度。
[0006]本专利技术所采用的技术方案是:一种基于互信息和遗传算法的降维与特征提取方法包括以下步骤:
[0007]步骤一、利用改进互信息公式计算互信息来度量每个维度对每类所起的作用;
[0008]进一步的,具体包括:
[0009]S11、采用极大化法对数据集进行预处理;
[0010]S12、采用等宽法,求出数据集中每个属性特征在每个区间下的个数;
[0011]S13、将互信息公式不求得到每个属性特征对每个类别所起作用。
[0012]步骤二、将互信息值作为特征维度的适应值,先利用遗传算法中的轮盘赌法生成
多个初始特征子集;再利用互信息来对生成的特征子集进行维度上的优化;
[0013]进一步的,利用遗传算法中的轮盘赌法生成多个初始特征子集具体包括:
[0014]互信息按行求和得到适应度值,将适应度值除以互信息总和得到特征的选中概率;
[0015]计算各特征出现的累积概率;
[0016]随机生成一个0

1的数,若第一个特征没有被选择并且第一个特征累积概率大于随机数,则选择第一个特征;从第二个特征开始到最后一个特征,如果第二个没有被选择并且第二个特征的前一个特征的累积概率小于随机数但第二个特征的累积概率大于等于随机数,则选择第二个特征;依次循环直至最后一个特征;
[0017]进一步的,利用互信息对生成的特征子集进行维度上的优化具体包括:
[0018]在互信息表中找到初始T个特征子集对应的已选特征,将互信息值按类别求和,除以类别互信息总值得到T个初始特征子集对每类的贡献率;
[0019]如果T个初始特征子集中存在某个特征子集贡献率小于阈值的个数超过总类别数的一半,则为弱特征子集,对弱特征子集进行优化。
[0020]进一步的,对弱特征子集进行优化具体包括:
[0021]记录贡献率小于贡献率阈值的特征子集以及对应的类别号;
[0022]根据类别,对互信息逆序排序得到维度作用排序;
[0023]弱特征子集已选特征与维度作用排序的每一行作差集运算,得到至少一个备选特征;
[0024]弱特征子集分别加上备选特征组里面每个备选特征,再次计算贡献率,如果贡献率大于贡献率阈值的类别数大于总类别数的一半,则建立优化特征组;
[0025]在优化特征组中随机选择一个优化特征增补进弱特征子集。
[0026]步骤三、对特征子集进行优化,并将优化后的特征子集进行变异和差异度控制,生成新的特征子集;
[0027]进一步的,具体包括:
[0028]从优化后的T个特征子集中,顺序的取出两个特征子集,分别为对照特征子集和待变异特征子集,给定第一变异概率和第二变异概率;
[0029]当差异度小于0.5的两个特征子集都选了同一特征时,生成一个0

1的随机数,如果随机数小于第一变异概率,则将待变异特征子集中同一特征置为0;
[0030]当差异度小于0.5的两个特征子集都未选择同一个特征时,生成一个0

1的随机数,如果随机数小于第二变异概率,则将待变异特征子集中未选择的同一个特征置为1。
[0031]步骤四、进行多源特征子集的评价结果融合;
[0032]进一步的,具体包括:
[0033]将数据集根据最终的特征子集划分,训练得到不同的T个学习模型;
[0034]采用投票法综合T个学习模型得到最终结果。
[0035]本专利技术的有益效果:
[0036]1、通过互信息度量各特征维度对类别所起作用,并利用互信息作为特征维度的适应值,结合遗传算法,优选出多组类内差异度小且类间差异度大的特征子集,形成多源低维特征子集,融合多源特征子集的评价结果,实现高维数据的降维与特征提取;
[0037]2、本专利技术属于过滤式特征选择方法,整个特征选择过程,不涉及最后分类器或学习器的结果,属于机器学习当中的数据预处理过程,所以,时间复杂度较低,整个过程较简单;
[0038]3、将求解的互信息不仅当作适应度值利用轮盘赌法控制初始特征子集的产生,还在交叉变异之后,将互信息作为特征子集对分类的贡献度,对各子集进行优化;
[0039]4、解决现在特征选择算法只得出一个最优的特征子集作为结果的输出,本专利技术采用多个特征子集融合结果输出,通过投票法及其他方法综合各特征子集的输出结果,形成最后的判定结果,比使用原数据集的准确率明显提高。
附图说明
[0040]图1是本专利技术的基于互信息和遗传算法的降维与特征提取方法流程图;
[0041]图2是本专利技术的应用于降维或特征提取结果的方法图。
具体实施方式
[0042]下面结合附图和实施例对本专利技术作进一步说明,此图为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。
[0043]使用10个来自UCI机器学习库的公开数据集验证本专利技术的降维效果,10个数据集分别为vehicle、sonar、mfeatfac本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互信息和遗传算法的降维与特征提取方法,其特征在于,包括以下步骤:步骤一、利用改进互信息公式计算互信息来度量每个维度对每类所起的作用;步骤二、将互信息值作为特征维度的适应值,先利用遗传算法中的轮盘赌法生成多个初始特征子集;再利用互信息对生成的特征子集进行维度上的优化;步骤三、将优化后的特征子集进行变异和差异度控制,生成最终的特征子集;步骤四、进行多源特征子集的评价结果融合。2.根据权利要求1所述的基于互信息和遗传算法的降维与特征提取方法,其特征在于,步骤一具体包括:S11、采用极大化法对数据集进行预处理;S12、采用等宽法,求出数据集中每个属性特征在每个区间下的个数;S13、将互信息公式不求得到每个属性特征对每个类别所起作用。3.根据权利要求1所述的基于互信息和遗传算法的降维与特征提取方法,其特征在于,将互信息值作为特征维度的适应值,先利用遗传算法中的轮盘赌法生成多个初始特征子集包括如下步骤:互信息按行求和得到适应度值,将适应度值除以互信息总和得到特征的选中概率;计算各特征出现的累积概率;随机生成一个0

1的数,若第一个特征没有被选择并且第一个特征累积概率大于随机数,则选择第一个特征;从第二个特征开始到最后一个特征,如果第二个没有被选择并且第二个特征的前一个特征的累积概率小于随机数但第二个特征的累积概率大于等于随机数,则选择第二个特征;依次循环直至最后一个特征。4.根据权利要求1所述的基于互信息和遗传算法的降维与特征提取方法,其特征在于,利用互信息对生成的特征子集进行维度上的优化具体包括:在互信息表中找到初始T个特征子集对应的已选特征,将互信息值按类别求...

【专利技术属性】
技术研发人员:李栋刘佳单汪唯一贾玉洁王小兵李森
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1