当前位置: 首页 > 专利查询>深圳大学专利>正文

一种带约束小生境粒子群优化的集成特征选择方法及系统技术方案

技术编号:13187440 阅读:142 留言:0更新日期:2016-05-11 17:22
本发明专利技术公开一种带约束小生境粒子群优化的集成特征选择方法及系统。本发明专利技术针对生物组学数据高维小样本的特点而引起的分类误差较大的问题,提出了一种基于带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用二进制粒子群优化算法搜索分类准确率最高的特征子集,通过约束粒子编码的置位个数以限制选择特征个数,并加入多模优化中的小生境技术从而能够一次找到多个差异度较大的特征子集。

【技术实现步骤摘要】

本专利技术涉及特征选择和识别领域,尤其涉及一种带约束小生境粒子群优化的集成 特征选择方法及系统。
技术介绍
生物组学数据主要是包括基因组学、蛋白质组学、代谢组学、转录组学、免疫组学、 脂类组学等组学数据的统称。通过生物组学数据的分析可以帮助我们深入了解很多生物过 程和疾病机理,识别到相关的生物标记物。分类学习是生物组学中最常见的分析手段之一。 然而,生物组学数据所具有的高维小样本特点对分类学习性能表现形成一大挑战。通过使 用特征选择技术,可以剔除无关或冗余特征,使特征数量和样本数量处于相对均衡的比例 从而提高分类准确率和分类结果的可解释性。 根据是否使用学习方法评估特征子集,可以将特征选择方法分为主要的三类:(1) 过滤式方法(Filter Methods) ; (2)封装式方法(Wrapper Method) ; (3)嵌入式方法 (Embedded Method)。过滤式方法根据数据特征的统计分布特性对特征的优劣性进行评估。 由于过滤式方法没有考虑学习方法,它选取的特征子集往往不能满足学习方法的要求。封 装式方法正好相反,封装式方法使用学习方法对候选特征子集进行测试,可以找到更加匹 配学习方法的特征子集。嵌入式方法把特征选择过程嵌入到分类学习训练过程中,此类方 法只适用于某些特定类型的分类学习过程。 如何在高维空间中寻找与识别问题高度相关的特征子集(最优或次优特征所组成 的集合)是特征选择技术的关键。常用的特征选择搜索方法包括:穷举搜索、启发式搜索、随 机搜索。生物启发式进化算法具有在高维空间中全局最优值收敛速度快等特点,已被越来 越多地应用于特征选择问题。如基于遗传算法(Genetic Algorithm,GA)和差分进化 (Differential Evolution,DE)的特征选择方法在相关的高维特征选择问题都获得了成 功,粒子群优化(Particle Swarm Optimization,PS0)因其较高搜索效率,也常被用作特征 子集搜索方法。 上述搜索方法只能获得一个最优或次优特征子集,而根据此单一子集建立的分类 器在小样本生物组学数据上容易产生过拟合,影响分类模型泛化性能。 因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供一种带约束小生境二进制粒子 群优化方法及系统,旨在解决现有的特征选择方法容易在小样本生物组学数据上产生过拟 合、影响分类泛化性能的问题。 本专利技术的技术方案如下: -种带约束小生境粒子群优化的集成特征选择方法,其中,包括步骤: A、采用带约束小生镜粒子群优化算法对训练数据集进行处理,以对训练数据集中 的粒子位置和速度进行优化,形成K个最优或次优特征子集; Β、将这Κ个最优或次优特征子集对应过滤为Κ个子训练数据集,在每一个子训练数 据集上进行分类学习并建立对应的Κ个基分类器,将测试数据集分别在这Κ个基分类器上做 分类预测并投票决策最后的分类结果。 所述的带约束小生境粒子群优化的集成特征选择方法,其中,对训练数据集中的 粒子位置和速度进行优化时,在第t次迭代时,记粒子群中第i个粒子的位置为Χ^=( Χι1\ Xl2t,…,XlMt),M为搜索空间维数,其中X,表示第i个粒子所选择的特征集合, Xl/表示第i个 粒子所代表的特征集合中第j个特征的选择状态:置位1表示被选中,清零0表示未被选中。 所述的带约束小生境粒子群优化的集成特征选择方法,其中,第i个粒子在第t次 迭代时,其第j个特征的速度为Vl/,位置为 Xl/,则有: r是在间的随机数,Ρ是在间的预设抑制因子,Vmax是粒子速度最大值。 所述的带约束小生境粒子群优化的集成特征选择方法,其中,第i个粒子在第t次 迭代时,其第j个特征的个体最优位置pbestd,它所在的小生境中适应度最好的粒子的位 置为nbesti/,则: 其中CjPC2是加速度常量,r#Pr2是在间的随机数,Q max和ΩΜη分别是Ω的 预设上界和下界,Imax为预设的最大迭代次数。 -种带约束小生境粒子群优化的集成特征选择系统,其中,包括: 优化模块,用于采用带约束小生镜粒子群优化算法对训练数据集进行处理,以对 训练数据集中的粒子位置和速度进行优化,形成K个最优或次优特征子集; 分类模块,用于将这K个最优或次优特征子集对应过滤为K个子训练数据集,在每 一个子训练数据集上进行分类学习并建立对应的K个基分类器,将测试数据集分别在这K个 基分类器上做分类预测并投票决策最后的分类结果。 所述的带约束小生境粒子群优化的集成特征选择系统,其中,对训练数据集中的 粒子位置和速度进行优化时,在第t次迭代时,记粒子群中第i个粒子的位置为Χ^=( Χι1\ Xl2t,…,XlMt),M为搜索空间维数,其中X,表示第i个粒子所选择的特征集合, Xl/表示第i个 粒子所代表的特征集合中第j个特征的选择状态:置位1表示被选中,清零0表示未被选中。 所述的带约束小生境粒子群优化的集成特征选择系统,其中,第i个粒子在第t次 迭代时,其第j个特征的速度为Vl/,位置为Xl/,则有: r是在间的随机数,Ρ是在间的预设抑制因子,Vmax是粒子速度最大值。 所述的带约束小生境粒子群优化的集成特征选择系统,其中,第i个粒子在第t次 迭代时,其第j个特征的个体最优位置pbestd,它所在的小生境中适应度最好的粒子的位 置为nbesti/,则: 其中CjPC2是加速度常量,r#Pr2是在间的随机数,Qmax和Ω Μη分别是Ω的 预设上界和下界,Imax为预设的最大迭代次数。 有益效果:本专利技术针对生物组学数据高维小样本的特点而引起的分类误差较大的 问题,提出了一种基于带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用 二进制粒子群优化算法搜索分类准确率最高的特征子集,通过约束粒子编码的置位个数以 限制选择特征个数,并加入多模优化中的小生境技术使算法能够一次找到多个差异度较大 的特征子集。【附图说明】 图1为本专利技术一种带约束小生境二进制粒子群优化方法较佳实施例的流程图。 图2为本专利技术一种带约束小生境二进制粒子群优化方法具体实施例的流程图。【具体实施方式】 本专利技术提供一种带约束小生境二进制粒子群优化方法及系统,为使本专利技术的目 的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述 的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。 本专利技术所提供的一种带约束小生境二进制粒子群优化方法,如图1所示,其包括步 骤: S1、采用带约束小生镜粒子群优化算法对训练数据集进行处理,以对训练数据集 中的粒子位置和速度进行优化,形成K个最优或次优特征子集; S2、将这K个最优或次优特征子集对应过滤为K个子训练数据集,在每一个子训练 数据集上进行分类学习并建立对应的K个基分类器,将测试数据集分别在这K个基分类器上 做分类预测并投票决策最后的分类结果。如图2所示,采用带约束小生镜粒子群优化算法进行处理时,其包括步骤: 粒子初始化处理; 计算粒子适应度; 确定小生镜种群中心; 更新种群粒子速度;更新种群粒子位置。 对训练数据集中的粒子位置和速度进行优化时,在第t次迭代时,记粒子群中第i 个粒子的位置为XitzUu'本文档来自技高网
...

【技术保护点】
一种带约束小生境粒子群优化的集成特征选择方法,其特征在于,包括步骤:A、采用带约束小生镜粒子群优化算法对训练数据集进行处理,以对训练数据集中的粒子位置和速度进行优化,形成K个最优或次优特征子集;B、将这K个最优或次优特征子集对应过滤为K个子训练数据集,在每一个子训练数据集上进行分类学习并建立对应的K个基分类器,将测试数据集分别在这K个基分类器上做分类预测并投票决策最后的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨峻山纪震朱泽轩周家锐殷夫
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1