一种带约束小生境粒子群优化的集成特征选择方法及系统技术方案

技术编号：13187440 阅读：142 留言：0更新日期：2016-05-11 17:22

本发明专利技术公开一种带约束小生境粒子群优化的集成特征选择方法及系统。本发明专利技术针对生物组学数据高维小样本的特点而引起的分类误差较大的问题，提出了一种基于带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用二进制粒子群优化算法搜索分类准确率最高的特征子集，通过约束粒子编码的置位个数以限制选择特征个数，并加入多模优化中的小生境技术从而能够一次找到多个差异度较大的特征子集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及特征选择和识别领域，尤其涉及一种带约束小生境粒子群优化的集成特征选择方法及系统。
技术介绍
生物组学数据主要是包括基因组学、蛋白质组学、代谢组学、转录组学、免疫组学、脂类组学等组学数据的统称。通过生物组学数据的分析可以帮助我们深入了解很多生物过程和疾病机理，识别到相关的生物标记物。分类学习是生物组学中最常见的分析手段之一。然而，生物组学数据所具有的高维小样本特点对分类学习性能表现形成一大挑战。通过使用特征选择技术，可以剔除无关或冗余特征，使特征数量和样本数量处于相对均衡的比例从而提高分类准确率和分类结果的可解释性。根据是否使用学习方法评估特征子集，可以将特征选择方法分为主要的三类：（1) 过滤式方法（Filter Methods) ; (2)封装式方法（Wrapper Method) ; (3)嵌入式方法 (Embedded Method)。过滤式方法根据数据特征的统计分布特性对特征的优劣性进行评估。由于过滤式方法没有考虑学习方法，它选取的特征子集往往不能满足学习方法的要求。封装式方法正好相反，封装式方法使用学习方法对候选特征子集进行测试，可以找到更加匹配学习方法的特征子集。嵌入式方法把特征选择过程嵌入到分类学习训练过程中，此类方法只适用于某些特定类型的分类学习过程。如何在高维空间中寻找与识别问题高度相关的特征子集(最优或次优特征所组成的集合)是特征选择技术的关键。常用的特征选择搜索方法包括:穷举搜索、启发式搜索、随机搜索。生物启发式进化算法具有在高维空间中全局最优值收敛速度快等特点，已被越来越多地...

【技术保护点】
一种带约束小生境粒子群优化的集成特征选择方法，其特征在于，包括步骤：A、采用带约束小生镜粒子群优化算法对训练数据集进行处理，以对训练数据集中的粒子位置和速度进行优化，形成K个最优或次优特征子集；B、将这K个最优或次优特征子集对应过滤为K个子训练数据集，在每一个子训练数据集上进行分类学习并建立对应的K个基分类器，将测试数据集分别在这K个基分类器上做分类预测并投票决策最后的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨峻山，纪震，朱泽轩，周家锐，殷夫，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人