当前位置: 首页 > 专利查询>深圳大学专利>正文

多类不平衡基因组学数据迭代集成特征选择方法及系统技术方案

技术编号:12992029 阅读:98 留言:0更新日期:2016-03-10 02:29
本发明专利技术公开多类不平衡基因组学数据迭代集成特征选择方法及系统。本发明专利技术针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学习技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。

【技术实现步骤摘要】

本专利技术涉及特征选择和识别领域,尤其涉及多类不平衡基因组学数据迭代集成特征选择方法及系统
技术介绍
基因组微阵列技术已在癌症诊断中得到广泛的应用,识别和确定与癌症相关的基因仍然是一大挑战。基因组微阵列数据通常具有成千上万个基因,在这些基因中发现与癌症相关的潜在标志物或基因集合是非常重要的任务。如果从机器学习角度分析这类基因选择问题,其可以看成是特征选择问题。特征选择的目标是把与类标高度相关的特征识别出来。根据是否使用学习方法评估特征子集,可以将特征选择方法分为主要的三类:(1)过滤式方法(FilterMethods);(2)封装式方法(WrapperMethod);(3)嵌入式方法(EmbeddedMethod)。过滤式方法根据数据特征的统计分布特性对特征的优劣性进行评估。由于过滤式方法没有考虑学习方法,它选取的特征子集往往不能满足学习方法的要求。封装式方法正好相反,封装式方法使用学习方法对候选特征子集进行测试,可以找到更加匹配学习方法的特征子集。嵌入式方法把特征选择过程嵌入到分类学习训练过程中,此类方法只适用于某些特定类型的分类学习过程。基于特征选择的多类标的癌症预测已经引起业界广泛的兴趣。对于多类标数据问题的解决,通常有三种框架:(1)将已有两分类分类器改为多类标分类器。(2)将多类数据的分类问题改为若干个一对多分类问题,并将这些分类结果集成为最终的分类结果。(3)将多类数据的分类问题看成若干个子类之间的分类把问题,并将这若干个子类分类结果集成为最终的分类结果。由于大量基因组学存在多类标和以及类标之间样本量不平衡的特点,而现有的特征选择方法往往忽略了基因组学数据不平衡的样本分布特点,导致这些方法常包含以下缺陷:第一,由于没有充分考虑基因组学数据多类不平衡分布的影响,基于这些特征搜索算法搜索出来的特征而训练的分类器对于预测小类样本的分类准确率较低。第二,由于基因组学数据多类不平衡分布的特点,已有的特征搜索算法所搜索出的特征通常都与大类样本高度相关,却忽略了与小类类标高度相关的特征。因此,现有技术还有待于改进和发展。
技术实现思路
鉴于上述现有技术的不足,本专利技术的目的在于提供多类不平衡基因组学数据迭代集成特征选择方法及系统,旨在解决现有的特征选择方法对于预测小类样本的分类准确率较低、忽略了与小类类标高度相关的特征等问题。本专利技术的技术方案如下:一种多类不平衡基因组学数据迭代集成特征选择方法,其中,包括步骤:A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,特征选择采用过滤方式实现。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤B中,过采样过程中,将小类样本的数量增加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如下:Mi=SM-SmT]]>SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T为迭代次数。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,在每一次迭代中的特征选择过程中,每一次所减少的特征个数Ni为:Ni=NM-NnT]]>NM为子数据集的特征个数,Nn为最终选择特征个数。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤D中的分类器为SVM分类器或kNN分类器。所述的多类不平衡基因组学数据迭代集成特征选择方法,其中,所述步骤E之后还包括:当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。一种多类不平衡基因组学数据迭代集成特征选择系统,其中,包括:分组模块,用于将多类不平衡基因组学数据分为K份具有两类样本的子数据集;迭代模块,用于对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;剔除模块,用于将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;训练模块,用于将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;投票模块,用于根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。所述的多类不平衡基因组学数据迭代集成特征选择系统,其中,还包括:分类模块,用于当一个新的测试数据集进入到强分类器分类时,根据所述强分类器预测新的测试数据集中的数据分类。所述的多类不平衡基因组学数据迭代集成特征选择系统,其中,所述迭代模块中,过采样的方法为SMOTE过采样方法,欠采样的方法为随机欠采样。有益效果:本专利技术针对多类标基因组学数据存在数据分布不平衡的特点,提出了一种迭代式的特征选择方法,在一对多集成分类器的基础上,将欠采样或过采样和特征选择迭代运行,使子数据集的样本随着特征数量的递减,逐渐达到平衡状态。采用此过程集成后的分类器可以明显提高对小类样本的分类识别能力。由于采用集成学习技术,集成基于子平衡数据训练的弱分类器为强分类器,可以明显提高分类准确率。附图说明图1为本专利技术多类不平衡基因组学数据迭代集成特征选择方法的流程图。具体实施方式本专利技术提供多类不平衡基因组学数据迭代集成特征选择方法及系统,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,图1为本专利技术所提供的一种多类不平衡基因组学数据迭代集成特征选择方法的流程图,其包括步骤:S1、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;S2、对于每份子数据集,使用过采本文档来自技高网
...
多类不平衡基因组学数据迭代集成特征选择方法及系统

【技术保护点】
一种多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,包括步骤:A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选择的数量随迭代过程逐渐减少到指定数量;C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子数据;D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的分类器;E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类器。

【技术特征摘要】
1.一种多类不平衡基因组学数据迭代集成特征选择方法,其特征在于,
包括步骤:
A、将多类不平衡基因组学数据分为K份具有两类样本的子数据集;
B、对于每份子数据集,使用过采样和欠采样的方法将两类样本的数量
通过迭代的过程达到平衡,并在每一次迭代过程中进行特征选择,特征选
择的数量随迭代过程逐渐减少到指定数量;
C、将特征选择过程中不需要的特征删除掉,得到特征选择后的平衡子
数据;
D、将每个特征选择后的平衡子数据作为分类器的训练数据训练对应的
分类器;
E、根据训练好的K个分类器,将每个分类器投票集成为最后的强分类
器。
2.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择
方法,其特征在于,所述步骤B中,过采样的方法为SMOTE过采样方法,
欠采样的方法为随机欠采样。
3.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择
方法,其特征在于,所述步骤B中,特征选择采用过滤方式实现。
4.根据权利要求1所述的多类不平衡基因组学数据迭代集成特征选择
方法,其特征在于,所述步骤B中,过采样过程中,将小类样本的数量增
加Mi个,欠采样过程中,将大类样本的数量减少Mi个,Mi的取值定义如
下:
Mi=SM-SmT]]>SM为子数据集中大类样本的数量,Sm为子数据集中小类样本的数量,T

\t为迭代次数。
5.根据权利要求4所述的多类不平衡基因组学数据迭代集成特征选择
方法,其特征在于,在每一次迭代中的特征选择过程中,每一次所减少的
特征个数Ni为:
Ni=NM-NnT]]>NM为子数据集的特...

【专利技术属性】
技术研发人员:杨峻山纪震朱泽轩周家锐殷夫
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1