当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于mvAUC的互补差异表达基因选取方法技术

技术编号:28471106 阅读:18 留言:0更新日期:2021-05-15 21:38
本发明专利技术提出一种基于多变量AUC的特征选择方法,从癌症的差异表达数据中选择最互补的基因子集,实现全局分类性能最大化。本发明专利技术首先基于特征的可能误分类集提出一种AUC计算的新角度;然后对于一个特征集,确定其共同可能误分类集并计算每个特征组合后的新AUC;一个特征的新AUC与原始AUC的差值展示了组合后特征集中的其他特征对该特征分类能力的互补作用。最后基于特征组合后的新AUC计算mvAUC,并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。本发明专利技术方法具有可以直接评估被选特征子集的全局类辨别能力的优点,不需要成对地计算候选特征和每个被选特征之间的冗余信息。息。息。

【技术实现步骤摘要】
一种基于mvAUC的互补差异表达基因选取方法


[0001]本专利技术属于数据挖掘
,特别是涉及一种基于mvAUC的互补差异表达基因选取方法。

技术介绍

[0002]在生物医学领域,随着新一代测序技术(NGS)的快速发展与不断成熟,测序成本大大降低,癌症基因表达等数据快速积累,基于NGS大数据的分析与应用成长很快。基因表达数据集通常包含成千上万甚至数十万的基因,和相对少量的数百到上千个样本。在这成千上万的基因中,仅仅只有少部分基因与癌症的发生有关,大量不相关的冗余基因的存在会严重影响到数据的分析,并导致偏差。因此识别出对癌症分类最有贡献的基因显得愈发重要。这一识别过程被称为基因选择,其关键是建立一种评价标准来选择出最具辨别能力的基因子集,从而达到降低空间维度以及提高分类精度和发现潜在目标基因的目的。
[0003]在机器学习和数据挖掘领域,基因选择被称为特征选择,也即基因的筛选,可以采用机器学习中的特征选择技术来实现。机器学习中的特征选取方法有很多种,许多特征选择方法是通过度量特征与类的相关信息,来选择对类的辨别能力最强的特征子集。如FAST和Relief等特征选择方法,评估每一个候选特征与类的相关性,将相关性高的特征加入到被选特征子集。但该类方法没有考虑特征间的冗余,可能会导致所选特征高度相关,因此导致多个强辨别能力的特征在组合后的联合分类性能不一定会优于弱辨别能力的特征的组合。针对这一问题,大量研究开始着眼于降低特征间冗余。如ARCO、mRMR和CIFE等方法,通过度量特征间的相关性来评估特征冗余,选择与类相关性高而彼此间相关性低的特征加入被选特征子集。然而,整体上为分类提供大量信息来实现全局类辨别能力最大化的特征并不一定是不相关的,更可能是互补的特征。且无论是衡量类相关信息还是冗余信息,这些方法都没有考虑在加入新特征时,被选特征子集为识别目标类而保留的信息。对于两个与类的相关性相同的特征,它们对被选特征子集的影响可能是完全不同的。此外,出于实际计算可行性的考虑,目前现有的方法均是以成对的方式来计算类相关信息和特征间的相关性。这可能会过高地估计特征对类的识别能力以及特征间的冗余,忽略被选特征子集整体上的相互合作和对全局分类性能的作用。本专利技术正是考虑到以上问题,提出一种基于mvAUC的互补差异表达基因选取方法。

技术实现思路

[0004]本专利技术提供一种基于mvAUC的互补差异表达基因选取方法,从癌症的差异表达数据中选择最互补的基因子集,实现全局分类性能最大化。该方法具有可以直接评估被选特征子集的全局辨别能力的优点,不需要成对地计算候选特征和每个被选特征之间的冗余信息。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种基于mvAUC的互补差异表达基因选取方法,包括以下步骤:
[0007]对每个基因特征,计算其有序的可能误分类集OPMS;
[0008]对于一个特征集,确定其共同的可能误分类集PMS并计算每个特征基于可能误分类集的新AUC;
[0009]基于基因特征组合后的新AUC计算mvAUC,并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。
[0010]优选地,所述AUC定义为ROC曲线下方的面积,公式为:
[0011][0012]其中,θ为给定的分类阈值,F(θ)表示被错误地分类为正类的负实例,P(θ)表示被正确地分类为正类的正实例;
[0013]AUC值代表该特征能够正确分类的样本信息,AUC越大,特征与目标类越相关,特征的分类能力越强;
[0014]AAC为ROC曲线上方的面积,公式为:
[0015][0016]其中θ为给定的分类阈值,F(θ)表示被错误地分类为正类的负实例,P(θ)表示被正确地分类为正类的正实例;
[0017]AAC值越小,表示特征有更强的类辨别能力,AAC表示的是特征可能误分类的样本信息,此处将特征的可能误分类样本所组成的集合定义为可能误分类集PMS。
[0018]优选地,所述ROC曲线是一个以假阳率F(θ)为x轴,真阳率P(θ)为y轴的二维图,用来表示一个特征的分类能力。
[0019]优选地,所述可能误分类集的新AUC计算的步骤为:
[0020]计算有序的可能误分类集:令X表示包含n个实例的数据集,每个实例x
i
均由中的m个特征表示,x
ij
指的是在特征f
j
上实例x
i
的值;n0和n1分别表示数据集中正负类实例的数量,且n0+n1=n,对于一个特征f,将数据集X中的所有样本根据它们在所述特征f上的值升序排列,获得一个有序的样本序列集
[0021]约定所述序列左端第一个样本属于负类,分别从序列的左右两边遍历,左端第一个正类样本和右端第一个负类样本分别记为和则到区间内的样本序列被定义为有序的可能误分类集OPMS,该序列中所有样本组成的集合即为可能误分类集PMS;
[0022]将所述OPMS中的某一正实例的取值看作阈值θ,则该实例右侧的所有负样本和正样本分别为假阳类和真阳类,从右到左将OPMS中的每个正样本依次看作阈值,则AAC的计算公式为:
[0023][0024]其中表示该计算是在有序的可能误分类集OPMS上进行的,k指OPMS中从右端开始,第k个正实例,n0和n1分别表示数据集中正负类实例的数量,n

是OPMS中正类实例数目,FP
l
是从右端起第l

1到第l个正类实例之间假阳类样例数目;
[0025]最终基于OPMS的AUC表达式为:
[0026]AUC=1

AAC
[0027]如果OPMS为空,则所有正类实例的排名都将高于负类实例,此时AAC=0,AUC=1,则所有实例都能够被正确地分为两类。
[0028]优选地,所述确定其共同可能误分类集并计算每个特征组合后的新AUC的具体步骤为:
[0029]计算组合特征的共同可能误分类集;计算组合后的单特征的新OPMS;计算组合特征的mvAUC。
[0030]优选地,对于一个特征集合F,所述F中的所有特征均不能正确分类的样本所组成的集合,为特征组合后的共同可能误分类集,表示为:
[0031][0032]其中,F是特征集合,M
F
是特征集合F的共同可能误分类集,f
j
是特征集合F中的一个特征,指特征f
j
原始的可能误分类集PMS。
[0033]优选地,所述特征集合F中的每一个特征f
j
,其与其他特征组合后的新OPMS均是由M
F
中的所有实例组成,将M
F
中的所有实例按照在所述特征f
j
上的值升序排列,得到特征f
j
的新OPMS。
[0034]优选地,各个特征在其各自新的OPMS上计算得到组合后的新AUC值,特征组合中所有特征的新A本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于mvAUC的互补差异表达基因选取方法,其特征在于,包括以下步骤:对每个基因特征,计算其有序的可能误分类集OPMS;对于一个特征集,确定其共同的可能误分类集PMS并计算每个特征基于可能误分类集的新AUC;基于基因特征组合后的新AUC计算mvAUC,并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。2.根据权利要求1所述的基于mvAUC的互补差异表达基因选取方法,其特征在于,所述AUC定义为ROC曲线下方的面积,公式为:AUC=∫
01
P(θ)dF(θ)其中,θ为给定的分类阈值,F(θ)表示被错误地分类为正类的负实例,P(θ)表示被正确地分类为正类的正实例;AUC值代表该特征能够正确分类的样本信息,AUC越大,特征与目标类越相关,特征的分类能力越强;AAC为ROC曲线上方的面积,公式为:AAC=∫
01
F(θ)dP(θ)其中θ为给定的分类阈值,F(θ)表示被错误地分类为正类的负实例,P(θ)表示被正确地分类为正类的正实例;AAC值越小,表示特征有更强的类辨别能力,AAC表示的是特征可能误分类的样本信息,此处将特征的可能误分类样本所组成的集合定义为可能误分类集PMS。3.根据权利要求2所述的基于mvAUC的互补差异表达基因选取方法,其特征在于,所述ROC曲线是一个以假阳率F(θ)为x轴,真阳率P(θ)为y轴的二维图,用来表示一个特征的分类能力。4.根据权利要求1所述的基于mvAUC的互补差异表达基因选取方法,其特征在于,所述可能误分类集的新AUC计算的步骤为:计算有序的可能误分类集:令X表示包含n个实例的数据集,每个实例x
i
均由和的m个特征表示,x
ij
指的是在特征f
j
上实例x
i
的值;n0和n1分别表示数据集中正负类实例的数量,且n0+n1=n,对于一个特征f,将数据集X中的所有样本根据它们在所述特征f上的值升序排列,获得一个有序的样本序列集约定所述序列左端第一个样本属于负类,分别从序列的左右两边遍历,左端第一个正类样本和右端第一个负类样本分别记为和则到区间内的样本序列被定义为有序的可能误分类集OPMS,该序列中所有样本组成的集合即为可...

【专利技术属性】
技术研发人员:卫金茂苏月杜科宇刘健
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1