一种基于mvAUC的互补差异表达基因选取方法技术

技术编号：28471106 阅读：18 留言：0更新日期：2021-05-15 21:38

本发明专利技术提出一种基于多变量AUC的特征选择方法，从癌症的差异表达数据中选择最互补的基因子集，实现全局分类性能最大化。本发明专利技术首先基于特征的可能误分类集提出一种AUC计算的新角度；然后对于一个特征集，确定其共同可能误分类集并计算每个特征组合后的新AUC；一个特征的新AUC与原始AUC的差值展示了组合后特征集中的其他特征对该特征分类能力的互补作用。最后基于特征组合后的新AUC计算mvAUC，并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。本发明专利技术方法具有可以直接评估被选特征子集的全局类辨别能力的优点，不需要成对地计算候选特征和每个被选特征之间的冗余信息。息。息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于mvAUC的互补差异表达基因选取方法

[0001]本专利技术属于数据挖掘
，特别是涉及一种基于mvAUC的互补差异表达基因选取方法。

技术介绍

[0002]在生物医学领域，随着新一代测序技术(NGS)的快速发展与不断成熟，测序成本大大降低，癌症基因表达等数据快速积累，基于NGS大数据的分析与应用成长很快。基因表达数据集通常包含成千上万甚至数十万的基因，和相对少量的数百到上千个样本。在这成千上万的基因中，仅仅只有少部分基因与癌症的发生有关，大量不相关的冗余基因的存在会严重影响到数据的分析，并导致偏差。因此识别出对癌症分类最有贡献的基因显得愈发重要。这一识别过程被称为基因选择，其关键是建立一种评价标准来选择出最具辨别能力的基因子集，从而达到降低空间维度以及提高分类精度和发现潜在目标基因的目的。
[0003]在机器学习和数据挖掘领域，基因选择被称为特征选择，也即基因的筛选，可以采用机器学习中的特征选择技术来实现。机器学习中的特征选取方法有很多种，许多特征选择方法是通过度量特征与类的相关信息，来选择对类的辨别能力最强的特征子集。如FAST和Relief等特征选择方法，评估每一个候选特征与类的相关性，将相关性高的特征加入到被选特征子集。但该类方法没有考虑特征间的冗余，可能会导致所选特征高度相关，因此导致多个强辨别能力的特征在组合后的联合分类性能不一定会优于弱辨别能力的特征的组合。针对这一问题，大量研究开始着眼于降低特征间冗余。如ARCO、mRMR和CIFE等方法，通过度量特征间的相关性来评估特征冗余，选择...

【技术保护点】

【技术特征摘要】
1.一种基于mvAUC的互补差异表达基因选取方法，其特征在于，包括以下步骤：对每个基因特征，计算其有序的可能误分类集OPMS；对于一个特征集，确定其共同的可能误分类集PMS并计算每个特征基于可能误分类集的新AUC；基于基因特征组合后的新AUC计算mvAUC，并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。2.根据权利要求1所述的基于mvAUC的互补差异表达基因选取方法，其特征在于，所述AUC定义为ROC曲线下方的面积，公式为：AUC＝∫
01
P(θ)dF(θ)其中，θ为给定的分类阈值，F(θ)表示被错误地分类为正类的负实例，P(θ)表示被正确地分类为正类的正实例；AUC值代表该特征能够正确分类的样本信息，AUC越大，特征与目标类越相关，特征的分类能力越强；AAC为ROC曲线上方的面积，公式为：AAC＝∫
01
F(θ)dP(θ)其中θ为给定的分类阈值，F(θ)表示被错误地分类为正类的负实例，P(θ)表示被正确地分类为正类的正实例；AAC值越小，表示特征有更强的类辨别能力，AAC表示的是特征可能误分类的样本信息，此处将特征的可能误分类样本所组成的集合定义为可能误分类集PMS。3.根据权利要求2所述的基于mvAUC的互补差异表达基因选取方法，其特征在于，所述ROC曲线是一个以假阳率F(θ)为x轴，真阳率P(θ)为y轴的二维图，用来表示一个特征的分类能力。4.根据权利要求1所述的基于mvAUC的互补差异表达基因选取方法，其特征在于，所述可能误分类集的新AUC计算的步骤为：计算有序的可能误分类集：令X表示包含n个实例的数据集，每个实例x
i
均由和的m个特征表示，x
ij
指的是在特征f
j
上实例x
i
的值；n0和n1分别表示数据集中正负类实例的数量，且n0+n1＝n，对于一个特征f，将数据集X中的所有样本根据它们在所述特征f上的值升序排列，获得一个有序的样本序列集约定所述序列左端第一个样本属于负类，分别从序列的左右两边遍历，左端第一个正类样本和右端第一个负类样本分别记为和则到区间内的样本序列被定义为有序的可能误分类集OPMS，该序列中所有样本组成的集合即为可...

【专利技术属性】
技术研发人员：卫金茂，苏月，杜科宇，刘健，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人