一种基于近邻传播聚类的集成分类器构建方法技术

技术编号:13248169 阅读:73 留言:0更新日期:2016-05-15 11:55
一种基于近邻传播聚类的集成分类器构建方法,包括以下步骤:S1、数据预处理;S2、获取特征距离负矩阵;S3、利用近邻传播聚类算法对特征进行聚类;S4、构建基分类器;S5、重复S4,直到基分类器数量达到预设值;S6、筛选基分类器;S7、基分类器集成。本发明专利技术能够与现有的特征过滤方法配合使用,具有更广阔的运用前景;采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组,并在此基础上采用随机选择的方式构建特征子空间,从而可以获得存在差异性和更优的基分类器;利用多数投票法进行融合基分类器,本发明专利技术的方法能够获得更好的分类效果,同时分类性能稳定。

【技术实现步骤摘要】

本专利技术涉及生物信息学和数据挖掘领域。尤其是针对于基因表达数据的一种基于 近邻传播聚类的集成分类器构建方法。
技术介绍
癌症(Cancer),亦称恶性肿瘤(Malignant neoplasm),是由控制细胞生长的增殖 机制失常而引起的疾病,于2011年,超过心脏病,成为全球第一大死亡原因,而且年新增病 例每年都在增加。联合国2014年2月发布的《World Cancer Report2014》报告中指出,2012 年的新增癌症病例达1400万人,到2030年,新增癌症病例还将增加50%,达到每年2160万 人。中国的新增癌症病例前景堪忧。报告中指出2012年确诊的新增癌症病例有近一半出现 在亚洲,其中大部分在中国,而整个欧洲的新增病例才接近1/4,美洲约占1/5,非洲和中东 则刚刚超过8 %。 基因芯片技术为癌症诊断研究提供了高效、客观的研究方法。基因芯片(Gene Chip)技术,又称DNA微阵列(DNAMicroarray)技术,是20世纪90年代生物学领域的一项重大 技术突破,采用cDNA或寡核苷酸片段作为探针,利用4种核苷酸之间互补配对的特性,能够 同时快速地检测待测样本细胞或组织中mRNA丰度,进而获得待测样本的基因表达信息。这 使研究者们能够同时获得研究对象在任意条件、任意时间下成千上万基因的表达模式,从 基因分子层面上研究癌症的产生与发展,为了解癌症、预防癌症、癌症诊断以及遴选抗癌药 物等提供了更加快捷、准确的方法手段。自1999年Golub等在Science杂志上发表题为 ((Molecular Classification of Cancer : Class Discoveryand Class PredictionbyGeneExpression Monitoring》的文章以来,采用基因芯片技术研究癌症诊断 问题引起了研究者们的极大兴趣,并逐渐发展成为了生物信息学领域的研究热点之一。 基于基因芯片技术的癌症诊断研究可以看成是对癌症相关的基因表达数据的分 类分析。近些年来,很多分类方法被成功应用到对基因表达数据分类当中,如k-近邻(K Nearest Neighbors ,ΚΝΝ)、支持向量机(Support Vector Machine,SVM)、贝叶斯(Na'ive Bayes,NB)、决策树(Decision Tree,DT)以及Fisher 线性判别分析(Linear DiscriminantAnalysis,LDA)等。然而,对同一数据集不同分类器的分类能力不尽相同;而 对同一个分类器不同数据集的分类性能也并非都很好。于是,分类性能稳定、鲁棒性更好的 集成学习(Ensemble Learning)方法成为基因表达数据分类的重要研究内容。 集成学习是近20年来机器学习研究的热点内容,通过采用多个分类器对同一个问 题进行学习,并把多个学习结果按照某一方式融合成一个学习结果。Dietterich分别从统 计、计算和表示三个方面对集成分类方法有效的原因进行了分析,并指出集成学习有效的 充要条件是个体分类的精度高(所有个体分类器错误率都应当低于0.5)而且是相互独立的 (集成分类器中每个分类器之间错误独立的)。与个体分类器相比,集成学习能够显著地提 高分类模型的泛化能力和预测准确性,因而被广泛应用到数据挖掘的各个研究领域,尤其 是基因表达数据分析领域。 采用集成学习方法对癌症相关的基因表达数据进行研究具有以下意义: (1)提高癌症诊断准确性。在癌症诊断研究中,如何对测试样本给予一个精确的判 断是一个重要的目标。采用单一的分类器获得较高的分类精度并非一件容易的事情,而且 单个分类器的学习能力是有局限的。为获得更好的分类效果,集成学习方法把多个不同预 测结果有效结合起来,其预测精度通常比只使用一个分类器精度要高。 (2)增强预测模型的稳定性。单分类器的预测性能通常不太稳定,容易受训练数据 集和所选分类算法的影响,即不同类型的数据集、或数据集的扰动、或选择不同的分类算法 等都能够影响分类模型的训练预测结果。采用集成学习的方法,在一定程度上能够降低诊 断模型受这些因素的影响,在更多的应用当中获得稳定的预测结果。 (3)降低分类模型过拟合问题。采用已知的数据集合进行训练单分类器时,通常选 择适应度最好的训练模型作为最终分类器,这使得单个分类器模型能够很好的拟合训练数 据。但当训练数据与测试数据样本分布不一致时,训练所得到分类模型在测试数据上可能 得到一个较差的分类效果,即分类模型出现了过拟合的现象。集成学习方法训练多个存在 差异性的分类模型分别进行预测,能够从多个方面认知预测对象,在很大程度上避免过拟 合现象的产生,从而提高测试数据的预测精度。 (4)降低高维度的对分类的影响。在基因表达数据分类时,高维度问题困扰了很多 分类算法,在分类前通常需要进行特征(基因)选择,而且其选择的好坏也关系到分类效果 的好坏。许多基因选择方法通常选择少量的、类标记关联紧密的、彼此之间互不冗余的基因 组成基因子集用于分类,然而一个基因子集的分类能力是有限的,同时一个与类标记有关 联的、与已选基因相互冗余的基因对分类也会产生影响。采用基于特征选择的集成学习方 法,选择多个特征子集分别训练学习模型,然后再把这些模型有效融合,一方面能够把高维 度数据对象转换到低维度空间进行处理,降低高维度对分类产生的影响;另一方面可以产 生存在差异性的分类模型进行融合,避免基因选择导致的分类信息损失带来的影响,提高 模型的预测性能。而现有的集成学习方法普遍为不经过筛选的集成学习,其准确率有待提高,而由 于分类器集成最好要选择单个效果较好、且之间差异较大的个体,因此全部集成不一定能 得到最优解;另外,由于普通的聚类方法所产生的基分类器数量固定,并且个体之间差异性 也不够明显。
技术实现思路
本专利技术的目的是提供一种分类准确率高、性能稳定的基于近邻传播聚类的集成分 类器构建方法。 本专利技术解决现有技术问题所采用的技术方案:一种基于近邻传播聚类的集成分类 器构建方法,包括以下步骤: S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本 类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基因表达向量、基因 表达数据矩阵中除类标签所在列的列向量为基因;将基因表达数据矩阵中的所述样本基因 表达向量分组,并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵 中的列向量作为训练基因,对所述训练基因进行欠抽样;然后对每次欠抽样扰动后的训练 基因利用V检验进彳丁排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰 动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序 聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到 特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为 列向量组成矩阵特征子集; S2、获取特征距离负矩阵:包括以下步骤: A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样 本特征向量,并计算两样本特征向量X=(xl,x2,...,XM)和Y=(yl,y2,本文档来自技高网
...

【技术保护点】
一种基于近邻传播聚类的集成分类器构建方法,其特征在于,包括以下步骤:S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因;将基因表达数据矩阵中的所述样本基因表达向量分组,并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述训练基因进行欠抽样;然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集;S2、获取特征距离负矩阵:包括以下步骤:A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:bicor(X,Y)=Σi=1Mx~iy~i]]>其中:x~i=(xi-med(X))wi(x)Σk=1M[(xk-med(X))wk(x)]2]]>y~i=(yi-med(Y))wi(y)Σk=1M[(yk-med(Y))wk(y)]2]]>wi(x)=(1-ui2)2I(1-|ui|)]]>ui=xi-med(X)9mad(X)]]>I(1-|ui|)=1,1-|ui|>00,otherwise]]>med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):s(i,j)=(bicor(fi,fj)+12)β-1]]>其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集聚类为M1个簇集作为特征分组;S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器;S5、重复S4,直到基分类器数量达到预设值;S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:Kappa=pr(a)-pr(e)1-pr(e)]]>其中:Pr(a)=CAAL+CNNL]]>Pr(e)=CAA+CANL×CAA+CNAL+CNN+CANL×CNN+CNAL]]>kappa混合矩阵为:CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量,L为样本总数。S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基分类器的预测值进行融合,得到样本的预测值。...

【技术特征摘要】

【专利技术属性】
技术研发人员:孟军郝涵
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1