基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法技术

技术编号:20428626 阅读:24 留言:0更新日期:2019-02-23 09:44
本发明专利技术公开了一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,步骤为:首先,将肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;然后,引入离散约束方法和Schatten p范数对低秩矩阵进行约束,直接学习得到肿瘤基因表达谱数据的样本标签;最后,利用封顶范数对噪声矩阵进行优化,除去对原始肿瘤基因表达谱数据中的离群值得出最终的肿瘤基因表达谱数据聚类。本发明专利技术能完全去除离群值对肿瘤基因表达谱数据聚类的影响,从而提高肿瘤基因表达谱数据聚类的精度及鲁棒性。

【技术实现步骤摘要】
基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
本专利技术涉及一种肿瘤基因表达谱数据聚类方法,具体是一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法。
技术介绍
到目前为止,已经有超过100种不同的肿瘤危及人类健康。肿瘤基因表达谱数据中的样本类型可以通过肿瘤细胞中基因活性的分子模式来区分。近年来,随着DNA微阵列技术的快速发展,研究者能够同时观测数千个基因的表达水平,这样可以更加全面的研究肿瘤基因表达谱数据。当前分子生物学所面临的挑战是如何挖掘这些肿瘤基因表达谱数据中蕴含的重要信息,从而了解肿瘤的生物过程和发生机理。由于模式识别和机器学习的发展,提出了许多有效的方法来分析肿瘤基因表达谱数据,其中,聚类是一类用于发现肿瘤基因表达谱数据中具有相似分子表达模式的样本或基因的典型算法。许多传统的聚类方法,比如层次聚类,自组织映射和非负矩阵分解等已经成功应用于肿瘤基因表达谱数据聚类。层次聚类已成功应用于分析全基因组表达模式,识别不同类型的淋巴瘤等,然而,层次聚类的缺点是它对度量非常敏感,并且通常需要定义集群。自组织映射已成功用于识别白血病的亚型,但是由于自组织映射基于初始条件获得肿瘤基因表达谱数据的矩阵分解,因此其结果通常不稳定。通过实验对比,有学者证明了非负矩阵分解在肿瘤基因表达谱数据聚类中比层次聚类和自组织映射有更好的聚类精度和更稳定的实验结果。迄今为止,提出了许多基于非负矩阵分解的算法进行分析肿瘤基因表达谱数据,例如稀疏非负矩阵分解方法,多图正则化非负矩阵分解方法,半监督非负矩阵分解方法等等。虽然基于非负矩阵分解的方法成功用于肿瘤基因表达谱数据聚类中,但是聚类结果准确性较低,不能令人满意。最近,子空间聚类方法被提出用来提高聚类的准确性。子空间聚类方法假设原始数据中的数据点是从多个低维子空间的组合中抽取出来的。子空间聚类的目的是获得这样的多个低维子空间。也就是说,所有数据点应该被正确分割成多个类,并且每个类属于一个低维子空间。基于上述假设,传统的聚类方法往往难以获得高的聚类精度,因此提出了子空间聚类方法来解决这个问题。许多基于子空间聚类的方法已被提出。这些方法可以分为以下几类:基于统计的方法,基于因式分解的方法,基于代数的方法和基于谱聚类的方法。其中,基于谱聚类的子空间聚类方法成为当前的热点算法。最广泛使用的基于谱聚类的方法是低秩子空间聚类方法。低秩子空间聚类方法利用低秩表示来恢复多个低维子空间。低秩子空间聚类方法将子空间聚类分为两个步骤:构建邻接矩阵和谱聚类。低秩子空间聚类方法面临的主要挑战之一是如何定义一个好的邻接矩阵。例如,两个数据点之间的距离很近,但它们位于不同的子空间中;两个数据点之间的距离很远,但它们位于相同的子空间中。因此,定义一个好的邻接矩阵十分关键。此外,低秩子空间聚类方法将聚类问题转换为谱聚类中的图分割问题,分割策略的选择将直接影响聚类结果。为了解决上述问题,有学者提出了一种基于离散组结构约束的低秩子空间聚类算法(LRS)。LRS直接优化每个子空间的样本标签向量,得到了每个子空间的低秩表示,避免了传统低秩子空间聚类算法需要建立邻接矩阵和选择分割策略的问题。肿瘤基因表达谱数据聚类的一个巨大挑战是肿瘤基因表达谱数据中存在离群值,这极大地影响了各种算法对肿瘤基因表达谱数据的聚类精度。为了解决这个问题,一些鲁棒算法被提了出来,其中,由于L2,1范数可以减小数据中离群值的影响,被作为一种鲁棒方法广泛应用在肿瘤基因表达谱数据聚类中。但是,L2,1范数只是降低了离群值的影响,并不能完全除去离群值的影响。
技术实现思路
针对上述现有技术存在的问题,本专利技术提供一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,能完全去除离群值对肿瘤基因表达谱数据聚类的影响,从而提高肿瘤基因表达谱数据聚类的精度。为了实现上述目的,本专利技术采用的技术方案是:一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,具体步骤为:步骤A:采用主成分分析方法对原始肿瘤基因表达谱数据进行降维;步骤B:将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;步骤C:利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;步骤D:利用低秩矩阵和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schattenp范数进行低秩逼近;步骤E:采用封顶范数对噪声矩阵进行约束;步骤F:利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;步骤G:根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。进一步:所述步骤A中,给定原始肿瘤基因表达谱数据i=1,2,…N,其中M为原始肿瘤基因表达谱数据的基因维数,N为原始肿瘤基因表达谱数据的样本个数,首先计算原始肿瘤基因表达谱数据的总体协方差矩阵:式中,表示原始肿瘤基因表达谱数据的均值;采用主成分分析方法的目的是使得投影后的协方差最大化,其目标函数为:s.t.QTQ=I式中,I为单位矩阵,约束条件QTQ=I的作用是防止协方差的无限增大,由于S为非负定对称矩阵,由非负定矩阵的谱分解定理可知,假设λ为S的秩,则:S=λQ设λ1,λ2,…,λm为上式中前m个最大特征值,其对应的特征向量为q1,q2,…,qm;采用主成分分析法对原始肿瘤基因表达谱数据Y进行主成分特征提取,得到:X=(q1,q2,…,qm)Y=QY式中,表示经过主成分分析方法降维后的肿瘤基因表达谱数据。进一步:所述步骤B中,给定降维后的肿瘤基因表达谱数据X,将降维后的肿瘤基因表达谱数据X表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式,即:X=A+E。进一步:所述步骤C中,给定包含多个低秩子空间的低秩矩阵A,利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式。具体步骤如下:步骤C1:输入多个低秩子空间的低秩矩阵A,给定聚类类别数目c,在A中随机选取c个样本作为初始聚类中心;步骤C2:根据相似度准则将A中的每个样本分配到最接近的聚类中心,形成多个类;步骤C3:以每类的平均向量作为新的聚类的中心,更新聚类中心,重新分配样本;步骤C4:循环执行步骤C2和步骤C3直至满足终止条件,终止条件为所有样本所属的聚类中心都不再变化时算法收敛,得到每个类别的样本标签;步骤C5:定义每个低秩子空间为一个类别,根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量,其中,若一个样本属于某一低秩子空间,则该样本在该低秩子空间的样本标签向量中相应的值为1,否则,值为0。步骤C6:将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式。设第i个低秩子空间的样本标签向量表示为其中,若一个样本属于Ci,则该样本在Ci中相应的值为1,否则,值为0;第i个低秩子空间的离散约束对角矩阵形式表示为其中,Ii中每个对角元素的值对应Ci中相应位置元素的值,即Ii中第j个对角元素的值对应Ci中第j个元素的值。其次,利用降维后的肿瘤基因表达谱数据和离散约束方法表示每一个低秩子空间,即第i个低秩子空间可以表示为AIi,其中Ii的约束为表示在c个低秩子空间中,Ii是本文档来自技高网
...

【技术保护点】
1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于,具体步骤为:步骤A:采用主成分分析方法对原始肿瘤基因表达谱数据进行降维;步骤B:将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;步骤C:利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;步骤D:利用低秩矩阵和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schatten p范数进行低秩逼近;步骤E:采用封顶范数对噪声矩阵进行约束;步骤F:利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;步骤G:根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。

【技术特征摘要】
1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于,具体步骤为:步骤A:采用主成分分析方法对原始肿瘤基因表达谱数据进行降维;步骤B:将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式;步骤C:利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;步骤D:利用低秩矩阵和离散约束方法表示每一个低秩子空间,并对每个低秩子空间采用Schattenp范数进行低秩逼近;步骤E:采用封顶范数对噪声矩阵进行约束;步骤F:利用增广拉格朗日乘子法对目标函数进行迭代优化,得到优化后的离散约束对角矩阵;步骤G:根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。2.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤A中,给定原始肿瘤基因表达谱数据其中M为原始肿瘤基因表达谱数据的基因维数,N为原始肿瘤基因表达谱数据的样本个数,首先计算原始肿瘤基因表达谱数据的总体协方差矩阵:式中,表示原始肿瘤基因表达谱数据的均值;主成分分析方法的目标函数为:s.t.QTQ=I式中,I为单位矩阵,约束条件QTQ=I,由于S为非负定对称矩阵,由非负定矩阵的谱分解定理可知,假设λ为S的秩,则:S=λQ设λ1,λ2,…,λm为上式中前m个最大特征值,其对应的特征向量为q1,q2,…,qm;采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取,得到:X=(q1,q2,…,qm)Y=QY式中,表示经过主成分分析方法降维后的肿瘤基因表达谱数据。3.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤B中,给定降维后的肿瘤基因表达谱数据X,将降维后的肿瘤基因表达谱数据X表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式,即:X=A+E。4.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法,其特征在于:所述步骤C中,给定包含多个低秩子空间的低秩矩阵A,利用K均值方法初始化每个低秩子空间,得到每个低秩子空间的样本标签向量,并将其转换成离散约束对角矩阵形式;具体步骤如下:步骤C1:输入多个低秩子空间的低秩矩阵A,给定聚类类别数目c,在A中随机选取c个样本作为初始聚类中心;步骤C2:根据相似度准则将A中的每个样本分配到最接近的聚类中心,形成多个类;步骤C3:以每类的平均向量作为新的聚类中心,更新聚类中心,重新分配样本;步骤C4:循环执行步骤C2和步骤C3直至满足终止条件,终止条件为所有样本所属的聚类中心都不再变化时算法收敛,得到每个类别的样本标签;步骤C5:定义每个低秩子空间为一个类别,根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量,其中,若一个样本属于某一低秩子空间,则该样本在该低秩子空间的样本标签向量中相应的值为1,否则,值为0;步骤C6:将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式。设第i个低秩子空间的样本标签向量表示为其中,若一个样本属于Ci,则该样本在Ci中相应的值为1,否则,值为0;第i个低秩子空间的离散约束对角矩阵形式表示为其中,Ii中每个对角元素的值对应Ci中相应位置元素的值,即Ii中第j个对角元素的值对应Ci...

【专利技术属性】
技术研发人员:王雪松刘健程玉虎
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1