基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法技术

技术编号：20428626 阅读：24 留言：0更新日期：2019-02-23 09:44

本发明专利技术公开了一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，步骤为：首先，将肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式；然后，引入离散约束方法和Schatten p范数对低秩矩阵进行约束，直接学习得到肿瘤基因表达谱数据的样本标签；最后，利用封顶范数对噪声矩阵进行优化，除去对原始肿瘤基因表达谱数据中的离群值得出最终的肿瘤基因表达谱数据聚类。本发明专利技术能完全去除离群值对肿瘤基因表达谱数据聚类的影响，从而提高肿瘤基因表达谱数据聚类的精度及鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
本专利技术涉及一种肿瘤基因表达谱数据聚类方法，具体是一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法。
技术介绍
到目前为止，已经有超过100种不同的肿瘤危及人类健康。肿瘤基因表达谱数据中的样本类型可以通过肿瘤细胞中基因活性的分子模式来区分。近年来，随着DNA微阵列技术的快速发展，研究者能够同时观测数千个基因的表达水平，这样可以更加全面的研究肿瘤基因表达谱数据。当前分子生物学所面临的挑战是如何挖掘这些肿瘤基因表达谱数据中蕴含的重要信息，从而了解肿瘤的生物过程和发生机理。由于模式识别和机器学习的发展，提出了许多有效的方法来分析肿瘤基因表达谱数据，其中，聚类是一类用于发现肿瘤基因表达谱数据中具有相似分子表达模式的样本或基因的典型算法。许多传统的聚类方法，比如层次聚类，自组织映射和非负矩阵分解等已经成功应用于肿瘤基因表达谱数据聚类。层次聚类已成功应用于分析全基因组表达模式，识别不同类型的淋巴瘤等，然而，层次聚类的缺点是它对度量非常敏感，并且通常需要定义集群。自组织映射已成功用于识别白血病的亚型，但是由于自组织映射基于初始条件获得肿瘤基因表达谱数据的矩阵分解，因此其结果通常不稳定。通过实验对比，有学者证明了非负矩阵分解在肿瘤基因表达谱数据聚类中比层次聚类和自组织映射有更好的聚类精度和更稳定的实验结果。迄今为止，提出了许多基于非负矩阵分解的算法进行分析肿瘤基因表达谱数据，例如稀疏非负矩阵分解方法，多图正则化非负矩阵分解方法，半监督非负矩阵分解方法等等。虽然基于非负矩阵分解的方法成功用于肿瘤基因表达谱数据聚类中...

【技术保护点】
1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于，具体步骤为：步骤A：采用主成分分析方法对原始肿瘤基因表达谱数据进行降维；步骤B：将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式；步骤C：利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；步骤D：利用低秩矩阵和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schatten p范数进行低秩逼近；步骤E：采用封顶范数对噪声矩阵进行约束；步骤F：利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；步骤G：根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。

【技术特征摘要】
1.一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于，具体步骤为：步骤A：采用主成分分析方法对原始肿瘤基因表达谱数据进行降维；步骤B：将降维后的肿瘤基因表达谱数据表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式；步骤C：利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；步骤D：利用低秩矩阵和离散约束方法表示每一个低秩子空间，并对每个低秩子空间采用Schattenp范数进行低秩逼近；步骤E：采用封顶范数对噪声矩阵进行约束；步骤F：利用增广拉格朗日乘子法对目标函数进行迭代优化，得到优化后的离散约束对角矩阵；步骤G：根据优化后的每个低秩子空间的离散约束对角矩阵得到最终的聚类标签矩阵。2.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤A中，给定原始肿瘤基因表达谱数据其中M为原始肿瘤基因表达谱数据的基因维数，N为原始肿瘤基因表达谱数据的样本个数，首先计算原始肿瘤基因表达谱数据的总体协方差矩阵：式中，表示原始肿瘤基因表达谱数据的均值；主成分分析方法的目标函数为：s.t.QTQ＝I式中，I为单位矩阵，约束条件QTQ＝I，由于S为非负定对称矩阵，由非负定矩阵的谱分解定理可知，假设λ为S的秩，则：S＝λQ设λ1,λ2,…,λm为上式中前m个最大特征值，其对应的特征向量为q1,q2,…,qm；采用主成分分析法的目标函数对原始肿瘤基因表达谱数据Y进行主成分特征提取，得到：X＝(q1,q2,…,qm)Y＝QY式中，表示经过主成分分析方法降维后的肿瘤基因表达谱数据。3.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤B中，给定降维后的肿瘤基因表达谱数据X，将降维后的肿瘤基因表达谱数据X表示为一个包含多个低秩子空间的低秩矩阵和一个噪声矩阵相加的形式，即：X＝A+E。4.根据权利要求1所述一种基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法，其特征在于：所述步骤C中，给定包含多个低秩子空间的低秩矩阵A，利用K均值方法初始化每个低秩子空间，得到每个低秩子空间的样本标签向量，并将其转换成离散约束对角矩阵形式；具体步骤如下：步骤C1：输入多个低秩子空间的低秩矩阵A，给定聚类类别数目c，在A中随机选取c个样本作为初始聚类中心；步骤C2：根据相似度准则将A中的每个样本分配到最接近的聚类中心，形成多个类；步骤C3：以每类的平均向量作为新的聚类中心，更新聚类中心，重新分配样本；步骤C4：循环执行步骤C2和步骤C3直至满足终止条件，终止条件为所有样本所属的聚类中心都不再变化时算法收敛，得到每个类别的样本标签；步骤C5：定义每个低秩子空间为一个类别，根据步骤C4得到的每个类别的样本标签生成相应低秩子空间的样本标签向量，其中，若一个样本属于某一低秩子空间，则该样本在该低秩子空间的样本标签向量中相应的值为1，否则，值为0；步骤C6：将步骤C5得到的每个低秩子空间的样本标签向量转换成离散约束对角矩阵形式。设第i个低秩子空间的样本标签向量表示为其中，若一个样本属于Ci，则该样本在Ci中相应的值为1，否则，值为0；第i个低秩子空间的离散约束对角矩阵形式表示为其中，Ii中每个对角元素的值对应Ci中相应位置元素的值，即Ii中第j个对角元素的值对应Ci...

【专利技术属性】
技术研发人员：王雪松，刘健，程玉虎，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人