基于整合非负矩阵分解的样本聚类和特征识别方法技术

技术编号：23400821 阅读：52 留言：0更新日期：2020-02-22 12:59

本发明专利技术公开一种基于整合非负矩阵分解的样本聚类和特征识别方法。1.X＝{X

Sample clustering and feature recognition based on integrated nonnegative matrix decomposition

全部详细技术资料下载

【技术实现步骤摘要】
基于整合非负矩阵分解的样本聚类和特征识别方法
本专利技术公开一种基于整合非负矩阵分解的样本聚类和特征识别方法，属于模式识别
，可对多组学数据进行整合分析，为不同类型的异质性数据的整合提供方法上的依据。
技术介绍
随着测序技术的发展，生物信息学面临多种多样的组学大数据的分析任务。海量组学数据的出现，为生物信息学研究者提供了丰富的数据来源，使研究者可以从不同的生物学层面进行研究。有效地对这些数据进行处理、分析和挖掘，才能充分发挥数据的价值。以往的研究多是关于针对单一组学数据(如基因表达谱)的分析，很少考虑不同组学数据之间的关联性和差异性。多组学数据的整合分析可以补偿任何单一组学数据中丢失或不可靠的信息，但是不同类型的组学数据具有不同的观测尺度和单位，不能简单汇总起来研究。多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据，它们服从不同的统计分布，具有不同的语义。现有的多组学数据的整合分析方法可以分为基于数据的整合分析方法和基于模型的整合分析方法两大类。基于数据的整合分析方法是在构建整合模型之前，将来自相同样本的多个组学数据整合到一个矩阵中，这种方法的优势是可以利用现有的数据挖掘方法来处理，能够描述不同类型的数据之间的关联信息。基于模型的整合分析方法主要包括贝叶斯方法、矩阵分解的方法、基于网络的方法、基于核的方法等。其中基于矩阵分解的多组学数据整合分析方法是近年来的一个研究热点。Zhang等人提出了一种联合非负矩阵分解模型(jNMF)用于多组学数据的整合分析，将多组学数据投影到公共基空间，探索数据之间的相干...

【技术保护点】
1.一种基于整合非负矩阵分解的样本聚类和特征识别方法，其特征在于包括如下步骤：/n(1)将多组学数据进行预处理,以矩阵形式记录这些数据，将多组学数据的特征看作变量，采集这些特征的个体看作样本，由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵X

【技术特征摘要】
1.一种基于整合非负矩阵分解的样本聚类和特征识别方法，其特征在于包括如下步骤：
(1)将多组学数据进行预处理,以矩阵形式记录这些数据，将多组学数据的特征看作变量，采集这些特征的个体看作样本，由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I＝1,…P}，X＝{X1,X2…XP}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据，将X中的所有元素都归一化到(0,1)上；
(2)首先，将多组学数据投影到公共的特征空间：对特征矩阵W进行图正则约束，尽可能多的保留原始组学数据的内在几何信息；并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响，构建整合非负矩阵分解的目标函数：

其中，W为融合特征矩阵，HI为载荷矩阵，LI为图拉普拉斯矩阵，||||2,1表示矩阵的L2,1范数，Tr(·)表示矩阵的迹，λI表示图正则约束项Tr(WLIWT)的权重，β表示稀疏约束项的权重，λI和β均为正数；
其次，将多组学数据投影到公共的样本空间：对载荷矩阵H进行图正则约束，并利用L2,1范数约束载荷矩阵H，构建整合非负矩阵分解的目标函数：

其中，WI为特征矩阵，H为融合样本矩阵；
(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解，得到相应的融合特征矩阵和载荷矩阵其中表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵，其中wi表示第i个样本包含所有的组学数据信息，为各组学数据的系数矩阵；
对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解，得到相应的特征矩阵和融合样本矩阵其中表示各组学数据的特征矩阵，表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵；
(4)根据目标函数O1分解得到...

【专利技术属性】
技术研发人员：代凌云，刘金星，
申请(专利权)人：曲阜师范大学，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人