基于整合非负矩阵分解的样本聚类和特征识别方法技术

技术编号:23400821 阅读:52 留言:0更新日期:2020-02-22 12:59
本发明专利技术公开一种基于整合非负矩阵分解的样本聚类和特征识别方法。1.X={X

Sample clustering and feature recognition based on integrated nonnegative matrix decomposition

【技术实现步骤摘要】
基于整合非负矩阵分解的样本聚类和特征识别方法
本专利技术公开一种基于整合非负矩阵分解的样本聚类和特征识别方法,属于模式识别
,可对多组学数据进行整合分析,为不同类型的异质性数据的整合提供方法上的依据。
技术介绍
随着测序技术的发展,生物信息学面临多种多样的组学大数据的分析任务。海量组学数据的出现,为生物信息学研究者提供了丰富的数据来源,使研究者可以从不同的生物学层面进行研究。有效地对这些数据进行处理、分析和挖掘,才能充分发挥数据的价值。以往的研究多是关于针对单一组学数据(如基因表达谱)的分析,很少考虑不同组学数据之间的关联性和差异性。多组学数据的整合分析可以补偿任何单一组学数据中丢失或不可靠的信息,但是不同类型的组学数据具有不同的观测尺度和单位,不能简单汇总起来研究。多组学数据的整合分析需要同时处理来自不同平台的不同类型的数据,它们服从不同的统计分布,具有不同的语义。现有的多组学数据的整合分析方法可以分为基于数据的整合分析方法和基于模型的整合分析方法两大类。基于数据的整合分析方法是在构建整合模型之前,将来自相同样本的多个组学数据整合到一个矩阵中,这种方法的优势是可以利用现有的数据挖掘方法来处理,能够描述不同类型的数据之间的关联信息。基于模型的整合分析方法主要包括贝叶斯方法、矩阵分解的方法、基于网络的方法、基于核的方法等。其中基于矩阵分解的多组学数据整合分析方法是近年来的一个研究热点。Zhang等人提出了一种联合非负矩阵分解模型(jNMF)用于多组学数据的整合分析,将多组学数据投影到公共基空间,探索数据之间的相干模式;Yang等人提出整合非负矩阵分解模型(iNMF)挖掘跟卵巢癌发生密切相关的基因模块。现有的基于矩阵分解的方法在多组学数据整合分析方面取得了成功的应用,得到了大量有意义的发现。但是仍然存在一些不足,例如:研究发现,现实数据通常嵌入在高维空间中的低维流形上,如何充分利用这些低维特征发现观测数据的内在规律,提高整合分析方法的性能还需要进一步研究;现有的算法容易受到多组学数据中噪声和冗余信息的影响,如何充分利用异质性数据的互补性和差异性,提高算法的鲁棒性也需要进一步研究。
技术实现思路
专利技术目的:针对已有的多组学数据整合分析方法的不足,提出了一种基于稀疏和图正则约束整合非负矩阵分解的多组学数据聚类和特征识别分析方法(SG-jNMF)。在非负矩阵分解的目标函数中引入了图正则约束反映观测数据的内在规律,提高算法识别的准确性;引入L2,1范数稀疏约束提高算法对异常值和噪声的鲁棒性,设计合理的数据整合框架和优化求解方案,充分利用多组学数据提供的互补和差异性信息,将来自不同观测平台、不同类型的异质性多组学数据进行有效整合。技术思路:受已有的整合矩阵分解启发,首先在整合非负矩阵分解模型中引入图正则约束,利用观测数据的低维特征发现其内在规律,提高整合分析方法的性能;其次在整合分析模型中引入L2,1范数约束,提高算法的鲁棒性,最终形成稀疏和图正则约束整合非负矩阵分解的目标函数。该整合矩阵分析方法可以利用图正则和L2,1范数约束特征矩阵,并将多组学数据投影到公共的特征空间,利用得到的融合特征矩阵辨识共差异特征;该方法还可以利用图正则和L2,1范数约束样本矩阵,并将多组学数据投影到公共的样本空间,进行样本的聚类分析。实现方案如下:一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:(1)将多组学数据进行预处理:以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I=1,…P},X={X1,X2…XP}表示由P个不同组学数据矩阵构成的多视图数据,将X中的所有元素都归一化到(0,1)上;(2)将多组学数据投影到公共的特征空间:对特征矩阵W和载荷矩阵HI进行非负约束,对特征矩阵W进行图正则约束,保留原始组学数据的内在几何信息;并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:其中,W为融合特征矩阵,HI为载荷矩阵,LI为图拉普拉斯矩阵,||||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λI表示图正则约束项Tr(WLIWT)的权重,β表示稀疏约束项的权重,λI和β均为正数;将多组学数据投影到公共的样本空间:对特征矩阵WI和载荷矩阵H进行非负约束,对载荷矩阵H进行图正则约束,保留原始组学数据的内在几何信息;并利用L2,1范数约束载荷矩阵H来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:其中,WI为特征矩阵,H为融合样本矩阵(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解,实现对非负矩阵XI∈Rm×n进行分解,得到相应的融合特征矩阵和载荷矩阵其中表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息,表示低维实数空间Rm×K中全体非负矩阵构成的子集,m为基因的个数,K为降维的维数;为各组学数据的系数矩阵,表示实数空间Rn×K中全体非负矩阵构成的子集,n为样本的个数;对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解,得到相应的特征矩阵和融合样本矩阵其中表示各组学数据的特征矩阵,其中wIi表示第i个样本包含所有的组学数据信息;表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;(4)根据目标函数O1分解得到的融合特征矩阵构造评价向量(5)对向量中的元素按照降序排列,由于向量中元素值越大,对特征构成的优化超平面影响越大。因此,向量中较大幅度的元素被辨识为共差异特征;(6)利用GeneCards数据库对辨识的差异特征进行功能解释;(7)对根据目标函数O2进行优化求解得到的融合样本矩阵进行聚类分析。特别地,步骤(3)中,目标函数O1的优化求解包括如下步骤:3a)将融合特征矩阵和载荷矩阵中的元素全部初始化为(0,1)之间的随机数;3b)选择降维维数K的值,图正则约束权重λ,稀疏约束权重β;3c)设定最大迭代次数,利用迭代公式更新融合特征矩阵中的元素Wia,其中Q∈Rn×n为对角阵,其对角元素为ε为无穷小的正数,利用更新系数矩阵HI中的元素HIaj,其中i=1,2,…,m,j=1,2,…,n,k=1,2,…,K,UI为图正则约束中构造的权重矩阵,为对称阵,DI为对角阵,且其对角线元素采用交替更新融合特征矩阵W和系数矩阵HI的方法,得到局部最优解;3d)算法收敛后得到融合特征矩阵和系数矩阵HI。特别地,步骤(3)中,目标函数O2的优化求解包括如下步骤:3i)将特征矩阵和融合样本矩阵中的元素全部初始化为(0,1)之间的随机数;3ii)选择降维维数K的值,图正则约束权重λ,稀疏约束权重β;3iii)设定最大迭代次数,利用迭代公式更新特征矩阵中的元素WIia,利用更新融合样本矩阵H中的元素Haj,采用交替更新特征矩阵WI和本文档来自技高网
...

【技术保护点】
1.一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:/n(1)将多组学数据进行预处理,以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵X

【技术特征摘要】
1.一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:
(1)将多组学数据进行预处理,以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I=1,…P},X={X1,X2…XP}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据,将X中的所有元素都归一化到(0,1)上;
(2)首先,将多组学数据投影到公共的特征空间:对特征矩阵W进行图正则约束,尽可能多的保留原始组学数据的内在几何信息;并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:



其中,W为融合特征矩阵,HI为载荷矩阵,LI为图拉普拉斯矩阵,||||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λI表示图正则约束项Tr(WLIWT)的权重,β表示稀疏约束项的权重,λI和β均为正数;
其次,将多组学数据投影到公共的样本空间:对载荷矩阵H进行图正则约束,并利用L2,1范数约束载荷矩阵H,构建整合非负矩阵分解的目标函数:



其中,WI为特征矩阵,H为融合样本矩阵;
(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解,得到相应的融合特征矩阵和载荷矩阵其中表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息,为各组学数据的系数矩阵;
对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解,得到相应的特征矩阵和融合样本矩阵其中表示各组学数据的特征矩阵,表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;
(4)根据目标函数O1分解得到...

【专利技术属性】
技术研发人员:代凌云刘金星
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1