一种基于单细胞RNA测序数据识别细胞类型的方法技术

技术编号:23346527 阅读:90 留言:0更新日期:2020-02-15 04:57
本发明专利技术提供了一种基于单细胞RNA测序数据识别细胞类型的方法。该方法有效地将高维矩阵低秩表示(Low Rank Representation)模型和图正则化理论结合起来,同时考虑数据的全局结构和局部结构特征来构建优化模型,通过采用交替方向乘子法(ADMM)来求解模型得到可靠的细胞与细胞间相似性矩阵,然后采用谱聚类方法对相似性矩阵进行聚类,从而实现对单细胞进行聚类,识别细胞类型。该方法可以显著提高单细胞RNA测序数据的聚类效果。

A cell type recognition method based on single cell RNA sequencing data

【技术实现步骤摘要】
一种基于单细胞RNA测序数据识别细胞类型的方法
本专利技术涉及数学与生物学交叉研究领域,具体涉及通过聚类算法进行细胞分类的方法。
技术介绍
传统测序技术得到的是一群细胞(肿瘤细胞、免疫细胞、成纤维细胞和巨噬细胞的混合物)基因表达值的平均化,这样忽视了细胞之间基因表达的差异性,很难鉴别细胞之间表达的异质性。近些年来,随着生物技术的不断发展,单细胞RNA测序技术能得到单个细胞内大量基因的表达信息,为辨别生物组织中各种细胞类型的转录组特征和全面揭示细胞之间基因表达的异质性提供了非常有力的工具。与传统的全基因组测序相比,单细胞测序不仅测量基因表达水平更加精确,而且还能检测到微量的基因表达子或罕见非编码RNA,其优势是全方位和多层次的。通过对单细胞RNA测序数据进行聚类,可以有效地将不同类型细胞进行区分,有助于识别新的细胞类型。另外,准确地将单细胞进行聚类,对后面重构细胞伪轨迹、识别显著表达基因以及揭示未知细胞状态为进一步理解异质性有着重要的意义。然而,由于技术原因,目前单细胞RNA测序得到的数据具有高维度、高噪声、数据缺失、稀疏的特点,这给对单细胞RNA测序数据的聚类算法设计带来了巨大的困难和挑战。传统基于批量平均化RNA测序数据的方法无法胜任单细胞RNA测序数据的分析。因此,迫切需要一种有效的方法来对单细胞RNA测序数据进行聚类。近几年来国内外学者提出了很多基于单细胞RNA测序数据进行聚类的方法,例如,Xuetal.,等学者提出了一种名为SNN-Cliq的方法对细胞进行有效分类,首先采用共享最邻近邻居(SNN)方法来计算细胞之间的相似性,然后使用图论中聚类理论模型来实现对单细胞RNA测序数据进行聚类。Wangetal.等学者认为不同的核函数可以刻画数据的不同信息表示,提出了一种融合多个核函数的方法SIMLR来构造细胞-细胞间相似性矩阵,然后基于构建的相似性矩阵采用传统谱聚类的方法来对细胞进行有效分类。Parketal.等学者基于SIMLR提出了一种改进的方法MPSSC来对单细胞RNA测序数据进行聚类,首先加入双随机相似性矩阵来得到相似性矩阵,然后通过对目标矩阵强加稀疏性约束来得到细胞分类。基于矩阵分解方面,Shaoetal.等人采用非负矩阵分解(nonnegativematrixfactorization(NMF))方法对单细胞RNA测序数据进行分解,得到基矩阵和系数矩阵,然后应用基矩阵来对单细胞进行分类,采用系数矩阵来识别特征基因。为了进一步提高聚类效果,Elyanowetal.,等人结合基因相互作用关系先验信息,提出了一种新的融合已知基因相互作用网络的非负矩阵分解方法NMFsc来将原始矩阵分解为两个低维矩阵:基因矩阵和细胞矩阵,认为已知网络中两基因如果相互连接那么在低维的基因矩阵中也有相似的表示。该方法不仅可以通过将降维的低阶细胞矩阵进行聚类,也可以用于原始数据矩阵中缺失元素的填充。然而,该方法的聚类效果依赖于高质量的已知基因网络。由于单细胞RNA测序数据存在严重的数据缺失(dropout),这给传统降维、聚类的方法带来了巨大挑战,为了克服这个问题,一些学者提出了一些列数据填充的方法,如MAGIC,sclmpute,Mclmpute等来尝试通过各种方法先补全缺失数据,然后基于补全的数据再进行聚类。近来Lietal.等学者提出一个基于网络嵌入(networkembedding)的表示学习方法SCRL,通过数据驱动的非线性映射和引进先验信息(比如基因相互作用信息,pathwayinformation)来对细胞和基因学习一个更有意义的低维表示矩阵,然后基于这个低维表示矩阵来进行聚类。Zhengetal.等学者提出了一种新的基于非负低秩表示的方法SinNLRR来获取细胞-细胞间相似性矩阵,然后通过对相似性矩阵进行谱聚类的方法对单细胞进行有效分类,识别新的细胞类型。虽然上述方法在对单细胞RNA测序数据聚类方面做了一些工作,但是目前针对单细胞RNA测序数据进行聚类的精度和效率仍有待提高。
技术实现思路
本专利技术旨在提供一种新的基于单细胞RNA测序数据识别细胞类型的方法,基于矩阵低秩表示和非负约束的方法来对带噪声高维稀疏单细胞RNA测序数据进行聚类,从而识别细胞类型。本专利技术提供的一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;(2)建立增广的拉格朗日函数,采用交替方向乘子法(ADMM)来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。优选的,步骤(1)所述的基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型具体为:其中,X表示含n个细胞m个基因的RNA测序数据;E表示误差项,用于刻画数据噪声;Z表示表征矩阵,用于度量细胞-细胞间相似性;||Z||*表示矩阵Z的核范数;用于度量细胞i与细胞j间的相当距离关系,其中α为0-1之间参数。优选的,步骤(2)所述的增广的拉格朗日函数具体为:其中,S和U表示引入的变量,初始值都设为Z;C1、C2和C3表示拉格朗日乘子;λ1、λ2和μ表示正则化参数,防止过拟合;<·>表示矩阵内积,例如<A,B>=tr(ATB);||·||F表示Frobenius范数。优选的,步骤(2)所述的采用交替方向乘子法(ADMM)来优化目标函数值包括以下具体步骤:(2.1)通过如下公式更新Z(2.2)通过求解如下问题来更新S其中di、ri分别为矩阵D、矩阵R的第i行,si表示矩阵S的第i行;(2.3)通过如下公式更新U其中Θ表示奇异值阈值计算(singularvaluethresholdingoperator);(2.4)通过如下公式更新E其中υ表示收缩运算(shrinkageoperator);(2.5)分别通过下列公式更新C1、C2、C3、uC1=C1+μ(X-XZk-Ek)C2=C2+μ(Zk-Sk)C3=C3+μ(Zk-Uk)μ=min(μρ,μmax),其中ρ,μmax皆为给定常数;进行迭代,迭代误差计算如下:Error_value=max(leq1,max(abs(L3(:)));leq1=max(max(abs(L1(:))),max(abs(L2(:))));L1=X-XZk-Ek;L2=Zk-Sk;L3=Zk-Uk当迭代次数满足设定的最大迭代步数(一般设定为100)或者误差值Error_value小于设定1e-5时终止迭代,得到优化后的Z;然后按照公式S=(|Z|+|ZT|)/2计算得到迭代优化后的细胞-细胞间相似性矩阵S。本文档来自技高网
...

【技术保护点】
1.一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:/n(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;/n(2)基于优化模型建立增广的拉格朗日函数,采用交替方向乘子法来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;/n(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。/n

【技术特征摘要】
1.一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:
(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;
(2)基于优化模型建立增广的拉格朗日函数,采用交替方向乘子法来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;
(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。


2.根据权利要求1所述的方法,其特征在于:步骤(1)所述的基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型具体为:






其中,
X表示含n个细胞m个基因的RNA测序数据;
E表示误差项,用于刻画数据噪声;
Z表示表征矩阵,用于度量细胞-细胞间相似性;
||Z||*表示矩阵Z的核范数;

用于度量细胞i与细胞j间的相当距离关系,其中α为0-1之间参数。


3.根据权利要求1或2所述的方法,其特征在于:步骤(2)所述的增广的拉格朗日函数具体为:



其中,
S和U表示引入的变量,初始值都为Z;
C1、C2和C3表示拉格朗日乘子;
λ1、λ2和μ表示正则化参数,防止过拟合;
<·>表示矩阵内积,例如<A,B>=tr(ATB);
||·||F表示Frobenius范数。


4.根据权利要求3所述的方法,其特征在于:步骤(2)所述的采用交替方向乘子法(ADMM)来优化目标函数值包括以下具体步骤:
(2.1)通过如下公式更新Z



(2.2)通过求解如下问题来更新...

【专利技术属性】
技术研发人员:张伟徐佳李圆媛陈海林薛晓丽
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1