一种基于单细胞RNA测序数据识别细胞类型的方法技术

技术编号:23346527 阅读:110 留言:0更新日期:2020-02-15 04:57
本发明专利技术提供了一种基于单细胞RNA测序数据识别细胞类型的方法。该方法有效地将高维矩阵低秩表示(Low Rank Representation)模型和图正则化理论结合起来,同时考虑数据的全局结构和局部结构特征来构建优化模型,通过采用交替方向乘子法(ADMM)来求解模型得到可靠的细胞与细胞间相似性矩阵,然后采用谱聚类方法对相似性矩阵进行聚类,从而实现对单细胞进行聚类,识别细胞类型。该方法可以显著提高单细胞RNA测序数据的聚类效果。

A cell type recognition method based on single cell RNA sequencing data

【技术实现步骤摘要】
一种基于单细胞RNA测序数据识别细胞类型的方法
本专利技术涉及数学与生物学交叉研究领域,具体涉及通过聚类算法进行细胞分类的方法。
技术介绍
传统测序技术得到的是一群细胞(肿瘤细胞、免疫细胞、成纤维细胞和巨噬细胞的混合物)基因表达值的平均化,这样忽视了细胞之间基因表达的差异性,很难鉴别细胞之间表达的异质性。近些年来,随着生物技术的不断发展,单细胞RNA测序技术能得到单个细胞内大量基因的表达信息,为辨别生物组织中各种细胞类型的转录组特征和全面揭示细胞之间基因表达的异质性提供了非常有力的工具。与传统的全基因组测序相比,单细胞测序不仅测量基因表达水平更加精确,而且还能检测到微量的基因表达子或罕见非编码RNA,其优势是全方位和多层次的。通过对单细胞RNA测序数据进行聚类,可以有效地将不同类型细胞进行区分,有助于识别新的细胞类型。另外,准确地将单细胞进行聚类,对后面重构细胞伪轨迹、识别显著表达基因以及揭示未知细胞状态为进一步理解异质性有着重要的意义。然而,由于技术原因,目前单细胞RNA测序得到的数据具有高维度、高噪声、数据缺失、稀疏本文档来自技高网...

【技术保护点】
1.一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:/n(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;/n(2)基于优化模型建立增广的拉格朗日函数,采用交替方向乘子法来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;/n(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。/n

【技术特征摘要】
1.一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:
(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;
(2)基于优化模型建立增广的拉格朗日函数,采用交替方向乘子法来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;
(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。


2.根据权利要求1所述的方法,其特征在于:步骤(1)所述的基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型具体为:






其中,
X表示含n个细胞m个基因的RNA测序数据;
E表示误差项,用于刻画数据噪声;
Z表示表征矩阵,用于度量细胞-细胞间相似性;
||Z||*表示矩阵Z的核范数;

用于度量细胞i与细胞j间的相当距离关系,其中α为0-1之间参数。


3.根据权利要求1或2所述的方法,其特征在于:步骤(2)所述的增广的拉格朗日函数具体为:



其中,
S和U表示引入的变量,初始值都为Z;
C1、C2和C3表示拉格朗日乘子;
λ1、λ2和μ表示正则化参数,防止过拟合;
<·>表示矩阵内积,例如<A,B>=tr(ATB);
||·||F表示Frobenius范数。


4.根据权利要求3所述的方法,其特征在于:步骤(2)所述的采用交替方向乘子法(ADMM)来优化目标函数值包括以下具体步骤:
(2.1)通过如下公式更新Z



(2.2)通过求解如下问题来更新...

【专利技术属性】
技术研发人员:张伟徐佳李圆媛陈海林薛晓丽
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1