当前位置: 首页 > 专利查询>中南大学专利>正文

一种针对不平衡单细胞RNA-seq数据的细胞聚类方法、设备和介质技术

技术编号:41295934 阅读:16 留言:0更新日期:2024-05-13 14:45
本发明专利技术公开了一种针对不平衡单细胞RNA‑seq数据的细胞聚类方法、设备和介质,方法包括:获取聚类细胞的RNA‑seq数据,生成基因表达矩阵并预处理;利用基因表达矩阵计算各细胞间的相似度,选出近似细胞作为对比学习的附加增强正例;搭建对比学习模型,并利用各细胞的正例、附加增强正例和负例训练对比学习模型,以获取细胞潜在表征;基于细胞的潜在表征对所有细胞聚类,生成细胞的伪标签;基于细胞的潜在表征计算细胞间的距离值进而选择锚点细胞;搭建知识蒸馏模型,利用锚点细胞的潜在表征和伪标签进行训练,最终使用其进行细胞聚类。本发明专利技术对来自不同测序平台、不同物种、不同组织以及不同规模的细胞数据集都有很好的聚类结果。

【技术实现步骤摘要】

本专利技术属于生物信息学领域,涉及一种针对不平衡单细胞rna-seq数据的细胞聚类方法、设备和介质。


技术介绍

1、随着高通量测序技术的迅猛进步,大量单细胞rna-seq数据集不断涌现,极大地推动了在这些数据基础上展开的多项研究。这一领域的深入挖掘涵盖了对细胞异质性的详尽分析、细胞轨迹的推断、细胞间通讯的深入研究,以及基因调控网络等多个方面。在这些研究中,细胞异质性分析和稀有细胞识别等方向的探索变得至关重要,而聚类方法则成为这些分析的关键技术之一。

2、然而,单细胞rna-seq数据本身具有高维度、高稀疏性和高噪声等特征,这为相关研究带来了许多在计算方面的挑战。因此,提出专门针对单细胞数据特性的细胞聚类方法对于推动基于单细胞rna-seq数据的深入分析与研究具有重大意义。这些新颖的方法的引入将有助于克服数据方面的困难,为更深入、更准确地理解单细胞层面的生物学过程提供有力支持。这不仅有助于解决计算问题,还为揭示细胞之间复杂相互关系、更全面地描绘基因调控网络等方面的生物学现象提供了创新性的途径。目前单细胞rna-seq数据的聚类方法主要有以下几类:本文档来自技高网...

【技术保护点】

1.一种针对不平衡单细胞RNA-seq数据的细胞聚类方法,其特征在于,包括:

2.根据权利要求1所述的细胞聚类方法,其特征在于,对基因表达矩阵进行预处理包括:

3.根据权利要求1所述的细胞聚类方法,其特征在于,步骤2中计算的相似度采用余弦相似度;对于每个细胞,与其相似度最高的C个细胞作为选出的C个近似细胞。

4.根据权利要求1所述的细胞聚类方法,其特征在于,所述对比学习模型由双分支结构组成,第一分支由query encoder与projector组成,query encoder输出细胞的潜在表征,第二分支由pruned momentum encoder...

【技术特征摘要】

1.一种针对不平衡单细胞rna-seq数据的细胞聚类方法,其特征在于,包括:

2.根据权利要求1所述的细胞聚类方法,其特征在于,对基因表达矩阵进行预处理包括:

3.根据权利要求1所述的细胞聚类方法,其特征在于,步骤2中计算的相似度采用余弦相似度;对于每个细胞,与其相似度最高的c个细胞作为选出的c个近似细胞。

4.根据权利要求1所述的细胞聚类方法,其特征在于,所述对比学习模型由双分支结构组成,第一分支由query encoder与projector组成,query encoder输出细胞的潜在表征,第二分支由pruned momentum encoder与momentum projector组成;其中,prunedmomentum encoder是一个经过剪枝后的稀疏模型,表示为fk,其参数表示为θk,θk不需要经过后向传播来进行更新;momentum projector是一个参数不需要经过后向传播进行更新的稠密模型,表示为fmp,其参数表示为θmp;设fq表示query encoder模型,fp表示projecto...

【专利技术属性】
技术研发人员:郑瑞清李敏刘锦曾未星
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1