一种基于分治策略的单细胞罕见细胞类型识别方法和系统技术方案

技术编号:37155019 阅读:28 留言:0更新日期:2023-04-06 22:15
本发明专利技术提供一种基于分治策略的单细胞罕见细胞类型识别方法和系统,包括:S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量;S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果;S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小化,得到包含罕见细胞类型的单细胞聚类结果。本发明专利技术能克服之前针对单细胞聚类与识别问题未对罕见细胞类型进行优化,导致罕见细胞类型错分或难以识别的不足。别的不足。别的不足。

【技术实现步骤摘要】
一种基于分治策略的单细胞罕见细胞类型识别方法和系统


[0001]本专利技术属于医药生物
,涉及一种基于分治策略的单细胞罕见细胞类型识别方法和系统。

技术介绍

[0002]在个体发育和疾病进展中起关键作用的细胞类型通常丰度较低,如循环内皮细胞、内皮祖细胞、抗原特异性T细胞、癌症干细胞或循环肿瘤细胞等。这些罕见细胞类型在确定疾病发病机制、介导免疫应答,以及多种疾病的血管生成等方面发挥着重要作用。准确识别和分析罕见细胞类型,是理解疾病进程和生物发育机制的关键,对于深入理解正常和疾病状态下的组织生物学具有非常重要的意义。
[0003]生物个体组织具有异质性,随着测序深度的增加,细胞类型之间将表现出更大的丰度差异。当细胞类型间的丰度差异较小时,大多单细胞聚类方法均能取得较好的结果。然而在真实测序环境中,传统方法往往存在对罕见细胞类型无法识别或错分的情况发生。
[0004]例如,文献CN114783526A提出一种基于高斯混合图变分自编码器的深度无监督单细胞聚类方法,使用蛋白质

蛋白质相互作用关系PPIs(或调控元本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,包括:S1、采用变分自编码器将单细胞转录组数据编码为高斯分布隐变量;S2、对高斯分布隐变量进行谱聚类,得到单细胞粗粒度聚类结果;S3、基于类簇内损失与类簇间损失对单细胞粗粒度聚类结果进行优化,直至类簇内损失及类簇间损失最小,得到包含罕见细胞类型的单细胞聚类结果。2.根据权利要求1所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,S1具体为:变分自编码器通过贝叶斯神经网络推断模型参数w的后验分布p(w|X,Y);采用mc

dropout最小化变分分布q
θ
(w)和后验分布p(w|X,Y)之间的Kulback

Leibler散度,得到高斯分布隐变量。3.根据权利要求2所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,后验分布p(w|X,Y)的计算公式如式(1):其中,p(Y|X,w)为给定模型参数w时生成单细胞转录组数据X的概率,p(w)为模型参数w的分布,p(Y|X)表示输出为Y的概率,Y为单细胞转录组数据X的估计。4.根据权利要求2所述的基于分治策略的单细胞罕见细胞类型识别方法,其特征在于,采用mc

dropout最小化变分分布q
θ
(w)和后验分布p(w|X,Y)之间的Kulback

Leibler散度,具体通过最大化函数L(θ)实现:通过迭代公式(13)来求解公式(12):其中,w
j
表示从后验分布p(w|X,Y)中抽取的第j个样本w,当w
j
~q
θ
(w)时,j=1,...,N,N为网络层的数量,K是任意常数,p(D|w
j
)表示w
j
的条件...

【专利技术属性】
技术研发人员:张睿吴红艳蔡云鹏林越郑奕嘉
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1