一种细胞类别确定方法及系统技术方案

技术编号:39658998 阅读:18 留言:0更新日期:2023-12-09 11:28
本发明专利技术公开一种细胞类别确定方法及系统,涉及细胞分类技术领域

【技术实现步骤摘要】
一种细胞类别确定方法及系统


[0001]本专利技术涉及细胞分类
,特别是涉及一种细胞类别确定方法及系统


技术介绍

[0002]单细胞
RNA
测序技术
(scRNA

seq)
能够对基因表达进行高分辨率的分析,揭示细胞群的异质性,并对单个细胞的行为和机制进行深入了解

与早期的批次
RNA

seq
数据相比,
scRNA

seq
数据更稀疏,且有较高的辍学率


scRNA

seq
分析中,往往需要整合多个批次的数据

由于测序平台或实验操作等因素,多批次数据的联合分析在实践中经常存在批次效应,这将导致对下游分析的负面影响,如细胞类别的识别

例如,批次间的分布差异可能会影响细胞类别间的内在差异,导致细胞类别的错误标记

因此,迫切需要开发有效的细胞类别标注的自动化方法,并实现批次效应校正

[0003]许多基于机器学习的方法已被用于从
scRNA

seq
数据中识别细胞类别

单细胞共识聚类
(SC3)
通过对多个相似度矩阵进行平均,计算出一个共识矩阵,并使用
k

means
算法进行聚类
。SIMLR
根据细胞的相似度将细胞聚成不同的簇,然后手动给每个簇分配细胞类别标签,以进行细胞类别识别

然而,上述方法不能直接转移到相关的数据集上,需要进行劳动密集型的重复性工作

随着测序技术的发展,基于注释良好的公共数据集的分类算法已经被开发出来,用于细胞类别识别

例如,
SingleR
计算测试集的每个细胞与已知参考集的每个细胞之间的相似性,并根据相似性给测试集分配标签

此外,
scmap
通过查询参考数据库中的类似细胞来分配细胞类别标签

为了探索基因之间的非线性关系,
scPred
对基因表达矩阵进行奇异值分解以获得有限的信息特征并训练支持向量机模型

然而,机器学习算法的前提假设是训练集和测试集数据来自相同的分布,但单细胞数据集由于批次效应和其他因素,可能会出现分布不匹配,从而影响模型的性能

[0004]为了解决训练集和测试集之间由于批次效应和其他因素出现的数据分布不匹配的问题,
MNN
使用相互近邻匹配算法来寻找各批次的近邻和共享的
"

"
细胞,并根据这些锚来校正各批次所有细胞的基因表达,从而减少批次效应
。LIGER
整合了多个单细胞数据集,并使用综合非线性矩阵分解法
(iNMF)
缓解了批次效应
。Harmony
使用主成分分析
(PCA)

scRNA
数据嵌入到一个低维空间,并使用模糊聚类和迭代算法缓解批次效应
。DESC
是一种无监督的深度嵌入算法,通过迭代优化聚类目标函数对单细胞
RNA
数据进行聚类,以校正批次效应
。Seurat
使用
CCA
改善批次效应,并使用锚点注释细胞类别,但没有充分利用参考数据集中标记良好的细胞类别信息

[0005]此外,一些转移学习方法被用于批次校正和细胞类别识别
。BERMUDA
通过聚类检测不同批次的细胞集群,使用
Spearman
识别批次间的相似集群,并用于训练一个具有
MMD
损失的自动编码器,用于批次校正

一个合理的假设是,批改和细胞分类是相互依赖的

具体来说,有效的校正对分类有传导作用,而正确的标签信息则有利于校正过程

值得注意的是,上述方法可以使不同数据集之间的细胞分布一致,但不能对细胞类别进行注释
。ItClust
是一种基于迁移学习的监督聚类算法,使用聚类中心和细胞嵌入之间的距离来预测细胞类
别,但这种预训练模型存在灾难遗忘性问题,可能会导致信息损失并忽略参考数据集和目标域数据集之间的批次效应

[0006]综上所述,单细胞
RNA
测序
(scRNA

seq)
数据中的批次效应对样本整合仍然是一个挑战,已有的批次校正方法未能充分利用数据的分布和结构信息,导致最终识别的细胞类别不准确,同时,现有的细胞类别注释方法未能充分利用标注良好的参考数据集,难以识别稀有类别的细胞


技术实现思路

[0007]本专利技术的目的是提供一种细胞类别确定方法及系统,可充分利用数据的分布和结构信息提高细胞类别识别结果的准确性,并且可以识别稀有类别的细胞

[0008]为实现上述目的,本专利技术提供了如下方案:
[0009]一种细胞类别确定方法,包括:
[0010]构建
scDRLN
模型;所述
scDRLN
模型包括第一分支

第二分支和第三分支;所述第一分支包括依次连接的特征提取器和标签分类器;所述第二分支包括依次连接的特征提取器和域鉴别器;所述第三分支包括依次连接的特征提取器和解码器;
[0011]获取源域数据集

目标域数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别;所述源域数据集包括
n
s
个样本;所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述目标域数据集包括
n
t
个样本,所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述源域数据集与所述目标域数据集不相同,
n
s

n
t
均为大于1的正整数,且
n
s

n
t
不相等;
[0012]采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集;
[0013]根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别;
[0014]以总损失函数的值最小为目标,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种细胞类别确定方法,其特征在于,包括:构建
scDRLN
模型;所述
scDRLN
模型包括第一分支

第二分支和第三分支;所述第一分支包括依次连接的特征提取器和标签分类器;所述第二分支包括依次连接的特征提取器和域鉴别器;所述第三分支包括依次连接的特征提取器和解码器;获取源域数据集

目标域数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别;所述源域数据集包括
n
s
个样本;所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述目标域数据集包括
n
t
个样本,所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述源域数据集与所述目标域数据集不相同,
n
s

n
t
均为大于1的正整数,且
n
s

n
t
不相等;采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集;根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别;以总损失函数的值最小为目标,根据所述小批量梯度下降法每个迭代次数下的源域训练数据集

所述目标域数据集以及所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别,采用小批量梯度下降法对所述
scDRLN
模型进行训练得到训练好的
scDRLN
模型,所述训练好的
scDRLN
模型中的第一分支用于确定细胞类别;所述总损失函数包括自步正则项

交叉熵损失函数

目标域数据集重建损失函数

全局对齐损失函数

源域数据集对齐损失函数和语义质心对齐损失函数;所述交叉熵损失函数为基于所述源域训练数据集

所述目标域数据集和所述第一分支确定的;所述目标域数据集重建损失函数为基于所述目标域数据集和所述第三分支确定的;所述全局对齐损失函数为基于所述源域训练数据集

所述目标域数据集以及所述第二分支确定的;所述源域数据集对齐损失函数为基于所述源域训练数据集以及所述特征编码器确定的;所述语义质心对齐损失函数为基于所述源域训练数据集

所述目标域数据集

所述标签分类器和所述特征编码器确定的;所述自步正则项为根据全局对齐损失函数确定的
。2.
根据权利要求1所述的细胞类别确定方法,其特征在于,所述总损失函数为:所述总损失函数为:其中,
L
total
表示总损失函数,
v
i
(
λ
,L
d
)
表示第
i
个样本选择变量,
L
l
表示交叉熵损失函数,
L
r
表示目标域数据集重建损失函数,
L
d
表示全局对齐损失函数,
L
sou

c
表示源域数据集对齐损失函数,
L
sm
表示语义质心对齐损失函数,
f(v
i
,
λ
)
表示自步正则项,
γ
表示第一平衡参数,
δ
表示第二平衡参数,
α
表示第三平衡参数,
β
表示第四平衡参数,
n
s
表示源域数据集对应的单细胞
RNA
测序数据对应的细胞的数量,
λ
表示设定阈值
。3.
根据权利要求1所述的细胞类别确定方法,其特征在于,在根据所述源域数据集

所述目标域数据集以及所述第二分支得到的全局对齐损失函数的值之前还包括:均对所述源域数据集和所述目标域数据集依次进行质量控制操作

规范化操作和高可变基因选择操作得到处理后的源域数据集和处理后的目标域数据集

4.
根据权利要求1所述的细胞类别确定方法,其特征在于,所述交叉熵损失函数的值的确定过程为:将所述目标域数据集以及所述源域训练数据集输入所述第一分支得到所述目标域数据集对应的单细胞
RNA
测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞
RNA
测序数据的输出细胞类别;将所述目标域数据集对应的单细胞
RNA
测序数据的输出细胞类别

所述源域训练数据集对应的各单细胞
RNA
测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别输入所述交叉熵损失函数,得到所述交叉熵损失函数的值
。5.
根据权利要求4所述的细胞类别确定方法,其特征在于,所述目标域数据集重建损失函数的值的确定过程为:将所述目标域数据集输入所述第三分支得到重建目标域数据集;将所述重建目标域数据集以及所述目标域数据集输入所述目标域数据集重建损失函数得到所述目标域数据集重建损失函数的值
。6.
根据权利要求5所述的细胞类别确定方法,其特征在于,所述全局对齐损失函数的值的确定过程为:将所述目标域数据集以及所述源域训练数据集输入所述第二分支得到所述目标域数据集中单细胞
RNA
测序数据的所属域以及所述源域训练数据集...

【专利技术属性】
技术研发人员:朱旗李艾珍章文骏邵伟张道强
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1