【技术实现步骤摘要】
一种细胞类别确定方法及系统
[0001]本专利技术涉及细胞分类
,特别是涉及一种细胞类别确定方法及系统
。
技术介绍
[0002]单细胞
RNA
测序技术
(scRNA
‑
seq)
能够对基因表达进行高分辨率的分析,揭示细胞群的异质性,并对单个细胞的行为和机制进行深入了解
。
与早期的批次
RNA
‑
seq
数据相比,
scRNA
‑
seq
数据更稀疏,且有较高的辍学率
。
在
scRNA
‑
seq
分析中,往往需要整合多个批次的数据
。
由于测序平台或实验操作等因素,多批次数据的联合分析在实践中经常存在批次效应,这将导致对下游分析的负面影响,如细胞类别的识别
。
例如,批次间的分布差异可能会影响细胞类别间的内在差异,导致细胞类别的错误标记
。
因此,迫切需要开发有效的细胞类别标注的自动化方法,并实现批次效应校正
。
[0003]许多基于机器学习的方法已被用于从
scRNA
‑
seq
数据中识别细胞类别
。
单细胞共识聚类
(SC3)
通过对多个相似度矩阵进行平均,计算出一个共识矩阵,并使用
k
‑
means
算法进行聚类
。SIMLR
根据细胞 ...
【技术保护点】
【技术特征摘要】
1.
一种细胞类别确定方法,其特征在于,包括:构建
scDRLN
模型;所述
scDRLN
模型包括第一分支
、
第二分支和第三分支;所述第一分支包括依次连接的特征提取器和标签分类器;所述第二分支包括依次连接的特征提取器和域鉴别器;所述第三分支包括依次连接的特征提取器和解码器;获取源域数据集
、
目标域数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别;所述源域数据集包括
n
s
个样本;所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述目标域数据集包括
n
t
个样本,所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞
RNA
测序数据处理后的基因表达矩阵;所述源域数据集与所述目标域数据集不相同,
n
s
和
n
t
均为大于1的正整数,且
n
s
和
n
t
不相等;采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集;根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞
RNA
测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别;以总损失函数的值最小为目标,根据所述小批量梯度下降法每个迭代次数下的源域训练数据集
、
所述目标域数据集以及所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别,采用小批量梯度下降法对所述
scDRLN
模型进行训练得到训练好的
scDRLN
模型,所述训练好的
scDRLN
模型中的第一分支用于确定细胞类别;所述总损失函数包括自步正则项
、
交叉熵损失函数
、
目标域数据集重建损失函数
、
全局对齐损失函数
、
源域数据集对齐损失函数和语义质心对齐损失函数;所述交叉熵损失函数为基于所述源域训练数据集
、
所述目标域数据集和所述第一分支确定的;所述目标域数据集重建损失函数为基于所述目标域数据集和所述第三分支确定的;所述全局对齐损失函数为基于所述源域训练数据集
、
所述目标域数据集以及所述第二分支确定的;所述源域数据集对齐损失函数为基于所述源域训练数据集以及所述特征编码器确定的;所述语义质心对齐损失函数为基于所述源域训练数据集
、
所述目标域数据集
、
所述标签分类器和所述特征编码器确定的;所述自步正则项为根据全局对齐损失函数确定的
。2.
根据权利要求1所述的细胞类别确定方法,其特征在于,所述总损失函数为:所述总损失函数为:其中,
L
total
表示总损失函数,
v
i
(
λ
,L
d
)
表示第
i
个样本选择变量,
L
l
表示交叉熵损失函数,
L
r
表示目标域数据集重建损失函数,
L
d
表示全局对齐损失函数,
L
sou
‑
c
表示源域数据集对齐损失函数,
L
sm
表示语义质心对齐损失函数,
f(v
i
,
λ
)
表示自步正则项,
γ
表示第一平衡参数,
δ
表示第二平衡参数,
α
表示第三平衡参数,
β
表示第四平衡参数,
n
s
表示源域数据集对应的单细胞
RNA
测序数据对应的细胞的数量,
λ
表示设定阈值
。3.
根据权利要求1所述的细胞类别确定方法,其特征在于,在根据所述源域数据集
、
所述目标域数据集以及所述第二分支得到的全局对齐损失函数的值之前还包括:均对所述源域数据集和所述目标域数据集依次进行质量控制操作
、
规范化操作和高可变基因选择操作得到处理后的源域数据集和处理后的目标域数据集
。
4.
根据权利要求1所述的细胞类别确定方法,其特征在于,所述交叉熵损失函数的值的确定过程为:将所述目标域数据集以及所述源域训练数据集输入所述第一分支得到所述目标域数据集对应的单细胞
RNA
测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞
RNA
测序数据的输出细胞类别;将所述目标域数据集对应的单细胞
RNA
测序数据的输出细胞类别
、
所述源域训练数据集对应的各单细胞
RNA
测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞
RNA
测序数据的细胞类别输入所述交叉熵损失函数,得到所述交叉熵损失函数的值
。5.
根据权利要求4所述的细胞类别确定方法,其特征在于,所述目标域数据集重建损失函数的值的确定过程为:将所述目标域数据集输入所述第三分支得到重建目标域数据集;将所述重建目标域数据集以及所述目标域数据集输入所述目标域数据集重建损失函数得到所述目标域数据集重建损失函数的值
。6.
根据权利要求5所述的细胞类别确定方法,其特征在于,所述全局对齐损失函数的值的确定过程为:将所述目标域数据集以及所述源域训练数据集输入所述第二分支得到所述目标域数据集中单细胞
RNA
测序数据的所属域以及所述源域训练数据集...
【专利技术属性】
技术研发人员:朱旗,李艾珍,章文骏,邵伟,张道强,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。