【技术实现步骤摘要】
一种大规模单细胞分型方法、系统及存储介质
[0001]本专利技术涉及生物信息学
,尤其是一种大规模单细胞分型方法、系统及存储介质。
技术介绍
[0002]生物体最基本的单位是细胞,人类大约由3.72
×
10
13
个细胞组成。这些细胞正常的协调工作维持机体的运转。然而,只要单个细胞发生了癌变而不停增殖,就可能毁灭整个生命体。现有的转录组水平的研究是对含有成百上千的大块组织进行测序,试图在其中找到少数的变异细胞十分困难,所以生物学家们需要一种新的方法来研究细胞。单细胞RNA测序(Single cell RNA
‑
Seq,scRNA
‑
seq)就是一种在单个细胞水平上对其转录本进行分析的方法。第一篇单细胞RNA测序的文章发表于2009年,自诞生以来,单细胞RNA测序逐渐成为研究细胞转录水平的有利工具。相比于大量组织的RNA测序,单细胞RNA测序更能揭示细胞间的异质性,追踪癌细胞病变的信号,不至于被大量正常细胞表达的平均信号所湮没。
[0003]为 ...
【技术保护点】
【技术特征摘要】
1.一种大规模单细胞分型方法,其特征在于,包括以下步骤:获取基因样本,从所述基因样本中筛选得到高变异基因,根据所述高变异基因构建训练数据集;根据所述训练数据集,训练深度学习模型;通过训练后的所述深度学习模型进行细胞分型;其中,根据所述训练数据集,训练深度学习模型包括以下步骤:根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本;对所述第一分组样本进行线性缩放,得到第二分组样本;通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理。2.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述单细胞分型方法,其还包括:根据控制性术语表进行标注,确定所述训练数据集中基因样本的细胞类型、组织类型以及系统类型;其中,标注的步骤包括:根据所述控制性术语表的树形结构确定所述细胞类型,根据所述细胞类型以及树形结构的层级进行归约确定所述组织类型以及所述系统类型。3.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述单细胞分型方法,其还包括:通过主成分分析对所述训练数据集进行降维处理;将降维处理后的训练数据集通过无监督的流形学习转换得到二维数据集,并将所述二维数据集中的数据进行可视化。4.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本这一步骤,其包括:确定所述训练数据集中的标志物;根据所述训练数据集中标志物的表达量,通过二元组网络得到第一样本输出;确定所述第一样本输出之间的样本距离,根据所述样本距离进行样本分组。5.根据权利要求4所述的一种大规模单细胞分型方法,其特征在于,所述对所述第一分组样本进行线性缩放,得到第二分组样本这一步骤,其包括:根据所述标志物的表达量通过全连接网络得到缩放因子以及平移变量;根据所述缩放因子以及所述平移变量对所述第一分组样本进行变换,得到第二...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。