当前位置: 首页 > 专利查询>中山大学专利>正文

一种大规模单细胞分型方法、系统及存储介质技术方案

技术编号:28745904 阅读:30 留言:0更新日期:2021-06-06 18:37
本发明专利技术提供的一种大规模单细胞分型方法、系统及存储介质,方法包括:获取基因样本,从所述基因样本中筛选得到高变异基因,根据所述高变异基因构建训练数据集;根据所述训练数据集,训练深度学习模型;通过训练后的所述深度学习模型进行细胞分型;其中,根据所述训练数据集,训练深度学习模型包括以下步骤:根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本;对所述第一分组样本进行线性缩放,得到第二分组样本;通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理。方法减少了技术变异性对真正生物学的差异的影响,也能够为全面揭示各类细胞的特征和功能提供有力证据,可广泛应用于生物信息学技术领域。领域。领域。

【技术实现步骤摘要】
一种大规模单细胞分型方法、系统及存储介质


[0001]本专利技术涉及生物信息学
,尤其是一种大规模单细胞分型方法、系统及存储介质。

技术介绍

[0002]生物体最基本的单位是细胞,人类大约由3.72
×
10
13
个细胞组成。这些细胞正常的协调工作维持机体的运转。然而,只要单个细胞发生了癌变而不停增殖,就可能毁灭整个生命体。现有的转录组水平的研究是对含有成百上千的大块组织进行测序,试图在其中找到少数的变异细胞十分困难,所以生物学家们需要一种新的方法来研究细胞。单细胞RNA测序(Single cell RNA

Seq,scRNA

seq)就是一种在单个细胞水平上对其转录本进行分析的方法。第一篇单细胞RNA测序的文章发表于2009年,自诞生以来,单细胞RNA测序逐渐成为研究细胞转录水平的有利工具。相比于大量组织的RNA测序,单细胞RNA测序更能揭示细胞间的异质性,追踪癌细胞病变的信号,不至于被大量正常细胞表达的平均信号所湮没。
[0003]为了对单细胞的RNA进行分析,首先要分离出单个的细胞,常用的方法有滴管吸取;激光捕获(laser capture microdissection,LCM)吸附在薄膜上的细胞;利用微流体芯片中的管道分离出单个细胞;在高压下分离用电荷分离含有细胞的微滴等等。溶解细胞后提取其中的RNA,然后要对其进行全转录组扩增(whole

transcriptome amplification,WTA)。一个典型的哺乳动物细胞中含有大约10pg的RNA和0.1pg的mRNA,为了达到测序的要求,需要较大的扩增倍数,比较成熟的单细胞RNA测序技术有SmartSeq(switching mechanism at 5

end of RNA template)和STRT

Seq(single

cell tagged reverse transcription),这些方法能扩增出完整的RNA片段而不是3

端,最大程度的保证了RNA的完整性。扩增完之后,对cDNA进行建库和二代测序(next

generation sequencing,NGS)。
[0004]然而,单细胞RNA测序带来的大规模数据也为分析带来了巨大的挑战。除了考虑如何对大规模产生的单细胞RNA数据的进行分析以外,还必须克服具体计算的挑战。比如,单细胞RNA测序用着更高的扩增倍数,更深的测序深度,所以一些误差可能被放大,比如GC含量可能会影响测序的准确性。另外,单细胞RNA测序由于只测单个细胞的转录水平,相较于大量组织测序,其细胞间特异的表达信号很可能被实验条件的差异所掩盖。所以,单细胞RNA测序需要一套专门的数据分析方法,以减少技术变异性对真正生物学的差异的影响。

技术实现思路

[0005]有鉴于此,为至少部分解决上述技术问题之一,本专利技术实施例目的在于提供一种大规模单细胞分型方法,能有有效减少技术变异性对真正生物学差异影响;同时本申请还提供了对应的实现该方法的系统及计算机可读的存储介质。
[0006]第一方面,本申请的技术方案提供了一种大规模单细胞分型方法,其步骤包括:
[0007]获取基因样本,从所述基因样本中筛选得到高变异基因,根据所述高变异基因构建训练数据集;
[0008]根据所述训练数据集,训练深度学习模型;
[0009]通过训练后的所述深度学习模型进行细胞分型;
[0010]其中,根据所述训练数据集,训练深度学习模型包括以下步骤:
[0011]根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本;
[0012]对所述第一分组样本进行线性缩放,得到第二分组样本;
[0013]通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理。
[0014]在本申请方案的一种可行的实施例中,所述单细胞分型方法,其还包括:
[0015]根据控制性术语表进行标注,确定所述训练数据集中基因样本的细胞类型、组织类型以及系统类型;
[0016]其中,标注的步骤包括:
[0017]根据所述控制性术语表的树形结构确定所述细胞类型,根据所述细胞类型以及树形结构的层级进行归约确定所述组织类型以及所述系统类型。
[0018]在本申请方案的一种可行的实施例中,所述单细胞分型方法,其还包括:
[0019]通过主成分分析对所述训练数据集进行降维处理;
[0020]将降维处理后的训练数据集通过无监督的流形学习转换得到二维数据集,并将所述二维数据集中的数据进行可视化。
[0021]在本申请方案的一种可行的实施例中,所述根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本这一步骤,其包括:
[0022]确定所述训练数据集中的标志物;
[0023]根据所述训练数据集中标志物的表达量,通过二元组网络得到第一样本输出;
[0024]确定所述第一样本输出之间的样本距离,根据所述样本距离进行样本分组。
[0025]在本申请方案的一种可行的实施例中,所述对所述第一分组样本进行线性缩放,得到第二分组样本这一步骤,其包括:
[0026]根据所述标志物的表达量通过全连接网络得到缩放因子以及平移变量;
[0027]根据所述缩放因子以及所述平移变量对所述第一分组样本进行变换,得到第二分组样本。
[0028]在本申请方案的一种可行的实施例中,所述通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理这一步骤,其包括:
[0029]根据所述先验生物学知识构建网络图;
[0030]将所述网络图中的节点进行聚合,根据聚合后的节点生成掩膜矩阵;
[0031]根据所述掩膜矩阵与编码器进行点乘,构建得到自动编码器,通过所述自动编码器进行降维处理。
[0032]在本申请方案的一种可行的实施例中,根据所述训练数据集,训练深度学习模型这一步骤,其还包括:
[0033]通过交叉熵计算得到若干错误损失,根据所述错误损失加权得到总损失,根据所述总损失以及反向传播算法优化所述深度学习模型的参数。
[0034]第二方面,本专利技术的技术方案还提供一种大规模单细胞分型的软件系统,包括:
[0035]数据获取单元,用于获取基因样本,从所述基因样本中筛选得到高变异基因,根据所述高变异基因构建训练数据集;
[0036]模型训练单元,用于根据所述训练数据集,训练深度学习模型;其中,根据所述训练数据集,训练深度学习模型包括以下步骤:根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本;对所述第一分组样本进行线性缩放,得到第二分组样本;通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理;
[0037]细胞分型单元,用于通过训练后的所述深度学习模型进行细胞分型。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模单细胞分型方法,其特征在于,包括以下步骤:获取基因样本,从所述基因样本中筛选得到高变异基因,根据所述高变异基因构建训练数据集;根据所述训练数据集,训练深度学习模型;通过训练后的所述深度学习模型进行细胞分型;其中,根据所述训练数据集,训练深度学习模型包括以下步骤:根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本;对所述第一分组样本进行线性缩放,得到第二分组样本;通过自编码器结合先验生物学知识,对所述第二分组样本进行降维处理。2.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述单细胞分型方法,其还包括:根据控制性术语表进行标注,确定所述训练数据集中基因样本的细胞类型、组织类型以及系统类型;其中,标注的步骤包括:根据所述控制性术语表的树形结构确定所述细胞类型,根据所述细胞类型以及树形结构的层级进行归约确定所述组织类型以及所述系统类型。3.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述单细胞分型方法,其还包括:通过主成分分析对所述训练数据集进行降维处理;将降维处理后的训练数据集通过无监督的流形学习转换得到二维数据集,并将所述二维数据集中的数据进行可视化。4.根据权利要求1所述的一种大规模单细胞分型方法,其特征在于,所述根据欧式距离以及所述训练数据集进行样本分组,得到第一分组样本这一步骤,其包括:确定所述训练数据集中的标志物;根据所述训练数据集中标志物的表达量,通过二元组网络得到第一样本输出;确定所述第一样本输出之间的样本距离,根据所述样本距离进行样本分组。5.根据权利要求4所述的一种大规模单细胞分型方法,其特征在于,所述对所述第一分组样本进行线性缩放,得到第二分组样本这一步骤,其包括:根据所述标志物的表达量通过全连接网络得到缩放因子以及平移变量;根据所述缩放因子以及所述平移变量对所述第一分组样本进行变换,得到第二...

【专利技术属性】
技术研发人员:郑凌伶黄巧娟屈良鹄杨建华
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1