当前位置: 首页 > 专利查询>清华大学专利>正文

基于单细胞RNA测序数据基因表达表示学习方法和装置制造方法及图纸

技术编号:38206567 阅读:12 留言:0更新日期:2023-07-21 16:54
本发明专利技术提供一种基于单细胞RNA测序数据的基因表达表示学习方法和装置,包括:获取目标单细胞的RNA测序数据;利用预存的表示学习模型,对所述RNA测序数据进行全局特征提取,以得到所述目标单细胞的基因表达向量;其中,所述表示学习模型,是对单细胞RNA测序数据集进行多任务联合学习得到的;所述多任务至少包括掩码学习任务、分类任务和对比学习任务中的两个。本发明专利技术对单细胞RNA测序数据中的全局信息直接进行特征提取,提升了单细胞基因表达的准确性。确性。确性。

【技术实现步骤摘要】
基于单细胞RNA测序数据基因表达表示学习方法和装置


[0001]本专利技术涉及单细胞基因表达表示学习
,尤其涉及一种基于单细胞RNA测序数据的基因表达表示学习方法和装置。

技术介绍

[0002]基因表达谱(也称基因表达向量)是生物学中用于刻画细胞特征最广泛使用的方法,它描绘特定细胞或组织在特定状态下的基因表达种类和丰度信息,是描述细胞的“语言”。在生物医学领域中,细胞的基因表达谱可以广泛的用于下游任务(诸如单细胞的类型注释、批次校正、聚类、药效预测和基因扰动预测等任务)中,因此准确有效的细胞基因表达谱学习,是下游任务取得显着效果的关键。
[0003]因为单细胞具有数据海量和基因维度高的特性,故而现有基因表达谱的学习,大多通过对细胞RNA测序数据进行降维特征提取而得到。但是一方面降维特征提取,会丢失一部分基因信息,影响表达准确性;另一方面通常采用手动标注基因、HVG高变基因筛选或PCA分析等方式进行基因降维,或者利用全连接网络进行基因降维,这会带来人为偏差,以致出现过拟合问题,导致模型泛化能力不佳。
[0004]因此,亟需提供一种准确有效的基因表达谱的学习方法。

技术实现思路

[0005]为解决上述问题,本专利技术提供一种基于单细胞RNA测序数据的基因表达表示学习方法和装置,对单细胞RNA测序数据中的全局信息直接进行特征提取,提升了单细胞基因表达的准确性。
[0006]第一方面,本专利技术提供一种基于单细胞RNA测序数据的基因表达表示学习方法,所述方法包括:
[0007]获取目标单细胞的RNA测序数据;
[0008]利用预存的表示学习模型,对所述RNA测序数据进行全局特征提取,以得到所述目标单细胞的基因表达向量;
[0009]其中,所述表示学习模型,是对单细胞RNA测序数据集进行多任务联合学习得到的;
[0010]所述多任务至少包括掩码学习任务、分类任务和对比学习任务中的两个。
[0011]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述单细胞RNA测序数据集,由正常单细胞RNA测序数据集和癌症单细胞RNA测序数据集构成。
[0012]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述单细胞RNA测序数据集中每一个单细胞的RNA测序数据记录每一个所述单细胞的基因及其表达量;所述对单细胞RNA测序数据集进行多任务联合学习得到所述表示学习模型的过程,包括:
[0013]步骤1:构建包含表征层、基因互作关系嵌入层和编码器层的初始神经网络;
[0014]步骤2:将每一个所述单细胞的RNA测序数据输入所述表征层中,以使所述表征层将每一个所述单细胞的RNA测序数据中的基因及其表达量分别类比为词袋模型中的分词及其出现次数,生成每一个所述单细胞的RNA测序数据的向量表征;
[0015]步骤3:对所述向量表征中每一个基因进行互作关系嵌入,以得到每一个所述单细胞的基因表达向量;其中,所述每一个基因的互作关系,是利用蛋白质相互作用网络确定的所述每一个基因与其它基因的相互作用关系;
[0016]步骤4:对所有单细胞的基因表达向量构成的第一数据集进行多任务联合学习,并确定总学习损失;
[0017]步骤5:利用所述总学习损失优化所述初始神经网络的参数并返回步骤2,直至所述初始神经网络收敛;
[0018]步骤6:将收敛的所述初始神经网络作为所述表示学习模型。
[0019]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述多任务包括掩码学习任务、分类任务和对比学习任务,且所述编码器层包括掩码学习子层、分类学习子层和对比学习子层;所述步骤4,包括:
[0020]分别在所述掩码学习子层、所述分类学习子层和所述对比学习子层中对所述第一数据集进行掩码学习、分类学习和对比学习,并将掩码学习损失、分类学习损失和对比学习损失的加权和作为总学习损失。
[0021]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述掩码学习子层包括:掩码结构和预测结构;在所述掩码学习子层对所述第一数据集进行掩码学习,包括:
[0022]利用所述掩码结构对所述第一数据集中每一个所述单细胞的基因表达向量进行随机掩码,得到每一个所述单细胞的掩码向量;
[0023]利用所述预测结构对每一个所述单细胞的掩码向量中被掩盖部分进行预测;
[0024]在分类学习子层对所述第一数据集进行分类学习,包括:
[0025]基于每一个所述单细胞的基因表达向量,预测每一个所述单细胞的细胞类型。
[0026]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述对比学习子层包括:正例生成结构、负例生成结构和对比学习结构;在所述对比学习子层对所述第一数据集进行对比学习,包括:
[0027]在所述正例生成结构中,将每一个所述单细胞的基因表达向量随机丢弃部分,以构成每一个所述单细胞对应的正例;
[0028]在所述负例生成结构中,将所述第一数据集中其它单细胞的基因表达向量,作为每一个所述单细胞对应的负例;
[0029]在所述对比学习结构中,对每一个所述单细胞的基因表达向量与每一个所述单细胞对应的正例的相似度距离与每一个所述单细胞的基因表达向量与每一个所述单细胞对应的负例的相似度距离进行对比学习。
[0030]根据本专利技术提供的一种基于单细胞RNA测序数据的基因表达表示学习方法,所述掩码学习损失L
Rec
的表达式为:
[0031][0032]所述分类学习损失L
Pred
的表达式为:
[0033][0034]所述对比学习损失的表达式为:
[0035][0036][0037]其中,y
i,j
为所述第一数据集中第i个单细胞的掩码向量中被遮盖的第j个基因的真实表达,p
i,j
为所述第一数据集中第i个单细胞中被遮盖的第j个基因的预测表达,z
i
为所述第一数据集中第i个单细胞的真实细胞类型,q
i
为所述第一数据集中第i个单细胞的预测细胞类型,h
i
所述第一数据集中第i个单细胞对应的正例,为所述第一数据集中第i个单细胞的基因表达向量,为所述第一数据集中第f个单细胞的基因表达向量,Q为所述第一数据集中第i个单细胞对应的负例的总数,M为所述第一数据集中包含单细胞总数,N为掩码向量中被遮盖基因的总数。
[0038]第二方面,本专利技术提供一种基于单细胞RNA测序数据的基因表达表示学习装置,所述装置包括:
[0039]获取目标单细胞的RNA测序数据;
[0040]利用预存的表示学习模型,对所述RNA测序数据进行全局特征提取,以得到所述目标单细胞的基因表达向量;
[0041]其中,所述表示学习模型,是对单细胞RNA测序数据集进行多任务联合学习得到的;
[0042]所述多任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单细胞RNA测序数据的基因表达表示学习方法,其特征在于,所述方法包括:获取目标单细胞的RNA测序数据;利用预存的表示学习模型,对所述RNA测序数据进行全局特征提取,以得到所述目标单细胞的基因表达向量;其中,所述表示学习模型,是对单细胞RNA测序数据集进行多任务联合学习得到的;所述多任务至少包括掩码学习任务、分类任务和对比学习任务中的两个。2.根据权利要求1所述的单细胞基因表达谱的表示学习方法,其特征在于,所述单细胞RNA测序数据集,由正常单细胞RNA测序数据集和癌症单细胞RNA测序数据集构成。3.根据权利要求1或2所述的单细胞基因表达谱的表示学习方法,其特征在于,所述单细胞RNA测序数据集中每一个单细胞的RNA测序数据记录每一个所述单细胞的基因及其表达量;所述对单细胞RNA测序数据集进行多任务联合学习得到所述表示学习模型的过程,包括:步骤1:构建包含表征层、基因互作关系嵌入层和编码器层的初始神经网络;步骤2:将每一个所述单细胞的RNA测序数据输入所述表征层中,以使所述表征层将每一个所述单细胞的RNA测序数据中的基因及其表达量分别类比为词袋模型中的分词及其出现次数,生成每一个所述单细胞的RNA测序数据的向量表征;步骤3:对所述向量表征中每一个基因进行互作关系嵌入,以得到每一个所述单细胞的基因表达向量;其中,所述每一个基因的互作关系,是利用蛋白质相互作用网络确定的所述每一个基因与其它基因的相互作用关系;步骤4:对所有单细胞的基因表达向量构成的第一数据集进行多任务联合学习,并确定总学习损失;步骤5:利用所述总学习损失优化所述初始神经网络的参数并返回步骤2,直至所述初始神经网络收敛;步骤6:将收敛的所述初始神经网络作为所述表示学习模型。4.根据权利要求3所述的单细胞基因表达谱的表示学习方法,其特征在于,所述多任务包括掩码学习任务、分类任务和对比学习任务,且所述编码器层包括掩码学习子层、分类学习子层和对比学习子层;所述步骤4,包括:分别在所述掩码学习子层、所述分类学习子层和所述对比学习子层中对所述第一数据集进行掩码学习、分类学习和对比学习,并将掩码学习损失、分类学习损失和对比学习损失的加权和作为总学习损失。5.根据权利要求4所述的单细胞基因表达谱的表示学习方法,其特征在于,所述掩码学习子层包括:掩码结构和预测结构;在所述掩码学习子层对所述第一数据集进行掩码学习,包括:利用所述掩码结构对所述第一数据集中每一个所述单细胞的基因表达向量进行随机掩码,得到每一个所述单细胞的掩码向量;利用所述预测结构对每一个所述单细胞的掩码向量中被掩盖部分进行预测;在分类学习子层对所述第一数据集进行分类学习,包括:基于每一个所述单细胞的基因表达向量,...

【专利技术属性】
技术研发人员:聂再清张嘉欢赵苏原黄婷婷马维英张亚勤
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1