System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理领域,尤其涉及的是一种基于反卷积的转录测序数据处理方法、系统及终端。
技术介绍
1、批量测序技术使用生物组织(细胞群)作为测序样本,得到数十(百)万个细胞的基因表达总和,而针对高度异质性的细胞,如肿瘤样本,由于每个肿瘤细胞都是独一无二的,肿瘤细胞的基因特征在肿瘤细胞之间和肿瘤微环境内具有高度异质性,这些特异性会在转录组测序的大量细胞基因表达累加计算中被掩盖。然而,单细胞测序技术的高稀疏性、批次效应等问题导致难以整合数据构建模型,并且现有海量的批量转录组测序数据因为无法直观提供细胞层面的信息而难以被应用。
2、目前传统的批量转录组测序数据反卷积方法选择相似样本的单细胞数据作为模板,推测批量转录组测序数据中的各个细胞类型占比和细胞类型表达矩阵。传统批量转录组测序数据反卷积方法要求批量转录组测序数据与作为模板的单细胞样本尽可能相似,而由于肿瘤异质性的存在,不同肿瘤在细胞组成和基因表达上存在较高的异质性,难以为每个批量转录组测序数据都匹配相似的单细胞样本做模板,因此也无法从批量转录组测序数据中提取出方便于研究的单细胞基因表达矩阵。
3、因此,现有技术还有待改进和发展。
技术实现思路
1、本专利技术的主要目的在于提供一种基于反卷积的转录测序数据处理方法、系统、终端及存储介质,旨在解决现有技术中由于不同肿瘤在细胞组成和基因表达上存在较高的异质性,导致无法从批量转录组测序数据中提取出方便于研究的单细胞基因表达矩阵的问题。
2、为了实现所述
3、获取待处理的批量转录组测序数据;
4、将所述批量转录组测序数据输入到训练完成的生成对抗网络中,输出细胞类型表达矩阵和细胞比例向量;
5、将所述细胞类型表达矩阵和所述细胞比例向量输入到训练完成的条件生成模型中,生成单细胞表达矩阵,并输出;
6、其中,根据单细胞转录组测序数据生成伪批量转录组测序数据,根据所述伪批量转录组测序数据训练所述生成对抗网络。
7、可选的,所述生成对抗网络的训练过程包括:
8、获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵,根据每个单细胞转录组测序数据的训练细胞类型平均表达矩阵生成每个单细胞转录组测序数据的训练细胞比例向量;
9、将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据;
10、根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络。
11、可选的,所述获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵的步骤包括:
12、根据所述奇异分解算法对第一预设数量的所述单细胞转录组测序数据降维,得到每个单细胞转录组测序数据的降维单细胞转录组测序数据;
13、根据所述基于图的聚类算法对每个单细胞转录组测序数据的所述降维单细胞转录组测序数据聚类,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵。
14、可选的,所述将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据的步骤包括:
15、获取所述第一预设数量的所述单细胞转录组测序数据;
16、将所述单细胞转录组测序数据中每个细胞的基因表达量加和,得到第一预设数量个所述伪批量转录组测序数据。
17、可选的,所述根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络的步骤包括:
18、将每个所述伪批量转录组测序数据与对应的训练细胞类型表达矩阵和训练细胞比例向量组合为所述训练数据集中的一组数据;
19、根据所述训练数据集训练所述生成对抗网络,其中所述生成对抗网络包括生成器和判别器,在每次训练过程中通过对抗目标函数生成训练细胞类型表达矩阵和训练细胞比例向量,并通过重构目标函数计算损失。
20、可选的,其特征在于,所述条件生成模型的训练过程包括:
21、根据所述单细胞转录组测序数据获取训练单细胞表达矩阵;
22、根据所述训练单细胞表达矩阵、每个所述单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成条件生成模型训练数据集;
23、根据所述条件生成模型训练数据集训练所述条件生成模型。
24、可选的,所述根据所述训练单细胞表达矩阵、每个所述单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成条件生成模型训练数据集的步骤包括:
25、根据第一预设数量的所述训练细胞类型平均表达矩阵和所述训练细胞比例向量,生成所述条件生成模型训练数据集中的训练数据,并根据所述训练单细胞表达矩阵生成所述条件生成模型训练数据集中的训练数据的标签;
26、其中,所述条件生成模型训练数据集中每组训练数据中的训练细胞类型平均表达矩阵、训练细胞比例向量和所述训练单细胞表达矩阵都基于相同的单细胞转录组测序数据所生成。
27、本专利技术第二方面提供一种基于反卷积的转录测序数据处理系统,其中,所述一种基于反卷积的转录测序数据处理系统包括:
28、数据获取模块,用于获取待处理的批量转录组测序数据;
29、生成对抗网络处理模块,用于将所述批量转录组测序数据输入到训练完成的生成对抗网络中,输出细胞类型表达矩阵和细胞比例向量;
30、结果输出模块,用于将所述细胞类型表达矩阵和所述细胞比例向量输入到训练完成的条件生成模型中,生成单细胞表达矩阵,并输出。
31、本专利技术第三方面提供一种终端,所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被所述处理器执行时实现任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。
32、本专利技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被处理器执行时实现任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。
...
【技术保护点】
1.一种基于反卷积的转录测序数据处理方法,其特征在于,所述一种基于反卷积的转录测序数据处理方法包括:
2.根据权利要求1所述的基于反卷积的转录测序数据处理方法,其特征在于,所述生成对抗网络的训练过程包括:
3.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵的步骤包括:
4.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据的步骤包括:
5.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络的步骤包括:
7.根据权利要求6所述的基于反卷积的转录测序数据处理方法,其特征在于,所述根据所述训练单细胞表达矩阵、每个所述单细胞转录组测序数据的训练细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的训练细胞比例向量,生成条件生成模型训练数据集的步骤包括:
8.一种基于反卷积的转录测序数据处理系统,其特征在于,所述一种基于反卷积的转录测序数据处理系统包括:
9.一种终端,其特征在于,所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被所述处理器执行时实现如权利要求1-7任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有一种基于反卷积的转录测序数据处理程序,所述一种基于反卷积的转录测序数据处理程序被处理器执行时实现如权利要求1-7任意一项所述一种基于反卷积的转录测序数据处理方法的步骤。
...【技术特征摘要】
1.一种基于反卷积的转录测序数据处理方法,其特征在于,所述一种基于反卷积的转录测序数据处理方法包括:
2.根据权利要求1所述的基于反卷积的转录测序数据处理方法,其特征在于,所述生成对抗网络的训练过程包括:
3.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述获取第一预设数量的单细胞转录组测序数据,根据奇异分解算法和基于图的聚类算法对第一预设数量的所述单细胞转录组测序数据进行处理,得到每个单细胞转录组测序数据的训练细胞类型平均表达矩阵的步骤包括:
4.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述将第一预设数量的所述单细胞转录组测序数据中的每个细胞的基因表达数据加和,得到第一预设数量个伪批量转录组测序数据的步骤包括:
5.根据权利要求2所述的基于反卷积的转录测序数据处理方法,其特征在于,所述根据所述伪批量转录组测序数据、每个单细胞转录组测序数据的细胞类型平均表达矩阵和每个所述伪批量转录组测序数据的细胞比例向量,生成训练数据集,并根据所述训练数据集训练所述生成对抗网络的步骤包括:
6.根据...
【专利技术属性】
技术研发人员:张睿,吴红艳,蔡云鹏,黎慧君,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。