单细胞RNA测序数据生成方法、装置、电子设备及介质制造方法及图纸

技术编号:37519196 阅读:20 留言:0更新日期:2023-05-12 15:41
本申请实施例提供了一种单细胞RNA测序数据生成方法、装置、电子设备及介质,属于人工智能技术领域。该方法包括:获取待处理单细胞测序数据;将所述待处理单细胞测序数据输入RNA测序数据生成模型,对所述待处理单细胞测序数据进行第一预设次数的马尔可夫扩散处理,得到所述待处理单细胞测序数据对应的第一高斯噪声,所述第一高斯噪声服从正态分布;对第一高斯噪声进行抽样,得到第一抽样数据;对第一抽样数据进行第一预设次数的马尔可夫去噪处理,得到若干个目标单细胞RNA测序数据。本申请实施例无需进行分布假定和生成对抗网络的训练,即能根据单细胞数据特征生成多个目标单细胞RNA测序数据,有效提高了单细胞RNA测序数据的质量。质量。质量。

【技术实现步骤摘要】
单细胞RNA测序数据生成方法、装置、电子设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种单细胞RNA测序数据生成方法、装置、电子设备及介质。

技术介绍

[0002]目前,采用统计学的方式生成单细胞RNA测序数据,需要对细胞表达有特定的分布假设,但是,假设的分布难以与现实情况相吻合,从而无法生成高质量的测试数据;基于生成对抗网络生成单细胞RNA测序数据,由于对抗网络训练过程中难以找到纳什平衡的途径,导致训练过程难以收敛或者训练收敛了但出现模式崩盘的情况,从而也难以生成高质量的测试数据。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种单细胞RNA测序数据生成方法、装置、电子设备及介质,旨得到高质量的单细胞RNA测序数据。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种单细胞RNA测序数据生成方法,所述方法包括:
[0005]获取待处理单细胞测序数据;
[0006]将所述待处理单细胞测序数据输入RNA测序数据生成模型,对所述待处理单细胞测序数据进行第一预设次数的马尔可夫扩散处理,得到所述待处理单细胞测序数据对应的第一高斯噪声,所述第一高斯噪声服从正态分布;
[0007]对所述第一高斯噪声进行抽样,得到第一抽样数据;
[0008]对所述第一抽样数据进行第一预设次数的马尔可夫去噪处理,得到若干个目标单细胞RNA测序数据。
[0009]在一些实施例,在将所述待处理单细胞测序数据输入RNA测序数据生成模型之前,所述方法还包括预先训练所述RNA测序数据生成模型,具体包括:
[0010]获取数据集,所述数据集包括训练集和测试集,所述训练集包括若干个第一单细胞测序数据,所述测试集包括若干个第二单细胞测序数据;
[0011]将所述训练集输入所述RNA测序数据生成模型,对每个所述第一单细胞测序数据进行第二预设次数的马尔可夫扩散处理,得到所述第一单细胞测序数据对应的第二高斯噪声,所述第二高斯噪声服从正态分布;
[0012]对所述第二高斯噪声进行抽样,得到第二抽样数据;
[0013]对所述第二抽样数据进行第二预设次数的马尔可夫去噪处理,得到第三单细胞测序数据;
[0014]根据所述第一单细胞测序数据和所述第二抽样数据计算训练损失值;
[0015]根据所述第二单细胞测序数据和所述第三单细胞测序数据训练效果衡量值;
[0016]根据所述训练损失值和所述训练效果衡量值调整所述RNA测序数据生成模型的参
数。
[0017]在一些实施例,在所述获取数据集这一步骤后,所述方法还包括:
[0018]获取所述数据集内每一个单细胞测序数据的基因数据;
[0019]将所述基因数据转化为表达向量;
[0020]将所有单细胞测序数据对应的所有所述表达向量组成表达矩阵。
[0021]在一些实施例,所述对每个所述第一单细胞测序数据进行第二预设次数的马尔可夫扩散处理,包括:
[0022]确定所述训练集内的其中一个第一单细胞测序数据作为目标训练单细胞RNA测序数据;
[0023]对所述目标训练单细胞RNA测序数据进行初始加噪处理;
[0024]对上一次加噪处理后的目标训练单细胞RNA测序数据进行再次加噪处理;
[0025]当加噪次数等于第二预设次数且所述训练集内所有第一单细胞测序数据均完成加噪处理,结束所述训练集的加噪处理。
[0026]在一些实施例,所述对所述第二抽样数据进行第二预设次数的马尔可夫去噪处理,得到第三单细胞测序数据,包括:
[0027]对所述第二抽样数据进行初始去噪处理;
[0028]对上一次去噪处理后的第二抽样数据进行再次去噪处理;
[0029]当去噪次数等于第二预设次数,得到第三单细胞测序数据。
[0030]在一些实施例,所述根据所述第一单细胞测序数据和所述第二抽样数据计算训练损失值,包括:
[0031]获取预设数列,所述预设数列包括等比数列;
[0032]根据所述预设数列和所述第一单细胞测序数据计算第一数值;
[0033]根据所述预设数列和所述第二抽样数据计算第二数值;
[0034]根据加噪模型参数、所述第一数值、所述第二数值和所述抽样数据计算当前加噪次数中的训练损失值。
[0035]在一些实施例,所述根据所述第二单细胞测序数据和所述第三单细胞测序数据训练效果衡量值,包括:
[0036]计算目标第二单细胞测序数据与其他第二单细胞测序数据的第一平均距离;
[0037]计算目标第三单细胞测序数据与其他第三单细胞测序数据的第二平均距离;
[0038]计算所述第一平均距离和所述第二平均数据的差值;
[0039]确定所述第一平均距离和所述第二平均距离中的较大值;
[0040]根据所述差值和所述较大值计算得到训练效果衡量值。
[0041]本申请实施例的第二方面提出了一种单细胞RNA测序数据生成装置,所述装置包括:
[0042]获取模块,用于获取待处理单细胞测序数据;
[0043]扩散处理模块,用于将所述待处理单细胞测序数据输入RNA测序数据生成模型,对所述待处理单细胞测序数据进行第一预设次数的马尔可夫扩散处理,得到所述待处理单细胞测序数据对应的第一高斯噪声,所述第一高斯噪声服从正态分布;
[0044]抽样模块,用于对所述第一高斯噪声进行抽样,得到第一抽样数据;
[0045]去噪处理模块,用于对所述第一抽样数据进行第一预设次数的马尔可夫去噪处理,得到若干个目标单细胞RNA测序数据。
[0046]本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现前述的方法的步骤。
[0047]本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述的方法的步骤。
[0048]本申请提出的单细胞RNA测序数据生成方法、装置、电子设备及介质,其通过通将待处理单细胞测序数据输入到RNA测序数据生成模型,通过RNA测序数据生成模型对待处理单细胞测序数据进行预设次数的马尔可夫扩散处理后,再抽样进行预设次数的马尔可夫去噪处理,从而无需进行分布假定和生成对抗网络的训练,即能根据单细胞数据特征生成多个目标单细胞RNA测序数据,有效提高了单细胞RNA测序数据的质量。
附图说明
[0049]图1是本申请实施例提供的单细胞RNA测序数据生成方法的流程图;
[0050]图2是本申请实施例提供的RNA测序数据生成模型的训练流程图;
[0051]图3是本申请实施例图2中的步骤S202的流程图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞RNA测序数据生成方法,其特征在于,所述方法包括:获取待处理单细胞测序数据;将所述待处理单细胞测序数据输入RNA测序数据生成模型,对所述待处理单细胞测序数据进行第一预设次数的马尔可夫扩散处理,得到所述待处理单细胞测序数据对应的第一高斯噪声,所述第一高斯噪声服从正态分布;对所述第一高斯噪声进行抽样,得到第一抽样数据;对所述第一抽样数据进行第一预设次数的马尔可夫去噪处理,得到若干个目标单细胞RNA测序数据。2.根据权利要求1所述的生成方法,其特征在于,在将所述待处理单细胞测序数据输入RNA测序数据生成模型之前,所述方法还包括预先训练所述RNA测序数据生成模型,具体包括:获取数据集,所述数据集包括训练集和测试集,所述训练集包括若干个第一单细胞测序数据,所述测试集包括若干个第二单细胞测序数据;将所述训练集输入所述RNA测序数据生成模型,对每个所述第一单细胞测序数据进行第二预设次数的马尔可夫扩散处理,得到所述第一单细胞测序数据对应的第二高斯噪声,所述第二高斯噪声服从正态分布;对所述第二高斯噪声进行抽样,得到第二抽样数据;对所述第二抽样数据进行第二预设次数的马尔可夫去噪处理,得到第三单细胞测序数据;根据所述第一单细胞测序数据和所述第二抽样数据计算训练损失值;根据所述第二单细胞测序数据和所述第三单细胞测序数据训练效果衡量值;根据所述训练损失值和所述训练效果衡量值调整所述RNA测序数据生成模型的参数。3.根据权利要求2所述的生成方法,其特征在于,在所述获取数据集这一步骤后,所述方法还包括:获取所述数据集内每一个单细胞测序数据的基因数据;将所述基因数据转化为表达向量;将所有单细胞测序数据对应的所有所述表达向量组成表达矩阵。4.根据权利要求2所述的生成方法,其特征在于,所述对每个所述第一单细胞测序数据进行第二预设次数的马尔可夫扩散处理,包括:确定所述训练集内的其中一个第一单细胞测序数据作为目标训练单细胞RNA测序数据;对所述目标训练单细胞RNA测序数据进行初始加噪处理;对上一次加噪处理后的目标训练单细胞RNA测序数据进行再次加噪处理;当加噪次数等于第二预设次数且所述训练集内所有第一单细胞测序数据均完成加噪处理,结束所述训练集的加噪处理。5.根据权利要求4所述的生成方法,其特征在于,所述对所述第二...

【专利技术属性】
技术研发人员:李泽远王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1