【技术实现步骤摘要】
一种样本间差异的归因方法、装置、电子设备及存储介质
[0001]本申请涉及自转录组测序
,具体涉及一种样本间差异的归因方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]自转录组测序技术(
RNA
‑
seq
)自被应用于人
、
酵母,拟南芥,小鼠
、
水稻等物种以来,已经产生了大量的公共
RNA
测序(
RNA
‑
seq
)数据
。
深度学习是机器学习领域的一个分支,它通过神经网络实现,神经网络可以通过非线性计算帮助我们捕捉高维复杂数据中特征相关性,其同样适用于大规模转录组测序数据的分析
。
如今在转录组学领域,深度学习已经成功被应用于数据去噪,聚类,表达丰度预测,疾病信息预测等任务中
。
[0003]然而,神经网络的黑盒属性一直制约着深度学习在对
RNA
测序数据分析中的应用,神经网络根据哪些基因对不同的
RNA
测序数据进行区分,以及哪些基因决定了不同
RNA
测序数据之间的差异,都是未知的
。
[0004]因此,如何对不同
RNA
测序数据之间的差异进行归因分析,成为本领域技术人员亟需解决的技术问题
。
技术实现思路
[0005]为了解决上述技术问题,本申请提供一种样本间差异的归因方法r/>、
装置
、
电子设备及存储介质
。
[0006]根据本申请实施例的第一方面,提供了一种样本间差异的归因方法,包括:获得第一
RNA
测序样本和第二
RNA
测序样本之间的至少一个中间
RNA
测序样本;基于所述至少一个中间
RNA
测序样本和所述第二
RNA
测序样本之间的样本差异,构建第一样本差异曲线;以及,基于所述至少一个中间
RNA
测序样本与所述第二
RNA
测序样本之间的样本差异,构建第二样本差异曲线;对所述第一样本差异曲线和所述第二样本差异曲线进行梯度积分分析,确定所述第一
RNA
测序样本和所述第二
RNA
测序样本中各基因对之间的差异度
。
[0007]在本申请的一种可选实施方式中,所述获得第一
RNA
测序样本和第二
RNA
测序样本之间的至少一个中间
RNA
测序样本,包括:对所述第一
RNA
测序样本和所述第二
RNA
测序样本进行线性插值处理,获得所述至少一个中间
RNA
测序样本
。
[0008]在本申请的一种可选实施方式中,所述第一样本差异曲线和所述第二样本差异曲线通过以下方式构建:对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征;根据所述中间生物学特征和所述第一生物学特征,确定所述中间
RNA
测序样本与
所述第一
RNA
测序样本之间的样本差异,并构建所述第一样本差异曲线;根据所述中间生物学特征和所述第二生物学特征,确定所述中间
RNA
测序样本与所述第二
RNA
测序样本之间的样本差异,并构建所述第二样本差异曲线
。
[0009]在本申请的一种可选实施方式中,所述对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征,包括:利用预先训练的特征提取模型,对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征
。
在本申请的一种可选实施方式中,所述第一
RNA
测序样本为第一测序样本集中的
RNA
测序样本,第二
RNA
测序样本为第二测序样本集中的
RNA
测序样本;
[0010]所述方法还包括:基于所述第一测序样本集和所述第二测序样本集,构建多个测序样本对,所述测序样本对包括所述第一测序样本集中的任意
RNA
测序样本和所述第二测序样本集中的任意
RNA
测序样本;对应每一测序样本对,分别获得该测序样本对中各基因对之间的差异度;基于各测序样本对中各基因对之间的差异度,确定所述第一测序样本集和所述第二测序样本集中
RNA
测序样本的特征基因;所述特征基因用于决定所述测序样本对中
RNA
测序样本之间样本的差异;基于所述
RNA
测序样本的特征基因,对所述第一测序样本集和所述第二测序样本集中的
RNA
测序样本进行聚类处理,获得所述第一测序样本集和所述第二测序样本集中各
RNA
测序样本的分类结果
。
在本申请的一种可选实施方式中,所述第一测序样本集中包括病变
RNA
测序样本,所述第二测序样本集中包括正常
RNA
测序样本;
[0011]或者,所述第一测序样本集和所述第二测序样本集中包括病变
RNA
测序样本
。
[0012]在本申请的一种可选实施方式中,所述基于所述各基因对之间的差异度,确定所述第一测序样本集和所述第二测序样本集中
RNA
测序样本的特征基因,包括:统计不同
RNA
测序样本对中相同基因对的差异度平均值,其中,所述基因对由不同
RNA
测序样本中的相同基因组成;将所述差异度平均值大于预设的第一差异度阈值的基因对中的基因作为所述特征基因;或者,将任意基因作为目标基因;确定目标基本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种样本间差异的归因方法,其特征在于,包括:获得第一
RNA
测序样本和第二
RNA
测序样本之间的至少一个中间
RNA
测序样本;基于所述至少一个中间
RNA
测序样本与所述第一
RNA
测序样本之间的样本差异,构建第一样本差异曲线;以及,基于所述至少一个中间
RNA
测序样本与所述第二
RNA
测序样本之间的样本差异,构建第二样本差异曲线;对所述第一样本差异曲线和所述第二样本差异曲线进行梯度积分分析,确定所述第一
RNA
测序样本和所述第二
RNA
测序样本中各基因对之间的差异度
。2.
根据权利要求1所述的方法,其特征在于,所述获得第一
RNA
测序样本和第二
RNA
测序样本之间的至少一个中间
RNA
测序样本,包括:对所述第一
RNA
测序样本和所述第二
RNA
测序样本进行线性插值处理,获得所述至少一个中间
RNA
测序样本
。3.
根据权利要求1所述的方法,其特征在于,所述第一样本差异曲线和所述第二样本差异曲线通过以下方式构建:对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征;根据所述中间生物学特征和所述第一生物学特征,确定所述中间
RNA
测序样本与所述第一
RNA
测序样本之间的样本差异,并构建所述第一样本差异曲线;根据所述中间生物学特征和所述第二生物学特征,确定所述中间
RNA
测序样本与所述第二
RNA
测序样本之间的样本差异,并构建所述第二样本差异曲线
。4.
根据权利要求3所述的方法,其特征在于,所述对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征,包括:利用预先训练的特征提取模型,对所述中间
RNA
测序样本
、
所述第一
RNA
测序样本,以及所述第二
RNA
测序样本进行生物学特征提取处理,获得所述中间
RNA
测序样本的中间生物学特征
、
所述第一
RNA
测序样本的第一生物学特征,以及所述第二
RNA
测序样本的第二生物学特征
。5.
根据权利要求1所述的方法,其特征在于,所述第一
RNA
测序样本为第一测序样本集中的
RNA
测序样本,第二
RNA
测序样本为第二测序样本集中的
RNA
测序样本;所述方法还包括:基于所述第一测序样本集和所述第二测序样本集,构建多个测序样本对,所述测序样本对包括所述第一测序样本集中的任意
RNA
测序样本和所述第二测序样本集中的任意
RNA
测序样本;对应每一测序样本对,分别获得该测序样本对中各基因对之间的差异度;基于各测序样本对中各基因对之间的差异度,确定所述第一测序样本集和所述第二测序样本集中
RNA
测序样本的特征基因;...
【专利技术属性】
技术研发人员:钱坤,李若男,刘万飞,林强,崔鹏,
申请(专利权)人:中国农业科学院深圳农业基因组研究所岭南现代农业科学与技术广东省实验室深圳分中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。