一种基于变分自编码器的代谢组学数据分类方法技术

技术编号:37719259 阅读:12 留言:0更新日期:2023-06-02 00:17
本发明专利技术公开一种基于变分自编码器的代谢组学数据分类方法。本发明专利技术构建基于变分自编码器的分类模型,将训练好的变分自编码器网络的模型参数与分类网络共享。本发明专利技术避免了传统机器学习的复杂数据处理,简化了数据预处理过程中人工参数选择的繁琐步骤,提出的深度学习的非线性映射方法,很好的提高了分类精度。本发明专利技术通过添加一个KL散度损失,使得学习的隐层空间特征向标准正态靠近,使得解码过程更加合理化,分类结果更好。分类结果更好。分类结果更好。

【技术实现步骤摘要】
一种基于变分自编码器的代谢组学数据分类方法


[0001]本专利技术属于代谢组学中代谢物的检测与分类,具体涉及一种基于变分自编码器的代谢组学数据分类方法,是一种质谱数据中代谢物的数据处理以及分类的深度学习分类模型的研究。

技术介绍

[0002]基因组学、转录组学、蛋白组学、代谢组学组成系统生物学,代谢组学作为一门新兴的技术,主要针对小分子量(m/z≤1000)的代谢物进行鉴定。代谢物是基因表达的下游产物,如糖类、氨基酸、脂肪酸等,它反映了转录组(mRNA)和蛋白质组(蛋白质)的变化。
[0003]质谱数据中包含了大量代谢物,提供了大量无标签的生物学信息,因此对质谱数据的研究至关重要,但是质谱数据的复杂性在分析上对其提出了挑战,这种复杂性源自于它的高维性以及谱图非线性。数据预处理,例如:峰选择,去噪以及归一化等操作已经被用于减少谱图数据的复杂性。但是这些数据预处理方式依赖于参数选择,可能过早的对组织分类和随后的生物学阐释产生影响。
[0004]因此,本领域迫切的需要提供一种模型,以便能够提高数据的可扩展性,避免复杂的数据预处理,并且能对代谢物进行有效的分类,以便对随后的生物学信息进行精确阐释。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提供一种基于变分自编码器的代谢组学数据分类方法,有效的解决了质谱数据的高维不可分难题,并在实际数据上进行验证并取得了良好的结果。
[0006]第一方面,本专利技术提供一种基于变分自编码器的代谢组学数据分类方法,具体包括如下步骤
[0007]步骤1、质谱数据预处理。
[0008]将所有样本的质谱数据进行归一化,将样本的相对强度的值归一化到0~1范围内。
[0009]步骤2、搭建基于变分自编码器的分类模型。
[0010]该模型由变分自编码器和分类网络组成,以通过预处理后的质谱数据作为输入,变分自编码器用来对原始数据进行降维与重构,训练过程中,通过重参数化,采样得到隐层空间特征,之后将得到的特征输入到分类网络中进行分类。具体步骤如下:
[0011]2‑
1构建变分自编码器网络,提取输入高维质谱数据的特征
[0012]变分自编码器由编码器网络和解码器网络组成,其中编码器(encoder)对原始独立同分布的高维质谱数据进行降维得到低维隐层空间特征,解码器(decoder)对低维隐层空间特征进行解码,生成与原始输入数据维度相同的质谱数据。
[0013]2‑
2构建分类网络,根据输入的低维隐层空间特征,输出当前样本的类别
[0014]所述的分类网络包括两个全连接层、一个Softmax层,将编码器网络输出的低维隐
层空间特征,经过全连接层和Softmax层,输出当前质谱样本所属不同类别的概率。
[0015]步骤3、训练基于变分自编码器的分类模型
[0016]3‑
1构建训练数据集
[0017]基于变分自编码器的分类模型使用时需要使用固定长度的质谱数据以及对应样本标签作为训练样本,即对所有质谱数据进行长度补齐,且将相对强度归一化到0~1的范围内。训练样本的标签为当前样本的所属类别,分为肾癌类和正常类。
[0018]3‑
2设计损失函数
[0019]训练时变分自编码器的损失函数Loss
vae
如下:
[0020]Loss
vae
=loss
recon
+KL(Kullback

Leibler divergence)
[0021]其中loss
recon
表示重构误差,KL代表KL散度。
[0022]训练时分类网络的损失函数Loss
cls
如下:
[0023][0024]其中为模型预测预测样本的标签,y为真实样本的标签。
[0025]3‑
3使用自适应学习率的梯度下降(Adam)法进行模型训练。
[0026]步骤4、利用代谢组学数据分类器实现代谢组学数据分类。
[0027]4‑
1将训练好的变分自编码器中编码器网络的模型参数与分类网络共享,构成代谢组学数据分类器;
[0028]4‑
2将预处理后的质谱数据输入至代谢组学数据分类器,输出待分类样本所属不同类别的概率。
[0029]4‑
3选择概率最大的类别作为当前样本的最终类别。
[0030]第二方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。
[0031]第三方面,本专利技术提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。
[0032]第四方面,本专利技术提供代谢组学数据分类系统,包括:
[0033]数据预处理模块,用于对质谱数据的预处理;
[0034]代谢组学数据分类器,实现代谢组学数据分类。
[0035]本专利技术具有以下有益效果:
[0036]1.本专利技术避免了传统机器学习的复杂数据处理,简化了数据预处理过程中人工参数选择的繁琐步骤,提出的深度学习的非线性映射方法,很好的提高了分类精度。
[0037]2.相比于传统的自编码器将输入数据压缩成一个向量,本专利技术提出的变分自编码器分类模型能学习输入数据的分布,并进行解码,较好的对输入数据进行重构。
[0038]3.本专利技术通过添加一个KL散度损失,使得学习的隐层空间特征向标准正态靠近,使得解码过程更加合理化,分类结果更好。
[0039]4.本专利技术提出变分自编码器的分类模型在现有数据集上进行验证,取得了较好的分类效率。
附图说明
[0040]图1是本专利技术方法的技术路线;
[0041]图2是本专利技术变分自编码器网络的主要结构;
[0042]图3是本专利技术分类网络的主要结构;
[0043]图4是本专利技术基于变分自编码器的分类模型的应用流程;
[0044]图5是本专利技术得到神经元的输出的流程。
具体实施方式
[0045]以下结合附图对专利技术作进一步说明。
[0046]一种代谢组学数据分类方法,包括以下步骤:
[0047]步骤1、对于模型输入的质谱数据进行预处理。
[0048]质谱通常可以用L=(m
x
,a
x
)表示,其中质荷比m
x
={m1,m2,m3,...m
n
},相对强度a
x
={a1,a2,a3...a
n
}。
[0049]将正离子模式与负离子模式下检测的样本数据整合成标准格式,之后再对相对强度除以基峰进行归一化。
[0050][0051]步骤2、建立基于变分自编码器的分类模型。
[0052]如图1所示,该分类模型的输入由经过预处理后的质本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于变分自编码器的代谢组学数据分类方法,其特征在于所述方法包括以下步骤:步骤S1、质谱数据预处理;将所有样本的质谱数据进行归一化,将样本的相对强度的值归一化到0~1范围内;步骤S2、建立基于变分自编码器的分类模型;所述基于变分自编码器的分类模型包括变分自编码器和分类网络;2

1构建变分自编码器网络,提取输入高维质谱数据的低维隐层空间特征所述变分自编码器网络包括编码器和解码器,其中编码器对原始独立同分布的高维质谱数据进行降维得到低维隐层空间特征,解码器对低维隐层空间特征进行解码,生成与原始输入数据维度相同的质谱数据;2

2构建分类网络,根据输入的低维隐层空间特征,输出当前样本的类别所述的分类网络包括两个全连接层、一个Softmax层,接收所述变分自编码器网络输出的低维隐层空间特征,经过全连接层和Softmax层,输出当前质谱样本所属不同类别的概率;步骤S3、训练基于变分自编码器的分类模型3

1构建训练数据集对所有质谱数据进行长度补齐,且将相对强度归一化到0~1的范围内,同时将当前质谱样本的所属类别作为标签;3

2设计损失函数训练时变分自编码器的损失函数Loss
vae
如下:Loss
vae
=loss
recon
+KL其中loss
recon
表示重构误差,KL代表KL散度;训练时分类模型的损失函数Loss
cls
如下:其中为模型预测预测样本的标签,y为真实样本的标签;3

3使用自适应学习率的梯度下降...

【专利技术属性】
技术研发人员:徐平赵广洋薛凌云闻路红刘亦安严明胡舜迪陈安琪
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1