一种基于深度学习的多肽检测方法技术

技术编号:28678558 阅读:18 留言:0更新日期:2021-06-02 02:56
本申请公开了一种基于深度学习的多肽检测方法,包括:获取训练样本的质谱联用数据;根据质谱联用数据获取训练集;利用训练集训练基于深度学习的目标检测模型,利用训练后的目标检测模型检测待测样本中的多肽。本发明专利技术中的基于深度学习的多肽检测方法,基于深度学习方法具有较强的特征提取能力,可有效捕获多肽的2D分布特征,实现不同多肽的强鲁棒性检测和高灵敏度检测;同时,本发明专利技术中的约束函数中所使用的分类误差函数是基于交叉熵损失函数设计的,可实现多肽目标概率的高精度预测。该方法基于人工智能技术,可实现复杂样本中密集多肽目标的检测。

【技术实现步骤摘要】
一种基于深度学习的多肽检测方法
本申请涉及一种基于深度学习的多肽检测方法,属于有机化学

技术介绍
多肽是由多个氨基酸通过肽键连接而形成的一类化合物,通常由10-100个氨基酸分子组成,其连接方式与蛋白质相同,相对分子质量低于10000。多肽普遍存在于生物体内,迄今在生物体内发现的多肽已达数万种,其广泛参与和调节机体内各系统、器官、组织和细胞的功能活动,在生命活动中发挥重要作用。多肽检测是基于质谱(MS)的蛋白质组学研究的关键步骤。高精度多肽检测对于后续生物标志物的发现、药物开发和疾病分类都是至关重要的。随着液相色谱-质谱联用(LC-MS)仪器的灵敏度、色谱分辨率和质量测量精度不断提高,获得的LC-MS数据量巨大并包含丰富生物信息,这也给多肽的检测带来了较大困难。现有技术中的多肽检测方法主要为:1)基于MS和LC峰值强度的多肽检测方法,但是仅根据强度来区分低峰度肽峰和化学噪声峰,会造成较高的假阳性和假阴性;2)基于MS谱或LC峰频率的多肽检测方法,但是该种方法难以区分其中的部分噪音峰;3)基于LC峰形的多肽检测方法,但是,一方面,LC峰是难以预测的;另一方面,不同多肽的LC峰具有较大的差异;基于峰形状的检测方法具有较低的检测灵敏度。
技术实现思路
本专利技术的目的在于,提供一种基于深度学习的多肽检测方法,以解决现有多肽检测方法存在的检测灵敏度低的技术问题。本专利技术提供了一种基于深度学习的多肽检测方法,包括:获取训练样本的质谱联用数据;根据所述质谱联用数据获取训练集;利用所述训练集训练基于深度学习的目标检测模型,利用训练后的所述目标检测模型检测待测样本中的多肽。优选地,根据所述质谱联用数据获取训练集,具体为:利用伪彩成像方法处理所述质谱联用数据,得到伪彩图像;标记所述伪彩图像中的多肽,得到具有多个标记区域的伪彩图像,将含有标记区域的伪彩图像作为训练集。优选地,利用所述训练集训练基于深度学习的目标检测模型,具体为:将所述训练集输入至所述目标检测模型,利用目标检测模型中的特征提取层提取所述训练集中的多肽,将特征提取层提取的多肽所在区域记为预测区域;结合所述标记区域、所述预测区域和所述目标检测模型的输出层的概率预测函数训练所述目标检测模型。优选地,所述特征提取层,包括N个卷积层和N个激励层,N为自然数;所述卷积层与所述激励层连接;其中前N-1个所述激励层的激励函数为f(z)=max(0,z),z为与激励层连接的卷积层的输出值;第N个所述激励层的激励函数为sigmoid函数。优选地,结合所述标记区域、所述预测区域和所述目标检测模型的输出层的概率预测函数训练所述目标检测模型,具体为:所述目标检测模型所使用的约束函数L为:L=Ls+Lp+LC其中,Ls为分类误差函数,所述分类误差函数是结合所述目标检测模型的输出层的概率预测函数获得的;Lp为位置误差函数、所述位置误差函数是结合所述标记区域和所述预测区域获得的;LC为置信度误差函数,所述置信度误差函数是结合所述目标检测模型的输出层的概率预测函数、所述标记区域和所述预测区域获得的。优选地,所述分类误差函数Ls为:Ls=-[Hln(φ(y))+(1-H)ln(1-φ(y))]其中,φ(y)为目标检测模型的输出层的概率预测函数,y为输出层所接收的输入值;H表示有无多肽信息;当H=0时,表示标记区域中无多肽;当H=1时,表示标记区域中有多肽。优选地,所述位置误差函数Lp为:其中,λ为权重系数,m,n表示所述标记区域的中心位置的横纵坐标,w,h分别表示所述标记区域的宽度和长度,和表示所述预测区域的中心位置的横纵坐标,和分别表示所述预测区域的宽度和长度;H表示有无多肽信息;当H=0时,表示标记区域中无多肽;当H=1时,表示标记区域中有多肽。优选地,所述置信度误差函数LC为:LC=-[Hln(C)+(1-H)ln(1-C)]C=φ(y)*IOU其中,φ(y)为目标检测模型的输出层的概率预测函数,y为输出层所接收的输入值;C为置信度,IOU为所述预测区域和所述标记区域的交集与所述预测区域和所述标记区域的并集之比;H表示有无多肽信息;当H=0时,表示标记区域中无多肽;当H=1时,表示标记区域中有多肽。本专利技术的基于深度学习的多肽检测方法,相较于现有技术,具有如下有益效果:本专利技术中的基于深度学习的多肽检测方法,基于深度学习方法具有较强的特征提取能力,可有效捕获多肽的2D分布特征,实现不同多肽的强鲁棒性检测和高灵敏度检测;同时,本专利技术中的约束函数中所使用的分类误差函数是基于交叉熵损失函数设计的,可实现多肽目标概率的高精度预测。该方法基于人工智能技术,可实现复杂样本中密集多肽目标的检测。本专利技术中利用伪彩成像方法处理质谱联用数据,可以有效提高质谱联用数据的可辨识度。附图说明图1为本专利技术基于深度学习的多肽检测方法的流程图;图2为本专利技术实施例中训练样本的质谱联用数据示意图;图3为本专利技术实施例中含有一个标记区域的训练集的示意图;图4为本专利技术实施例中使用的卷积神经网络的结构图;图5为本专利技术实施例中含有一个预测区域的训练集的示意图,该预测区域与图3中的标记区域位置对应;图6为检测结果示意图;图7为本专利技术实施例中将验证集输入至目标检测模型所得结果示意图。具体实施方式下面结合实施例详述本专利技术,但本专利技术并不局限于这些实施例。图1为本专利技术一种基于深度学习的多肽检测方法的流程图,本专利技术的方法包括:步骤101、获取训练样本的质谱联用数据;其中的质谱联用数据是采用液相色谱质谱联用(LC-MS)技术对生物样本处理得到的数据,所获得的质谱联用数据示意图见图2。步骤102、根据质谱联用数据获取训练集,具体为:利用伪彩成像方法处理质谱联用数据,得到伪彩图像,伪彩图像的X轴为质荷比(M/Z),Y轴为保留时间(RT),图像亮度为LC-MS数据强度。所得到的伪彩图像中,多肽与背景区别显著,便于后续使用深度学习方法智能检测多肽。然后使用窗口滑动的方式在伪彩图像上获取大量的标记区域,每个标记区域具体表示为:{m,n,w,h,H},其中m和n表示标记区域的中心位置的横纵坐标,w和h分别表示标记区域的宽度和长度,H表示该标记区域有无多肽信息;当H=0时,表示标记区域中无多肽;当H=1时,表示标记区域中有多肽。最终得到具有多个标记区域的伪彩图像,将含有标记区域的伪彩图像作为训练集。图2为含有一个标记区域的训练集的示意图。图2中的矩形框即为一个标记区域。步骤103、利用训练集训练基于深度学习的目标检测模型,利用训练后的目标检测模型检测待测样本中的多肽,具体为:将训练集本文档来自技高网...

【技术保护点】
1.一种基于深度学习的多肽检测方法,其特征在于,包括:/n获取训练样本的质谱联用数据;/n根据所述质谱联用数据获取训练集;/n利用所述训练集训练基于深度学习的目标检测模型,利用训练后的所述目标检测模型检测待测样本中的多肽。/n

【技术特征摘要】
1.一种基于深度学习的多肽检测方法,其特征在于,包括:
获取训练样本的质谱联用数据;
根据所述质谱联用数据获取训练集;
利用所述训练集训练基于深度学习的目标检测模型,利用训练后的所述目标检测模型检测待测样本中的多肽。


2.根据权利要求1所述的基于深度学习的多肽检测方法,其特征在于,根据所述质谱联用数据获取训练集,具体为:
利用伪彩成像方法处理所述质谱联用数据,得到伪彩图像;
标记所述伪彩图像中的多肽,得到具有多个标记区域的伪彩图像,将含有标记区域的伪彩图像作为训练集。


3.根据权利要求2所述的基于深度学习的多肽检测方法,其特征在于,利用所述训练集训练基于深度学习的目标检测模型,具体为:
将所述训练集输入至所述目标检测模型,利用目标检测模型中的特征提取层提取所述训练集中的多肽,将特征提取层提取的多肽所在区域记为预测区域;
结合所述标记区域、所述预测区域和所述目标检测模型的输出层的概率预测函数训练所述目标检测模型。


4.根据权利要求3所述的基于深度学习的多肽检测方法,其特征在于,所述特征提取层包括N个卷积层和N个激励层,N为自然数;所述卷积层与所述激励层连接;
其中前N-1个所述激励层的激励函数为f(z)=max(0,z),z为与激励层连接的卷积层的输出值;
第N个所述激励层的激励函数为sigmoid函数。


5.根据权利要求3或4所述的基于深度学习的多肽检测方法,其特征在于,结合所述标记区域、所述预测区域和所述目标检测模型的输出层的概率预测函数训练所述目标检测模型,具体为:
所述目标检测模型所使用的约束函数L为:
L=Ls+Lp+LC
其中,Ls为分类误差函数,所述分类误差函数是结合所述目标检测模型的输出层的概...

【专利技术属性】
技术研发人员:张晓哲赵凡赵楠
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1