肽段可检测性预测方法技术

技术编号:32461040 阅读:11 留言:0更新日期:2022-02-26 08:49
本发明专利技术公开了一种肽段可检测性预测方法及系统,该方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。利用本发明专利技术方案,可以提高肽段可检测性预测的准确性。可以提高肽段可检测性预测的准确性。可以提高肽段可检测性预测的准确性。

【技术实现步骤摘要】
肽段可检测性预测方法


[0001]本专利技术涉及蛋白质组学领域,具体涉及一种肽段可检测性预测方法及系统。

技术介绍

[0002]目前,基于高通量生物质谱技术的蛋白质组学已经成为生物学、医学领域研究的一种前沿方法。在主流的鸟枪法蛋白质组学分析流程中,蛋白质水解产生的肽段将经由质谱仪进行检测,再通过其质谱数据完成对蛋白质的定性和定量分析。然而,由于种种原因,如普遍存在的漏切现象、肽序列本身的理化性质等,导致在常规的蛋白质组学实验中,往往只有很少一部分肽段能被检测到,从而极大地阻碍了人们对质谱数据进行高精度、大规模地解析。因此,若能准确预测各肽段的可检测性,将有助于改善蛋白质组学的实验设计和数据分析。
[0003]实际上,肽段能否被检测到并不是一个绝对的问题,而是一个概率问题。目前业界虽然已经提出了一些肽段可检测性预测的方法,但是准确率仍有待提高。

技术实现思路

[0004]本专利技术提供一种肽段可检测性预测方法及系统,可以方便、有效地实现肽段可检测性的预测。
[0005]为此,本专利技术提供如下技术方案:
[0006]一种肽段可检测性预测方法,所述方法包括:
[0007]对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
[0008]利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
[0009]可选地,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:
[0010]从已鉴定蛋白序列中筛选出高可信蛋白序列;对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
[0011]确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
[0012]利用所述第一训练数据集训练肽段可检测性预测模型。
[0013]可选地,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:
[0014]根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。
[0015]可选地,所述对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段包括:
[0016]对所述高可信蛋白进行理论酶切,且保证所有理论酶切肽段同时满足设定条件,得到各理论酶切肽段。
[0017]可选地,所述设定条件包括:
[0018]最大漏切位点数符合鉴定参数设置;
[0019]理论酶切肽段长度在鉴定参数设置范围内;
[0020]若在位点C端发生酶切,则需去除所有蛋白N端肽;若在位点N端发生酶切,需保留所有蛋白N端肽,并将蛋白N端的氨基酸M作为一个特殊位点,同时考虑切和不切两种情况。
[0021]可选地,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。
[0022]可选地,所述方法还包括:
[0023]确定各理论酶切肽段的酶切概率;
[0024]利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
[0025]可选地,所述确定各理论酶切肽段的酶切概率包括:
[0026]利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者
[0027]利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。
[0028]可选地,所述方法还包括按以下方式构建基于神经网络的酶切概率预测模型:
[0029]从已鉴定蛋白序列中筛选出高可信蛋白序列;
[0030]对所述高可信蛋白的所有候选酶切位点取31

连子,构建训练候选集,所述31

连子是指位点N端和C端的15位氨基酸加上位点本身所构成的序列;
[0031]计算所述高可信蛋白中所有候选位点N端、C端,及其作为漏切位点的次数之和,分别记为SC
N
、SC
C
和SC
M

[0032]对所述训练候选集进行标记,将SC
N
>0或SC
C
>0,且SC
M
=0时的31

连子作为正例,将SC
N
=SC
C
=0,且SC
M
≥0时的31

连子作为反例;
[0033]对标记后的31

连子进行编码,得到31维向量,构成第二训练数据集;
[0034]利用所述第二训练数据集训练得到基于神经网络的酶切概率预测模型。
[0035]可选地,所述利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率p
Det

[0036](1)
[0037](2)p
Det
=(p
BiLSTM
*p
Dig
)
γ
,γ>0;
[0038](3)p
Det
=γ*p
BiLSTM
+(1

γ)*p
Dig
,γ∈[0,1];
[0039]其中,p
Dig
为所述理论酶切肽段的酶切概率,p
BiLSTM
为所述理论酶切肽段的第一可检测性概率。
[0040]一种肽段可检测性预测系统,所述系统包括:
[0041]理论计算模块,用于对所有蛋白序列进行理论酶切,得到各理论酶切肽段;
[0042]预测模块,用于利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。
[0043]可选地,所述系统还包括:肽段可检测性预测模型构建模块,用于建立基于肽序列的肽段可检测性预测模型;所述肽段可检测性预测模型构建模块包括:
[0044]第一筛选单元,用于从已鉴定蛋白序列中筛选出高可信蛋白序列;
[0045]理论计算单元,用于对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;
[0046]第一训练数据集生成单元,用于确定各理论酶切肽段中的正例肽段和反例肽段,生成第一训练数据集;
[0047]第一训练单元,用于利用所述第一训练数据集训练肽段可检测性预测模型。
[0048]可选地,所述系统还包括:
[0049]酶切概率确定模块,用于确定各理论酶切肽段的酶切概率;
[0050]修正模块,用于利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。
[0051]可选地,所述酶切概率确定模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种肽段可检测性预测方法,其特征在于,所述方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:从已鉴定蛋白序列中筛选出高可信蛋白序列;对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;根据所述理论酶切肽段生成第一训练数据集;利用所述第一训练数据集训练肽段可检测性预测模型。3.根据权利要求2所述的方法,其特征在于,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。4.根据权利要求2所述的方法,其特征在于,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:确定各理论酶切肽段的酶切概率;利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。6.根据权利要求5所述的方法,其特征在于,所述确定各理论酶切肽段的酶切概率包括:利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。7.根据权利要求5所述的方法,其特征在于,所述利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率,包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率p
Det
:(1)(2...

【专利技术属性】
技术研发人员:付岩杨婧涵
申请(专利权)人:中国科学院数学与系统科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1