肽段可检测性预测方法技术

技术编号:32461040 阅读:22 留言:0更新日期:2022-02-26 08:49
本发明专利技术公开了一种肽段可检测性预测方法及系统,该方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。利用本发明专利技术方案,可以提高肽段可检测性预测的准确性。可以提高肽段可检测性预测的准确性。可以提高肽段可检测性预测的准确性。

【技术实现步骤摘要】
肽段可检测性预测方法


[0001]本专利技术涉及蛋白质组学领域,具体涉及一种肽段可检测性预测方法及系统。

技术介绍

[0002]目前,基于高通量生物质谱技术的蛋白质组学已经成为生物学、医学领域研究的一种前沿方法。在主流的鸟枪法蛋白质组学分析流程中,蛋白质水解产生的肽段将经由质谱仪进行检测,再通过其质谱数据完成对蛋白质的定性和定量分析。然而,由于种种原因,如普遍存在的漏切现象、肽序列本身的理化性质等,导致在常规的蛋白质组学实验中,往往只有很少一部分肽段能被检测到,从而极大地阻碍了人们对质谱数据进行高精度、大规模地解析。因此,若能准确预测各肽段的可检测性,将有助于改善蛋白质组学的实验设计和数据分析。
[0003]实际上,肽段能否被检测到并不是一个绝对的问题,而是一个概率问题。目前业界虽然已经提出了一些肽段可检测性预测的方法,但是准确率仍有待提高。

技术实现思路

[0004]本专利技术提供一种肽段可检测性预测方法及系统,可以方便、有效地实现肽段可检测性的预测。
[0005]为此,本专利技术提供如下技术方案:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种肽段可检测性预测方法,其特征在于,所述方法包括:对所有蛋白序列进行理论酶切,得到各理论酶切肽段;利用预先训练得到的基于肽序列的肽段可检测性预测模型确定各理论酶切肽段的可检测性,得到各理论酶切肽段的第一可检测性概率,所述肽段可检测性预测模型为循环神经网络。2.根据权利要求1所述的方法,其特征在于,所述方法还包括按照以下方式建立基于肽序列的肽段可检测性预测模型:从已鉴定蛋白序列中筛选出高可信蛋白序列;对所述高可信蛋白序列进行理论酶切,得到各理论酶切肽段;根据所述理论酶切肽段生成第一训练数据集;利用所述第一训练数据集训练肽段可检测性预测模型。3.根据权利要求2所述的方法,其特征在于,所述从已鉴定蛋白序列中筛选出高可信蛋白序列包括:根据所述已鉴定蛋白序列的谱图计数和序列覆盖度筛选出高可信蛋白序列。4.根据权利要求2所述的方法,其特征在于,所述肽段可检测性预测模型包括:词嵌入层、双向长短时记忆网络层、全连接层。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:确定各理论酶切肽段的酶切概率;利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率。6.根据权利要求5所述的方法,其特征在于,所述确定各理论酶切肽段的酶切概率包括:利用基于随机森林构建的酶切概率预测模型确定各理论酶切肽段的酶切概率;或者利用基于神经网络构建的酶切概率预测模型确定各理论酶切肽段的酶切概率。7.根据权利要求5所述的方法,其特征在于,所述利用所述理论酶切肽段的酶切概率对所述理论酶切肽段的第一可检测性概率进行修正,得到所述理论酶切肽段的第二可检测性概率,包括按以下任意一种方式确定所述理论酶切肽段的第二可检测性概率p
Det
:(1)(2...

【专利技术属性】
技术研发人员:付岩杨婧涵
申请(专利权)人:中国科学院数学与系统科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1