一种酶切概率辅助的肽段可检测性预测方法技术

技术编号:20162462 阅读:42 留言:0更新日期:2019-01-19 00:15
本发明专利技术公开了一种酶切概率辅助的肽段可检测性预测方法,其步骤包括:1)在所有鉴定蛋白中筛选高可信蛋白;2)构建酶切位点酶切概率预测模型训练集;3)训练酶切位点酶切概率预测模型;4)对所有高可信蛋白进行理论酶切,得到理论酶切肽段;5)预测所有理论酶切肽段的酶切概率;6)构建肽段可检测性训练集;7)训练肽段可检测性模型;8)预测其他蛋白的所有理论酶切肽段的肽段可检测性。本发明专利技术根据鸟枪法蛋白质组学流程的特点,在肽段可检测性预测过程中考虑的蛋白的酶解过程,显著提高了肽段可检测性预测的准确率。

【技术实现步骤摘要】
一种酶切概率辅助的肽段可检测性预测方法
本专利技术涉及蛋白质组学中的肽段可检测性预测方法,特别涉及鸟枪法蛋白质组学中的肽段可检测性预测方法。
技术介绍
靶向蛋白质组学实验可以有选择性的检测和定量感兴趣的肽段和蛋白,例如MRM实验策略。该方法可以用于快速的验证候选生物学标志物。开发MRM实验的第一步就是为候选蛋白选择代表肽段。选择代表肽段的方法主要可以分为两类:基于实验数据的方法和基于计算的方法。但是基于实验数据的方法有着一些限制。首先,并不是所有的蛋白都有已有的实验数据。其次,肽段能否被检测到受很多因素的影响,在之前的实验中能被鉴定到,在下次实验中不一定能被检测到。因此,科研人员越来越关注基于计算的方法。但是,肽段检测的机制仍不清楚,这阻碍了准确预测代表肽段的算法的开发。到目前为止,科学家已经为探索肽段检测的机制做了大量的努力。早在数年前,Le等人(参考文献:LeBihan,T.,Robinson,M.D.,Stewart,I.I.&Figeys,D.DefinitionandCharacterizationofa“Trypsinosome”fromSpecificPeptideCharacteristicsbyNano-HPLC-MS/MSandinSilicoAnalysisofComplexProteinMixtures.J.ProteomeRes.3,1138–1148(2004).)和Eithier等人(参考文献:Ethier,M.&Figeys,D.StrategytoDesignImprovedProteomicExperimentsBasedonStatisticalAnalysesoftheChemicalPropertiesofIdentifiedPeptides.J.ProteomeRes.4,2201–2206(2005).)提出了基于疏水性、肽段长度和等电点的经验公式。近年来,科学家已经开发出了很多基于机器学习算法的预测代表肽段的方法。在这些方法中,设计描述肽段的特征是一个关键问题。众所周知,影响一个肽段在蛋白质组学实验中能否被检测到的因素有很多,例如肽段的理化性质,肽段所属的蛋白的丰度和鉴定流程等。Tang等人(参考文献:Tang,H.etal.Acomputationalapproachtowardlabel-freeproteinquantificationusingpredictedpeptidedetectability.Bioinformatics22,e481-8(2006).)提出了肽段可检测性的概念,并使用来自于肽段序列的175种特征构建了预测肽段可检测性的机器学习算法。后来,Sander等人(参考文献:Sanders,W.S.,Bridges,S.M.,McCarthy,F.M.,Nanduri,B.&Burgess,S.C.Predictionofpeptidesobservablebymassspectrometryappliedattheexperimentalsetlevel.BMCBioinformatics8Suppl7,S23(2007).),Mallick等人(参考文献:Mallick,P.etal.Computationalpredictionofproteotypicpeptidesforquantitativeproteomics.Nat.Biotechnol.25,125–31(2007).)和Eyers等人(参考文献:Eyers,C.E.etal.CONSeQuence:PredictionofReferencePeptidesforAbsoluteQuantitativeProteomicsUsingConsensusMachineLearningApproaches.Mol.Cell.Proteomics10,M110.003384-M110.003384(2011).)分别基于596个特征,1010个特征和1186个特征开发了肽段可检测性算法。这些算法主要考虑了来源于AAindex(参考文献:Kawashima,S.,Ogata,H.&Kanehisa,M.AAindex:Aminoacidindexdatabase.NucleicAcidsRes.27,368–369(1999).)和肽段序列的特征。最近,Muntel等人(参考文献:Muntel,J.etal.Abundance-basedclassifierforthepredictionofmassspectrometricpeptidedetectabilityuponenrichment(PPA).MolCellProteomics14,430–440(2015).)将蛋白丰度作为附加的特征加入到了肽段可检测性预测模型中,并取得了更好的效果。但是,在未提前进行质谱实验的情况下,蛋白丰度一般是未知的。虽然已经提出了很多肽段可检测性方面的方法,但是目前的肽段可检测性方法的准确率仍不能令人满意。因此如何准确的预测肽段可检测性是急需解决的技术问题。
技术实现思路
针对现有技术存在的技术问题,本专利技术的目的是通过充分的考虑蛋白的酶解信息,从而提供一种更准确的肽段可检测性预测方法。为了实现上述目的,本专利技术提供了一种酶切概率辅助的肽段可检测性预测方法,包括:步骤1)在所有鉴定蛋白中筛选高可信蛋白;步骤2)构建酶切位点酶切概率预测模型训练集;步骤3)训练酶切位点酶切概率预测模型;步骤4)对所有高可信蛋白进行理论酶切,得到理论酶切肽段;步骤5)预测所有理论酶切肽段的酶切概率;步骤6)构建肽段可检测性训练集;步骤7)训练肽段可检测性模型;步骤8)预测其他蛋白的所有理论酶切肽段的肽段可检测性。在上述技术方案中,在所述的步骤1)中,首先分别将所有鉴定蛋白按照蛋白的谱图数目和蛋白的序列覆盖度进行降序排序,然后将在两次排序中均占前50%的蛋白作为高可信蛋白。所述蛋白的谱图数目是指该蛋白的所有关联肽段的谱图数目之和。所述的蛋白的序列覆盖度是指该蛋白的所有关联肽段的序列回溯到蛋白序列后,占蛋白序列总长度的比例。或者高可信蛋白为已鉴定蛋白中蛋白的谱图数目大于设定阈值h1、且蛋白的序列覆盖度大于设定阈值h2的蛋白。在上述技术方案中,在所述的步骤2)中,所述构建酶切位点酶切概率预测模型训练集包括:步骤2-1)将鉴定肽段集合中与高可信蛋白关联的鉴定肽段回溯到所述的步骤1)中的高可信蛋白序列中。在很巧合的情况下,某个肽段也许会对应一个蛋白的多处位置。对这种情况,本专利技术仅考虑第一次对应。根据鉴定肽段的回溯位置收集所述高可信蛋白序列中的酶切位点信息。所述的酶切位点信息包括:1)该酶切位点左边肽段的谱图数目之和,记为参数L;2)该酶切位点右边肽段的谱图数目之和,记为参数R;3)以该酶切位点作为漏切位点的肽段的谱图数目之和,记为参数O。在所述的步骤1)中的高可信蛋白序列中的酶切位点中,将符合以下条件的酶切位点归为阳性位点:1)L大于等于1;2)R大于等于1;3)O等于0。将符合以下条件的酶切位点归为阴性位点:1)L等于0;2)R等于0;3)O大于等于2。步骤2-2)对所述的步骤本文档来自技高网
...

【技术保护点】
1.一种酶切概率辅助的肽段可检测性预测方法,其步骤包括:1)从已鉴定蛋白中筛选出高可信蛋白;2)构建酶切位点酶切概率预测模型训练集,训练酶切位点酶切概率预测模型;3)对所有高可信蛋白进行理论酶切,得到理论酶切肽段;4)利用所述酶切位点酶切概率预测模型预测所有理论酶切肽段的酶切概率;5)构建肽段可检测性训练集,训练肽段可检测性模型;6)利用所述肽段可检测性模型预测设定蛋白的所有理论酶切肽段的肽段可检测性。

【技术特征摘要】
1.一种酶切概率辅助的肽段可检测性预测方法,其步骤包括:1)从已鉴定蛋白中筛选出高可信蛋白;2)构建酶切位点酶切概率预测模型训练集,训练酶切位点酶切概率预测模型;3)对所有高可信蛋白进行理论酶切,得到理论酶切肽段;4)利用所述酶切位点酶切概率预测模型预测所有理论酶切肽段的酶切概率;5)构建肽段可检测性训练集,训练肽段可检测性模型;6)利用所述肽段可检测性模型预测设定蛋白的所有理论酶切肽段的肽段可检测性。2.如权利要求1所述的方法,其特征在于,所述高可信蛋白为已鉴定蛋白中蛋白的谱图数目大于设定阈值h1、且蛋白的序列覆盖度大于设定阈值h2的蛋白;或所述高可信蛋白为已鉴定蛋白中蛋白的谱图数目和蛋白的序列覆盖度降序排序均靠前的蛋白。3.如权利要求1所述的方法,其特征在于,构建所述酶切位点酶切概率预测模型训练集的步骤包括:3-1)将鉴定肽段集合中与所述高可信蛋白关联的鉴定肽段回溯到所述高可信蛋白的蛋白序列中,然后根据鉴定肽段的回溯位置收集所述蛋白序列中的酶切位点信息;并根据所述酶切位点信息将酶切位点划分为阳性位点和阴性位点;3-2)取酶切位点左右T位相邻氨基酸组成长度为2T+1的2T+1连子;如果酶切位点出现在蛋白序列的N端或者C端,导致酶切位点的左端或者右端没有足够的氨基酸组成2T+1连子,则以占位符“Z”进行填充;3-3)对每个所述连子,将除中间位置的氨基酸之外的每个氨基酸转换成21维的0-1向量,从而将每个所述连子转换成一个42T维的0-1向量;将所述阳性位点的标签设置为1,将所述阴性位点的标签设置为0。4.如权利要求3所述的方法,其特征在于,所述酶切位点信息包括:酶切位点左边肽段的谱图数目之和,记为参数L;酶切位点右边肽段的谱图数目之和,记为参数R;以酶切位点作为漏切位点的肽段的谱图数目之和,记为参数O;将符合条件1)~3)的酶切位点归为阳性位点:1)L大于等于1,2)R大于等于1,3)O等于0;将符合条件a)~c)的酶切位点归为阴性位点:a)L等于0,b)R等于0,c)O大于等于2。5.如权利要求3所述的方法,其特征在于,预测所有理论酶切肽段的酶切概率的步骤包括:5-1)获取所...

【专利技术属性】
技术研发人员:常乘付岩高志强朱云平
申请(专利权)人:中国人民解放军军事科学院军事医学研究院北京蛋白质组研究中心中国科学院数学与系统科学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1