一种蛋白质组学中肽段的肽段定量效率预测方法技术

技术编号:18861292 阅读:201 留言:0更新日期:2018-09-05 14:37
本发明专利技术公开了一种蛋白质组学中肽段的肽段定量效率预测方法,其步骤包括:1)筛选出高可信蛋白,将高可信蛋白的鉴定肽段作为高可信肽段;2)计算所述高可信肽段的物理化学性质和肽段定量效率;其中,所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度;3)基于高可信肽段的物理化学性质和肽段定量效率,构建预测肽段定量效率模型的训练集;然后利用该训练集训练得到肽段定量效率预测模型;4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。本发明专利技术的方法使用高可信肽段构建训练集,在线训练肽段定量效率,排除了实验操作,实验仪器等引起的误差。

A prediction method for peptide segment quantitative efficiency in proteomics

The present invention discloses a method for predicting the quantitative efficiency of peptide segments in proteomics. The steps include: 1) screening out highly trusted proteins and taking the identified peptides of highly trusted proteins as highly trusted peptides; 2) calculating the physicochemical properties and the quantitative efficiency of the highly trusted peptides; and the quantitative efficiency of the peptides is 3) Constructing a training set for predicting the quantitative efficiency model of peptides based on the physicochemical properties and the quantitative efficiency of peptides; then using the training set to train the quantitative efficiency prediction model of peptides; 4) Using the quantitative efficiency prediction model of peptides; The predicted peptide identification efficiency of each identified peptide segment was quantified. The method of the invention uses a high reliable peptide segment to construct a training set, trains the quantitative efficiency of the peptide segment on-line, and eliminates errors caused by experimental operation, experimental instruments, etc.

【技术实现步骤摘要】
一种蛋白质组学中肽段的肽段定量效率预测方法
本专利技术涉及基于质谱的蛋白质组学中的肽段及蛋白质定量方法研究,尤其涉及一种肽段定量效率预测方法。
技术介绍
继鉴定蛋白质组学之后,定量蛋白质组学已经成为了生命科学领域的下一个研究热点。其研究内容主要包括基于质谱数据对蛋白质进行有标记的定量和无标记的定量。虽然无标记的定量在准确率上不如有标记的定量,但是鉴于无标记定量的操作简单,成本低廉等优点,无标记定量在大规模蛋白质定量中仍是首选方法。蛋白质定量的理想实验方法是为每个蛋白质都加入内标,然而,这种做法对于分析复杂样品来说,意味着高昂的费用。目前,最常用的方法是基于部分内标做线性拟合计算的方法。在这些方法中,首先根据添加的标准蛋白的已知实际浓度与其质谱信号强度的关系得到线性关系式,然后再用得到的线性关系式来预测样本中的其他蛋白质的浓度。这类方法的核心是根据肽段的质谱强度或者谱图数目来计算蛋白质的质谱强度。但是,目前开发的算法的效果远远不能让人们满意,因为这些算法直接使用的是肽段的原始谱图信号强度,而这些强度并不能准确的描述肽段的实际丰度。影响一个肽段在质谱中的观测信号的因素有很多。观测到的肽段信号强度不仅依赖于它们在样本中的实际浓度,而且与它们的物理化学性质和质谱检测效率有很大的关系。相同浓度的肽段也许会有完全不同的质谱信号强度。例如,即使来自于同一个蛋白的肽段的质谱信号强度也有可能会相差几个数量级。如果一个蛋白质有足够多的肽段被鉴定到了,那么这些肽段的质谱信号强度就有可能被校正过来,从而得到准确的蛋白质绝对定量结果。否则,肽段层面的质谱信号强度偏差就会被传递到蛋白质层面。因为通常低丰度蛋白或者小蛋白被鉴定到的肽段数目很少,所以这个问题对于那些蛋白尤为严重。不幸的是,这个问题还未受到已开发的肽段定量算法的重视。肽段定量的一般流程为:1)谱峰检测,从复杂的谱峰中确定哪些谱峰可能对应着肽段或肽段碎片,提取固定质荷比对应的全部同位素峰信息。2)离子流色谱峰重构,针对某一固定质荷比,根据上一步得到的同位素峰信息,在保留时间维度上构建该质荷比对应的离子流色谱峰。3)肽段定量值提取,根据上一步得到的离子流色谱峰确定肽段的定量值。前人已经开发出了很多肽段定量工具。例如,SpecArray(Li,X.,Yi,E.C.,Kemp,C.J.,Zhang,H.&Aebersold,R.ASoftwareSuitefortheGenerationandComparisonofPeptideArraysfromSetsofDataCollectedbyLiquidChromatography-MassSpectrometry.Mol.Cell.Proteomics4,1328–1340(2005))先根据肽段的同位素分布找到同位素峰簇,然后以峰簇中前3个同位素峰的谱峰信号和构建色谱曲线,最后肽段定量值为Savitzky-Golay平滑后的色谱曲线面积。MaxQuant软件(参考文献:Cox,J.&Mann,M.MaxQuantenableshighpeptideidentificationrates,individualizedp.p.b.-rangemassaccuraciesandproteome-wideproteinquantification.NatBiotechnol26,1367-1372(2008))采用高斯拟合3D谱峰进行谱峰检测,然后以各同位素峰的质量为权重加权平均同位素峰质谱信号强度,从而确定复杂样品中的肽段定量值。OpenMS(参考文献:Sturm,M.etal.OpenMS–Anopen-sourcesoftwareframeworkformassspectrometry.BMCBioinformatics9,1–11(2008))使用小波变换确定谱峰位置,接着用高斯分布拟合得到色谱曲线,以曲线面积作为肽段定量值。目前开发的肽段定量工具重点皆放在肽段关联的谱峰检测和色谱曲线定量值提取上。然而,影响肽段定量的因素多且复杂,对每个肽段单独进行定量并不能很好的消除误差。因此,如何对肽段的原始信号强度进行有效的校正,从而准确的估计肽段的定量值是一个亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种蛋白质组学中肽段的肽段定量效率预测方法,本专利技术对肽段的原始信号强度进行校正,以用于后续蛋白质定量的分析中。为了实现上述目的,本专利技术肽段定量效率预测方法的步骤包括:步骤1)、筛选高可信蛋白,确定高可信肽段;步骤2)、计算高可信肽段的物理化学性质;步骤3)、估计高可信肽段的肽段定量效率;步骤4)、构建预测肽段定量效率模型的训练集;步骤5)、利用该训练集训练贝叶斯累加回归树(BART)模型(ChipmanHA,GeorgeEI,McCullochRE.BART:Bayesianadditiveregressiontrees.266-298(2010));步骤6)、利用贝叶斯累加回归树(BART)模型预测所有鉴定蛋白的鉴定肽段的肽段定量效率。在上述技术方案中,在所述的步骤1)中,不同于经常使用的固定训练集的方式,此处使用的是在线学习策略。对每一批数据,从中筛选出高可信的肽段定量效率样本来构建训练集,从而消除实验环境、操作、仪器等带来的误差。在鉴定蛋白中筛选至少包含鉴定到N(本专利技术中N取值为5)个唯一肽段的蛋白。所述的唯一肽段是指在所有鉴定到的蛋白中唯一在一个蛋白组出现的肽段。此处所述的蛋白组是指经过蛋白装配之后得到的同组蛋白集合。经过上述处理之后,可以筛选出高可信的蛋白。可以认为,这些高可信蛋白的鉴定肽段为高可信肽段。在上述技术方案中,在所述的步骤2)中,计算步骤1)所得的高可信肽段的物理化学性质包括:根据肽段的氨基酸序列及其在蛋白质序列中的相邻的氨基酸序列,可以计算出与该肽段相关的587种物理化学性质。每个肽段的理化性质可以用x=(x1,x2,x3,…,x587)来表示。在这587种物理化学性质中,前23种是肽段序列信息相关的特征,例如,肽段长度、肽段中漏切位点的个数、肽段质量、肽段中各氨基酸的出现频率等。中间544种是来自AAindex(参考文献:Kawashima,S.,Pokarowski,P.,Pokarowska,M.,Kolinski,A.,Katayama,T.,andKanehisa,M.;AAindex:aminoacidindexdatabase,progressreport2008.NucleicAcidsRes.36,D202-D205(2008))的氨基酸的理化性质在肽段维度上求均值之后的结果。最后20种物理化学性质引用自前人的研究结果(参考文献:Braisted,J.C.etal.BMCBioinformatics9,529(2008),Webb-Robertson,B.J.etal.Bioinformatics26,1677-1683(2010),Eyers,C.E.etal.MolCellProteomics10,M110003384(2011),Tang,H.etal.Bioinformatics22,e481-488(2006))。在上述技术方案中,在所述的步骤3)中,估本文档来自技高网
...

【技术保护点】
1.一种蛋白质组学中肽段的肽段定量效率预测方法,其步骤包括:1)筛选出高可信蛋白,将高可信蛋白的鉴定肽段作为高可信肽段;2)计算所述高可信肽段的物理化学性质和肽段定量效率;其中,所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度;3)基于高可信肽段的物理化学性质和肽段定量效率,构建预测肽段定量效率模型的训练集;然后利用该训练集训练得到肽段定量效率预测模型;4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。

【技术特征摘要】
1.一种蛋白质组学中肽段的肽段定量效率预测方法,其步骤包括:1)筛选出高可信蛋白,将高可信蛋白的鉴定肽段作为高可信肽段;2)计算所述高可信肽段的物理化学性质和肽段定量效率;其中,所述肽段定量效率为肽段的质谱信号强度对肽段的真实量的反应程度;3)基于高可信肽段的物理化学性质和肽段定量效率,构建预测肽段定量效率模型的训练集;然后利用该训练集训练得到肽段定量效率预测模型;4)利用所述肽段定量效率预测模型预测鉴定蛋白的各鉴定肽段的肽段定量效率。2.如权利要求1所述的方法,其特征在于,所述高可信蛋白为至少包含N个唯一肽段的蛋白;所述唯一肽段是指在已鉴定到的蛋白中唯一在一个蛋白组出现的肽段;所述蛋白组是指经过蛋白装配之后得到的同组蛋白集合。3.如权利要求1所述的方法,其特征在于,计算所述肽段定量效率的方法为:对于每一所述高可信蛋白i,首先计算该高可信蛋白i的信号强度最高的肽段的定量效率;Qi,j表示高可信蛋白i的肽段j的肽段定量效率,Qi,max=maxjQi,j表示高可信蛋白i的信号强度最高的肽段的定量效率;其中,通过公式计算Qi,max的估计值作为Qi,max;ni表示高可信蛋白i的期望肽段数目;然后利用公式计算所述高可信蛋白i的其他鉴定肽段的肽段定量效率;其中,Ii,j为高可信蛋白i的肽段j的质谱信号强度,Ii,max为高可信蛋白i的所有肽段的质谱信号强度中的最大值。4.如权利要求1所述的方法,其特征在于,构建所述训练集的方法...

【专利技术属性】
技术研发人员:付岩常乘高志强朱云平
申请(专利权)人:中国科学院数学与系统科学研究院中国人民解放军军事科学院军事医学研究院北京蛋白质组研究中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1