当前位置: 首页 > 专利查询>暨南大学专利>正文

基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法技术

技术编号:9033060 阅读:455 留言:0更新日期:2013-08-15 00:01
本发明专利技术公开了一种基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法,涉及蛋白质二级质谱鉴定领域。本方法包括如下步骤:建立肽段数据库和肽段数据库索引;根据待分析实验图谱中母离子从肽段数据库中找出候选肽段,并产生理论图谱;对待分析实验图谱进行去同位素峰和选取有效峰;产生基于候选肽区分度的实验标记图谱;统计不同区间峰强度区分度、理论碎片离子和实验图谱质量误差区分度以及实验图谱峰与理论图谱匹配峰的碎片离子区分度;对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分,选择最高得分的肽段作为此实验图谱鉴定结果。本方法鉴定有效质谱的数量和蛋白质肽段数量均高于现有算法,鉴定效率也大大提高了。

【技术实现步骤摘要】

本专利技术涉及蛋白质二级质谱鉴定领域,特别涉及一种。
技术介绍
生物质谱目前已成蛋白质组研究的支撑技术之一,该技术主要利用串联质谱(LC-MS/MS)来分析蛋白质样品。在蛋白质组的生物信息学研究中,二级质谱数据处理是十分重要的研究内容,其任务是从带有噪声或者部分信息缺失的数据中推断样品的蛋白质组成。数据库搜索是质谱数据处理的主要方法,其基本过程如附图说明图1所示:将实验图谱和数据库中的理论酶切图谱进行比对、打分,选择分值最高的匹配作为搜索结果的候选肽段。蛋白质二级质谱鉴定涉及到诸多方面的内容,其主要涉及到母离子价态的确定、有效质谱峰的选取和匹配打分模型。目前针对鉴定结果整体质量控制的方法主要是应用随机数据库方法对整体鉴定结果进行阳性率控制,其基本思想是:先针对真实蛋白质数据库和实验数据集构建一个随机数据库,然后同时或者分别搜索真实蛋白质数据库和新构建的随机数据库,通过随机数据库肽段匹配来模拟正常数据库中的随机匹配,从而估计正常数据库中随机匹配的特征分布,确定不同过滤标准,Kair s (Kail, L.; Storey, J.D.;MacCoss,M.J.;Noble, ff.S.Assigning significance to peptides identified bytandem mass spectrometry using decoy databases.J.Proteome Res.2008, 7(I), 29 -34.)于2008年在Proteome上公开了一种方法,具体是采用如下公式来得到整体数据集的假阳性率(False PositiveRate, FPR) MFPR ^ Nn目前蛋白质二级质谱鉴定算法根据匹配打分模型大致可以分为两类:解释型模型和概率统计模型。其中著名的商业软件SEQUEST的算法是解释型模型,而另一个商业软件Mascot的算法是概率统计模型。另外还有一些免费的鉴定算法,例如比较有影响力的基于统计模型的算法有X! Tandem和0MSSA。其中X! Tandem用的是超几何模型,OMSSA用的是泊松分布模型。这些基于统计模型的算法中主要考虑的是实验质谱峰匹配与不匹配,很少考虑峰的连续匹配或是考虑的不够全面。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法。本方法在原有二维图谱的信息基础上增加了一维质谱峰的区分能力的信息,此思想之前算法没有涉及到,其鉴定结果包括有效图谱量、肽段可靠性及肽段数量均高于之前算法。本专利技术的目的通过下述技术方案实现:一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,包括如下步骤:( I)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引。(2)根据待分析实验图谱中母离子的质荷比(m/z)在步骤(I)所述的肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生的理论图谱。(3)对待分析实验图谱进行去同位素峰和选取有效峰。(4)产生基于候选肽区分度的实验标记图谱。(5)统计分析不同区间峰强度区分度,不同区间理论碎片离子和实验图谱质量误差区分度,统计完成后,各区间的值为常量,并计算实验图谱峰与理论图谱匹配峰的碎片离子区分度。(6)对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,对鉴定结果进行质量控制;所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b,y匹配离子的区分度打分及基于区分度的总打分。步骤(I)、步骤(2)和步骤(3)中的去同位素峰的具体步骤同申请号为201110358552.6、专利技术名称为一种基于概率统计模型的蛋白质二级质谱鉴定方法的中国专利申请(CN1024 95127A)中所述。步骤(3)中所述的选取有效峰的方法包括如下步骤:I)寻找待分析实验图谱m/z的最大值和最小值分别为maxm/z和minm/z ;2)把m/z坐标从minm/z到maxm/z之间的长度等分成10等份;3)按上面的规则等分后每一等份选取20个最高峰(m/z值最大的峰)即为有效质谱峰;4)对每一等份中选取的20个峰进行归一化,即用每个峰除的该图谱的最的最高峰,从而得到每个峰的强度区间值。步骤(4)中所述的产生基于区分度的实验标记图谱包括如下步骤:I)计算每一实验质谱峰匹配候选肽段的数量,用Mi (i=l, 2,…,η)表示,在实验图谱上标记每个峰上能够匹配上肽段的个数; 2)求取肽段匹配个数的平均值权利要求1.一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于包括如下步骤: (1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引; (2)根据待分析实验图谱中母离子的质荷比在步骤(I)所述的肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生符合要求的理论图谱; (3)对待分析实验图谱进行去同位素峰和选取有效峰; (4)产生基于候选肽区分度的实验标记图谱; (5)统计分析不同区间峰强度区分度,不同区间理论碎片离子和实验图谱质量误差区分度,统计完成后,各区间的值为常量,并计算实验图谱峰与理论图谱匹配峰的碎片离子区分度; (6)对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,对鉴定结果进行质量控制; 所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b,y匹配离子的打分及基于区分度的总打分。2.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于: 步骤(3)中所述的选取有效峰的方法包括如下步骤: O寻找待分析实验图谱m/z的最大值和最小值分别为maxm/z和minm/z ; 2)把m/z坐标从minm/z到maxm/z之间的长度等分成10等份; 3)按上面的规则等分后每一等份选取20个最高峰即为有效质谱峰; 4)对每一等份中选取的20个峰进行归一化,即用每个峰除以这一等份的20个峰中的最闻峰。3.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于: 步骤(4)中所述的产生基于区分度的实验标记图谱包括如下步骤: 1)统计每一实验质谱峰匹配候选肽段的数量,用Mi(i=l, 2,…,η)表示,在实验图谱上标记每个峰上匹配上肽能够匹配上肽段的个数; 2)求取肽段匹配个数的平均值:4.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于: 步骤(5)中所述的不同区间峰强度区分度的计算方法如下: 用N(rp和用N(ep分别表示离子在第j (j=l,2,…,11)个区间上正确匹配和错误匹配的个数,则离子在第j个区间的强度区分度为5.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于: 步骤(6)中所述的匹配离子区分度的打分函数为6.根据权利要求1所述的基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于:步骤(6)中所述的质量控制采用FDR〈〈0.01进行。全文摘要本专利技术公开了一种,涉及蛋白质二级质谱鉴定领域。本方法包括如下步骤建立肽本文档来自技高网
...

【技术保护点】
一种基于候选肽段标记图谱的蛋白质二级质谱鉴定方法,其特征在于包括如下步骤:?(1)虚拟酶解蛋白质数据库序列,并根据肽段的质量数对酶解后的肽段建立肽段数据库和肽段数据库索引;?(2)根据待分析实验图谱中母离子的质荷比在步骤(1)所述的肽段数据库中找出符合要求的候选肽段,并对找到的所有候选肽段产生符合要求的理论图谱;?(3)对待分析实验图谱进行去同位素峰和选取有效峰;?(4)产生基于候选肽区分度的实验标记图谱;?(5)统计分析不同区间峰强度区分度,不同区间理论碎片离子和实验图谱质量误差区分度,统计完成后,各区间的值为常量,并计算实验图谱峰与理论图谱匹配峰的碎片离子区分度;?(6)对每个候选肽段基于实验标记图谱匹配离子的区分度进行打分,选择最高得分的肽段作为此实验图谱鉴定结果,对鉴定结果进行质量控制;?所述的打分包括匹配离子区分度的打分、连续匹配离子区分度的打分、b,y匹配离子的打分及基于区分度的总打分。

【技术特征摘要】

【专利技术属性】
技术研发人员:肖传乐杜阳利陈晓舟何庆瑜
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1