一种完整糖肽鉴定的方法与系统技术方案

技术编号:13838119 阅读:57 留言:0更新日期:2016-10-16 01:00
本发明专利技术提供一种完整糖肽鉴定的方法,包括:对于任一待鉴定的实测串联质谱,遍历糖链结构数据库,对于其中每个糖链结构:根据当前串联谱图的母离子质量,推断出碎裂测试中所有可能获得的糖肽Y离子的质量,进而计算匹配到当前二级谱图的谱峰的数目,并将这个匹配谱峰的数目作为对应情形下的糖肽Y离子与当前二级谱图匹配的粗打分结果;取粗打分前K名的糖链结构作为候选糖链结构;对于当前串联谱图,遍历所有的候选糖链结构,对于每一候选糖链结构进行实测谱和肽段的理论谱的谱谱匹配打分,以及实测谱和糖链结构的理论谱的谱谱匹配打分,进而得出糖肽结构鉴定结果。本发明专利技术能够提高完整糖肽规模化鉴定的可靠性且计算复杂度低。

【技术实现步骤摘要】

本专利技术涉及生物信息学
,具体地说,本专利技术涉及糖蛋白质组学和质谱

技术介绍
质谱技术是规模化鉴定位点特异性的蛋白质糖基化修饰的主要手段。质谱技术中,通常先通过完整糖肽的串联质谱图鉴定完整糖肽,然后推断出蛋白质上的糖基化修饰。目前,针对规模化完整糖肽谱图的鉴定,存在两种鉴定策略,分别是①以GRIP、ArMone 2.0等系统为代表的基于完整糖肽串联谱图鉴定糖链而后根据肽段质量匹配肽段的方法,以及②以Byonic等系统为代表的基于完整糖肽谱图鉴定肽段而后根据糖链质量推测糖链组成的方法。下面简要介绍这两种方法,然后分析这两种方法的不足。第①种方法主要是通过糖肽谱图中的糖链碎片离子信息,与糖肽的Y离子匹配后得到糖链的鉴定结果,然后再通过推断出的肽段质量与蛋白质序列库中的肽段序列进行匹配,推断出肽段序列。第②种方法主要是通过糖肽谱图中的肽段碎片离子信息,与糖肽的肽段碎片离子匹配后得到肽段的鉴定结果,然后通过推断出的糖链质量与糖链数据库中糖链结构进行匹配,推断出糖链结构。上述两种方法中,只利用完整糖肽谱图鉴定糖肽的糖链部分或肽段部分,而另一部分则是通过质量直接推断得到的,因此可靠性较差。举个例子,当利用完整糖肽谱图鉴定糖肽的糖链部分后,推测出肽段的质量为999.5633,在此误差范围内能够匹配上的质量就很多,例如LTEAKPVDK和DVPKAETLK两条肽段的质量完全一样,且都可以匹配上999.5633,如果仅通过质量进行匹配,完全无法区分二者。同理,只根据糖链质量推测糖链组成的方法也存在上述问题。因此,当前迫切需要一种具有更高可靠性的规模化完整糖肽鉴定解决方案。
技术实现思路
本专利技术的任务是提供一种具有更高可靠性的规模化完整糖肽鉴定解决方案。本专利技术提供了一种完整糖肽鉴定的方法,包括下列步骤:1)获取同时含有糖链碎片信息和肽段碎片信息的糖肽二级碎裂的实测串联质谱;2)对于任一待鉴定的实测串联质谱,遍历糖链结构数据库,对于其中每个糖链结构,执行步骤21)~22),直至糖链结构数据库中所有糖链结构遍历完毕;21)对于当前糖链结构,根据当前串联谱图的母离子质量,推断出碎裂测试中所有可能获得的糖肽Y离子的质量;22)根据步骤21)所得出的每一种情形下的糖肽Y离子的质量,计算匹配到当前二级谱图的谱峰的数目,并将这个匹配谱峰的数目作为对应情形下的糖肽Y离子与当前二级谱图匹配的粗打分结果;3)取粗打分结果在前K名的糖链结构作为当前串联谱图的候选糖链结构;其中,K为预设的糖链结构的候选数目;4)对于当前串联谱图,遍历所有的候选糖链结构,对于每一候选糖链结构,进行实测谱和肽段的理论谱的谱谱匹配打分,以及实测谱和糖链结构的理论谱的谱谱匹配打分,进而得出糖肽结构鉴定结果。其中,所述步骤21)中,推断出碎裂测试中所有可能获得的糖肽Y离子的质量的方法包括:计算糖肽Y离子质量=肽段质量+糖链还原端离子质量,所述肽段质量由当前串联谱图的母离子质量减去当前糖链结构的质量得出,所述糖链还原端离子质量按下述方法计算得出:分析当前糖链结构碎裂的所有可能情形,得到每种可能情形下的碎裂后的糖链还原端离子的结构,再基于这些糖链还原端离子的结构得出糖链还原端离子质量。其中,所述步骤21)中,所述糖链还原端离子质量通过查找糖链索引表得出,所述糖链索引表以质量为索引项,记录对应于各个质量的糖链还原端离子结构。其中,所述步骤21)中,所述糖链索引表根据下列子步骤预先得出:211)导入糖链结构数据库并遍历其中每一个糖链结构;212)对于当前糖链,基于该糖链的结构分析出该糖链所有可能的断裂位置,得出每种断裂位置对应的还原端离子的结构;213)计算出每一个可能的还原端离子的质量,进而得到所述糖链索引表。其中,所述步骤21)还包括:直接舍弃与当前串联谱图明显不匹配的糖链结构,如果当前串联谱图的二级谱图中274谱峰强度超过最高峰的10%且当前糖链结构中不包含NeuAc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中不包含274谱峰且当前糖链结构中包含NeuAc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中290谱峰强度超过最高峰的10%且当前糖链结构中不包含NeuGc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中不包含290谱峰且当前糖链结构中包含NeuGc,则舍弃该糖链结构。其中,所述步骤21)还包括:如果已知待鉴定的糖肽样品是N糖肽,则根据当前糖链结构中五糖核心离子的数目,舍弃明显不匹配的糖链结构。其中,所述步骤4)包括下列子步骤:41)遍历所有的候选糖链结构,对于每一候选糖链结构执行步骤42);42)根据当前糖链结构和当前串联谱图的母离子质量推断的肽段质量,然后检索肽段索引表得到该质量匹配的肽段;43)将匹配到的肽段理论碎裂,得到满足碎裂条件的离子;44)将各个匹配到的肽段的理论碎片离子的理论谱图与实际的谱图进行谱谱匹配,得到相应的肽段细打分;45)对于当前候选糖链结构,将糖肽的理论Y离子的理论谱图与实际的谱图进行谱谱匹配,得到糖链结构的细打分;46)糖链结构细打分与肽段细打分加权求平均后得到由对应糖链结构和对应肽段构成的糖肽的细打分;47)根据各个糖肽结构的细打分得出糖肽结构鉴定结果。其中,所述步骤42)中,所述肽段索引表预先基于蛋白质序列库建立,所述肽段索引表以质量为索引项记录对应于各个质量的肽段序列。其中,所述肽段索引表的建立过程包括下列子步骤:421)导入蛋白质序列数据库并遍历其中每一个蛋白质序列;422)对于当前蛋白质序列,分析该蛋白质序列所有可能的理论酶切情形,得出每种理论酶切情形对应的肽段序列;423)对于每一条可能的肽段,基于所有可能的修饰形式生成相应的多种带修饰的肽段;424)计算出每一条可能的肽段的质量,进而得到所述肽段索引表,其中的肽段既包括不带修饰的肽段,也包括带修饰的肽段。其中,所述糖链索引表的建立过程还包括下列子步骤:214)根据糖链结构数据库中的糖链,构造诱饵糖库,分析诱饵糖链的还原端离子结构并计算相应的还原端离子质量;215)将来自诱饵糖链的还原端离子的索引项加入步骤33)得到的基于原糖库生成的糖链索引表中;所述肽段索引表的建立过程还包括:425)基于蛋白质序列库和所有可能的酶切情形,得出包含所有可能肽段的肽段列表,根据肽段列表构造诱饵肽段列表并计算其中每一肽段的肽段质量;426)将诱饵肽段列表并入步骤213)所得的肽段索引表中;所述完整糖肽鉴定方法还包括下列步骤:5)对于每个待鉴定的串联谱图,执行步骤2)~4),取每个串联谱图糖肽细打分第一名的结果,估计完整糖肽的假发现率,输出附有假发现率的最终鉴定结果,所述步骤5)包括下列子步骤:51)取每个串联谱图第一名的糖肽标记为该谱图的鉴定结果;52)所有第一名结果中,将糖链来自诱饵库的结果认为是错误的糖链鉴定,据此估计出其中,代表打分大于等于x的糖链鉴定集合的假发现率,IGP代表所有鉴定结果的打分集合,x表示人工设置的打分阈值,G=False代表糖链鉴定错误的事件,p代表概率函数;53)所有第一名结果中,将肽段来自诱饵库的结果认为是错误的肽段鉴定,根据错误的肽段鉴定数目,计算出其中,代表打分大于等于x的肽段鉴定集合的假发现率,IGP代表所有鉴定结果的打分集合,x本文档来自技高网
...

【技术保护点】
一种完整糖肽鉴定的方法,包括下列步骤:1)获取同时含有糖链碎片信息和肽段碎片信息的糖肽二级碎裂的实测串联质谱;2)对于任一待鉴定的实测串联质谱,遍历糖链结构数据库,对于其中每个糖链结构,执行步骤21)~22),直至糖链结构数据库中所有糖链结构遍历完毕;21)对于当前糖链结构,根据当前串联谱图的母离子质量,推断出碎裂测试中所有可能获得的糖肽Y离子的质量;22)根据步骤21)所得出的每一种情形下的糖肽Y离子的质量,计算匹配到当前二级谱图的谱峰的数目,并将这个匹配谱峰的数目作为对应情形下的糖肽Y离子与当前二级谱图匹配的粗打分结果;3)取粗打分结果在前K名的糖链结构作为当前串联谱图的候选糖链结构;其中,K为预设的糖链结构的候选数目;4)对于当前串联谱图,遍历所有的候选糖链结构,对于每一候选糖链结构,进行实测谱和肽段的理论谱的谱谱匹配打分,以及实测谱和糖链结构的理论谱的谱谱匹配打分,进而得出糖肽结构鉴定结果。

【技术特征摘要】
1.一种完整糖肽鉴定的方法,包括下列步骤:1)获取同时含有糖链碎片信息和肽段碎片信息的糖肽二级碎裂的实测串联质谱;2)对于任一待鉴定的实测串联质谱,遍历糖链结构数据库,对于其中每个糖链结构,执行步骤21)~22),直至糖链结构数据库中所有糖链结构遍历完毕;21)对于当前糖链结构,根据当前串联谱图的母离子质量,推断出碎裂测试中所有可能获得的糖肽Y离子的质量;22)根据步骤21)所得出的每一种情形下的糖肽Y离子的质量,计算匹配到当前二级谱图的谱峰的数目,并将这个匹配谱峰的数目作为对应情形下的糖肽Y离子与当前二级谱图匹配的粗打分结果;3)取粗打分结果在前K名的糖链结构作为当前串联谱图的候选糖链结构;其中,K为预设的糖链结构的候选数目;4)对于当前串联谱图,遍历所有的候选糖链结构,对于每一候选糖链结构,进行实测谱和肽段的理论谱的谱谱匹配打分,以及实测谱和糖链结构的理论谱的谱谱匹配打分,进而得出糖肽结构鉴定结果。2.根据权利要求1所述的完整糖肽鉴定的方法,其特征在于,所述步骤21)中,推断出碎裂测试中所有可能获得的糖肽Y离子的质量的方法包括:计算糖肽Y离子质量=肽段质量+糖链还原端离子质量,所述肽段质量由当前串联谱图的母离子质量减去当前糖链结构的质量得出,所述糖链还原端离子质量按下述方法计算得出:分析当前糖链结构碎裂的所有可能情形,得到每种可能情形下的碎裂后的糖链还原端离子的结构,再基于这些糖链还原端离子的结构得出糖链还原端离子质量。3.根据权利要求2所述的完整糖肽鉴定的方法,其特征在于,所述步骤21)中,所述糖链还原端离子质量通过查找糖链索引表得出,所述糖链索引表以质量为索引项,记录对应于各个质量的糖链还原端离子结构。4.根据权利要求3所述的完整糖肽鉴定的方法,其特征在于,所述步骤21)中,所述糖链索引表根据下列子步骤预先得出:211)导入糖链结构数据库并遍历其中每一个糖链结构;212)对于当前糖链,基于该糖链的结构分析出该糖链所有可能的断裂位置,得出每种断裂位置对应的还原端离子的结构;213)计算出每一个可能的还原端离子的质量,进而得到所述糖链索引表。5.根据权利要求3所述的完整糖肽鉴定的方法,其特征在于,所述步骤21)还包括:直接舍弃与当前串联谱图明显不匹配的糖链结构,如果当前串联谱图的二级谱图中274谱峰强度超过最高峰的10%且当前糖链结构中不包含NeuAc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中不包含274谱峰且当前糖链结构中包含NeuAc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中290谱峰强度超过最高峰的10%且当前糖链结构中不包含NeuGc,则舍弃该糖链结构;如果当前串联谱图的二级谱图中不包含290谱峰且当前糖链结构中包含NeuGc,则舍弃该糖链结构。6.根据权利要求3所述的完整糖肽鉴定的方法,其特征在于,所述步骤21)还包括:如果已知待鉴定的糖肽样品是N糖肽,则根据当前糖链结构中五糖核心离子的数目,舍弃明显不匹配的糖链结构。7.根据权利要求4所述的完整糖肽鉴定的方法,其特征在于,所述步骤4)包括下列子步骤:41)遍历所有的候选糖链结构,对于每一候选糖链结构执行步骤42);42)...

【专利技术属性】
技术研发人员:曾文锋刘铭琪张晓今吴建强张扬孙瑞祥杨芃原贺思敏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1