一种对多肽交联肽段进行质谱鉴定的假发现率控制方法技术

技术编号:14141113 阅读:61 留言:0更新日期:2016-12-10 16:48
本发明专利技术提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明专利技术更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。

【技术实现步骤摘要】

本专利技术涉及生物信息学
,具体地说,本专利技术涉及一种对多肽交联肽段进行质谱鉴定的假发现率控制方法
技术介绍
蛋白质鉴定是当代生物学研究中一项基础技术。近二十年来,随着质谱技术(Mass Spectrometry,MS)突飞猛进的发展,串联质谱技术(Tandem Mass Spectrometry,MS/MS)已成为蛋白质鉴定的主流技术,并促成了蛋白质组学的形成和壮大。经过几代人在算法和仪器上的不懈努力,高精度质谱技术下高通量蛋白质鉴定已经达到了一个相当高的水平,如Mann等人在2011年利用Orbitrap Velos质谱仪和MaxQuant软件已能在Hela细胞上采集的二级谱图中鉴定到58%的谱图,而利用本专利技术的专利技术人2013年开发的pFind软件可在相同数据集上鉴定80%以上的谱图。另一方面,蛋白质交联技术近年来也在不断发展。蛋白质交联技术是利用化学试剂来作为交联剂(linker)结合蛋白质肽段,在蛋白质之间形成稳定共价交联的技术。如果将蛋白质交联技术与质谱鉴定技术结合,就可以高通量地进行多种蛋白质内部结构和蛋白质间相互作用的分析。并且,通过交联剂的粘合作用,可以固定原本不稳定的、容易变化的相互作用化学键,从而帮助研究这类广泛存在的弱相互作用关系。为便于描述,蛋白质交联与质谱鉴定技术相结合的技术称为交联质谱技术。如前文所述,交联质谱技术存在诸多应用前景,然而,目前主流的蛋白质质谱鉴定技术都是针对单肽鉴定的基于数据库搜索的质谱鉴定方案,如果直接将这些质谱鉴定方案套用到多肽交联肽段的鉴定中,可能出现准确率过低、鉴定率过低等问题,其中一个重要原因就是传统的目标-诱饵库假发现率控制(False Discovery Rate,FDR)方法不能简单套用到交联质谱技术中。基于数据库搜索方法的质谱数据鉴定会在一定程度上产生随机匹配情况,使鉴定结果中存在着不正确的结果,因此需要进行假发现率控制。在传统的基于数据库搜索方法的单肽质谱数据鉴定中,通常使用目标-诱饵库技术进行假发现率控制。在目标-诱饵库假发现率控制方案主要是:将数据库进行处理,生成含有标记的随机诱饵数据库,然后将目标库和诱饵库进行合并,在合并后的数据库中进行数据库搜索得到鉴定结果。再利用鉴定结果中匹配到诱饵库的谱图数量来估计目标数据库中随机匹配的数目,得到假发现率。再基于假发现率调整搜索引擎的匹配度阈值或者其它参数,从而在尽可能提高鉴定率的同时实现假发现率控制。然而,对于交联质谱数据,其数据库中的候选肽规模庞大,随机匹配更容易发生,传统的目标-诱饵库控制假发现率(False Discovery Rate,FDR)的方法已经不能适用。为解决这一问题,一种思路是针对交联肽段的特点,利用随机交联剂质量或者随机交联位点氨基酸的配置来构建专门针对交联肽段的诱饵库,然后利用该诱饵库和针对交联肽段的目标库混合,再基于传统的目标-诱饵库方案进行假发现率控制。然而,这类方法仍存在较大缺陷,例如:随机的交联剂质量和氨基酸的含量均难以准确估计,二者的估计值与实际值的差别很容易导致所估计的假发现率出现较大偏差。因此,当前迫切需要一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。
技术实现思路
因此,本专利技术的任务是一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。根据本专利技术的一个方面,提供了一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括下列步骤:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n); F D R ( n ) = Σ k = 1 n ( - 1 ) k + 1 D k D 0 ]]>其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。其中,所述步骤1)和步骤2)之间还包括步骤:1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);所述步骤2)中,对属于蛋白内交联的谱图的鉴定结果和属于蛋白间交联的谱图的鉴定结果分开归类;所述步骤3)中,分别计算蛋白内交联情形下的n肽交联假发现率和蛋白间交联情形下的n肽交联假发现率。其中,所述步骤1a)中,如果一个鉴定结果的n肽交联的n条肽段分别来自于同一个蛋白质,那么判断该鉴定结果属于蛋白内交联;反之,判断该鉴定结果属于蛋白间交联。其中,所述步骤1a)中,对于一个鉴定结果,采用AC自动机算法推断该鉴定结果的每条肽段所属的一个或多个蛋白质,如果至少有一个蛋白质是鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白内交联;如果没有任何一个蛋白质是该鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白间交联。其中,所述步骤1)中,所述存储了单条肽段结构的数据库的构建方法包括下列子步骤:11)构建单肽目标库,基于所述单肽目标库构建单肽诱饵库;12)将单肽目标库和单肽诱饵库合并构成所述存储了单条肽段结构的数据库。其中,所述步骤11)中,所述单肽诱饵库是将单肽目标库中的蛋白序列反转,由反转后的蛋白序列所组成的数据库。在一个实施例中,所述假发现率控制方法还包括步骤:4)根据n肽交联的假发现率调整所述肽段匹配模型的打分阈值。在另一个实施例中,所述假发现率控制方法还包括步骤:4)根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白间交联的鉴定结果。其中,所述肽段匹配模型为单肽匹配模型或二肽交联匹配模型。与现有技术相比,本专利技术具有下列技术效果:1、本专利技术能够更加准确地估计对多肽交联肽段进行质谱鉴定的假发现率。2、本专利技术能够帮助提高对多肽交联肽段进行质谱鉴定的准确率和鉴定率。附图说明以下,结合附图来详本文档来自技高网
...
一种对多肽交联肽段进行质谱鉴定的假发现率控制方法

【技术保护点】
一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,其特征在于,包括下列步骤:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n);FDR(n)=Σk=1n(-1)k+1DkD0]]>其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。

【技术特征摘要】
1.一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,其特征在于,包括下列步骤:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n); F D R ( n ) = Σ k = 1 n ( - 1 ) k + 1 D k D 0 ]]>其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。2.根据权利要求1所述的假发现率控制方法,其特征在于,所述步骤1)和步骤2)之间还包括步骤:1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);所述步骤2)中,对属于蛋白内交联的谱...

【专利技术属性】
技术研发人员:樊盛博迟浩孟佳明卢珊尹吉澧孙瑞祥董梦秋贺思敏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1