一种基于离子索引的整体蛋白质鉴定方法与系统技术方案

技术编号:17008238 阅读:37 留言:0更新日期:2018-01-11 04:20
本发明专利技术涉及一种基于离子索引的整体蛋白质鉴定方法与系统,包括统计碎裂位点,挖掘碎裂模式。在待测蛋白质样品的完整数据集鉴定结果中统计强度最高多根谱峰匹配到的氨基酸位点,用于离子索引表的创建。对C端碎裂的位点和N端碎裂的位点处产生的碎片离子建立倒排索引表。对于每张谱图,去除母离子峰后,提取强度最高的多根谱峰作为查询谱峰,检索离子索引表获取候选蛋白质。粗打分过滤候选蛋白质,其中粗打分采用了改进的BM25算法,并考虑了N/C端可变修饰和互补离子。本发明专利技术通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。

【技术实现步骤摘要】
一种基于离子索引的整体蛋白质鉴定方法与系统
本专利技术涉及生物信息学中的蛋白质鉴定领域,特别涉及一种基于离子索引的整体蛋白质鉴定方法与系统。
技术介绍
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。与之相对应的另一种策略称为“自底向上”(Bottom-Up,BU)的蛋白质组学,BU需要先将蛋白质分子酶切成肽段,再进行质谱碎裂,根据谱图鉴定到肽段之后再进行蛋白质的推断。BU的酶切过程导致了肽段归属信息的缺失,这会使得蛋白质的推断结果产生不确定性。而TD策略则不需要酶切过程,直接碎裂整体的蛋白质,它所产生的质谱数据可以提供关于蛋白质更丰富、更全面的信息,包括由基因突变、RNA可变剪接、翻译后修饰等引起的蛋白质的变化。另一方面,由于蛋白质分子量较大,带电荷较多导致谱图更加复杂,解析难度增加;而蛋白质碎裂不充分,也给鉴定带来了一定挑战。目前整体蛋白质的鉴定仍然以数据库搜索为主,而数据库又分为注释库和序列库,其中注释库是指通过“鸟枪法”标注了突变、可变剪接、修饰位点等信息的数据库,序列库是只包含蛋白质的氨基酸序列而不含修饰等信息的数据库。目前ProSightPC软件和ProteinGoggle软件主要搜索注释库,可以通过母离子误差窗口来获取候选蛋白质变体,但空间消耗比较大,且无法搜索不在数据库中蛋白质;pTop1.0、TopPIC等软件均使用序列数据库进行蛋白质的鉴定,此时如何快速获取候选蛋白质就成了准确、高效鉴定蛋白质变体的关键。TopPIC使用一种基于链表的索引结构进行候选蛋白质的过滤,但速度和灵敏度依然不如pTop1.0。pTop1.0中主要使用序列标签(Tag)索引获取候选蛋白质,但由于蛋白质碎裂的不充分,以及谱峰信息的复杂度较高,使得至少有30%的谱图提取不到有效的序列标签,即使能够提取到少量的序列标签,也大都是随机匹配所得,从而索引不到正确的候选蛋白质。对于提取不到任何序列标签的谱图,pTop1.0通过开大母离子窗口来获取候选蛋白质,而对于N/C端截断蛋白质往往无法落入一定的母离子误差窗口内,从而无法得到鉴定。本专利技术在查看谱图时发现质谱碎裂是有一定规律的,例如氨基酸D、E的C端易碎裂形成b离子,P、Y的N端易碎裂形成y离子,这些碎裂位点比较容易匹配到高强度的谱峰;而对于被正确解析的谱图,其中必然存在很多高强度的谱峰被碎片离子匹配到。本专利技术基于此观察进行思考,提出了一种基于离子索引表的整体蛋白质鉴定方法,可以不依赖序列标签和母离子质量快速获取候选蛋白质,提高了谱图解析率,且可以鉴定到更多的蛋白质变体。
技术实现思路
为了解决上述技术问题,本专利技术目的在于不依赖序列标签和母离子质量快速获取有效候选蛋白质,设计并实现了离子索引流程,通过建立部分离子索引表快速找出候选蛋白质,并对蛋白质的N/C端截断情况进行检查,然后通过粗打分进一步过滤候选蛋白质。本专利技术通过上述技术点,能兼顾高效蛋白质鉴定效率和解析率,尤其对于碎裂不是很充分的质谱数据,效果更为明显。具体地说,本专利技术公开了一种基于离子索引的整体蛋白质鉴定方法,其中包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有质谱图的候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值;步骤9、取质谱图对应的蛋白质变体中SVM分值最高的蛋白质变体,作为该质谱图的匹配蛋白质变体,并根据每个该匹配蛋白质变体的SVM分值,对质谱图进行筛选,将筛选出的质谱图和其相应的匹配蛋白质变体作为最终鉴定结果进行输出。该基于离子索引的整体蛋白质鉴定方法,其中该步骤1包括:步骤11、计算每种该蛋白质序列中氨基酸D,E,V处断裂产生的b离子质量;步骤12、计算每种该蛋白质序列中氨基酸G,P,Y处断裂产生的y离子质量;步骤13、将该b离子质量和该y离子质量进行整数化处理后作为数组的下标;步骤14、分别统计该b离子质量、该y离子质量累积出现的累积次数,将该累积次数作为数组对应项的值;步骤15、重新遍历该蛋白质序列,把各该b离子质量、各该y离子质量的该累积次数作为倒排索引表的数组下标,并依次把该蛋白质序列对应的蛋白质ID作为该倒排索引表的倒排项存储在数组中;步骤16、每记录一个该倒排项,便对其相应b离子质量或y离子质量的累积次数减一,扫描完所有的蛋白质序列之后,该倒排索引表,也即该离子索引表的创建就完成了。该基于离子索引的整体蛋白质鉴定方法,其中步骤5中该打分算法包括:首先根据预设的碎片离子误差范围,查找候选蛋白的该碎片离子在该质谱图中是否存在匹配谱峰,若是,则根据BM25打分算法对该碎片离子及其该匹配谱峰进行打分;否则,查找该碎片离子的互补离子在该质谱图的匹配谱峰,根据BM25打分算法对该互补离子及其该匹配谱峰进行打分;最终将匹配到的碎片离子或互补离子打分的累加和作为候选蛋白的该匹配度。该基于离子索引的整体蛋白质鉴定方法,其中步骤4中该有效序列的生成过程包括:步骤41、计算各该候选蛋白质的蛋白质序列的理论质量,若该理论质量减去该质谱图母离子质量大于等于最小氨基酸质量,则将该蛋白质序列的N端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列作为该有效序列;步骤42、将该蛋白质序列的C端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列;步骤43、若该蛋白质序列以M氨基酸开头,且该理论质量减该M氨基酸质量减该母离子质量大于等于最小氨基酸质量,则截断去除M氨基酸,同时截断去除该蛋白质序列C端的一个或多个氨基酸,使得截断后的该理论质量减该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列。该基于离子索引的整体蛋白质鉴定方法,其中该步骤2包括:步骤21,从该修饰数据库中读取每种蛋白质的修饰信息,该修饰信息包含每种蛋白质修饰的名称、位点和质量;步骤22,根据该修饰信息、该可变修饰类型和该最大可变修饰位点数目,递归生成所有的修饰组合,并用每种修饰组合中的修饰质量总和作为关键字进行索引。本专利技术还提出了一种基于离子索引的整体蛋白质鉴定系统,其中包括:离子本文档来自技高网
...
一种基于离子索引的整体蛋白质鉴定方法与系统

【技术保护点】
一种基于离子索引的整体蛋白质鉴定方法,其特征在于,包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有质谱图的候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值;步骤9、取质谱图对应的蛋白质变体中SVM分值最高的蛋白质变体,作为该质谱图的匹配蛋白质变体,并根据每个该匹配蛋白质变体的SVM分值,对质谱图进行筛选,将筛选出的质谱图和其相应的匹配蛋白质变体作为最终鉴定结果进行输出。...

【技术特征摘要】
1.一种基于离子索引的整体蛋白质鉴定方法,其特征在于,包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有质谱图的候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值;步骤9、取质谱图对应的蛋白质变体中SVM分值最高的蛋白质变体,作为该质谱图的匹配蛋白质变体,并根据每个该匹配蛋白质变体的SVM分值,对质谱图进行筛选,将筛选出的质谱图和其相应的匹配蛋白质变体作为最终鉴定结果进行输出。2.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,该步骤1包括:步骤11、计算每种该蛋白质序列中氨基酸D,E,V处断裂产生的b离子质量;步骤12、计算每种该蛋白质序列中氨基酸G,P,Y处断裂产生的y离子质量;步骤13、将该b离子质量和该y离子质量进行整数化处理后作为数组的下标;步骤14、分别统计该b离子质量、该y离子质量累积出现的累积次数,将该累积次数作为数组对应项的值;步骤15、重新遍历该蛋白质序列,把各该b离子质量、各该y离子质量的该累积次数作为倒排索引表的数组下标,并依次把该蛋白质序列对应的蛋白质ID作为该倒排索引表的倒排项存储在数组中;步骤16、每记录一个该倒排项,便对其相应b离子质量或y离子质量的累积次数减一,扫描完所有的蛋白质序列之后,将该倒排索引表作为该离子索引表。3.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,步骤5中该打分算法包括:首先根据预设的碎片离子误差范围,查找候选蛋白的该碎片离子在该质谱图中是否存在匹配谱峰,若是,则根据BM25打分算法对该碎片离子及其该匹配谱峰进行打分;否则,查找该碎片离子的互补离子在该质谱图的匹配谱峰,根据BM25打分算法对该互补离子及其该匹配谱峰进行打分;最终将匹配到的碎片离子或互补离子打分的累加和作为候选蛋白的该匹配度。4.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,步骤4中该有效序列的生成过程包括:步骤41、计算各该候选蛋白质的蛋白质序列的理论质量,若该理论质量减去该质谱图母离子质量大于等于最小氨基酸质量,则将该蛋白质序列的N端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列作为该有效序列;步骤42、将该蛋白质序列的C端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列;步骤43、若该蛋白质序列以M氨基酸开头,且该理论质量减该M氨基酸质量减该母离子质量大于等于最小氨基酸质量,则截断去除M氨基酸,同时截断去除该蛋白质序列C端的一个或多个氨基酸,使得截断后的该理论质量减该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列。5.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,该步骤2包括:步骤21,从该修饰数据库中读取每种蛋白质的修饰信息,该修饰信息包含每种蛋白质修饰的名称、位点和质量;步骤22,根据该修饰信息、该可变修饰类型和该最大可变修饰位点数目,递归生成所有的修饰组合,并用每种修饰组合中的修饰质量总和作为关键字进行索引。6.一种基于离子索引的整体蛋白质鉴定系统,...

【专利技术属性】
技术研发人员:王瑞敏孙瑞祥迟浩曾文锋刘超贺思敏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1