【技术实现步骤摘要】
一种基于离子索引的整体蛋白质鉴定方法与系统
本专利技术涉及生物信息学中的蛋白质鉴定领域,特别涉及一种基于离子索引的整体蛋白质鉴定方法与系统。
技术介绍
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。与之相对应的另一种策略称为“自底向上”(Bottom-Up,BU)的蛋白质组学,BU需要先将蛋白质分子酶切成肽段,再进行质谱碎裂,根据谱图鉴定到肽段之后再进行蛋白质的推断。BU的酶切过程导致了肽段归属信息的缺失,这会使得蛋白质的推断结果产生不确定性。而TD策略则不需要酶切过程,直接碎裂整体的蛋白质,它所产生的质谱数据可以提供关于蛋白质更丰富、更全面的信息,包括由基因突变、RNA可变剪接、翻译后修饰等引起的蛋白质的变化。另一方面,由于蛋白质分子量较大,带电荷较多导致谱图更加复杂,解析难度增加;而蛋白质碎裂不充分,也给鉴定带来了一定挑战。目前整体蛋白质的鉴定仍然以数据库搜索为主,而数据库又分为注释库和序列库,其中注释库是指通过“鸟枪法”标注了突变、可变剪接、修饰位点等信息的数据库,序列库是只包含蛋白质的氨基酸序列而不含修饰等信息的数据库。目前ProSightPC软件和ProteinGoggle软件主要搜索注释库,可以通过母离子误差窗口来获取候选蛋白质变体,但空间消耗比较大,且无法搜索不在数据库中蛋白质;pTop1.0、TopPIC等软件均使用序列数据库进行蛋白质的鉴定,此时如何快速获取候选蛋白质就成了准确、高效鉴定蛋白质变体的关键。TopPIC使用一种基于链表的索引结构进行候选蛋白质的过滤,但速度和灵敏度依然不如pTo ...
【技术保护点】
一种基于离子索引的整体蛋白质鉴定方法,其特征在于,包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有 ...
【技术特征摘要】
1.一种基于离子索引的整体蛋白质鉴定方法,其特征在于,包括:步骤1、根据氨基酸碎裂位点,计算蛋白质数据库中各蛋白质序列在碎裂位点断裂产生的离子质量,建立包含这些离子质量的离子索引表,其中该氨基酸碎裂位点包括氨基酸D,E,V的C端和氨基酸G,P,Y的N端;步骤2、根据预设的可变修饰类型和最大可变修饰位点数目,并以蛋白质的修饰数据库为基础,建立修饰质量索引;步骤3、对于每张质谱图,从该质谱图中提取查询谱峰,并用该查询谱峰检索该离子索引表,为该质谱图保留多个候选蛋白质;步骤4、根据每个该候选蛋白质的N/C端截断情况,为各该候选蛋白质保留有效序列;步骤5、对于每个该有效序列,生成其所有的理论碎片离子,通过打分算法计算各碎片离子与该质谱图的匹配度,利用该匹配度进一步筛选该有效序列;步骤6、根据每个该有效序列的母离子质量偏差检索该修饰质量索引,为每个该候选蛋白质获取对应的修饰组合,并推导修饰位点的位置,得到对应的候选蛋白质变体;步骤7、为每个该候选蛋白质变体进行细打分,根据分值排名为各质谱图保留多个蛋白质变体,并将各质谱图匹配的蛋白质变体作为训练样本输入至SVM模型;步骤8、通过使用该SVM模型对所有质谱图的候选蛋白质变体进行重打分,得到每个候选蛋白质变体的SVM分值;步骤9、取质谱图对应的蛋白质变体中SVM分值最高的蛋白质变体,作为该质谱图的匹配蛋白质变体,并根据每个该匹配蛋白质变体的SVM分值,对质谱图进行筛选,将筛选出的质谱图和其相应的匹配蛋白质变体作为最终鉴定结果进行输出。2.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,该步骤1包括:步骤11、计算每种该蛋白质序列中氨基酸D,E,V处断裂产生的b离子质量;步骤12、计算每种该蛋白质序列中氨基酸G,P,Y处断裂产生的y离子质量;步骤13、将该b离子质量和该y离子质量进行整数化处理后作为数组的下标;步骤14、分别统计该b离子质量、该y离子质量累积出现的累积次数,将该累积次数作为数组对应项的值;步骤15、重新遍历该蛋白质序列,把各该b离子质量、各该y离子质量的该累积次数作为倒排索引表的数组下标,并依次把该蛋白质序列对应的蛋白质ID作为该倒排索引表的倒排项存储在数组中;步骤16、每记录一个该倒排项,便对其相应b离子质量或y离子质量的累积次数减一,扫描完所有的蛋白质序列之后,将该倒排索引表作为该离子索引表。3.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,步骤5中该打分算法包括:首先根据预设的碎片离子误差范围,查找候选蛋白的该碎片离子在该质谱图中是否存在匹配谱峰,若是,则根据BM25打分算法对该碎片离子及其该匹配谱峰进行打分;否则,查找该碎片离子的互补离子在该质谱图的匹配谱峰,根据BM25打分算法对该互补离子及其该匹配谱峰进行打分;最终将匹配到的碎片离子或互补离子打分的累加和作为候选蛋白的该匹配度。4.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,步骤4中该有效序列的生成过程包括:步骤41、计算各该候选蛋白质的蛋白质序列的理论质量,若该理论质量减去该质谱图母离子质量大于等于最小氨基酸质量,则将该蛋白质序列的N端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列作为该有效序列;步骤42、将该蛋白质序列的C端截断去除一个或多个氨基酸,使得该理论质量减去该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列;步骤43、若该蛋白质序列以M氨基酸开头,且该理论质量减该M氨基酸质量减该母离子质量大于等于最小氨基酸质量,则截断去除M氨基酸,同时截断去除该蛋白质序列C端的一个或多个氨基酸,使得截断后的该理论质量减该母离子质量小于等于5.2Da,将截断后的蛋白质序列也作为该有效序列。5.如权利要求1所述的基于离子索引的整体蛋白质鉴定方法,其特征在于,该步骤2包括:步骤21,从该修饰数据库中读取每种蛋白质的修饰信息,该修饰信息包含每种蛋白质修饰的名称、位点和质量;步骤22,根据该修饰信息、该可变修饰类型和该最大可变修饰位点数目,递归生成所有的修饰组合,并用每种修饰组合中的修饰质量总和作为关键字进行索引。6.一种基于离子索引的整体蛋白质鉴定系统,...
【专利技术属性】
技术研发人员:王瑞敏,孙瑞祥,迟浩,曾文锋,刘超,贺思敏,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。