基于模糊判别和逻辑推理的蛋白酶解液的分析方法技术

技术编号:15689147 阅读:126 留言:0更新日期:2017-06-24 00:29
本发明专利技术公开了一种基于模糊判别和逻辑推理的蛋白酶解液的分析方法。本发明专利技术涉及一种基于模糊判别和逻辑推理的肽段-二级质谱(MS/MS)图匹配分析方法。该算法以Logistics函数来模拟人对谱图质量的模糊判断,以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null-test测试,该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较,发现本发明专利技术的算法能通过Null-test,智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况,使用的是肽段信息空间进行与质谱谱图的匹配运算。

Analysis method of protein hydrolysate based on fuzzy discrimination and logical reasoning

The present invention discloses a method for analyzing protein hydrolysate based on fuzzy discrimination and logic inference. The present invention relates to a method of peptide section two mass spectrum (MS/MS) graph matching analysis based on fuzzy discrimination and logic inference. In this algorithm, the Logistics function is used to simulate the fuzzy judgment of the quality of the spectrogram, and the inner product sequence of the matrix is used to realize the logic inference of the sequence of peptide segments. After the Null-test test, the algorithm is compared with the existing algorithms / software (Mascot, Morpheus, Pfind, MaxQuant), and it is found that the proposed algorithm can pass Null-test, and the intelligence is higher than the control method. The algorithm does not use the conventional ion space to describe the matching of mass spectral data. It uses the information space of peptide segments to match the mass spectra.

【技术实现步骤摘要】
基于模糊判别和逻辑推理的蛋白酶解液的分析方法
本专利技术为蛋白质组学中判断候选肽段与二级质谱(MS/MS)图匹配程度的打分分析方法,用以对具体蛋白质序列库中所有候选肽段与实验从蛋白酶解液中采集的MS/MS谱图进行匹配打分,最终判别酶解液中存在哪些肽段。
技术介绍
目前,Shotgun方案是蛋白质组学研究从复杂体系中大量鉴定存在的蛋白质的重要方法。Shotgun策略通过将研究体系中的蛋白经蛋白酶水解之后,获得肽段,再从目标蛋白库进行匹配打分。打分算法的性能,决定了鉴定结果可靠程度。已有的打分算法或者基于概率模型,或者基于肽段的离子空间,或者有更为复杂的评价策略,经过人工甄别,会发现已有算法的鉴定结果假阳性依然偏高,会在根源上影响蛋白质组学的研究结果。本专利技术从模拟人工解析谱图的角度出发,开发出模拟人类模糊判断与逻辑推理的新打分算法,以达到人工解谱的稳健性与可靠性。
技术实现思路
为避免使用人工方法对几万个打分结果进行一一甄别优劣,测试比较方案使用Null-test方案。Null-test通过随机策略构造含有上万个随机序列蛋白的目标蛋白库,通过基于反库的Target-Decoy方案进行搜库匹配。在设定FDR(FalseDiscoveryRate)为20%的情况下,如果算法鉴定到的肽段为0或者1个,则算法能通过Null-test测试,性能稳健,具有一定的智能性;如果算法鉴定到的肽段大于1个,则说明算法在区分两个同为随机库的同性质序列库(随机库的反库依然为随机库),算法过拟合,假阳性结果比较高。技术方案:基于模糊判别和逻辑推理的蛋白酶解液的分析方法,依据ShotgunProteomics的要求,将蛋白酶解液进行二级质谱(MS/MS)分析,获大于或者等于一张的MS/MS二级质谱图;对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库,将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切,获得候选的肽段序列库;对于具体的一张MS/MS质谱图,按照设定的质量误差0-50ppm,根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段,如果筛选得到的肽段数目为0,则该MS/MS质谱图无效;如果筛选得到的肽段数目大于等于1为有效质谱图,则按照下述的打分方法计算肽段于二级质谱图的得分,得分最高的肽段为这张质谱图的最佳匹配肽段;对其它MS/MS质谱图进行上述打分操作,把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列,预设FDR(FalseDiscoverRate)值为0-5%,则能够计算出得分的截断值,则大于该得值的Target数据库的肽段就存在于蛋白酶解液中;在肽段鉴定过程中通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S,对S与二级质谱的匹配程度进行打分;打分过程如下:1)计算MS/MS二级谱图的肽段离子碎片有效比率指标u,处理无同位素标记谱图时:u=(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和);或,处理有同位素标记谱图时:u=(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和),通过Logistics公式1转换为模拟人对谱图质量的模糊评价指标w;2)将序列S中的离子碎片所包含的序列信息进行编码,默认方式为:记肽段长度为n,n为大于等于2的正整数,肽段序列按照从氨基端(N端)到羧基端(C端)由上到下排列,并且与下文列向量对应;肽段b离子编码方式为:如果存在b1离子,b1离子对应规格n*1的列向量,第一位为1,其余位置为0;如果存在b2离子,b2离子则第一到第二位为1,其余位置为0;如此类推,如果存在bn-1离子,bn-1离子则对应长度为n的列向量中的第一位到n-1位中全为1,剩下位置为0;对y离子编码的方式为:如果存在y-1离子,y1离子对应长度为n的列向量中的最后一位为1,其余位置为0;如果存在y2离子,y2离子对应长度为n的列向量中最后一位到倒数第二为1,其余位置为0;如此类推,如果存在yn-1离子,yn-1离子对应长度为n的列向量的最后一位到第2位为1,其余位置为0;其余类型的N端离子按b离子编码方式编码,其余C端离子按y离子编码的方式进行编码;最终沿着行向将上述得到的列向量合并成信息表达矩阵C;3)按公式2对信息表达矩阵C进行矩阵内积计算,获得信息表达矩阵X;内积计算实现了同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能;4)对X矩阵中所有元素进行求和再除以肽段长度n,则能得到肽段表达的校验信息总和;并且以p表示质谱图中互补离子的对数,代表互补信息的量,p为大于等于0的正整数;最终,将校验信息总和与互补信息的量的加和后再与模糊判别指标w相乘,则得到本算法的对候选肽段S与MS/MS谱图匹配的得分score(公式3);所述的内积计算功能包括三个逻辑推理功能:同一离子自我证明、同端长离子证明同端短离子存在、不同端离子握手证明。该算法以Logistics函数来模拟人对谱图质量的模糊判断,以矩阵内积计算方案实现人对肽段序列的逻辑推导。经过Null-test测试,该算法与现有算法/软件(Mascot、Morpheus、Pfind、MaxQuant)比较,发现本专利技术的算法能通过Null-test,智能性比对照方法要高。该算法并不使用常规的离子空间来描述质谱数据匹配情况,使用的是肽段信息空间进行与质谱谱图的匹配运算。本专利技术具有如下优点:1.本专利技术能通过Null-test,结果较优,算法本身具有一定的智能。2.本专利技术使用的是肽段信息编码方案,并不使用传统的离子空间方案。本专利技术能判别出大量的错误匹配结果(得分为0),具有较强的分辨能力。附公式说明:公式1为将谱图质量指标转换成模糊评价的Logistics公式。公式2为矩阵内积运算。公式3为本专利技术的打分函数完整形式。公式1X=CTC公式2公式3附图说明图1为肽段信息的编码方案。图2为通过矩阵内积实现的三种逻辑推理方案。具体实施方式下面通过实施例对本专利技术提供的方法进行详述,但不以任何形式限制本专利技术。实施例1:使用ThermoScientificQExactive质谱采集到的人类肝癌细胞酶解液数据对打分算法进行验证。该数据中包含77979张二级质谱图。在一级谱容差为10ppm、二级谱容差为20ppm、FDR设定为1%的条件下,本专利技术的打分分析方法能鉴定到14909个PSM(Peptide-SpectrumMatch),8813条唯一肽段,1752个蛋白。同类型软件,Morpheus鉴定到14903个PSM,9038条唯一肽段,1880个蛋白;Mascot鉴定到16648个PSM,10247个唯一肽段,1975个蛋白。本专利技术中的方法性能与现阶段软件相当。图1演示了其中一个长度为6,并且a、b、y离子都被质谱采集到的肽段编码方式。图2,则演示了长度为6的肽段中,通过矩阵内积实现的同一离子自证存在、同端(例如C端)长离子证明短离子存在、a-y、b-y等不同端(C端、N端)离子握手证明等逻辑推理功能。实施例2:使用Null-test方案,随机生成序列长度在10本文档来自技高网...
基于模糊判别和逻辑推理的蛋白酶解液的分析方法

【技术保护点】
基于模糊判别和逻辑推理的蛋白酶解液的分析方法,是基于模糊判别和逻辑推理的分析蛋白酶解液中肽段‑二级质谱(MS/MS)图匹配关系的方法,其特征在于:依据Shotgun Proteomics的要求,将蛋白酶解液进行二级质谱(MS/MS)分析,获大于或者等于一张的MS/MS二级质谱图;对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库,将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切,获得候选的肽段序列库;对于具体的一张MS/MS质谱图,按照设定的质量误差0‑50ppm,根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段,如果筛选得到的肽段数目为0,则该MS/MS质谱图无效;如果筛选得到的肽段数目大于等于1为有效质谱图,则按照下述的打分方法计算肽段于二级质谱图的得分,得分最高的肽段为这张质谱图的最佳匹配肽段;对其它MS/MS质谱图进行上述打分操作,把所有的最佳“肽段‑质谱图”匹配结果按照得分从大到小排列,预设FDR(False Discover Rate)值为0‑5%,则能够计算出得分的截断值,则大于该得值的Target数据库的肽段就存在于蛋白酶解液中。...

【技术特征摘要】
1.基于模糊判别和逻辑推理的蛋白酶解液的分析方法,是基于模糊判别和逻辑推理的分析蛋白酶解液中肽段-二级质谱(MS/MS)图匹配关系的方法,其特征在于:依据ShotgunProteomics的要求,将蛋白酶解液进行二级质谱(MS/MS)分析,获大于或者等于一张的MS/MS二级质谱图;对已有的目标蛋白数据库(Target数据库)中所有的蛋白序列进行反序得到Decoy数据库,将两个数据库中的蛋白序列按照上述蛋白酶解液的获得过程进行模拟酶切,获得候选的肽段序列库;对于具体的一张MS/MS质谱图,按照设定的质量误差0-50ppm,根据母离子的质量数从肽段序列库中筛选出候选的若干个肽段,如果筛选得到的肽段数目为0,则该MS/MS质谱图无效;如果筛选得到的肽段数目大于等于1为有效质谱图,则按照下述的打分方法计算肽段于二级质谱图的得分,得分最高的肽段为这张质谱图的最佳匹配肽段;对其它MS/MS质谱图进行上述打分操作,把所有的最佳“肽段-质谱图”匹配结果按照得分从大到小排列,预设FDR(FalseDiscoverRate)值为0-5%,则能够计算出得分的截断值,则大于该得值的Target数据库的肽段就存在于蛋白酶解液中。2.按照权利要求1所述的分析方法,其特征在于:所述的打分方法是针对通过一级质谱母离子确定其于蛋白序列数据库中对应质量下的候选肽段序列S,对S与二级质谱的匹配程度进行打分;包括计算模糊评价指标w,生成信息表达矩阵C,对信息表达矩阵C进行矩阵内积计算获得信息表达矩阵X,将校验信息总和与互补信息的量p的加和后再与模糊判别指标w相乘得到最终得分score。3.按照权利要求2所述的分析方法,其特征在于:所述的计算模糊评价指标w的方案为:MS/MS二级谱图的肽段离子碎片有效信号比率指标u,处理无同位素标记谱图时:u=(与候选肽段匹配的肽段离子碎片峰强度信号总和)/(当前谱图峰强度信号总和);或,处理有同位素标记谱图时:u=(与候选肽段匹配的有效标记肽段离子碎片峰强度信号总和)/(当前谱图有效标记峰强度信号总和),通过Logistics公式1转换为模拟人对谱图质量的模糊评...

【专利技术属性】
技术研发人员:张丽华张树荣单亦初张玉奎
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1