一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法技术

技术编号:25124807 阅读:43 留言:0更新日期:2020-08-05 02:54
本发明专利技术属于生物信息领域,公开了一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,包括以下步骤:(1)将磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按假阳性率FDR要求进行重新搜库;(2)去冗合并得到训练集;(3)将训练集作为机器学习输入样本,构建基于训练数据的机器学习模型;(4)利用模型对位点进行预测得到每个位点的打分排序,再利用该打分筛选出FDR满足目标FDR要求的位点,从而得到各搜库引擎工具整合之后的总位点。本发明专利技术通过对方法的整体处理流程的设计进行改进,同时采用多种搜库引擎,能够有效克服现有技术中对于蛋白质磷酸化修饰位点鉴定无法跨样本、准确性差和通量低方面的缺陷。

【技术实现步骤摘要】
一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法
本专利技术属于生物信息领域,更具体地,涉及一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,能够针对现阶段高通量质谱技术鉴定翻译后修饰位点,利用整合多工具和机器学习的方法提高蛋白质磷酸化修饰位点鉴定通量和准确性。
技术介绍
蛋白质磷酸化是细胞内十分重要的翻译后修饰,是由特定位点的蛋白质激酶催化把磷酸基团转移到蛋白质底物上的过程,该过程调控着细胞基本进程,例如细胞周期、细胞生长和分化等。近年来,随着蛋白质领域相关技术的发展,运用串联质谱技术鉴定蛋白质的磷酸化修饰位点成为主流,其主要方法是将磷酸化蛋白质经过蛋白酶消化后,纯化出磷酸化多肽,再通过串联质谱,采集原始数据,利用开源软件即搜库引擎进行数据库检索,最终筛选假阳性率(FalseDiscoveryRate,FDR)小于1%的磷酸化修饰肽段,从而鉴定出磷酸化修饰位点。在中国普通专利技术专利说明书CN103268432A中公开了一种基于串联质谱鉴定蛋白质磷酸化修饰位点的方法,其利用开源软件将质谱采集的原始数据转化为可视化格式的数据,并利用Mascot和pFind搜库引擎进行数据库检索,筛选假阳性概率FDR值小于1%的磷酸化修饰肽段,利用p-value做为重新定位后的磷酸化修饰位点可信度值,Score做为重新定位后磷酸化修饰位点对应的得分,并对鉴定获得的蛋白质磷酸化修饰位点重新定位及评估。上述方法操作简单,在一定程度上提高了基于串联质谱进行蛋白质磷酸化修饰位点鉴定结果的可信度,但却不能有效提高修饰位点鉴定通量;另一方面,该方法仅仅使用了两种搜库引擎进行数据库检索,却未能明确两种程序各自在修饰位点鉴定准确性当中的贡献度,且不能说明这两种程序与其他常用搜库引擎(如MaxQuant、MyriMatch、Comet等)在位点鉴定通量和准确性当中的优劣性;再者,由于技术水平的种种局限,譬如提升基础质谱鉴定水平技术的难度较大、其中有一种搜库引擎Mascot为商用程序难以获取等,该方法未能在大样本,尤其像不同癌症病人样本当中得到广泛应用。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术的目的在于提供一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其中通过对方法的整体处理流程的设计进行改进,同时采用多种搜库引擎,与现有技术相比能够有效克服现有技术中对于蛋白质磷酸化修饰位点鉴定无法跨样本、准确性差和通量低方面的缺陷,得到的跨样本多引擎整合提高蛋白质磷酸化修饰位点鉴定通量和鉴定准确性的方法,可直接在已有质谱原始数据上进行操作,可用于各类蛋白质相关组学,尤其是疾病相关的蛋白质组学和修饰组学分析。为实现上述目的,按照本专利技术,提供了一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其特征在于,包括以下步骤:(1)将预先选定的磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按预先设定的初始假阳性率FDR要求进行重新搜库;(2)将所述步骤(1)中多种搜库引擎鉴定到的磷酸化修饰位点进行去冗合并,得到训练集;(3)将所述步骤(2)得到的训练集作为机器学习输入样本,该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值,构建基于训练数据的机器学习模型;(4)利用所述步骤(3)得到的模型,对所述步骤(2)得到的训练集中的各个磷酸化修饰位点进行重新预测或者对其他未知样本集中的各个磷酸化修饰位点进行预测,得到每个位点的打分排序,再利用该打分筛选出假阳性率FDR满足预先设定的目标假阳性率FDR要求的位点,从而得到各搜库引擎工具整合之后的总位点;并且,所述步骤(4)中的所述预先设定的目标假阳性率FDR要求要严于所述步骤(1)中的所述预先设定的初始假阳性率FDR要求。作为本专利技术的进一步优选,所述步骤(1)中,所述多种搜库引擎为至少3种搜库引擎。作为本专利技术的进一步优选,所述步骤(2)还对所述训练集中的数据进行阳性样本和阴性样本的标记;对于任意一个数据,若被至少2种搜库引擎鉴定到,则被标记为阳性样本;否则,被标记为阴性样本。作为本专利技术的进一步优选,所述步骤(1)中,所述多种搜库引擎选自MaxQuant、pFind、MyriMatch、Comet、MSAmanda、MS-GF+、Tide、X!Tandem、OMSSA。作为本专利技术的进一步优选,所述步骤(3)中,所述训练具体是基于逻辑回归训练。作为本专利技术的进一步优选,所述方法还包括步骤:(5)利用所述步骤(4)得到的总位点进行磷酸化修饰定量,得到磷酸化肽段强度。作为本专利技术的进一步优选,所述步骤(1)中的所述预先设定的初始假阳性率FDR要求为假阳性率FDR小于2%;所述步骤(4)中的所述预先设定的目标假阳性率FDR要求为假阳性率FDR小于1%。作为本专利技术的进一步优选,所述步骤(1)中,所述预先选定的磷酸化组质谱数据库为PRIDE数据库和CPTAC数据库。通过本专利技术所构思的以上技术方案,与现有技术相比,由于整合搜库鉴定方法,不仅能够提高基于质谱鉴定蛋白质磷酸化修饰位点的准确性,还能够大幅度提高在单个样本当中的修饰位点数鉴定通量(提高约1倍)及多个样本的鉴定总通量(提高约5%)。该方法对样本制备或串联质谱均无技术要求,完全基于后续数据处理和搜库引擎整合及模型训练预测打分方法。附图说明图1是本专利技术磷酸化组跨样本多引擎整合鉴定总体流程示意图。图2是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定流程示意图。图3是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定在单个样本中的鉴定结果和传统单一搜库引擎鉴定结果的比较。图4是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定结果和传统单一搜库引擎鉴定结果的比较。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示,本专利技术总体来说,是①通过②和③得到机器学习的输入修饰位点④;⑦通过⑤的机器学习训练模型预测打分,再通过⑥的FDR筛选过程得到。本专利技术中提高质谱磷酸化修饰位点鉴定通量和准确性的方法包括以下步骤:(1)将预先选定的磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按预先设定的初始假阳性率FDR要求进行重新搜库;(2)将所述步骤(1)中多种搜库引擎鉴定到的磷酸化修饰位点进行去冗合并,得到训练集;(3)将所述步骤(2)得到的训练集作为机器学习输入样本,该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值,构建基于训练数据的机器学习模型;若某个位点同时出现在多个搜库引擎中,在去冗步骤中对该位点取特征值最高的情况(即多个搜库引擎当中的该位点分值最高的为该位点的特征值);(4)利用所述步骤本文档来自技高网
...

【技术保护点】
1.一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其特征在于,包括以下步骤:/n(1)将预先选定的磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按预先设定的初始假阳性率FDR要求进行重新搜库;/n(2)将所述步骤(1)中多种搜库引擎鉴定到的磷酸化修饰位点进行去冗合并,得到训练集;/n(3)将所述步骤(2)得到的训练集作为机器学习输入样本,该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值,构建基于训练数据的机器学习模型;/n(4)利用所述步骤(3)得到的模型,对所述步骤(2)得到的训练集中的各个磷酸化修饰位点进行重新预测或者对其他未知样本集中的各个磷酸化修饰位点进行预测,得到每个位点的打分排序,再利用该打分筛选出假阳性率FDR满足预先设定的目标假阳性率FDR要求的位点,从而得到各搜库引擎工具整合之后的总位点;/n并且,所述步骤(4)中的所述预先设定的目标假阳性率FDR要求要严于所述步骤(1)中的所述预先设定的初始假阳性率FDR要求。/n

【技术特征摘要】
1.一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其特征在于,包括以下步骤:
(1)将预先选定的磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按预先设定的初始假阳性率FDR要求进行重新搜库;
(2)将所述步骤(1)中多种搜库引擎鉴定到的磷酸化修饰位点进行去冗合并,得到训练集;
(3)将所述步骤(2)得到的训练集作为机器学习输入样本,该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值,构建基于训练数据的机器学习模型;
(4)利用所述步骤(3)得到的模型,对所述步骤(2)得到的训练集中的各个磷酸化修饰位点进行重新预测或者对其他未知样本集中的各个磷酸化修饰位点进行预测,得到每个位点的打分排序,再利用该打分筛选出假阳性率FDR满足预先设定的目标假阳性率FDR要求的位点,从而得到各搜库引擎工具整合之后的总位点;
并且,所述步骤(4)中的所述预先设定的目标假阳性率FDR要求要严于所述步骤(1)中的所述预先设定的初始假阳性率FDR要求。


2.如权利要求1所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其特征在于,所述步骤(1)中,所述多种搜库引擎为至少3种搜库引擎。


3.如权利要求2所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法,其特征在于,所述步骤(2)还对所述训练集中的数据进行阳性样本和阴性...

【专利技术属性】
技术研发人员:薛宇周嘉琦林少峰王晨玮
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1